แนวทางการตรวจสอบความผิดปกติของข้อมูลเพื่อทำความสะอาดข้อมูล

การเตรียมข้อมูลคืออะไร

การเตรียมข้อมูลเป็นกระบวนการจัดเตรียมข้อมูลดิบเพื่อให้เหมาะกับการประมวลผลและการวิเคราะห์เพิ่มเติม ขั้นตอนที่สำคัญ ได้แก่ การเก็บรวบรวม การทำความสะอาด และการระบุประเภทข้อมูลสำหรับข้อมูลดิบในรูปแบบที่เหมาะสมสำหรับอัลกอริทึมของแมชชีนเลิร์นนิ่ง (ML) แล้วจึงสำรวจและแสดงผลข้อมูลต่อไป การเตรียมข้อมูลอาจใช้เวลาถึง 80% ของเวลาที่ใช้ไปกับโปรเจกต์ ML การใช้เครื่องมือการจัดเตรียมข้อมูลเฉพาะทางมีความสำคัญต่อการปรับปรุงประสิทธิภาพของกระบวนการนี้

ML และการเตรียมข้อมูลมีความสัมพันธ์กันอย่างไร

การไหลของข้อมูลผ่านองค์กรไม่เหมือนที่เคยเป็นมาก่อน เพราะข้อมูลไหลมาจากทุกสิ่งทุกอย่าง ตั้งแต่สมาร์ทโฟนไปจนถึงเมืองอัจฉริยะ และอยู่ทั้งในรูปข้อมูลที่มีโครงสร้างและข้อมูลที่ไม่มีโครงสร้าง ปัจจุบันนี้ข้อมูลที่ไม่มีโครงสร้างคิดเป็น 80% ของข้อมูลทั้งหมด ML สามารถวิเคราะห์ข้อมูลที่มีโครงสร้าง และยังค้นพบรูปแบบของข้อมูลที่ไม่มีโครงสร้างได้ด้วย ML คือกระบวนการที่คอมพิวเตอร์เรียนรู้ที่จะแปลผลข้อมูล แล้วทำการตัดสินใจและแนะนำโดยอ้างอิงจากข้อมูลนั้น ในระหว่างกระบวนการเรียนรู้¬—และหลังจากนั้นเมื่อใช้ข้อมูลเพื่อคาดการณ์—ข้อมูลที่ไม่ถูกต้อง มีอคติ หรือไม่ครบถ้วนสามารถส่งผลให้การคาดการณ์ไม่แม่นยำได้

เหตุใดการเตรียมข้อมูลจึงมีความสำคัญสำหรับ ML

ข้อมูลเป็นขุมพลังให้กับ ML การใช้ประโยชน์จากข้อมูลนี้เพื่อนำเสนอธุรกิจของคุณในรูปแบบใหม่ แม้ว่าจะมีความท้าทาย แต่ก็มีความสำคัญ เพื่อให้ตอบโจทย์ผู้บริโภคได้อย่างต่อเนื่องในปัจจุบันและในอนาคต มันคือการแข่งขันว่าใครมีข้อมูลมากที่สุด และใครที่สามารถนำข้อมูลของตนมาใช้เพื่อประกอบการตัดสินใจได้ดีขึ้นจะตอบสนองต่อโอกาสใหม่ ๆ ที่ไม่มีใครคาดคิดและยังไม่ค้นพบได้เร็วกว่า กระบวนการที่สำคัญแต่เป็นเรื่องน่าเบื่อนี้เป็นข้อกำหนดเบื้องต้นในการสร้างแบบจำลองและการวิเคราะห์ ML ที่แม่นยำ อีกทั้งยังเป็นส่วนที่ต้องใช้เวลามากที่สุดในโปรเจกต์ ML ด้วย เพื่อลดการลงทุนด้านเวลานี้ นักวิทยาศาสตร์ข้อมูลจึงสามารถใช้เครื่องมือต่าง ๆ ที่ช่วยทำให้การเตรียมข้อมูลนี้ดำเนินไปโดยอัตโนมัติได้หลายวิธี

คุณเตรียมข้อมูลของคุณอย่างไร

การเตรียมข้อมูลจะเกิดขึ้นหลังผ่านขั้นตอนหลายอย่างที่เริ่มด้วยการเก็บรวบรวมข้อมูลที่ถูกต้อง ตามด้วยการทำความสะอาด การระบุประเภทข้อมูล การสอบทวน และการสร้างเป็นภาพ

รวบรวมข้อมูล

การเก็บรวบรวมข้อมูลคือกระบวนการประกอบรวมข้อมูลทั้งหมดที่คุณต้องใช้สำหรับ ML การเก็บรวบรวมข้อมูลอาจเป็นขั้นตอนที่น่าเบื่อ เพราะข้อมูลอยู่ในแหล่งที่มาของข้อมูลมากมาย ซึ่งรวมถึงบนแล็ปท็อป ในคลังข้อมูล ในระบบคลาวด์ ข้างในแอปพลิเคชัน และบนอุปกรณ์ การค้นหาวิธีเพื่อเชื่อมต่อเข้ากับแหล่งที่มาของข้อมูลต่าง ๆ จึงอาจเป็นเรื่องท้าทาย นอกจากนี้ปริมาณของข้อมูลยังเพิ่มขึ้นอย่างทวีคูณ จึงมีข้อมูลมากมายให้ต้องค้นหา อีกทั้งข้อมูลยังมีรูปแบบและประเภทที่แตกต่างกันมากมาย ขึ้นอยู่กับแหล่งที่มาของข้อมูล ตัวอย่างเช่น ข้อมูลวิดีโอและข้อมูลที่เป็นตารางจะนำมาใช้ด้วยกันไม่ได้ง่าย ๆ

ทำความสะอาดข้อมูล

การทำความสะอาดข้อมูลแก้ไขข้อผิดพลาดและเติมข้อมูลที่หายไปเพื่อเป็นขั้นตอนหนึ่งในการรับรองคุณภาพของข้อมูล หลังจากที่คุณทำความสะอาดข้อมูลแล้ว คุณจะต้องแปลงข้อมูลให้อยู่ในรูปแบบที่สอดคล้องกันและสามารถอ่านได้ กระบวนการนี้สามารถรวมถึงการเปลี่ยนแปลงรูปแบบของช่องข้อมูล เช่น วันที่และสกุลเงิน การปรับเปลี่ยนวิธีการกำหนดชื่อ และการแก้ไขค่าและหน่วยวัดเพื่อให้สอดคล้องกัน

ระบุประเภทข้อมูล

การระบุประเภทข้อมูลเป็นกระบวนการระบุข้อมูลดิบ (ภาพ ไฟล์ข้อความ คลิปวิดีโอ ฯลฯ) และเป็นการระบุประเภทที่สื่อความหมายและให้ข้อมูลสำคัญหนึ่งประเภทขึ้นไปเพื่อให้บริบท เพื่อให้แบบจำลอง ML สามารถเรียนรู้จากข้อมูลดังกล่าวได้ เช่น การระบุประเภทอาจระบุว่ารูปถ่ายรูปหนึ่งเป็นรูปของนกหรือรถยนต์ คำไหนที่เปล่งออกมาในการบันทึกเสียง หรือพบความผิดปกติในภาพเอ็กเรย์หรือไม่ การระบุประเภทข้อมูลเป็นขั้นตอนที่จำเป็นสำหรับการใช้งานที่หลากหลาย เช่น คอมพิวเตอร์วิทัศน์ การประมวลผลภาษาธรรมชาติ และการรู้จำคำพูด

สอบทวนและสร้างเป็นภาพ

หลังจากที่ทำความสะอาดและระบุประเภทข้อมูลแล้ว ทีม ML มักสำรวจข้อมูลเพื่อให้แน่ใจว่าข้อมูลถูกต้องและพร้อมสำหรับ ML การสร้างเป็นภาพ เช่น ฮิสโตแกรม แผนภาพการกระจาย กราฟรูปกล่อง แผนภูมิเส้น และกราฟแท่ง ต่างเป็นเครื่องมือที่เป็นประโยชน์ในการยืนยันว่าข้อมูลถูกต้อง นอกจากนี้ การสร้างเป็นภาพยังช่วยให้ทีมวิทยาศาสตร์ข้อมูลทำการวิเคราะห์ข้อมูลเชิงสำรวจได้อีกด้วย กระบวนการนี้ใช้การสร้างเป็นภาพเพื่อค้นพบรูปแบบ มองหาความผิดปกติ ทดสอบสมมติฐาน หรือตรวจสอบข้อตกลงเบื้องต้นทางสถิติ การวิเคราะห์ข้อมูลเชิงสำรวจไม่จำเป็นต้องมีการสร้างโมเดลอย่างเป็นทางการ แต่ทีมวิทยาศาสตร์ข้อมูลสามารถใช้การสร้างเป็นภาพเพื่อถอดรหัสข้อมูลแทนได้ 

เครื่องมือการเตรียมข้อมูล Amazon SageMaker ช่วยองค์กรให้ได้รับข้อมูลเชิงลึกทั้งจากข้อมูลที่มีโครงสร้างและไม่มีโครงสร้าง ตัวอย่างเช่น คุณสามารถใช้ Amazon SageMaker Data Wrangler เพื่อทำให้การเตรีบมข้อมูลที่มีโครงสร้างง่ายขึ้นด้วยการสร้างข้อมูลเป็นภาพในตัวผ่านอินเทอร์เฟซแบบภาพและไม่ใช้โค้ด SageMaker Data Wrangler รวมถึงการแปลงข้อมูลในตัวมากกว่า 300 แบบ คุณจึงสามารถทำข้อมูลให้อยู่ในรูปแบบบรรทัดฐาน เปลี่ยนสภาพข้อมูล และรวมคุณสมบัติต่าง ๆ เข้าด้วยกันได้โดยไม่ต้องเขียนโค้ดใด ๆ นอกจากนี้คุณยังสามารถเอาการแปลงข้อมูลแบบกำหนดเองของคุณใน Python หรือ Apache Spark มาใช้ได้ด้วยหากคุณต้องการ สำหรับข้อมูลที่ไม่มีโครงสร้าง คุณจะจำเป็นต้องมีชุดข้อมูลขนาดใหญ่ที่มีคุณภาพสูงและมีการระบุประเภทข้อมูล เมื่อใช้ Amazon SageMaker Ground Truth Plus คุณจะสามารถสร้างชุดข้อมูลสำหรับฝึกอบรม ML คุณภาพสูงได้ในขณะที่ลดต้นทุนในการระบุประเภทข้อมูลได้สูงสุด 40% โดยไม่จำเป็นต้องสร้างแอปพลิเคชันการติดป้ายหรือบริหารจัดการบุคลากรในการติดป้ายด้วยตัวคุณเอง

สำหรับนักวิเคราะห์หรือผู้ใช้ธุรกิจที่ต้องการเตรียมข้อมูลภายในโน้ตบุ้ค คุณสามารถเรียกดู ค้นพบ และเชื่อมต่อกับสภาพแวดล้อมการประมวลผลข้อมูล Spark ซึ่งทำงานบน Amazon EMR จากโน้ตบุ้ค Amazon SageMaker Studio ของคุณโดยใข้แค่ไม่กี่คลิกตามที่ปรากฏแก่สายตา เมื่อเชื่อมต่อแล้ว คุณสามารถทำการโต้ตอบเพื่อสืบค้น สำรวจ และสร้างข้อมูลเป็นภาพ และรันงาน Spark โดยใช้ภาษาที่คุณเลือก (SQL, Python หรือ Scala) เพื่อสร้างการเตรีบมข้อมูลและเวิร์กโฟลว์ ML ที่ครบสมบูรณ์