การเรียนรู้แบบกึ่งมีผู้สอน (Semi Supervised Learning) หมายถึงข้อใด

TITLE NAME

ชื่อโครงการ (Project Name)

สารบัญ Show

TITLE NAME
Supervised Learning
Supervised Learning
ข้อแตกต่างระหว่าง ___ Regression และ Classification
Classification
Classification
การนำหัวข้อที่เกี่ยวข้องกับสถิติมาประยุกต์ในการแก้ไขปัญหา
Supervised Classification
Based Classification
Rule based Classification

การพัฒนาโมเดลการเรียนรู้เชิงลึกด้วยเทคนิค Semi-Supervised Learning กับ Graph Neural Networks สำหรับการทำนายการตอบสนองของยา เพื่อนำไปสู่การค้นหาตัวยับยั้ง HIV

ผู้พัฒนา (Owner)

- ธีรดณย์ ศักดิ์เพชร
- พัณณ์เดชน์ สร้อยสมุทร

อาจารย์ที่ปรึกษา (Advisor)

- บัณฑิต บุญยฤทธิ์
- ธนศานต์ นิลสุ

โรงเรียน (School)

กำเนิดวิทย์

เนื้อหาบทคัดย่อ (Abstract Detail)

ในปัจจุบัน การแพร่ระบาดของเชื้อไวรัสเอชไอวี (HIV: Human Immunodeficiency Virus) ยังคงเพิ่มขึ้น ด้วยจำนวนผู้ติดเชื้อทั่วโลกกว่า 45.1 ล้านคน ความพยายามที่จะลดจำนวนผู้ติดเชื้อ HIV ยังถือเป็นหนึ่งในเป้าหมายของการพัฒนาอย่างยั่งยืนของโลก (SDG index) ในการรักษาอาการติดเชื้อ ยาต้านไวรัสจะเข้าไปยับยั้งการทำงานของเอมไซม์ที่มีความสำคัญในกระบวนการจำลองตัวเอง อย่างไรก็ตามการใช้ยาต้านไวรัสมีโอกาศทำให้ไวรัสเกิดการกลายพันธุ์ ซึ่งทำให้ยาต้านไวรัสที่ใช้อยู่ในปัจจุบันไม่สามารถใช้ในการรักษาได้ เพราะฉะนั้นกระบวนการค้นหา และพัฒนายาจึงเข้ามามีบทบาทสำคัญ อย่างไรก็ตามในปัจจุบัน กระบวนการค้นหา และพัฒนายาหนึ่งชนิด ต้องใช้เวลาโดยเฉลี่ย 11-16 ปี และมีค่าใช้จ่ายสูงถึง 2,800 ล้านเหรียญสหรัฐ อีกทั้งยังมีโอกาศสูงมากการพัฒนายาอาจล้มเหลวก่อนนำมาใช้รักษาได้จริง ดังนั้นวิธีการใหม่ที่จะช่วยพัฒนากระบวนการค้นหาและพัฒนายาให้มีประสิทธิภาพจึงมีความจำเป็นอย่างยิ่ง หนึ่งในวิธีการที่กำลังเป็นที่สนใจในอุตสาหกรรม คือโมเดลการเรียนรู้ของเครื่อง อย่างไรก็ตามโมเดลในปัจจุบันยังประสบปัญหาในการเรียนรู้จากชุดข้อมูลฤทธิ์ทางชีวภาพของ IC50 ที่มีขนาดเล็กเนื่องจากข้อจำกัดของการทดลองในห้องปฏิบัติการ การเลือกใช้เฉพาะข้อมูลที่มี IC50 มาพัฒนาโมเดลจึงทำให้มีชุดข้อมูลค่าฤทธิ์ทางชีวภาพอื่น ๆ ที่ไม่ได้ถูกนำมาใช้เป็นจำนวนมาก จากปัญหาต่อเนื่องที่ได้กล่าวมา ผู้พัฒนาจึงสนใจพัฒนาโมเดลการเรียนรู้เชิงลึกด้วยเทคนิคการเรียนรู้แบบกึ่งมีผู้สอนบนอัลกอริทึม graph neural networks (GNN) สำหรับการทำนายค่า pIC50 เพื่อค้นหาและพัฒนายาที่สามารถยับยั้งการทำงานของเอนไซม์โปรตีเอสของ HIV ที่สามารถใช้ประโยชน์จากชุดข้อมูลที่มีฉลากตัวบ่งชี้ทางชีวภาพอื่น ๆ ได้แก่ Ki, IC90, ED50, ED90 และ Inhibition เป็นข้อมูลที่ไม่มีฉลาก จากการทดลองพบว่าโมเดลการเรียนรู้แบบกึ่งผู้สอนโดยใช้เทคนิค Co-training ให้ประสิทธิภาพการทำนายผลที่ดีที่สุด (RMSE= , R2= ,PCC=) ซึ่งแสดงให้เห็นว่าโมเดลสามารถใช้ประโยชน์จากชุดข้อมูลที่ไม่มีฉลากได้ดี ซึ่งในการทำ Co-training regression จะประกอบไปด้วยโมเดล Graph Neural Networks และโมเดล Classical Machine Learning โดยส่วนโมเดล Graph Neural Networks อัลกอริทึมที่ให้ผลลัพธ์ดีที่สุดคือ Message Passing Neural Network (MPNN: RMSE=0.866±0.024, R2=0.671±0.683, PCC=0.817±0.010) และโมเดล Classical Machine Learning ที่ให้ผลลัพธ์ดีที่สุดคือ Random Forest regression (RMSE=0.893±0.054, R2=0.714±0.033, PCC=0.860±0.076) โมเดลที่ถูกพัฒนาขึ้นมานี้จะช่วยลดระยะเวลา และค่าใช้จ่ายที่ใช้ในระหว่างกระบวนการค้นหาและพัฒนายา ซึ่งตัวยาที่หลากหลายจะช่วยเพิ่มทางเลือกในการรักษาให้กับผู้ติดเชื้อ รวมทั้งยังช่วยลดอัตราการดื้อยาที่อาจเกิดขึ้นในอนาคตของเชื้อไวรัสดังกล่าว

Supervised Learning

หรือการเรียนรู้แบบมีผู้สอน เป็นศาสตร์แขนงหนึ่งใน AI หรือปัญญาประดิษฐ์ ภายใต้หัวข้อ Machine Learning ที่กำลังเป็นที่นิยมในการศึกษาและวิจัยกันในปัจจุบัน เนื่องจากทำได้ง่าย ต้นทุนต่ำ เพียงใช้คอมพิวเตอร์เครื่องเดียวก็สามารถศึกษาและทำงานจนเห็นผลได้เลย
จริงๆ แล้วศาสตร์แขนงนี้มีมานานมากแล้วตั้งแต่ปี 1959 ถูกเสนอโดย Arthur Samuel เป็นนักวิทยาศาสตร์คอมพิวเตอร์ชาวอเมริกันผู้เชี่ยวชาญด้านเกมคอมพิวเตอร์ ปัญญาประดิษฐ์ และการเรียนรู้ของเครื่อง โปรแกรม แต่ด้วยเทคโนโลยีหรือระบบประมวลผลในตอนนั้นยังล้าสมัยอยู่ ทำให้ยังไม่เป็นที่นิยม ผิดกับในปัจจุบัน

Supervised Learning

เป็นกลุ่มของ algorithm ที่เน้นสอน computer โดยการศึกษาจากข้อมูลตัวอย่าง เพื่อทำให้คอมพิวเตอร์สามารถหาคำตอบของปัญหา(การแก้ปัญหา)ได้ด้วยตัวเอง หลังจากเรียนรู้จากชุดข้อมูลตัวอย่างที่ได้ป้อนให้ไปแล้วระยะหนึ่ง

โดยหลักการ Supervised Learning สามารถนำไปประยุกต์ใช้แก้ปัญหาได้ 2 รูปแบบ

Regression
Classification

ข้อแตกต่างระหว่าง ___ Regression และ Classification

Regression problem เป็นการพยายามที่จะทำนายคำตอบที่เป็น continuous output หรือคำตอบที่ต่อเนื่องกัน เช่นทำนายราคาบ้านในอนาคต จากทำเล ขนาดบ้าน เป็นตัวเลขออกมาเป็น 1 ล้าน 2 ล้าน 3 ล้านก็ว่าไป

ส่วน Classification problem เป็นการพยายามที่จะทำนายคำตอบที่เป็น discrete output หรือคำตอบที่ไม่ต่อเนื่องกันเช่น ตอบคำถามว่าเป็นหมาหรือแมวดังตัวอย่างข้างบนที่ผมได้ยกตัวอย่างไป

Classification

โดยหากจะให้เปรียบเทียบก็เหมือนกับการสอนเด็ก ลองนึกภาพว่าเราชี้ภาพสัตว์ให้เด็กที่ไม่เคยเห็นดู แล้วบอกว่าสัตว์ตัวไหนคือแมว ตัวไหนไม่ใช่แมว ชี้ไป 2–3 วัน ให้เด็กได้เจอสัตว์หลายๆ ประเภท จนเด็กเริ่มเข้าใจ วันที่ 4–5 เราอาจจะลองเอาแมวตัวที่เด็กไม่เคยเห็นมาให้ดูสัก 10 ตัว รวมกับสัตว์อื่นๆ อีกจำนวนหนึ่ง โดยคราวนี้เราไม่บอกว่าสัตว์ตัวไหนคือแมว ตัวไหนไม่ใช่แมว การสอนแบบนี้เรียกว่า Classification แบบไม่ซับซ้อน

Classification

ในทำนองเดียวกัน หากเราสอนเด็กไปเลยว่า สัตว์ที่เด็กเห็นนั้นเป็น แมว หมา หรือหมู เด็กก็อาจจะตอบได้มากกว่าแค่ แมว หรือไม่ใช่แมว วิธีนี้อาจจะต้องใช้กระบวนการสอนที่มีความซับซ้อนมากขึ้นไปอีก เราเรียกวิธีการสอนเด็ก แบบนี้ว่า Classification แบบซับซ้อน ซึ่งจะได้ผลลัพธ์ตามภาพด้านล่างครับ

Regression

วันถัดมา เราเรียกเด็กอีกคนมาสอนเรื่องราคาเพชร (diamond) เราหยิบเพชรอันนึง ขนาด 2 กะรัต สีเหลือง ระดับความสะอาด แล้วบอกเด็กว่า เนี่ยราคา 2 ล้านบาท หยิบอีกเม็ดขนาด 3 กะรัต สีฟ้า ระดับความสะอาด แล้วบอกเด็ก 3 ล้านบาท ทำแบบนี้ไปหลายๆ เม็ดจนเด็กเกิด model หรือ logic ในการคาดเดาราคาของเพชรขึ้นในหัว จนวันนึงสุ่มหยิบเพชรเม็ดใหม่ขึ้นมา ก็อาจให้เด็กคาดเดาราคาได้เลย เราเรียกกระบวนการสอนเด็กแบบนี้ว่า Regression

ในปัจจุบันมีการนำ AI model แบบ Supervised Learning นี้ไปประยุกต์ใช้แก้ปัญหาหลากหลายรูปแบบมากๆ

Speech Recognition — ใน application ผู้ช่วยส่วนตัวในมือถือต่างๆ เช่น ซีเรีย มีการนำ AI ไปใช้ในการรับรู้คำพูดของเรา

Style Transfer— บางคนอาจเคยได้ลองใช้ใน application เกี่ยวกับภาพถ่ายมันเป็นการนำเอาเทคนิคในการวาดภาพ หรือคุณลักษณะเด่นในภาพๆ นึง ไปใช้กับภาพอื่นๆ ที่เราต้องการ เช่น นำเอาเทคนิคการใช้สีน้ำมัน ในภาพ Mona Lisa มาใช้กับภาพอื่นๆ ทำให้เหมือนกับ เลโอนาร์โด ดา วินชี มาเป็นคนวาดเองเลยทีเดียว

Face Detection— เป็นสิ่งที่พบเห็นได้ทั่วไป เช่น เวลาเราโพสรูปภาพลงใน Facebook เราจะเห็นกรอบสี่เหลี่ยมล้อมรอบใบหน้าของคนในภาพ เพื่อให้เรา tag

การนำหัวข้อที่เกี่ยวข้องกับสถิติมาประยุกต์ในการแก้ไขปัญหา

Supervised Classification

การจําแนกข้อมูลแบบกํากับดูแล (Supervised Classification) โดยวิธี Maximum Likelihood Classifier เป็นการจําแนกข้อมูลโดยที่ผู้วิเคราะห์สามารถทราบตําแหน่งและลักษณะ ของสิ่งปกคลุมดินที่ต้องการ วิเคราะห์จากในข้อมูลภาพ ดังนั้นจึงสามารถกําหนดพื้นที่ตัวอย่าง ของสิ่งปกคลุมดินได้เพื่อเป็นตัวแทนในการวิเคราะห์เชิงสถิติให้กับข้อมูลภาพทั้งหมด โดยทําการ กําหนดพื้นที่เดียวกันทั้งหมดทุกภาพโดยการจําแนกข้อมูลแบ่งเป็น 2 ส่วนหลักๆ ดังนี้ – พื้นที่ในส่วนของหญ้าทะเล – พื้นที่อื่นๆ หมายถึงข้อมูลบริเวณที่ไม่ใช่หญ้าทะเลในพื้นที่ศึกษา

Based Classification

การแบ่งส่วนของภาพ (Image Segmentation) เป็นเทคนิคการจับกลุ่มของวัตถุที่ปรากฏบน ภาพที่มีลักษณะแบบเดียวกัน โดยภาพจะถูกแบ่งจะเป็นวัตถุบนภาพที่ยังไม่มีความหมาย โดยใน การศึกษานี้ใช้วิธีแบ่งส่วนแบบ Segmentation เป็นการจับกลุ่มของข้อมูลที่เริ่มจะจุดภาพ (Pixel) แต่ละจุดที่มีลักษณะเดียวกันมารวมกันเป็นกลุ่มวัตถุที่มีขนาดใหญ่ขึ้น จนกว่าจุดภาพข้างเคียงเป็น จุดภาพที่มีลักษณะที่ไม่เหมือนกัน ซึ่งวัตถุเหล่านี้จะถูกให้ความหมายในขั้นตอนของการจําแนกข้อมูล

Rule based Classification

ในการศึกษานี้จะประยุกต์ใช้ Rule based Classification เพื่อที่จะมาจําแนกพื้นที่ โดย เลือกมาทั้งหมด 3 ชนิด เพื่อเป็นกลุ่มตัวอย่างในการจําแนก คือ หญ้าทะเล พื้นที่บก (Land) และ นํ้าทะเล (Sea) และใช้ค่าช่วงดัชนีผลต่างพืชพรรณ (The Normalized Difference Vegetation) เข้ามาช่วยในการจําแนกพื้นที่ทั้ง 3 ชนิด โดยอ้างอิงตําแหน่งที่ตั้งจาก การลงภาคสนาม ทําให้ได้ค่าช่วงของแต่ละชนิด ดัชนีผลต่างพืชพรรณ (The Normalized Difference Vegetation ) เป็น เครื่องมือในการวิเคราะห์และทํานายการเปลี่ยนแปลงของพืชพรรณ สามารถแสดงให้เห็นรูปแบบ ของพืชพรรณที่แตกต่างกัน โดย The Normalized Difference Vegetation ) จะสามารถจําแนกหญ้าทะเลและแสดงในรูปแบบของพื้นที่