ความสำคัญของข้อมูลกับปัญหาเรื่อง AI Ethics

PanaEk Warawit
2 min readJan 30, 2021

--

Photo by h heyerlein on Unsplash

ในช่วงสองสามเดือนที่ผ่านมา ผมได้มีโอกาสเข้าฟังการนำเสนอผลงานเบื้องต้นของน้องๆ ที่เข้ามาใหม่ในองค์กร ในตำแหน่ง junior data scientists หลายคน ทั้งที่เข้ามาเป็นพนักงานประจำและที่เป็นนักศึกษาฝึกงาน

พบว่า คนที่เพิ่งเริ่มอาชีพ data scientists มักจะให้ความสำคัญกับโมเดล อัลกอริทึม การปรับจูนพารามิเตอร์ มากกว่าการทำความเข้าใจข้อมูล และกระบวนการ pre-processing

ซึ่งก็เป็นที่เข้าใจได้ เพราะหลักสูตร data science ต่างๆ ที่เห็นมา เน้นไปที่เรื่องพวกนั้น แบบฝึกหัด tutorial ต่างๆ มักจะมาพร้อมกับข้อมูลที่เตรียมมาเรียบร้อยเป็นอย่างดีแล้ว คนที่เรียนจบมาใหม่ๆ จึงให้ความสำคัญกับโมเดล หรืออัลกอริทึม มากกว่าการลงทุนลงแรงกับข้อมูล

เข้าใจข้อมูล จุดเริ่มต้นที่ดี

คำว่าเข้าใจข้อมูล ไม่ได้หมายถึงแค่ข้อมูลที่ได้รับมา แต่หมายรวมไปจนถึงโจทย์ทางธุรกิจ ปัญหาที่ลูกค้าพบ หรือการวิเคราะห์ที่เรากำลังจะทำ จะไปตอบโจทย์อะไร อย่างไร
แล้วก็เป็นเรื่องของตัวข้อมูลเอง มันถูกจัดเก็บมาอย่างไร ผ่านมาแล้วกี่มือ กี่ขั้นตอน มาถึงเราแล้วรูปร่างหน้าตามันเป็นอย่างไร แต่ละ feature มีความสัมพันธ์กันอย่างไร โดยรวมแล้วมันก็คือกระบวนการทำ EDA (Exploratory Data Analysis) นั่นแหละ

แต่ไม่ใช่แค่ว่าสักแต่ว่าทำตามขั้นตอนต่างๆ ที่เรียนมานะครับ เป้าหมายจริงๆ ของการทำ EDA คือการ “ทำความเข้าใจกับข้อมูล” มันบอกอะไรเรา มันมีอะไรที่ควรจะ “เอ๊ะ” บ้างหรือเปล่า มันสอดคล้องกับสิ่งที่ลูกค้าบอกมั้ย และมันมีข้อจำกัดอย่างไร ปัญหา unbalanced แย่แค่ไหน

ถ้าเราทำ EDA ได้ดี เราจะเข้าใจว่าต้องมีกระบวนการเตรียมข้อมูลอะไรบ้าง ควรจะเริ่มที่โมเดลแบบใดดี และถ้าจะปรับปรุงประสิทธิภาพ ควรเริ่มทำ error analysis ที่ไหนก่อน เป็นต้น

เตรียมข้อมูล และ pre-processing

ผมเคยเขียนเรื่อง การทำ data preparation อย่างมืออาชีพ ไว้เมื่อหลายปีก่อน แต่ในบริบทของงานเฉพาะทางอย่างใน NLP หรือ Computer Vision ก็จะมีขั้นตอนหรือกระบวนการเฉพาะที่เป็น pre-processing อีกตามแต่ละงานไป

จากประสบการณ์ที่ผ่านมา ผมพบว่าการปรับปรุงที่คุณภาพของข้อมูลผ่านการเตรียมข้อมูล การทำ pre-processing รวมไปถึงการทำ feature selection & feature engineering มักจะให้ผลดีมากกว่าการเปลี่ยนหรือปรับโมเดล ใน effort ที่เท่าๆ กัน

Good data leads to good AI

จุดเริ่มต้นของบทความนี้เกิดจากความสนใจเรื่อง AI Ethics ที่เริ่มมาตั้งแต่ตอนแปล TED Talk เรื่อง Cathy O’Neil: The era of blind faith in big data must end

มาจนถึงดราม่าปลายปี 2020 ของ Dr. Timmit Gebru เรื่องการนำเสนอ paper เกี่ยวกับ AI Ethics ส่งผลให้ถูกไล่ออกจาก Google (แต่ Google บอกว่าลาออกเอง)

TED Talk เรื่อง Mainak Mazumdar: How bad data keeps us from good AI ก็ช่วยให้เห็นภาพใหญ่ขึ้นว่า กระบวนการเก็บและจัดการข้อมูลต่างหาก ที่เป็นต้นเหตุของปัญหา AI Biases

ปิดท้ายด้วยบทความ An Open Letter to Data Science Community ที่เรียกร้องความรับผิดชอบจากชุมชน data science ว่าเราไม่ควรปล่อยให้บริษัทใหญ่ๆ ควบคุมอนาคตของ AI ผ่านโมเดลขนาดมหึมาที่ไม่เปิดโอกาสให้คนตัวเล็กๆ (หรือบริษัทขนาดเล็ก) มีส่วนร่วมเท่าที่ควร

ถึงแม้ว่าปัญหาเรื่อง AI Ethics จะดูไกลตัว แต่ใครจะรู้ว่า junior data scientists วันนี้ ในอนาคตอาจเป็นตัวแทน หรือเป็นผู้กำหนดแนวทางขององค์กร หรือหน่วยงานภาครัฐก็เป็นได้ การเข้าใจความสำคัญของข้อมูล และผลกระทบของข้อมูลที่ไม่มีคุณภาพ จะเป็นพื้นฐานสำคัญให้พัฒนาการด้าน data science & AI เดินทางไปในทิศทางที่เหมาะสมในอนาคต

--

--

No responses yet