สรุปผลสำรวจชุมชน data science ผ่านรายงาน Kaggle State of Machine Learning and Data Science 2020
Kaggle ทำการสำรวจชุมชน data science มาหลายปีแล้ว และปี 2020 ที่ผ่านมาก็ได้การสรุปมาเป็นรายงาน Kaggle State of Machine Learning & Data Science 2020 ในโพสนี้จะเป็นการสรุปสิ่งที่น่าสนใจจาก Executive Summary ส่วนใครสนใจจะลองวิเคราะห์เจาะลืกก็สามารถดาวน์โหลด ข้อมูลดิบไปลองเล่นกันดูได้
เกี่ยวกับการสำรวจ
ข้อมูลได้จากการทำแบบสำรวจสมาชิกของ Kaggle จำนวน 20,036 คน แต่ในรายงานนี้ใช้ข้อมูลเฉพาะจากกลุ่มผู้ตอบแบบสอบถาม ที่ได้ทำงานได้รับค่าจ้างในบทบาท data scientists จำนวน 2,675 ราย (คิดเป็น 13%)
สรุปผลการสำรวจในภาพรวม
Profile
- data scientists ส่วนใหญ่ยังคงเป็นผู้ชาย (กว่า 80%) มากกว่าผู้หญิง
- มีจำนวนมากที่อายุไม่ถึง 35 ปี
- กว่าครึ่งจบการศึกษาในระดับปริญญา
การศึกษาและการจ้างงาน
- ส่วนใหญ่แล้วยังคงต้องศึกษาเรียนรู้อย่างต่อเนื่อง
- ส่วนใหญ่มีประสบการณ์ด้าน coding มาน้อยกว่า 10 ปี และกว่าครึ่งมีประสบการณ์ machine learning มาน้อยกว่า 3 ปี
- การเป็น data scientists ใน US ได้ค่าจ้างดีกว่าในประเทศอื่นๆ มาก
เทคโนโลยีที่ใช้
- มี data scientists ที่ใช้ cloud computing เพิ่มมากขึ้นกว่าในปี 2019
- Scikit-learn เป็น machine learning tool ที่ใช้มากที่สุด
- Tableau และ Power BI เป็นเครื่องมือ Business Intelligence ที่ได้รับความนิยมสูงสุด
ข้อสังเกตที่น่าสนใจ
ภาพประกอบนับจากนี้ได้มาจาก Executive Summary
อายุของ data scientists มีแนวโน้มลดลง
ผู้ตอบแบบสอบถามประมาณ 60% มีอายุอยู่ในช่วง 22 ปีถึง 34 ปี แค่ไม่ถึง 20% ที่มีอายุเกิน 40 ปี และแนวโน้มด้านอายุนี้ก็ดูเหมือนจะลดลงเรื่อยๆ โดยกลุ่มเด็กอายุน้อยๆ (18–21 ปี) มีจำนวนถึง 7% เทียบกับผลสำรวจปีที่แล้วที่เด็กกลุ่มนี้มีแค่ 5% และพบว่า มีจำนวนคนตอบแบบสอบถามที่ยังเป็นนักเรียนนักศึกษาอยู่ เพิ่มมากขึ้น (21% ในปี 2019 และเพิ่มเป็น 26.8% ในปี 2020)
อินเดียนำโด่ง ตามด้วยสหรัฐ และบราซิล
ในแง่ของประเทศ ผู้ตอบแบบสอบถามถึง 22% ตอบจากอินเดียว ตามมาด้วยสหรัฐ (14.5%) และที่สามคือบราซิลตามมาห่างๆ
กว่าครึ่งจบป.โท
ในแง่ของการศึกษาในระบบ ส่วนใหญ่จบปริญญาโท หนึ่งในสี่จบแค่ปริญญาตรี และ 17.2% จบ PhD
เรียนรู้ไม่หยุด
ใครไม่ชอบเรียนหลังจบปริญญาแล้ว อาจต้องคิดหนักหน่อย เพราะงานด้าน data science และ machine learning มีเรื่องราวใหม่ๆ ให้เรียนรู้เพิ่มมากขึ้นเรื่อยๆ 90% ของผู้ตอบแบบสอบถาม ยังคงต้องเรียนรู้เพิ่มเติมตลอดเวลา ทั้งการเรียนในระบบปกติ และการเรียนออนไลน์ โดยมี Coursera เป็นแหล่งเรียนรู้นำโด่ง (คำตอบเป็น multiple-choices) ตามด้วย Udemy และอื่นๆ
ประสบการณ์ coding & ML
ผู้ตอบแบบสอบถามส่วนใหญ่มีประสบการณ์ programming มาบ้าง อย่างน้อยก็ 2–3 ปีขึ้นไป ในสหรัฐพบว่ามีสัดส่วนผู้ตอบแบบสอบถามที่มีประสบการณ์ coding สูงกว่าประเทศอื่นๆ โดยเฉลี่ย
ในแง่ของประสบการณ์ด้าน Machine Learning ดูเหมือนส่วนใหญ่จะเรียกว่าเป็น มือใหม่ คือกว่าครึ่ง มีประสบการณ์ด้าน ML น้อยกว่า 3 ปี และสหรัฐก็มีสัดส่วนผู้มีประสบการณ์ด้าน ML สูงกว่าประเทศอื่นๆ โดยมาก
ข้อสังเกตเกี่ยวกับองค์กรที่ data scientists ทำงานด้วย
ขนาดขององค์กร
Data Scientists จากแบบสำรวจของ Kaggle ส่วนใหญ่ทำงานในองค์กรขนาดเล็ก (น้อยกว่า 50 คน) ถึง 37% แนวโน้มนี้เพิ่มขึ้นจาก 30% ในปี 2019 ในขณะที่องค์กรขนาดกลางๆ มีสัดส่วนน้อยกว่า และมีถึง 22% ที่ทำงานในองค์กรขนาดใหญ่มาก (มีบุคลากรกว่า 10,000 ขึ้นไป)
ขนาดของ data science team
คล้ายคลึงกับขนาดขององค์กร ขนาดของทีม data science จะมีลักษณะ ไม่เล็ก ก็ใหญ่ไปเลย คือมี data science 1–2 คน หรือไม่ก็ทีมใหญ่กว่า 20 คนขึ้นไป
การใช้ ML ใน production system
การเปรียบเทียบผลการนำ ML ไปใช้ใน production system จากการสำรวจสามปีที่ผ่านมา พบว่า มีสัดส่วนเพิ่มมากขึ้นเรื่อยๆ ตั้งแต่ 26% ในปี 2018 เป็น 29% ในปี 2019 และ 31% ในปี 2020
เทคโนโลยี เครื่องมือ และเทคนิคที่ใช้
เครื่องมือพัฒนาแบบ IDE
สามในสี่ของผู้ตอบแบบสอบถามใช้ JupyterLab (รวมถึง Jupyter Notebook) แต่ลดลงจาก 83% ในปี 2019 ตามมาด้วย Visual Studio Code, PyCharm และ RStudio
Algorithms
อัลกอริทึมที่ใช้งานมากที่สุดได้แก่ regression ทั้ง linear และ logistics ตามมาด้วย decision trees และ random forests และ machine learning framework ที่ใช้งานมากที่สุดคือ scikit-learn ตามมาห่างๆ ด้วย TensorFlow, Keras และ Xgboost
Cloud Computing
การใช้งาน cloud ในงาน data science เพิ่มมากขึ้นจากปีที่แล้ว (เมื่อปีที่แล้วมีผู้ตอบแบบสำรวจที่ไม่ได้ใช้ cloud มากถึง 25% แต่ปี 2020 ลดเหลือเพียง 17%) โดยมีลำดับ cloud provider คือ AWS, Google Cloud Platform และ Micrsoft Azure
การใช้งาน cloud ส่วนใหญ่ยังคงอยู่ที่ compute engine เช่น EC2 หรือ Google Compute Engine และตามมาด้วย เทคโนโลยีพวก serverless
Business Intelligence Tools
มีผู้ตอบแบบสอบถามถึงเกือบ 40% ที่ไม่ได้ใช้ BI Tool ใดๆ เลย เครื่องมือที่ได้รับความนิยมสูงสุดคือ Tableau และตามมาด้วย Microsoft Power BI
ฐานข้อมูล
การใช้งานฐานข้อมูลในงาน data science & machine learning จากผลสำรวจ พบว่ามีการใช้งานกระจายกันหลายฐานข้อมูลโดย top 3 ประกอบด้วย MySQL, PostgreSQL, และ Microsoft SQL Server
สรุป
จากผลสำรวจของ Kaggle ในปี 2020 นี้ ทำให้พอมองเห็นภาพรวมของชุมชน data science ได้ในระดับหนึ่ง เมื่อลองเอามาเปรียบเทึยบกับสถานะของทีม data science ของเรา ก็พอทำให้ประเมินได้รางๆ ว่าทีมของเราอยู่ที่จุดไหน ส่วนใครที่กำลังสนใจงาน data science ก็คงเห็นภาพโดยรวมว่าเขาใช้อะไรกันอยู่บ้าง