ความสำคัญของความรู้ด้านสถิติในงาน Data Science และ Data Analytics
ความรู้และเข้าใจในด้านสถิติ หรือ Statistics Literacy นับเป็นหนึ่งในคุณสมบัติที่จำเป็นสำหรับคนที่สนใจจะทำงานในสาย data science และ data analytics
เราเรียนสถิติกันมาตั้งแต่ชั้นมัธยม และสำหรับหลายๆ คน สถิติเป็นหนึ่งในวิชาที่เรียกได้ว่าเป็น “ยาขม” หม้อใหญ่ บางคนต้องเจอวิชาสถิติทั้งระดับปริญญาตรี จนต่อปริญญาโทก็หนีไม่พ้น กว่าจะผ่านมาได้แต่ละวิชาก็แทบแย่ อาจจะเป็นเพราะเราไม่รู้ว่าเรียนไปแล้วมีประโยชน์อย่างไร motivation to learn ไม่ค่อยชัดเจนเท่าไหร่ เรียนให้สอบผ่านได้ก็พอใจแล้ว
แต่สำหรับคนที่จะทำงานสายข้อมูล สถิติมีประโยชน์และจำเป็นอย่างยิ่ง ความเข้าใจพื้นฐานด้านสถิติที่เข้มแข็ง จะทำให้การทำงานเกี่ยวกับข้อมูลราบรื่น เติบโตก้าวหน้า และสร้างประโยชน์ได้อย่างยั่งยืน
จากหลักสูตร Introduction to Statistics ของ Stanford ที่สอนใน Coursera มีการกล่าวถึงความสำคัญของความรู้ด้านสถิติในงาน data science ไว้ 3 ข้อดังนี้
- ช่วยประเมินความสามารถในการตอบคำถาม
- เป็นแนวทางในการจัดการกับความไม่แน่นอน
- เป็นเทคนิคในการสื่อสาร
ประเมินความสามารถในการตอบคำถาม
งาน data science และ data analytics มีวัตถุประสงค์หลัก คือตอบคำถามทางธุรกิจโดยใช้ข้อมูลเป็นหลัก แต่การมีข้อมูลก็ไม่สามารถการันตีได้ว่าจะสามารถตอบคำถามได้อย่างถูกต้อง หากการสุ่มตัวอย่าง เก็บข้อมูล และการวิเคราะห์ข้อมูลไม่ได้ทำผ่านกระบวนการทางสถิติที่ถูกต้องเพียงพอ
สถิติจะช่วยให้เราสามารถประเมินได้อย่างถูกต้องว่า ข้อมูลที่เรามีอยู่นั้น สามารถใช้ในการตอบคำถามได้เพียงพอที่จะมั่นใจในผลลัพธ์หรือไม่เพียงใด ตัวอย่างที่เห็นได้ชัดเมื่อเร็วๆ นี้ก็คือข่าวการถอนงานวิจัยเกี่ยวกับการใช้ฟ้าทะลายโจรในการรักษา Covid-19
จัดการกับความไม่แน่นอน
ข้อมูลที่เกิดขึ้นจริงล้วนแล้วแต่มีความไม่แน่นอนแฝงอยู่ด้วยเสมอ เป็นธรรมชาติอย่างหนึ่ง การวิเคราะห์ผลจากข้อมูลจริง จะไม่ได้ผลลัพธ์ที่ลงตัวเป๊ะเสมอไป แต่ความคลาดเคลื่อนหรือความไม่แน่นอนต่างๆ ที่เกิดขึ้น สามารถอธิบายและวัดปริมาณได้ด้วยวิธีการทางสถิติ ทำให้เราสามารถบริหารจัดการความไม่แน่นอนเหล่านั้นได้อย่างเหมาะสม
สื่อสารอย่างมีประสิทธิภาพ
สถิติมีเทคนิคหลายอย่าง เช่น พวก descriptive statistics ที่สามารถนำมาใช้เพื่อการสื่อสารให้มีประสิทธิภาพได้ การเลือกใช้ค่าทางสถิติ หรือแผนภูมิต่างๆ ที่เหมาะสม จะทำให้การสื่อสารผลการวิเคราะห์ไปยังกลุ่มเป้าหมายได้ตรงเป้าและชัดเจน
อย่างไรก็ตาม เครื่องมือหรือเทคนิคอันเดียวกันนี้ ก็อาจเป็นดาบสองคมได้ หากใช้ด้วยความไม่ระมัดระวังหรือขาดจริยธรรม สถิติก็อาจกลายเป็นเครื่องมือที่ใช้บิดเบือนได้เช่นกัน มีตัวอย่างให้ดูใน How to Lie with Statistics
สถิติเป็นหนึ่งในวิชาที่มีประโยชน์หลากหลาย เพียงแต่ในอดีตเราอาจจะไม่เข้าใจความสำคัญหรือการนำไปใช้ได้กระจ่างนัก ใครที่ยังจำเป็นต้องเรียนสถิติอยู่ ก็ขอให้ตั้งใจเรียนให้เข้าใจ จนสามารถเอาไปใช้ได้
คนที่ทำงานในสายข้อมูล ถ้าคิดว่าพื้นฐานไม่แข็งพอ ก็ควรศึกษาหาความรู้เพิ่มเติมหรือรื้อฟื้นความรู้เก่าๆ เพราะมีประโยชน์แน่นอนในการทำงาน
ส่วนสำหรับผู้ใช้ข้อมูลทั่วไป การเข้าใจพื้นฐานสถิติเบื้องต้น ทำให้เราเข้าใจและประเมินโลกที่เต็มไปด้วยข้อมูลใบนี้ได้อย่างมั่นใจมากยิ่งขึ้น