ถอดบทเรียน ทายผลฟุตบอลโลก : เกมท้าทายของนักพยากรณ์
ฟุตบอลโลกปี 2018 จบลงด้วยการฉลองชัยของคนฝรั่งเศสจนกลายเป็นจลาจลย่อยๆทำให้มีผู้บาดเจ็บเสียชีวิตและถูกจับไปเกือบ 300 คน เป็นความชนะบนความสูญเสียแลกกับการได้ครองแชมป์โลกเกมลูกหนังสมัยที่สองของฝรั่งเศสหลังจากที่รอคอยมานานถึง 20 ปีจากการครองแชมป์ในสมัยแรก ผลการแข่งขันในครั้งนี้ทำให้นักทำนายผลฟุตบอลทั้งหลายต้องหันกลับมาถอดบทเรียนจากการใช้วิชาพยากรณ์ซึ่งผลลัพธ์ที่ได้อาจไม่เป็นความจริงเสมอไป สำหรับเกมที่มนุษย์เป็นผู้เล่นภายใต้สถานการณ์ที่เปลี่ยนแปลงอยู่ทุกวินาที
การพยากรณ์เป็นเรื่องยากสำหรับมนุษย์ แต่มนุษย์ไม่เคยละความพยายามในการเสาะแสวงหาวิธีพยากรณ์รูปแบบต่างๆมาเพื่อตอบสนองความต้องการความอยากรู้ของตัวเองเสมอ การพยากรณ์เหตุการณ์ครั้งใหญ่ๆของโลกจึงมักอยู่ในความสนใจของชาวโลกตลอดมา รวมทั้งในการแข่งขันฟุตบอลโลกทุกครั้ง
เกมในฟุตบอลโลกมักจะมีการทายผลแพ้ชนะด้วย การส่งไปรษณีย์บ้าง การทายผลออนไลน์บ้าง รวมทั้งนำสัตว์ประเภทต่างๆมาช่วยทายผลอยู่บ่อยๆ โดยเฉพาะการทายผลฟุตบอลโลกของหมึกยักษ์ชื่อ พอล ที่ทายผลแม่นราวกับตาเห็นในการแข่งขันฟุตบอลโลกเมื่อแปดปีก่อนเพิ่มสีสันให้กองเชียร์ฟุตบอลอยู่ไม่น้อย แต่หมึกพอลไม่มีโอกาสได้ทายผลฟุตบอลโลกครั้งถัดมาในปี 2014 เนื่องจากมันตายหลังจากฟุตบอลโลกปี 2010 จบไปไม่นาน
แม้ว่าฟุตบอลโลกครั้งนี้จะมี หมึกยักษ์ ราบิโอะ ซึ่งเป็นหมึกทำนายของญี่ปุ่นมาช่วยสร้างสีสันอยู่บ้าง เพราะมันได้ทำนายอย่างแม่นยำว่า ญี่ปุ่นจะชนะโคลอมเบีย เสมอเซเนกัลและแพ้โปแลนด์ แต่มันหมดโอกาสที่จะทำนายต่อไป เพราะเจ้าของนำมันไปขึ้นโต๊ะอาหารเย็น ก่อนที่ญี่ปุ่นจะลงสนามกับโปแลนด์เสียอีก
นอกจากการพยากรณ์ด้วยวิธีการต่างๆแล้ว สนามฟุตบอลโลกมักเป็นที่ลองวิชาของนักวิทยาศาสตร์ข้อมูล(Data scientist) ซึ่งจะใช้อัลกอริทึม(Algorithm) ที่ตนเองพัฒนาขึ้น มาทดสอบประสิทธิภาพเสมอ การแข่งขันฟุตบอลโลกปี 2018 มีนักพัฒนาอัลกอริทึมจากหลายต่อหลายสำนักได้ใช้อัลกอริทึมในการทายผลแพ้ชนะของเกมแต่ละนัดจนกระทั่งถึงถึงรอบชิงชนะเลิศ แต่ผลลัพธ์ที่ได้ของทุกสำนักกลับพลิกคว่ำอย่างไม่เป็นท่า
ก่อนการแข่งขันจะเริ่มต้น นักวิทยาศาสตร์ข้อมูล ชื่อ แดน คลาค (Dan Clark) ได้พยากรณ์การแข่งขันฟุตบอลปี 2018 โดยใช้ข้อมูลจากแหล่งข้อมูลต่างๆ ได้แก่ การจัดอันดับโลกของสหพันธ์ฟุตบอลระหว่างประเทศ (FIFA World ranking) การจัดอันดับแบบ ELO(ELO Rating) ข้อมูลจาก website ชื่อ Transfermarkt และราคาต่อรองจาก website ชื่อ OddsChecker
เมื่อนำข้อมูลทั้งหมด 32 ทีม มาจัดลำดับคะแนนมาตรฐานที่เรียกว่า ซี - สกอร์ ( Z-Score) และนำมาจัดเรียงลำดับคะแนนของทีมต่างๆจากมากไปหาน้อย (จากค่าบวกถึงค่าลบ)
หลังจากนั้นผู้พยากรณ์ได้นำคะแนนของทีมทั้งหมดมาพยากรณ์จับคู่แต่ละรอบการแข่งขัน ตั้งแต่ รอบ 16 ทีม รอบ 8 ทีม รอบ 4ทีม และรอบชิงชนะเลิศ จากการคำนวณด้วยอัลกอริทึม เขาได้พยากรณ์ว่า บราซิลกับเยอรมันจะเป็นคู่ชิงชนะเลิศ ส่วนฝรั่งเศสกับสเปนจะชิงที่สาม
ที่มา : KDnuggets
แต่หลังจากการแข่งขันจบลงผลปรากฏว่า การพยากรณ์ในรอบชิงที่คาดว่า บราซิลกับเยอรมันจะเป็นคู่ชิงนั้น ผิดพลาดอย่างสิ้นเชิง เพราะคู่ชิงกลับกลายเป็นฝรั่งเศสกับโครเอเชียแทนและในที่สุดฝรั่งเศสกลายเป็นแชมป์ฟุตบอลโลก 2018 โดยเอาชนะโครเอเชียไปด้วยประตู 4-2
เมื่อทราบผลการแข่งขันผู้พยากรณ์ได้ถอดบทเรียนการพยากรณ์ของตัวเองและยอมรับว่าการพยากรณ์รอบชิงผิดพลาดไปมาก แต่การพยากรณ์โดยรวมพอใช้ได้ โดยในรอบ 16 ทีมนั้นมีความถูกต้อง 81.25 % (ถูกต้อง 13 ทีม ใน 16 ทีม) มีเพียงแชมป์เก่าอย่าง เยอรมัน อียิปต์และโปแลนด์ ที่ไม่ได้เข้ารอบ แต่กลับเป็นญี่ปุ่น รัสเซียและสวีเดน เข้ารอบแทน ส่วนรอบ 8 ทีม พยากรณ์ถูก 50 % และในรอบ 4 ทีมสุดท้าย พยากรณ์ถูกเพียงทีมเดียวคือฝรั่งเศส
มิใช่เพียงการพยากรณ์ในตัวอย่างนี้เท่านั้นที่ค่อนข้างห่างไกลความจริง แม้แต่การพยากรณ์จากสำนักดังๆที่รู้จักกันในนามของพ่อมดแห่งการพยากรณ์ ล้วนแต่ทำนายไม่เข้าเป้าทั้งสิ้น ผู้พยากรณ์ซึ่งใช้อัลกอริทึมในการพยากรณ์ได้ให้ความเห็นหลังจากทราบผลการแข่งขัน โดยให้ข้อสังเกตว่า ความผิดพลาดของการพยากรณ์ในครั้งนี้เกิดจากปัจจัยที่ยากต่อการนำมาพิจารณา เป็นต้นว่า
ปัจจัยความเป็นมนุษย์ : พฤติกรรมของมนุษย์นั้นมีความไม่แน่นอนค่อนข้างมาก การใช้เครื่องมือวิเคราะห์ข้อมูลเพื่อการพยากรณ์พฤติกรรมมนุษย์ จึงเป็นเรื่องที่ยากและมีข้อจำกัดในเรื่องความเที่ยงตรงของผลลัพธ์ เช่น นัดการแข่งขันระหว่าง เยอรมันกับเกาหลีใต้ เป็นความผิดพลาดของผู้รักษาประตูเยอรมันที่ออกมาเล่นนอกประตูจนทำให้เกาหลีใต้ทำประตูได้อย่างง่ายดายหรือแม้แต่การเสียลูกอย่างไม่น่าเป็นไปได้ให้กับโครเอเชียด้วยความประมาทของผู้รักษาประตูของฝรั่งเศสในรอบชิงนั้น เป็นตัวอย่างที่แสดงให้เห็นถึงความผิดพลาดอันเกิดจากพฤติกรรมของบุคคลซึ่งไม่ง่ายต่อการพยากรณ์ เป็นต้น
ปัจจัยภายนอก : กีฬาฟุตบอลมีปัจจัยหลายอย่างที่อยู่นอกเหนือการควบคุม เช่น การตัดสินจากกรรมการ ฝนฟ้าไม่เป็นใจ ลักษณะภูมิอากาศของสถานที่แข่งขัน ชีวิตความเป็นอยู่ของนักฟุตบอลเอง และอื่นๆ ซึ่งปัจจัยภายนอกเหล่านี้ยากที่นำมาพิจารณาเพราะเป็นปัจจัยที่ยากต่อการเก็บข้อมูลและวัดผล
ปัจจัยการแข่งขันแต่ละนัด : การพยากรณ์การแข่งขันในภาพรวมนั้น ต้องใช้ข้อมูลจากการแข่งขันในแต่ละนัดนำมาสุ่มรวมกันเพื่อวิเคราะห์ ดังนั้นการพยากรณ์หาผู้ชนะเลิศตามกติกาของฟุตบอลโลก จึงไม่ใช่ของง่าย เพราะในระหว่างทางจะมีผู้ชนะส่งผู้แพ้กลับบ้านได้ตลอดเวลา
ปัจจัยพฤติกรรมของกลุ่ม : การพยากรณ์กีฬาในลักษณะแข่งกันเฉพาะตัว เช่น หมากรุก หรือ เบสบอล ง่ายกว่าการพยากรณ์กีฬาที่เล่นเป็นทีม และเป็นข้อจำกัดของวิชาวิทยาศาสตร์ข้อมูลในเรื่องความเที่ยงตรง เมื่อถูกนำไปใช้ในการพยากรณ์พฤติกรรมมนุษย์ที่อยู่เป็นกลุ่ม ทั้งนี้เพราะว่าองค์ประกอบของทีมฟุตบอลเปลี่ยนแปลงอยู่ตลอดเวลา การพยากรณ์ที่แม่นยำจึงไม่สามารถใช้ข้อมูลสมรรถนะของทีมเยอรมันเมื่อ 12 ปีที่แล้วมาเปรียบเทียบกับสมรรถนะของทีมเยอรมันในปีนี้ได้ เป็นต้น
ปัจจัยพิสัยความไม่แน่นอน (Uncertainty range) : การพยากรณ์จำนวนมากยังขาดการพิจารณาถึงข้อมูลพิสัยความไม่แน่นอน ซึ่งเป็นช่วงที่แสดงถึงการขาดความแน่นอนหรือภาวะอันจำกัดของข้อมูลที่มีอยู่ จึงทำให้ยากที่จะอธิบายได้ถึงผลลัพธ์ที่จะเกิดขึ้นในอนาคต หรือ แม้แต่สภาวะที่เป็นอยู่ในปัจจุบันได้อย่างแน่ชัด
บทเรียนจากการขาดความแม่นยำในการพยากรณ์ผลฟุตบอลโลกในครั้งนี้สะท้อนถึง การพยากรณ์โดยใช้อัลกอริทึมซึ่งอาจได้ผลลัพธ์คลาดเคลื่อน หากขาดองค์ประกอบ 3 อย่าง คือ กฎเกณฑ์ทางคณิตศาสตร์หรือฟิสิกส์ที่พิสูจน์มาแล้วว่ามีความแม่นยำจริง ข้อมูลสนับสนุนที่มากพอของสิ่งที่ต้องการพยากรณ์ รวมทั้งข้อมูลพิสัยความไม่แน่นอนซึ่งเป็นพื้นฐานทางสถิติที่ต้องนำมาพิจารณาในการพยากรณ์ด้วย
การขาดองค์ประกอบที่กล่าวถึงข้างต้นอาจทำให้เครื่องมือพยากรณ์ไม่เป็นที่น่าเชื่อถือ เป็นการพิสูจน์ให้เห็นถึงข้อจำกัดของ วิทยาศาสตร์ข้อมูล (Data science) (หรืออาจเป็นข้อจำกัดของอัลกอริทึมของผู้พยากรณ์เอง) เมื่อนำไปใช้ทายผลผลฟุตบอลโลก ซึ่งจะให้ผลลัพธ์อย่างกว้างๆและใช้พยากรณ์เพื่อความบันเทิงหรือลองวิชา เท่านั้น เพราะการพยากรณ์ใดๆก็ตามที่เกี่ยวข้องกับ ความเป็นมนุษย์นั้นยังยากที่จะหาอัลกอริทึมใดๆมาพยากรณ์ได้อย่างแม่นยำ จึงเป็นความท้าทายของนักวิทยาศาสตร์ข้อมูลที่ต้องหาวิธีเอาชนะพฤติกรรมของมนุษย์โดยการพัฒนาเครื่องมือพยากรณ์เพื่อสนองตอบต่อสิ่งที่ตัวเองอยากรู้ให้ได้
การพยากรณ์เหตุการณ์ด้วยข้อมูลขนาดใหญ่นั้น ผลที่ได้รับมักมีทั้งความสำเร็จและความล้มเหลวควบคู่กันเสมอ ตัวอย่างจากความผิดพลาดของการทำนายผลฟุตบอลโลกครั้งนี้อาจเป็นบทเรียนสำคัญต่อ นโยบายการนำ Big Data และอัลกอริทึมมาใช้พยากรณ์เพื่อวัตถุประสงค์ใดก็ตาม โดยเฉพาะงานที่เกี่ยวข้องกับการพยากรณ์โดยใช้ข้อมูลจากคนกลุ่มใหญ่นั้นเป็นสิ่งที่ต้องระมัดระวังเป็นอย่างยิ่ง เพราะการเล็งผลเลิศจากประโยชน์ของการใช้ข้อมูลเพื่อการพยากรณ์โดยขาดความระมัดระวังในเรื่องผลกระทบทางลบต่อคนส่วนใหญ่นั้น นอกจากจะไม่ตอบโจทย์ที่คนจำนวนมากคาดหวังแล้วยังอาจทำร้ายคนบางกลุ่มและในขณะเดียวกันอาจเอื้อประโยชน์แก่คนบางกลุ่มโดยไม่รู้ตัวก็เป็นได้
อ้างอิง https://www.kdnuggets.com/2018/07/worldcup-data-science-lessons.html
หมายเหตุ : ภาพประกอบจาก https://goo.gl/S1b7sN