Tip:
Highlight text to annotate it
X
ในวิดีโอนี้ผมอยากพูดถึงหนึ่งในหลักการ
ที่ทั้งพื้นฐานและลึกซึ้งในวิชาสถิติ
และอาจรวมถึงคณิตศาสตร์ทั้งหมด
นั่นคือทฤษฎีบทเข้าสู่ศูนย์กลาง
และสิ่งที่มันบอกเราคือ เราสามารถเริ่มต้นด้วย การกระจายตัวใด ๆ
ที่มีค่าเฉลี่ย และความแปรปรวนที่นิยามได้
และหากมันมีความแปรปรวนที่นิยามได้ มันก็จะมี
ค่าเบี่ยงเบนมาตรฐานที่นิยามได้เช่นกัน
และมันมีการกระจายตัวแบบต่อเนื่องหรือไม่ต่อเนื่องก็ได้
ผมจะวาดแบบไม่ต่อเนื่องแล้วกัน เพราะมัน
นึกภาพง่ายกว่า อย่างน้อยก็สำหรับในวิดีโอนี้
งั้นสมมุติว่าผมมีฟังก์ชันการกระจายตัวของความน่าจะเป็น
แบบไม่ต่อเนื่อง
และผมอยากระมัดระวังไม่ให้ดูเหมือน
การกระจายตัวแบบปกติ เพราะผมอยากแสดงให้เห็น
พลังของทฤษฎีบทเข้าสู่ศูนย์กลาง
สมมุติว่าผมมีการกระจายตัวอันนึง
สมมุติว่ามันสามารถมีค่าเป็น 1 ถึง
6: 1, 2, 3, 4, 5, 6
อาจจเป็นลูกเต๋าเพี้ยน ๆ สักลูก
มันมีโอกาสจะออก 1 มาก สมมุติว่ามันเป็นไปไม่ได้ --
ขอผมเขียนเส้นตรงหน่อย -- คุณมีโอกาสสูงมาก ๆ
ที่จะได้ 1 สมมุติว่าคุณไม่มีโอกาสจะได้ 2
และมีโอกาสพอสมควรจะได้ 3 หรือ 4
สมมุติว่าเป็นไปไม่ได้เลยที่จะได้ 5
และสมมุติว่ามีโอกาสสูงมากที่จะได้ 6 ประมาณนั้น
นั่นคือฟังก์ชันการกระจายตัวความน่าจะเป็นของผม
หากผมวาดค่าเฉลี่ย นี่มันสมมาตร ดังนั้นค่าเฉลี่ย
อาจออกมาเป็นอย่างนั้น
ค่าเฉลี่ยควรอยู่ตรงกลาง
และนั่นคือค่าเฉลี่ยของผมตรงนี้
ค่าเบี่ยงเบนมาตรฐานอาจออกมาหน้าตา -- มัน
ควรไกลอกไป และอยู่ใต้ค่าเฉลี่ย
แต่นั่นคือฟังก์ชันการกระจายตัวของความน่าจะเป็น
แบบไม่ต่อเนื่องของผม
ทีนี้ สิ่งที่ผมจะทำคือว่า แทนที่จะสุ่มตัวอย่าง
ของตัวแปรสุ่ม ที่บรรยายด้วยการกระจายตัว
ความน่าจะเป็นนี้มา ผมจะสุ่มตัวอย่างของมันมาแล้ว
เฉลี่ยตัวอย่างเหล่านั้น แล้วสังเกตค่า
พวกนั้นและดูความถี่ของค่าเฉลี่ยที่ผมได้
และที่ผมพูดถึงค่าเฉลี่ย ผมหมายถึง ค่าเฉลี่ย (mean)
งั้นสมมุติว่า -- ขอผมนิยามอะไรสักหน่อย -- สมมุติว่า
ขนาดตัวอย่างของผม ที่จริงผมสามารถใส่เลขอะไรก็ได้ แต่สมมุติ
ว่าตอนแรกเราลองขนาดของตัวอย่าง n เท่ากับ 4
มันหมายความว่า ผมจะสุ่ม
ตัวอย่าง 4 ตัวจากอันนี้
สมมุติว่าตอนแรก ผมสุ่มมา 4 ตัวอย่าง
ดังนั้นขนาดตัวอย่างผมเท่ากับ 4
สมมุติว่าผมได้ 1 แล้วก็ได้ 1 แล้วก็
ได้ 3 แล้วได้ 6
งั้นตอนนี้ ผมมีตัวอย่างของผม 4 ตัวอย่างแล้ว
ผมรู้ว่าศัพท์ที่ใช้ฟังสับสนเพราะนี่คือ
ตัวอย่างที่ประกอบไปด้วยตัวอย่าง 4 ตัว
แต่เมื่อเราพูดถึงค่าเฉลี่ยตัวอย่าง และการกระจายตัว
ของกลุ่มตัวอย่าง ของค่าเฉลี่ยตัวอย่าง ซึ่งเราจะพูดถึง
อีกในวิดีโอต่อ ๆ ไป โดยทั่วไปแล้ว ตัวอย่าง
หมายถึงชุดตัวอย่างจากการกระจายตัวนั้น ๆ
และขนาดของตัวอย่างบอกคุณว่า คุณสุ่มตัวอย่างขึ้น
มากี่ตัวจากการกระจายตัวนั้น ๆ
แต่ศัพท์ตอนนี้ทำให้สับสนเพราะคุณมอง
แต่ละตัวเป็นตัวอย่างก็ได้
แต่เราสุ่มตัวอย่าง 4 ตัวขึ้นมาจากนี่
เราเลยมีขนาดของตัวอย่างเท่ากับ 4
และที่ผมจะทำต่อไปคือ ผมจะเฉลี่ยมัน
สมมุติว่าค่าเฉลี่ย -- ผมจะระมัดระวังตอน
ผมพูดคำว่า ค่าเฉลี่ย -- ค่าเฉลี่ยของตัวอย่างที่มีขนาด 4 นี่เป็นเท่าไหร่
1 บวก 1 ได้ 2
2 บวก 3 ได้ 5
5 บวก 6 ได้ 11
11 หารด้วย 4 เท่ากับ 2.75
นั่นคือค่าเฉลี่ยตัวอย่างอันแรกของผมสำหรับตัวอย่างที่มีขนาด 4
ขอผมลองอีกอัน
ตัวอย่างที่สองที่มีขนาดเท่ากับ 4 ของผม
สมมุติว่า ผมได้ 3, 4 สมมุติว่าผมได้ 3 อีกตัว
และสมมุติผมได้ 1 มา
ผมบังเอิญไม่ได้ 6 เลย
และจำไว้ว่าผมไม่มีทางได้ 2 หรือ 5
มันเป็นไปไม่ได้ในการกระจายตัวอันนี้
โอกาสที่จะได้ 2 หรือ 5 เป็นศูนย์
ดังนั้นผมไม่มีทางได้ 2 หรือ 5 ตรงนี้
ดังนั้นสำหรับตัวอย่างที่สอง ที่มีขนาด 4, ค่าเฉลี่ยตัวอย่างของผม --
ค่าเฉลี่ยตัวอย่างอันที่สองของผม จะเท่ากับ 3 บวก 4 ได้ 7
7 บวก 3 ได้ 10 บวก 1 ได้ 11
11 หารด้วย 4 อีกทีได้ 2.75
ขอผมทำอีกอันเพราะผมอยากอธิบายให้ชัด
ว่าเรากำลังอะไรอยู่ตอนนี้
งั้นผมจะทำอีกตัวอย่างนึง -- ที่จริงเราจะทำสำหรับเลขเยอะมาก
แต่ขอผมทำแบบนี้อีกอันโดยละเอียด
งั้นสมมุติว่าตัวอย่างที่สามที่มีขนาดเท่ากับ 4 ผมได้ --
ผมกำลังจะสุ่มตัวอย่างขึ้นมา 4 ตัว
ดังนั้นตัวอย่างของผม ประกอบด้วยตัวอย่าง 4 ตัว จาก
การกระจายตัวเพี้ยน ๆ ดั้งเดิมนี่
สมมุติว่าผมได้ 1, 1, 6 แล้วก็ 6
และค่าเฉลี่ยตัวอย่างอันที่สามของผมจะเท่ากับ 1 บวก 1 เท่ากับ 2
2 บวก 6 ได้ 8
8 บวก 6 ได้ 14
14 หารด้วย 4 เท่ากับ 3.5
และเมื่อผมหาค่าเฉลี่ยตัวอย่างเหล่านี้แล้ว -- สำหรับ
แต่ละตัวอย่างที่มีขนาด 4 ผมพบว่า ค่าเฉลี่ย -- อย่างที่
ผมทำในแต่ละตัวอย่าง ผมจะพลอตมันบนการกระจายตัวของความถี่
และนี่จะทำให้คุณตะลึงในไม่ช้า
ผมจะพลอตทั้งหมดนี่บนการกระจายตัวของความถี่
ผมบอกว่า โอเค สำหรับตัวอย่างแรก ค่าเฉลี่ยของตัวอย่าง
อันแรกเท่ากับ 2.75
ดังนั้นผมจะพลอตความถี่ของค่าเฉลี่ยตัวอย่างที่ได้
จากแต่ละตัวอย่างลงไป
ดังนั้น 2.75 ผมได้อันนึงแล้ว
งั้นผมใส่จุดเล็ก ๆ ลงไป
นั่นมาจากอันนั้นตรงนั้น
อันต่อไป ผมยังได้ 2.75
นั่นคือ 2.75 ตรงนั้น
ผมเลยได้สองครั้ง
แล้วผมจะพลอตความถี่ตรงนั้น
แล้วผมได้ 3.5
สำหรับค่าที่เป็นไปได้ ผมอาจได้ 3 ผมอาจได้
3.25 ผมอาจได้ 3.5
จากนั้นผมได้ 3.5 ผมเลยพลอตมันตรงนี้
แล้วที่ผมจะทำต่อไป คือ ผมจะสุ่ม
ตัวอย่างแบบนี้อีก
บางทีผมอาจทำแบบได้ 10,000 ครั้ง
ดังนั้นผมจะทำการสุ่มตัวอย่างไปเรื่อย ๆ
จนผมได้ไปจนถึง 10,000
ผมแค่ทำไม่กี่อันตรงนี้
และมันจะออกมาเมื่อเวลาผ่านไป คือ แต่ละอัน
ผมจะวาดหนึ่งจุด เพราะผมกำลังจะซูมออก
หากผมดูมันอย่างนี้ เมื่อเวลาผ่านไป มันจะยังคงมี
ค่าตามที่มันจะเป็นได้ต่อไป
คุณก็รู้ 2.75 อาจอยู่ตรงนี้
ดังนั้นจุดแรกนี่จะเป็นอันนี้ตรงนี้ และตรงนี้จะ
เป็นอันนี้ ส่วนอันที่สองจะเป็นอันนี้
จากนั้นอันที่ 3.5 จะออกมาตรงนี้
แต่ผมจะทำทั้งหมด 10,000 ครั้ง ดังนั้นผม
จะได้ 10,000
และสมมุติว่าตอนที่ผมทำการสุ่ม ผมก็จะคอย
พลอตค่าไปเรื่อย ๆ
ผมคอยพลอตความถี่ไปเรื่อย ๆ
ผมจะคอยพลอตค่ามันต่อไป
และต่อไป ต่อไปเรื่อย ๆ
และสิ่งที่คุณจะเห็นเมื่อผมสุ่มตัวอย่าง
ที่มีขนาด 4 หลายอันมาก ๆ
ผมจะได้สิ่งที่เริ่ม
ประมาณเป็นการกระจายตัวแบบปกติ
แต่ละจุดแทนค่าของค่าเฉลี่ยตัวอย่าง
และเมื่อผมคอยเพิ่มในคอลัมน์ตรงนี้ ซึ่งหมายความว่า
ผมได้ค่าเฉลี่ยตัวอย่างเป็น 2.75 ไปเรื่อย ๆ
เมื่อเวลาผ่านไป ผมจะได้อะไรที่เริ่มประมาณ
การกระจายตัวแบบปกติ
และนั่นคือสิ่งที่เนี้ยบในทฤษฎีบทเข้าสู่ศูนย์กลาง
ดังนั้นการลู่เข้าสู่ศูนย์กลาง -- และนี่เป็นสำหรับกรณีของ -- ใน
สีส้ม นั่นคือกรณีที่ n เท่ากับ 4
นี่คือสำหรับตัวอย่างที่มีขนาด 4
ทีนี้หากผมทำแบบเดียวกันนี้ด้วยขนาดตัวอย่างเท่ากับ เช่น 20
ในกรณีนี้แทนที่จะสุ่มแค่ 4 ตัวอย่างจาก
การกระจายตัวเพี้ยน ๆ ดั้งเดิมของผม ผมจะสุ่มตัวอย่างแต่ละตัวด้วย
ขนาด 20 จากตัวแปรสุ่มของผม แล้วผมจึงเฉลี่ยค่า 20 ตัวนั้น
แล้วพลอตค่าเฉลี่ยตัวอย่างบนนี้
ในกรณีนั้น ผมจะได้การกระจายตัว
ที่ออกมาเป็นอย่างนี้
และเราจะพูดถึงมันอีกในวิดีโอหน้า
แต่มันปรากฏว่า หากผมพลอตค่าเฉลี่ยตัวอย่าง 10,000 ค่า
ตรงนี้ ผมจะได้อะไรที่ -- มีสองอย่าง:
มันจะออกมาดูใกล้การกระจายตัวแบบปกติ
มากขึ้น
และเราจะเห็นในวิดีโอหน้าว่า ที่จริงมัน
ลดลง -- หรือพูดให้ชัดคือว่า -- มันจะ
ยังมีค่าเฉลี่ยเท่าเดิม
นั่นคือ ค่าเฉลี่ย
มันจะยังมีค่าเฉลี่ย เท่าเดิม
แต่มันจะมีค่าเบี่ยงเบนมาตรฐานเล็กลง
ผมควรพลอตมันจากด้านล่างเพราะ
คุณจะได้ซ้อนมันได้
คุณได้ 1 แล้วก็อีกอัน แล้วก็อีกอัน
แต่มันจะเข้าใกล้การกระจายตัวแบบปกติ
ยิ่งขึ้นเรื่อย ๆ
ความจริงแล้ว -- นี่คือสิ่งที่เยี่ยมยอด
ในทฤษฎีบทเข้าสู่ศูนย์กลาง -- เมื่อขนาดของตัวอย่างใหญ่ขึ้น
หรือคุณอาจบอกได้ว่าเมื่อมันเข้าใกล้อนันต์ แต่คุณ
ไม่จำเป็นต้องเข้าใกล้อนันต์ขนาดนั้นเพื่อให้
เข้าใกล้การกระจายตัวแบบปกติ
แม้ว่าคุณมีขนาดของตัวอย่างเป็น 10 หรือ 20 คุณก็
อาจเข้าใกล้การกระจายตัวแบบปกติมากแล้ว
ที่จริง นั่นก็ถือว่าเข้าใกล้แล้ว อย่างที่เราเห็น
ในชีวิตประจำวัน
แต่สิ่งที่เจ๋งคือว่า เราเริ่มด้วยการกระจายตัวสุดเพี้ยน
จริงไหม
มันไม่เกี่ยวอะไรกับการกระจายตัวแบบปกติเลย
แต่เมื่อเรามีขนาดของตัวอย่าง -- นี่คือ n เท่ากับ 4 -- แต่เมื่อ
เรามีขนาดตัวอย่าง n เท่ากับ 10 หรือ n เท่ากับ 100 และ
เราสุ่มค่ามา 100 ค่า แทนที่จะเป็น 4 ค่า นำมาเฉลี่ยเสร็จ
แล้วพลอตค่าเฉลี่ย เพื่อนับความถี่ของมัน
จากนั้นเราเอาค่ามา 100 ค่า เฉลี่ย เอาค่าเฉลี่ย
ออกมา พลอตอีก
และถ้าเราทำมันหลายครั้ง ที่จริง, ถ้าเรา
ใช้ขนาดของตัวอย่างเป็นอนันต์, เราจะพบว่า--
ยิ่งถ้าเราสุ่มตัวอย่างเป็นอนันต์ -- เรา
จะได้การกระจายตัวแบบปกติโดยสมบูรณ์
นั่นมันบ้ามาก
และมันใช้ได้ไม่ใช่แค่ -- กับค่าเฉลี่ยตัวอย่างเท่านั้น
ถ้าเราเอาค่าเฉลี่ยตัวอย่าง ทุกครั้ง แต่คุณ
หาผลบวกตัวอย่างไปด้วย
ทฤษฎีบทเข้าสู่ศูนย์กลาง, ก็ยังใช้ได้
แต่นั่นคือสิ่งที่มันประโยชน์มาก
เพราะในชีวิตจริง มันมีปรากฏการณ์ต่างๆ มากมาย
โปรตีนชนกัน, ผู้คนทำเรื่องพี้ยนๆ
มนุษย์ปฏิสัมพันธ์กันด้วยวิธีประหลาด
และคุณไม่รู้การกระจายตัวของความน่าจะเป็น
ของอะไรพวกนั้น
แต่สิ่งที่ทฤษฎีบทเข้าสู่ศูนย์กลางบอกเราคือว่า ถ้าเรา
รวมผลแต่ละอย่างเข้าด้วยกัน, โดยสมมุติว่าพวกมัน
มีการกระจายตัวเหมือนกัน, หรือถ้าเราหาค่าเฉลี่ย
ของผลต่างๆ พวกนั้นทั้งหมด แล้วถ้าเราพลอต
ความถี่ของค่าเฉลี่ยพวกนั้น, เราจะได้การกระจายตัว
แบบปกติ
และว่ากันตามตรงนั่นคือ สาเหตุที่การกระจายตัวแบบปกติปรากฏ
บ่อยๆ ในสถิติ และมันเป็นสาเหตุที่ใช้ประมาณ
ผลบวกหรือค่าเฉลี่ยของ
กระบวนการมากมาย
การกระจายตัวแบบปกติ
สิ่งที่ผมจะแสดงให้คุณดูในวิดีโอหน้า คือผม
จะแสดงให้คุณเห็นว่ามันเป็นจริง
ว่าเมื่อคุณเพิ่มขนาดกลุ่มตัวอย่าง, เมื่อคุณ
เพิ่มค่า n, คุณหาค่าเฉลี่ยตัวอย่างเป็นจำนวนมาก, คุณจะ
ได้กราฟความถี่ที่ดูเหมือนกับ
การกระจายตัวแบบปกติมาก
-