Tip:
Highlight text to annotate it
X
-
ในวิดีโอที่แล้ว เราได้พูดถึงวิธีการ
แสดงแนวโน้มเข้าสู่ศูนย์กลาง หรือค่ากลางของชุดข้อมูล
สิ่งที่เราจะทำในวิดีโอนี้คือขยาย
ความเข้าใจว่าข้อมูลกระจายตัวอย่างไร
เช่นกัน
ลองคิดกันสักหน่อย
สมมุติว่าผมมี ลบ 10, 0, 10, 20 และ 30
สมมุติว่ามีชุดข้อมูลอยู่ตรงนี้
แล้วมมุติว่ามีชุดข้อมูลอีกชุดคือ 8, 9, 10, 11 และ 12
ทีนี้ ลองคำนวณค่าเฉลี่ยเลขคณิตของ
ข้อมูลทั้งสองชุดนี้ดู
ลองคำนวณค่าเฉลี่ยกัน
แล้วเมื่อคุรเรียนสถิติไปเรื่อยๆ คุณจะ
เข้าใจความแตกต่างระหว่าง
ประชากรกับกลุ่มตัวอย่าง
แต่ตอนนี้เราถือว่า นี่คือ
ประชากรทั้งหมดของข้อมูลเรา
เรากำลังคิดค่าเฉลี่ยประชากร
เราจะยุ่งกับ, อย่างที่เห็น, การวัด
การกระจายตัวของประชากร
ผมรู้ว่าพวกนี้เป็นคำสวยหรูทั้งนั้น
ในอนาคต, คุณจะไม่มีข้อมูลทั้งหมด
คุณมีแต่กลุ่มตัวอย่าง แล้วคุณจะ
พยายามหาของสำหรับประชากร
ทั้งหมด
ผมไม่อยากให้คุณคิดมากในตอนนี้
แต่ถ้าคุณจะเรียนสถิติให้ลึกขึ้น, ผม
แค่อยากบอกให้ชัดเจน
ทีนี้, ค่าเฉลี่ยประชากร, หรือค่าเฉลี่ยเลขคณิตของ
ข้อมูลนี่ตรงนี้, มันคือ ลบ 10 บวก 0 บวก 10
บวก 20 บวก 30 ส่วน -- เรามีจุดข้อมูล 5 จุด -- ส่วน 5
แล้วนี่เท่ากับอะไร?
ลบ 10 นั่นตัดกับ 10, 20 บวก 30 ได้ 50
หารด้วย 5, มันเท่ากับ 10
ทีนี้, ค่าเฉลี่ยของข้อมูลชุดนี้เป็นเท่าไหร่?
8 บวก 9 บวก 10 บวก 11 บวก 12, ทั้งหมดส่วน 5
แล้ววิธีที่เราคิดได้คือว่า 8 บวก 12 ได้ 20, 9
บวก 11 ได้ 20, รวมกันเป็น 40
เราได้ 50 ตรงนี้
บวกอีก 10
นี่ก็ได้ 50 ส่วน 5 เหมือนกัน
นี่จึงเป็นค่าเฉลี่ยประชากรเท่ากันเป๊ะ
หรือถ้าคุณไม่อยากคิดมากเรื่องคำว่าประชากรหรือ
กลุ่มตัวอย่างอะไรพวกนั้น,เราบอกว่า ชุดข้อมูลทั้งคู่ล้วนมี
ค่าเฉลี่ยเลขคณิตเท่ากันเป๊ะ ก็ได้
เมื่อคุณหาค่าเฉลี่ยเลขทั้งหมด แล้วหารด้วย 5 หรือเวลา
คุณหาผลบวกของจำนวนเหล่านี้แล้วหารด้วย 5, คุณจะได้
10, เลขพวกนี้หารด้วย 5
คุณได้ 10 เหมือนกัน,
แน่นอน, ชุดตัวเลขต่างกัน
คุณก็รู้, ถ้าคุณดูเลขพวกนี้, คุณบอกว่า, โอ้,
บางทีชุดข้อมูลควรคล้ายๆ กัน
แต่เมื่อคุณดูชุดข้อมูลทั้งสอง, อย่างหนึ่งที่คุณอาจ
เห็นได้ทันที
ตัวเลขทั้งหมดนี้ใกล้ 10 มาก
ผมหมายความว่า เลขที่ไกลที่สุด ห่างจาก 10 แค่ 2
12 ห่างจาก 10 แค่ 2
ตรงนี้, เลขพวกนี้ห่างจาก 10 หมด
แม้แต่ตัวที่ใกล้ที่สุด และเจ้าพวกนี้ห่างจาก 10
ไปถึง 20
จ้านี่ตรงนี้, ชุดข้อมูลนี้มันกระจัดกระจาย
กว่า, จริงไหม?
พวกนี้ห่างจากค่าเฉลี่ย มากกว่าเจ้าพวกนี้
นับจากค่าเฉลี่ย
ลองคิดถึงวิธีต่างๆ ที่เราสามารถวัด
การกระจาย, หรือความห่างจาก
จุดศูนย์กลาง, หรือค่าเฉลี่ยดู
วิธีหนึ่ง, อันที่ง่ายที่สุด
คือ พิสัย
และคุณมักไม่เห็นมันบ่อยนัก แต่มันเป็นวิธี
ง่ายๆ เพื่อเข้าใจว่าข้อมูลที่มากที่สุด
กับน้อยที่สุดห่างกันแค่ไหน
คุณก็แค่เอาจำนวนที่มากที่สุด, ซึ่งก็คือ 30 ใน
ตัวอย่างนี้, และจากนั้น, คุณก็ลบจำนวนที่น้อยที่สุด
ได้ 30 ลบ ลบ 10, ซึ่งเท่ากับ 40, มันบอกเรา
ว่าผลต่างระหว่างค่าสูงสุดกับ
ต่ำสุดคือ 40, เราจึงได้พิสัย 40 สำหรับข้อมูํลชุดนี้
ตรงนี้, พิสัยคือค่าสูงสุด, 12, ลบค่าต่ำสุด
, คือ 8, ซึ่งเท่ากับ 4
ตรงนี้พิสัยเป็นการวัดการกระจายตัว
ที่ดี
เราบอกว่า, โอเค,ทั้งคู่มีค่าเฉลี่ยเป็น 10
แต่พอผมดูพิสัย, เจ้านี่มีพิสัยโตกว่ามาก,
นั่นบอกว่าผมว่าข้อมูลกระจายตัวมากกว่า
แต่พิสัยไม่ได้บอกคุณถึงภาพรวมทั้งหมด
คุณอาจมีข้อมูลสองชุดที่มีพิสัยเท่ากัน
แต่ยังอย่างนั้น มันอาจมีการกระจาย
ของตัวเลขข้างในต่างกันมาก
ขึ้นอยู่กับว่ามันกระจายอย่างไร
ทีนี้, อย่างหนึ่งที่คุณเห็นบ่อย
ที่สุด เรียกว่า ความแปรปรวน
-
ที่จริง เราจะเห็น ค่าเบี่ยงเบน
มาตรฐานในวิดีโอนี้
นั่นอาจเป็นสิ่งที่ใช้มากที่สุด, แต่มันมีความสัมพันธ์
ใกล้ชิดกับความแปรปรวนมาก
สัญลักษณ์ของความแปรปรวน -- เราจะ
ยุ่งกับความแปรปรวนของประชากร
เหมือนเดิม, เราสมมุติว่านี่คือข้อมูลทั้งหมด
แทนประชารทั้งหมด, เราไม่ได้สุ่มตัวอย่าง
เลือกสับเซตของข้อมูลมา
ความตัวแปรปรวน สัญลักษณ์คือซิกม่า,
ตัวอักษรกรีกนี่, ยกกำลังสอง
นั่นคือสัญลักษณ์ของความแปรปรวน
เราจะเห็นว่าตัวอักษรซิกม่า คือสัญลักษณ์
ของค่าเบี่ยงเบนมาตรฐาน
มันมีเหตุผลอยู่
แต่เอาล่ะ, นิยามของความแปรปรวนคือคุณ
เอาจุดข้อมูลแต่ลจุดมา หาผลต่าง
ระหว่างจุดข้อมูลนั้นกับค่าเฉลี่ย, ยกกำลังมัน แล้ว
หาค่าเฉลี่ยของเลขกำลังสองพวกนั้น
ผมรู้ว่ามันฟังดูซับซ้อน, แต่เมื่อผม
คำนวณให้ดู, คุณจะเห็นว่ามันไม่แย่นัก
จำไว้, ค่าเฉลี่ยตรงนี้คือ 10
ผมก็เอาจุดข้อมูลแรกมา
ขอผมทำตรงนี้น
ขอผมเลื่อนลงหน่อย
ผมเอาจุดข้อมูลแรกมา
ลบ 10
จากนั้น, ผมจะลบค่าเฉลี่ยออก แล้ว
ผมก็ยกกลำังมัน
ผมหาผลต่างระหว่างจุดข้อมูลแรกกับ
ค่าเฉลี่ยได้แล้วก็กำลังสองมัน
นั่นจะออกมาเป็นบวกเสมอ
บวกจุดข้อมูลที่สอง, 0 ลบ 10, ลบค่าเฉลี่ย --
นี่ก็คือค่าเฉลี่ย, นี่คือ 10 ตรงนี้ -- กำลังสอง บวก
10 ลบ 10 กำลังสอง -- นั่นคือค่า 10 ตรงนั้น --
บวก 20 ลบ 10 -- นั่นคือ 20 -- กำลังสอง
บวก 30 ลบ 10 กำลังสอง
และนี่คือกำลังสอง ผลต่างระหว่างเลขแต่ละตัว
กับค่าเฉลี่ย
นี่คือค่าเฉลี่ยตรงนี้
ผมกำลังหาผลต่างระหว่างจุดข้อมูลทุกจุดกับ
ค่าเฉลี่ย, ยกกำลังสองมัน, บวกมันเข้าด้วยกัน
แล้วหารด้วยจำนวนจุดข้อมูล
ผมกำลังหาค่าเฉลี่ยเจ้าพวกนี้,
ผลต่างกำลังสองพวกนี้
แล้วเวลาผมพูดเป็นคำ, มันฟังดู
ซับซ้อน
แต่คุณหาเลขแต่ละตัวไป
ความแตกตร่างระหว่างมัน กับค่าเฉลี่ย, กำลังสองมัน
แล้วหาค่าเฉลี่ยเจ้าพวกนี้
ผมได้ 1, 2, 3, 4, 5 หารด้วย 5
นี่จะเท่ากับอะไร?
ลบ 10 ลบ 10 ได้ ลบ 20
ลบ 20 กำลังสอง เป็น 400
0 ลบ 10 ได้ ลบ 10 กำลังสอง เป็น 100, ได้บวก 100
10 ลบ 10 กำลังสอง, นั่นก็แค่ 0 กำลังสอง, ได้ 0
บวก 20 ลบ 10 ได้ 10 กำลังสอง, เป็น 100
บวก 330 ลบ 10, ได้ 20, กำลังสองเป็น 400
ทั้งหมดนั่นส่วน 5
แล้วเราจะได้อะไรตรงนี้?
400 บวก 100 เป็น 500, บวกอีก 500 เป็น 1000
มันเท่ากับ 1000/5 เท่ากับ 200
ในกรณีนี้, ความแปรปรวนจะเท่ากับ 200
นี่คือการวัดการกระจายตัวของเรา
ลองเปรียบเทียบกับข้อมูลนี้ดู
ลองเปรียบเทียบค่าความแปรปรวนของ
ชุดข้อมูลที่กระจายตัวน้อยกว่าดู
ขอผมเลื่อนลงหน่อย ผมจะได้มีที่เขียน
แม้ว่าผมจะไม่ค่อยมีที่แล้วก็ตาม
บางทีผมอาจเลื่อนขึ้นตรงนี้ได้
ได้แล้ว
ขอผมคำนวณความแปรปรวนของชุดข้อมูลนี้ดู
เรารู้แล้วว่าค่าเฉลี่ยเป็นเท่าไหร่
ความแปรปรวนของชุดข้อมูลนี่ จะเท่ากับ 8
ลบ 10 กำลังสอง บวก 9 ลบ 10 กำลังสอง บวก 10 ลบ 10
กำลังสอง บวก 11 ลบ 10 -- ขอผมเลื่อนขึ้นหน่อย --
กำลังสอง บวก 12 ลบ 10 กำลังสอง
จำไว้, 10 นั่นก็แค่ค่าเฉลี่ยที่เราคำนวณ
คุณต้องคำนวณค่าเฉลี่ยก่อน. หารด้วย -- เรามีผลต่างกำลังสอง 1,
2, 3, 4, 5 อัน
นี่จึงเท่ากับ -- 8 ลบ 10 ได้ลบ 2
กำลังสอง, ได้บวก 4
9 ลบ 10 ได้ ลบ 1 กำลังสอง, เป็นบวก 1
10 ลบ 10 ได้ 0 กำลังสอง
คุณจะได้ 0
11 ลบ 10 ได้ 1
กำลังสองมัน, คุณได้ 1
12 ลบ 10 ได้ 2
กำลังสองมัน, คุณได้ 4
แล้วนี่เท่ากับอะไร?
ทั้งหมดนั่นส่วน 5
นี่คือ 10/5
นี่จึงเท่ากับ -- เอาล่ะ, นี่คือ 10/5, ซึ่ง
เท่ากับ 2
ความแปรปรวนตรงนี้ -- ขอผมดูให้แน่ใจว่าผมทำถูกไหม
ใช่, เราได้ 10/5
ความแปรปรวนของชุดข้อมูลที่กระจายตัวน้อยกว่า
จะน้อยกว่า
ความแปรปรวนของชุดข้อมูลนี่ตรงนี้ เป็น 2 เท่านั้น
นั่นทำให้คุณเห็น
นั่นบอกคุณว่า, ดูสิ, ข้อมูลนี่กระจายตัว
น้อยกว่าอันนี้
ทีนี้, ปัญหาของความแปรปรวนคือว่า คุณ
หาเลขนี้มา, คุณหาผลต่างระหว่างพวกมัน
กับค่าเฉลี่ย, แล้วคุณยกกำลังสองมัน
มันบอกคุณเป็นเลขตามใจ, และถ้า
คุณดูหน่วญล สมมุติว่า
นี่คือระยะทาง
นี่คือ ลบ 10 เมตร, 0 เมตร, 10 เมตร, นี่คือ
8 เมตร, ไปเรื่อยๆ, แล้วเวลาคุณยกกำลังสองมัน, คุณ
จะได้ความแปรปรวนในรูปของเมตรกำลังสอง
มันเป็นหน่วยประหลาด
สิ่งที่คนเขาชอบทำคือ พูดถึงมันในรูปค่าเบี่ยงเบน
มาตรฐาน ก็แค่สแควร์รูทของความแปรปรวน
หรือสแควร์รูทของซิกม่ากำลังสอง
และสัญลักษณ์ของค่เาบี่ยงเบน
มาตรฐานก็แค่ ซิกม่า
ตอนนี้เราหาความแปรปรวนได้แล้ว, มันก็หา
ค่าเบี่ยงเบนมาตรฐานของเจ้าสองตัวนี้
ได้ไม่ยาก
ค่าเบี่ยงเบนมาตรฐานของอันแรกตรงนี้, ของ
ชุดข้อมูลแรก, จะเท่ากับสแควร์รูทของ 20
สแควร์รูทของ 200 เป็นเท่าไหร่?
สแควร์รูทของ 2 คูณ 100
มันเท่ากับ 10 สแควร์รูทของ 2
นั่นคือของชุดข้อมูลแรก
ทีนี้ ค่าเบี่ยงเบนมาตรฐานของข้อมูลชุดที่สอง
จะเท่ากับสแควร์รูทของความแปรปรวน, ซึ่งเท่ากับ 2
ชุดข้อมูลที่สอง มีค่าเบี่ยงเบนมาตรฐานเป็น 1/10 ของ
ข้อมูลชุดแรก
นี่คือ 10 รูท 2, นี่แค่ รูท 2
นี่จึงมีส่วนเบี่ยงเบนมาตรฐานเป็น 10 เท่า
-
และนี่, หวังว่า, จะช่วยให้เข้าใจมากขึ้น
ลองคิดดู
นี่มีค่าเบี่ยงเบนมาตรฐานมากกว่าอันนี้เป็น 10 เท่า
จำวิธีที่เราคำนวณเอาไว้
ความแปรปรวน, เราก็แค่เอาจุดข้อมูลมา, มันห่าง
จากค่าเฉลี่ยแค่ไหน, กำลังสองมัน,
แล้วหาค่าเฉลี่ย
แล้วเราหาสแควร์รูท, เพื่อให้หน่วย
ออกมาดูดี, แต่ผลสุดท้าย คือเราบอกว่าข้อมูล
ชุดแรก มีค่าเบี่ยงเบนมาตรฐานเป็น 10 เท่าของ
ข้อมูลชุดที่สอง
ลองดูชุดข้อมูลทั้งสองดู
นี่มีค่าเบี่ยงเบนมาตรฐานเป็น 10 เท่า, ซึ่งดูเข้าท่า
ตามสัญชาตญาณ, จริงไหม?
ผมหมายความว่า, ทั้งคู่มี 10 อยู่ในนี้, แต่พวกนี้แต่ละตัว,
9 ห่างจาก 10 อยู่ 1, 0 อยู่ห่างจาก 10
ไป 10, น้อยกว่าอยู่ 10
8 อยู่ห่างไป 2
เจ้านี่ห่างไป 20
มันจึงห่างออกไปโดยเฉลี่ย 10 เท่า
ดังนั้นส่วนเบี่ยงเบนมาตรฐาน, อย่างน้อยที่ผมคิด,
เป็นตัวบอกว่าเราห่างจากค่าเฉลี่ยแค่ไหน
โดยเฉลี่ยแล้ว
เอาล่ะ, หวังว่าคุณคงได้ประโยชน์บ้างนะ