Simulation Providing Evidence That - N - 1 - Gives us unbiased estimate

นี่คือแบบจำลองสร้างขึ้นโดยผู้ใช้คานอะคาเดมี่ชื่อ เทท ผมสมมุติว่าชื่อเขาอ่านว่า "เททฟ์" (tetf) แล้วกัน และสิ่งที่เราได้ คือได้สัญชาตญาณ ว่าทำไมเราถึงหารด้วย n-1 เวลาเราคำนวณ ความแปรปรวนตัวอย่าง แล้วทำไมมันถึงให้ค่า ประมาณความแปรปรวนประชากรโดยไม่เอนเอียง แล้ว, วิธีที่เขาเริ่ม (ผมแนะนำให้คุณลอง ด้วยตัวเองดู!) คือว่าคุณสามารถสร้างการกระจายตัวได้เอง บอกว่า "สร้างประชากรด้วยการคลิกพื้นที่สีฟ้า" ตรงนี้, เราได้สร้างประชากรขึ้นมา เราจะสร้างมันใหม่ทุกครั้งที่คลิก, มันเพิ่มขนาดประชากรขึ้น ขอผมแค่ -- ขอผมจะลองทำแบบสุ่มๆ และผมแนะนำให้คุณไปที่ สแครชแพดนี้. มันอยู่ในวิชาคอมพิวเตอร์ของคานอะคาเดมี่ แล้วลองทำดูเอง, แล้ว, ตรงนี้ เรามี -- ผมจะหยุดสักที่หนึ่ง. ผมได้สร้างประชากรแล้ว ผมโยนจุดอย่างสุ่มเข้าไปบนนี้ นี่คือประชากรของเรา และคุณเห็นตอนที่ผมทำ แล้วว่าคำนวณพารามิเตอร์ของประชากรไปด้วย มันคำนวณค่าเฉลี่ยประชากรได้ 204.09 และ ค่าเบี่ยงเบนมาตรฐานของประชากร, ซึ่งหามาจากความแปรปรวนประชากร นี่คือสแควร์รูทของความแปรปรวนประชากร และมันอยู่ที่ 63.8 มันยังพลอตความแปรปรวนประชากรไว้ตรงนี้ด้วย เห็นไหม, มันคือ 63.8 เป็นค่าเบี่ยงเบนมาตรฐาน มันดูยากหน่อย แต่มันบอกว่ากำลังสอง นี่คือตัวเลขนี้กำลังสอง, นี่หมายความว่า 63.8 กำลังสอง คือความแปรปรวนประชากร ได้, นี่มันน่าสนใจด้วยตัวเองอยู่แล้ว แต่มันไม่ได้บอกเรา เราเท่าไหร่ ว่าทำไมเราถึงหารด้วย n-1 นี่คือส่วนที่น่าสนใจ ตอนนี้เราสามารถหากลุ่มตัวอย่าง และเราเลือกได้ ว่าให้กลุ่มตัวอย่างเป็นเท่าไหร่. ผมจะเริ่มด้วยกลุ่มตัวอย่างเล็กมาก กลุ่มตัวอย่างที่เล็กที่สุดที่สมเหตุสมผล แล้วล ผมจะเริ่มด้วยกลุ่มตัวอย่างที่เล็กมาก และสิ่งที่เขาจะทำ, สิ่งที่แบบจำลองนี้จะทำคือ ทุกครั้งที่ผมเลือกกลุ่มตัวอย่าง, มันจะคำนวณความแปรปรวนให้ ตัวส่วนจะเป็นผลบวกของ จุดข้อมูลของผมแต่ละจุด ในตัวอย่างลบค่าเฉลี่ยตัวอย่าง แล้ว, ผมจะยกกำลังสองมัน. แล้ว มันจะ หารด้วย n+a, และมันจะแปรค่า "a" ไป มันจะหารด้วยอะไรก็ตามระหว่าง n+ (-3) -- คือ n-3 ไปจนถึง n+a, และเราจะทำอย่างนั้น หลายๆๆ ครั้ง. สุดท้ายเราจะหา ค่าเฉลี่ยของความแปรปรวนสำหรับ "a" ใดๆ และหาว่าอันไหนให้ค่าประมาณที่ดีที่สุด แล้ว, ถ้าผมสร้างตัวอย่างหนึ่งตรงนี้. ทีนี้, เราก้เห็นเส้นโค้งนี้ เมื่อเรามีค่า "a" สูงมาก, เราจะประมาณมันมากเกินไป เมื่อเรามีค่า "a" ต่ำมาก, เราจะกะความแปรปรวนประชากรต่ำไป แต่ นี่มันแค่ตัวอย่างเดียว, ไม่มีความหมายเท่าไหร่ มันคือมีขนาดตัวอย่าง แค่ขนาดเดียวด้วย ลองสร้างกลุ่มตัวอย่างหลายๆ อันแล้วเฉลี่ยมัน หลายๆ อย่าง. แล้ว, เวลาคุณดูกลุ่มตัวอย่างจำนวนมากๆๆ บางอย่างที่น่าสนใจเริ่มปรากฏขึ้น เวลาคุณดูที่ค่าเฉลี่ยของตัวอย่างพวกนั้น เมื่อคุณเฉลี่ยเส้นโค้งพวกนี้ ทั่วทุกตัวอย่าง คุณจะเห็นว่าค่าประมาณที่ดีที่สุด เกิดขึ้นเมื่อ "a" ใกล้ลบ 1 มาก เมื่อ นี่คือ n+(-1) หรือ n-1 อะไรก็ตามที่น้อยกว่า -1, ถ้าเราใช้ ลบ n-1.05 หรือ n-1.5, เราจะเริ่มกะค่าความแปรปรวนมากเกินไป อะไรก็ตามที่น้อยกว่า -1, ถ้าเราเริ่ม ถ้าเราใช้ n+0, ถ้าเราหารด้วย n, หรือถ้าเราใช้ n+0.05 หรือ ค่าอะไรก็ตาม, เราจะเริ่มกะค่าความแปรปรวน ประชากรต่ำไป แล้วคุณทำไป สำหรับขนาดกลุ่มตัวอย่างค่าต่างๆ ขอผมลองขนาดตัวอย่างเป็น 6 หน่อย ได้แล้ว, เหมือนเดิม, เมื่อผมกด ผมก็กด "สร้างกลุ่มตัวอย่าง" ไปเรื่อยๆ เมื่อเราสร้างตัวอย่างมากขึ้น มากขึ้น สำหรับค่า a ทั้งหมด, เราหาค่าเฉลี่ยทั่วทุกกลุ่มตัวอย่าง สำหรับความแปรปรวน, ขึ้นอยู่กับวิธีที่เราคำนวณมัน คุณจะเห็นว่า, เหมือนเดิม, ค่าประมาณที่ดีที่สุด นั้นอยู่ ใกล้ -1 มาก. และถ้าคุณลองเจ้านี่ ถ้าคุณลองนี่กับกลุ่มตัวอย่างที่เลือกมานับล้าน คุณจะเห็นว่าค่าประมาณที่ดีที่สุด คือเมื่อ a เป็น -1, หรือเมื่อคุณหารด้วย n-1 ขอบใจ "เททฟ์" อีกครั้งสำหรับแบบจำลองนี้ ผมว่ามันเป็นวิธีที่น่าสนใจเวลาคิดว่าทำไม เราถึงหารด้วย n-1