Skip to content

Hỏi bao nhiêu là đủ ?

Tháng Mười Một 10, 2014

Ý kiến chung của đám đông, chẳng hạn về ứng cử viên tổng thống trước một cuộc bầu cứ,  về độ khả thi một công trình xây dựng,  về chất lượng một mặt hàng, vv  hiển nhiên  có vai trò rất quan trọng đối với người làm chính trị, luật, hay kinh doanh.

Phương pháp chính xác nhất  để thống kê là hỏi ý kiến từng người một. Việc này dĩ nhiên rất tốn kém, và chỉ thực hiện rất ít lần, chẳng hạn như bầu cử tổng thống ở Mỹ.

Thông thường, để có được số liệu về đám đông,  phương pháp hay dùng là   thử hỏi một số ít người, rồi  từ đó rút ra kết luận. Chẳng hạn, nếu hỏi  ý kiến 1000 người về một công trình xây dựng, và 650 người không tán thành, thì có thể suy ra ước chừng 65% dân số cả vùng không tán thành công trình này.

Phương pháp này có đáng tin cậy không ? Và hỏi bao nhiêu người là đủ  ?  Hiển nhiên, nếu chọn ra 1000 người trong dân số Hà nội, thì gần như chắc chắn sẽ không có bạn, và có khi cũng chẳng có ai bạn quen. Phản ứng của bạn sẽ là “Hừm, cái thống kê này chẳng liên quan quái gì đến mình, chẳng ai mình biết  đả động gì đến nó cả, không thể tin được. Vả lại Hà nội có 5 triệu dân, 1000 người làm sao đại diện. Bốc phét !!”  Phản ứng này hoàn toàn tự nhiên. Nếu Hànội có 5 triệu dân mà thống kê trên 1000 người,   dân số cả nuóc là 90 triệu, thì cần hỏi bao nhiêu người ? Liệu có cần tăng số người phỏng vấn lên 18 lần thành 18000 không ?

Câu trả lời ngắn là” không“.  Để hiểu rõ thêm vấn đề, bạn có thể tham khoả phân tích đưới đây.

Trong phân tích này, ta giả sử người được phỏng vấn chỉ có hai câu trả lời ( chẳng hạn bạn có muốn công trình này được xây hay  không ? giữa hai ông A và B, bạn bỏ phiểu cho ông A hay B  ?). Các thống kê phức tạp hơn, như thu nhập trung bình sẽ được bàn đến một dịp khác.

Giả sử dân số là N, và trong số đó có M người sẽ  trả lời “có”, và N-M người trả lời “không”.  Ta chọn ra n người một cách ngẫu nhiên và hỏi ý kiến của họ.  Nếu ý kiến một ngừoi là “có”, ta cho anh ta 1 điểm, nếu ý kiến là “không”, ta cho 0 điểm. Tổng số người nói “có” sẽ là tổng số điểm.  Mục đích của ta là đánh giá tỷ số   p:=M/N, tỷ lệ tán thành. Vì tính đối xứng của bài toán, ta có thể giả sử p \ge 1/2.

Nếu ai đó được chọn ra một cách hoàn toàn ngẫu nhiên từ đám đông N người, xác suất anh ta nói “có” hiển nhiên  là p.  Vậy số điểm của một người sẽ là một biến ngẫu nhiên  X bằng  1 với xác suất  p0 với xác suất 1-p. 

Tổng số điểm S của  n người  được chọn sẽ là tổng của n biến ngẫu nhiên X. Kỳ vọng của  S  là np.  Tương tự, phương sai của Snp (1-p). Theo định lý Chernoff, xác suất đê  | S -np|  >   t   sẽ nhỏ hơn   2 exp (-t^2/np).

Nếu ta lấy  t=    cnp, ta kết luận là với xác suất nhỏ hơn 2 exp {- c^2 np ),  S ở giữa   np -cnpnp + cnp.  Hay nói cách khác p (1-c) \le S/n \le p(1+c); tức ta có thể dùng S/n để đánh giá p với sai số tương đối là c.

Công thức trên cho thấy sự liên quan giữa hai đại lượng quan trọng: độ tin cậy và độ chính xác của thống kê. Chẳng hạn ta muốn độ chính xác tương đối khi đánh giá p  là 10%, ta để c =1/10=10 %. Khi đó  xác suât để thống kê cho mức chính xác này là ít nhât  1- 2 exp ( - np/100 ) .  Nếu  n =1000 và p \ge 1/2, xác suât này là 1- 2 exp (-5) > .98. Điều đó có nghĩa là với xác suất it nhất 98%, đánh giá của ta về p có sai số nhiều nhất 10%.

Nhìn vấn đề một cách khác, nếu mục đích của bạn là có một đánh giá với sai số (tương đối) là c, với một độ tin cây 1- \epsilon, thì số n  cần  thoả mãn  1 -2 ẽxp (- c^2 np) >   1 – ε. Ta có thể đặt   n = ln  (2/ ε) /c^2p. Với  p \ge 1/2, ta có thể lấy  n= 2 c^{-2}  ln (2/ε).

Ví du: Nếu c= 10% =1/10 và  ε=5% =1/20;  ta cần n = 200 ln  40 ~ 740 ngưởi.  Với  c =  ε =5% =1/20, cần   n = 800  ln  40 ~ 3000  người.

Điều thú vị nhất trong tính toán trên là  n chỉ phụ thuộc vào độ chính xác và tin cây mà ta mong muốn, chứ không phụ thuộc vào số N, tổng số dân trên địa bàn.  Nếu  hỏi ý kiến 740 người, thì với xác suất 95%, độ chính xác của đánh giá là 10%, không phụ thuộc vào tổng dân số là 5 hay 50 triệu hay 500 triệu. 

Cái khó của làm thống kê không phải là thu thập ý kiến của vài ngàn người. Vấn đề lớn là làm sao đảm bảo được nhũng người này được tìm ra một cách hoàn toàn ngẫu nhiên trong tổng số dân trong vùng.  Việc nghe đơn giản này trong thực tế thực hiện cực khó. Dưới đây là một số ví dụ:

(1) Trưng cầu ý kiến qua mạng: Gửi email đến n địa chỉ  ngẫu nhiên. Giả sử trong trưởng hơp tốt nhất, cả n người đều trả lời. Vấn đề  là không phải ai cũng dùng email, nên ta chỉ nhận được thống kê trên nhóm người dùng email thôi.   Điều này có thể thấy rõ qua cuộc bình chọn cầu thủ bóng đá mọi thời đại giữa Maradona và Pele. Maradona thắng  áp đảo ở cuộc bình chọn  qua mạng, một phần  vì  những người dùng mạng trẻ hơn và khả năng họ đã xem trực tiếp Mâradona chơi bóng cao hơn là xem Pele.

(2) Ngay cả trong trường hợp tất cả mọi người dùng email, phương pháp trên vẫn có vấn đề, vì không phải ai nhận được email cũng trả lời. Quyết định trả lời và câu trả lời thường liên quan đến nhau.  Nếu chiếc xe hơi của bạn chạy bình thường,   ít khi bạn  trả lời những câu hỏi về chất lượng   của hãng xe. Nhưng nếu nó trục trặc luôn, thì khả năng  này tăng rất cao. Nếu ta thấy 30% khách trên mạng than thở về chất lượng của xe, điều đó không nói lên là 30% số người mua xe gập vấn đề.

Thay bằng sai số tương đối, bạn cũng có thể dùng các tính toán trên cho sai số tuyệt đôi. Ta có thể chọn t= cn, thay cho t= cpn. Khi đó độ tin cây là 1 – 2ẽxp (-c^2 n/ 2p(1-p).p(1-p) nhiều nhất là 1/4, độ tin cậy được chặn dưới bởi 1 -2exp (-2 c^2 n).

Ví dụ: Nếu lấy c =3/100= 3% và n=1700, độ tin cậy là 1 -2ẽxp( – 2*9*1700/10000) ~ 90%. Với xác suất 90%, đánh giá có sai số (tuyệt đối) nhiều nhất là 3%. Các poll của bầu cử tổng thống Mỹ thường có sai số dạng  này (margin of error  3%). 

From → Khác

4 phản hồi
  1. Nguyễn Minh permalink

    Qua bài viết về cách chọn cỡ mẫu này, thầy Vũ Hà Văn đánh giá như thế nào về kết quả nghiên cứu của ông hiệu trưởng đại học FPT – Đàm Quang Minh qua hai bài báo dưới đây:

    http://vietnamnet.vn/vn/giao-duc/205223/thu-nhap-giang-vien-cao-nhat-len-den-hon-1-ty-nam.html

    http://vietnamnet.vn/vn/giao-duc/205345/-giang-vien-vn-thieu-chuyen-nghiep–thu-nhap-cao-.html

    Liệu nghiên cứu này có chính xác? Chọn mẫu 40 người có đủ và mẫu mà ông hiệu trường dùng làm nghiên cứu có đảm bảo tính ngẫu nhiên hay không?

    • Như tôi được biết, 40 ngừoi được hỏi là những expert, hó cung cấp số liệu tổng hợp, chứ không phải ý kiến bản thân, nên khác với tình huống trong bài này.

  2. baotuyen permalink

    Bài toán khó nhất đối với người làm thống kê vẫn luôn là lấy mẩu: cỡ bao nhiêu? Làm sao đảm bảo tính ngẫu nhiên của mẫu?

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s

%d bloggers like this: