150+ câu hỏi trắc nghiệm nguyên lý thống kê online có đáp án

Ngày cập nhật: 12/03/2026

⚠️ Đọc lưu ý và miễn trừ trách nhiệm trước khi bắt đầu: Các câu hỏi và đáp án trong bộ trắc nghiệm này chỉ mang tính chất tham khảo, hỗ trợ học tập và ôn luyện. Đây KHÔNG PHẢI là đề thi chính thức, không đại diện cho bất kỳ tài liệu chuẩn hóa hay kiểm tra chứng chỉ nào từ các cơ quan giáo dục hay tổ chức cấp chứng chỉ chuyên môn. Website không chịu bất kỳ trách nhiệm nào liên quan đến độ chính xác của nội dung hoặc các quyết định được đưa ra dựa trên kết quả làm bài trắc nghiệm.

Bạn đã sẵn sàng bắt đầu với bộ 150+ câu hỏi trắc nghiệm nguyên lý thống kê online có đáp án. Bộ câu hỏi này được xây dựng để giúp bạn ôn luyện kiến thức một cách chủ động và hiệu quả. Hãy chọn một bộ câu hỏi bên dưới để bắt đầu ngay. Chúc bạn làm bài hiệu quả và tích lũy thêm nhiều kiến thức!

★★★★★

4.8/5 (178 đánh giá)

1. Một nhà xã hội học muốn nghiên cứu mối quan hệ giữa mức độ giáo dục (ví dụ: tiểu học, trung học, đại học) và mức độ hài lòng với công việc. Dữ liệu về mức độ giáo dục thuộc loại nào?

A. Dữ liệu định lượng rời rạc.

B. Dữ liệu định tính danh nghĩa.

C. Dữ liệu định tính thứ bậc.

D. Dữ liệu định lượng liên tục.

2. Trong thống kê mô tả, ‘range’ (biên độ) của một tập dữ liệu được tính như thế nào?

A. Trung bình cộng của tất cả các giá trị.

B. Giá trị lớn nhất trừ đi giá trị nhỏ nhất.

C. Tần suất xuất hiện của giá trị trung vị.

D. Trung bình của hai giá trị giữa khi dữ liệu được sắp xếp.

3. Một nhà kinh tế đang nghiên cứu mối quan hệ giữa thu nhập và chi tiêu. Ông thu thập dữ liệu về thu nhập và chi tiêu của 50 hộ gia đình. Ông quyết định sử dụng hồi quy tuyến tính để mô hình hóa mối quan hệ này. Biến nào trong trường hợp này thường được coi là biến phụ thuộc?

A. Thu nhập.

B. Số hộ gia đình.

C. Chi tiêu.

D. Không xác định được.

4. Trong thống kê mô tả, ‘mode’ (yếu vị) của một tập dữ liệu là gì?

A. Giá trị xuất hiện nhiều nhất trong tập dữ liệu.

B. Giá trị nằm ở giữa khi dữ liệu được sắp xếp.

C. Trung bình của tất cả các giá trị trong tập dữ liệu.

D. Khoảng cách giữa giá trị lớn nhất và nhỏ nhất.

5. Giả sử bạn đang thực hiện một cuộc khảo sát và nhận được phản hồi từ 80% số người được hỏi. Tỷ lệ 80% này được gọi là gì trong thống kê?

A. Sai số lấy mẫu (Sampling error).

B. Độ chính xác (Precision).

C. Tỷ lệ phản hồi (Response rate).

D. Độ tin cậy (Reliability).

6. Khi phân tích dữ liệu từ một cuộc khảo sát, bạn nhận thấy rằng phần lớn người trả lời nghiêng về một phía của thang đo Likert (ví dụ: đa số chọn ‘hoàn toàn đồng ý’). Điều này có thể dẫn đến hiện tượng gì trong phân phối dữ liệu?

A. Phân phối chuẩn.

B. Phân phối đối xứng.

C. Phân phối lệch (skewed distribution).

D. Phân phối đồng nhất.

7. Một nhà nghiên cứu muốn đánh giá hiệu quả của một chương trình đào tạo mới bằng cách so sánh điểm kiểm tra của nhân viên trước và sau khi tham gia chương trình. Phương pháp thống kê nào phù hợp nhất cho tình huống này?

A. Kiểm định t cho hai mẫu độc lập.

B. Kiểm định t cho mẫu cặp (Paired samples t-test).

C. Kiểm định Chi-squared.

D. Phân tích hồi quy bội.

8. Trong thống kê mô tả, khi nào chúng ta sử dụng trung vị thay vì trung bình cộng để đo lường xu hướng trung tâm?

A. Khi dữ liệu có phân phối đối xứng.

B. Khi dữ liệu có nhiều giá trị ngoại lệ (outliers).

C. Khi dữ liệu là liên tục và có phân phối chuẩn.

D. Khi dữ liệu có tần suất xuất hiện của các giá trị là đồng đều.

9. Một nhà nghiên cứu muốn kiểm tra xem liệu có sự khác biệt có ý nghĩa thống kê về điểm thi trung bình giữa hai nhóm sinh viên học theo phương pháp A và phương pháp B hay không. Phương pháp thống kê nào phù hợp nhất để phân tích dữ liệu này?

A. Phân tích phương sai một yếu tố (One-way ANOVA).

B. Kiểm định t cho hai mẫu độc lập (Independent samples t-test).

C. Kiểm định Chi-squared.

D. Hồi quy tuyến tính đơn.

10. Khi nào chúng ta nên sử dụng ‘IQR’ (Interquartile Range – Khoảng tứ phân vị) thay vì ‘standard deviation’ (độ lệch chuẩn) để mô tả sự phân tán của dữ liệu?

A. Khi dữ liệu có phân phối chuẩn.

B. Khi dữ liệu có phân phối lệch hoặc có giá trị ngoại lệ.

C. Khi dữ liệu là định tính.

D. Khi muốn tính toán giá trị trung bình.

11. Trong kiểm định giả thuyết, mức ý nghĩa (significance level), ký hiệu là α, đại diện cho điều gì?

A. Xác suất bác bỏ giả thuyết null khi nó đúng.

B. Xác suất chấp nhận giả thuyết null khi nó sai.

C. Xác suất bác bỏ giả thuyết null khi nó sai.

D. Xác suất chấp nhận giả thuyết null khi nó đúng.

12. Khi nào chúng ta nên sử dụng biểu đồ tần suất (histogram) để biểu diễn dữ liệu?

A. Để hiển thị mối quan hệ giữa hai biến định lượng.

B. Để biểu diễn sự phân phối tần suất của một biến định lượng liên tục.

C. Để so sánh tần suất của các danh mục trong một biến định tính.

D. Để thể hiện sự thay đổi của một biến theo thời gian.

13. Nếu bạn thực hiện một kiểm định giả thuyết và nhận được giá trị p bằng 0.03, với mức ý nghĩa α = 0.05, bạn sẽ kết luận như thế nào?

A. Bác bỏ giả thuyết null.

B. Chấp nhận giả thuyết null.

C. Không đủ bằng chứng để bác bỏ giả thuyết null.

D. Cần thực hiện thêm phép thử.

14. Một nhà nghiên cứu muốn so sánh tỷ lệ thành công của hai phương pháp điều trị bệnh A. Phương pháp điều trị thứ nhất có tỷ lệ thành công là 70% trên 100 bệnh nhân, phương pháp thứ hai có tỷ lệ thành công là 60% trên 150 bệnh nhân. Phương pháp thống kê nào phù hợp để so sánh hai tỷ lệ này?

A. Kiểm định t.

B. Kiểm định Chi-squared cho hai mẫu.

C. Phân tích phương sai (ANOVA).

D. Hồi quy tuyến tính.

15. Trong thống kê suy luận, mục tiêu chính của việc lấy mẫu là gì?

A. Thu thập càng nhiều dữ liệu càng tốt.

B. Đưa ra kết luận về tổng thể dựa trên thông tin từ mẫu.

C. Mô tả đặc điểm của mẫu một cách chi tiết.

D. Tránh mọi sai số trong quá trình thu thập dữ liệu.

16. Khi nào một nhà thống kê sử dụng kiểm định phi tham số (non-parametric test) thay vì kiểm định tham số (parametric test)?

A. Khi dữ liệu có phân phối chuẩn và phương sai tương đồng.

B. Khi cỡ mẫu nhỏ và các giả định về phân phối của dữ liệu không được đáp ứng.

C. Khi muốn kiểm tra mối quan hệ tuyến tính giữa hai biến.

D. Khi dữ liệu có các giá trị ngoại lệ lớn.

17. Một nhà quảng cáo muốn biết liệu có sự khác biệt có ý nghĩa thống kê về số lần nhấp chuột (click-through rate) giữa hai phiên bản quảng cáo khác nhau hay không. Cỡ mẫu cho mỗi phiên bản là 500 người dùng. Phương pháp nào là phù hợp nhất?

A. Kiểm định t cho hai mẫu độc lập.

B. Kiểm định Chi-squared cho hai tỷ lệ.

C. Phân tích phương sai (ANOVA).

D. Hồi quy tuyến tính.

18. Một nhà khoa học thu thập dữ liệu về chiều cao của 1000 người trưởng thành ở một quốc gia. Dữ liệu này thuộc loại nào trong thống kê?

A. Dữ liệu định tính (Qualitative data).

B. Dữ liệu định lượng liên tục (Continuous quantitative data).

C. Dữ liệu định lượng rời rạc (Discrete quantitative data).

D. Dữ liệu thứ bậc (Ordinal data).

19. Trong một phân phối chuẩn, khoảng bao nhiêu phần trăm dữ liệu nằm trong phạm vi cộng trừ một độ lệch chuẩn (±1 SD) so với trung bình?

A. Khoảng 68%.

B. Khoảng 95%.

C. Khoảng 99.7%.

D. Khoảng 50%.

20. Trong thống kê suy luận, một ‘ước lượng điểm’ (point estimate) cho một tham số tổng thể là gì?

A. Một khoảng các giá trị có khả năng chứa tham số tổng thể.

B. Một giá trị duy nhất từ mẫu được sử dụng để ước lượng tham số tổng thể.

C. Xác suất để giả thuyết null là đúng.

D. Độ lệch chuẩn của mẫu.

21. Khái niệm ‘sai lầm loại II’ (Type II error) trong kiểm định giả thuyết đề cập đến tình huống nào?

A. Bác bỏ giả thuyết null khi nó đúng.

B. Chấp nhận giả thuyết null khi nó sai.

C. Bác bỏ giả thuyết null khi nó sai.

D. Chấp nhận giả thuyết null khi nó đúng.

22. Khi tính toán khoảng tin cậy cho trung bình tổng thể, nếu chúng ta tăng kích thước mẫu, điều gì có khả năng xảy ra với chiều rộng của khoảng tin cậy?

A. Khoảng tin cậy sẽ rộng hơn.

B. Khoảng tin cậy sẽ hẹp hơn.

C. Chiều rộng của khoảng tin cậy không thay đổi.

D. Chiều rộng của khoảng tin cậy có thể rộng hơn hoặc hẹp hơn tùy thuộc vào giá trị trung bình.

23. Trong một phân phối chuẩn, khoảng bao nhiêu phần trăm dữ liệu nằm trong phạm vi cộng trừ hai độ lệch chuẩn (±2 SD) so với trung bình?

A. Khoảng 68%.

B. Khoảng 95%.

C. Khoảng 99.7%.

D. Khoảng 50%.

24. Một nhà sinh vật học muốn xác định liệu có mối liên hệ giữa lượng mưa hàng năm và năng suất của một loại cây trồng cụ thể hay không. Ông thu thập dữ liệu trong 10 năm. Phương pháp thống kê nào phù hợp nhất để phân tích mối quan hệ này?

A. Kiểm định t hai mẫu.

B. Hồi quy tuyến tính.

C. Kiểm định Chi-squared.

D. Phân tích phương sai (ANOVA).

25. Một nhà khoa học dữ liệu đang xây dựng mô hình dự đoán giá nhà dựa trên diện tích, số phòng ngủ và vị trí. Nếu mô hình có hệ số xác định (R-squared) là 0.75, điều này có nghĩa là gì?

A. 75% các ngôi nhà trong tập dữ liệu có giá giống nhau.

B. 75% sự biến thiên của giá nhà được giải thích bởi diện tích, số phòng ngủ và vị trí.

C. Giá nhà có mối quan hệ tuyến tính hoàn hảo với các biến dự báo.

D. Mô hình có sai số chuẩn rất thấp.

26. Khi nào chúng ta có thể sử dụng phân tích phương sai (ANOVA) để so sánh nhiều hơn hai nhóm?

A. Khi các nhóm không độc lập với nhau.

B. Khi muốn kiểm tra sự khác biệt về trung bình giữa ba nhóm hoặc nhiều hơn.

C. Khi dữ liệu là định tính.

D. Khi chỉ có hai nhóm cần so sánh.

27. Độ lệch chuẩn (standard deviation) của một tập dữ liệu cho biết điều gì?

A. Giá trị lớn nhất trong tập dữ liệu.

B. Mức độ phân tán hoặc trải rộng của các điểm dữ liệu xung quanh giá trị trung bình.

C. Tần suất xuất hiện của giá trị trung vị.

D. Tỷ lệ các giá trị lớn hơn giá trị trung bình.

28. Trong phân tích hồi quy, hệ số xác định (R-squared) cho biết điều gì?

A. Mức độ ảnh hưởng của biến phụ thuộc lên biến độc lập.

B. Tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi mô hình hồi quy.

C. Độ lớn của sai số chuẩn của hệ số hồi quy.

D. Xác suất bác bỏ giả thuyết null về mối quan hệ giữa các biến.

29. Khi nào chúng ta có thể sử dụng ‘median’ (trung vị) như một thước đo xu hướng trung tâm tốt hơn ‘mean’ (trung bình cộng)?

A. Khi dữ liệu có phân phối chuẩn và không có giá trị ngoại lệ.

B. Khi dữ liệu có phân phối lệch hoặc chứa các giá trị ngoại lệ.

C. Khi dữ liệu là các danh mục.

D. Khi chúng ta muốn tính toán độ lệch chuẩn.

30. Một nhà thống kê đang phân tích mối quan hệ giữa số giờ học và điểm thi của sinh viên. Nếu hệ số tương quan Pearson (r) có giá trị là -0.85, điều này cho thấy mối quan hệ gì giữa hai biến?

A. Không có mối quan hệ tuyến tính.

B. Mối quan hệ tuyến tính nghịch mạnh.

C. Mối quan hệ tuyến tính thuận mạnh.

D. Mối quan hệ phi tuyến tính yếu.

31. Nếu một nghiên cứu sử dụng dữ liệu từ tất cả các thành viên của một quần thể, đó được gọi là gì?

A. Lấy mẫu ngẫu nhiên.

B. Khảo sát mẫu.

C. Điều tra toàn bộ (census).

D. Lấy mẫu có hệ thống.

32. Tương quan Pearson (Pearson correlation coefficient) đo lường điều gì giữa hai biến định lượng?

A. Mối quan hệ nhân quả.

B. Mức độ tuyến tính của mối quan hệ và chiều hướng của nó.

C. Sự khác biệt về giá trị trung bình.

D. Mức độ phân tán của dữ liệu.

33. Khi hệ số tương quan Pearson bằng 1, điều đó có nghĩa là gì?

A. Không có mối quan hệ tuyến tính giữa hai biến.

B. Hai biến có mối quan hệ tuyến tính hoàn hảo và cùng chiều.

C. Hai biến có mối quan hệ tuyến tính hoàn hảo nhưng ngược chiều.

D. Có lỗi trong tính toán hệ số tương quan.

34. Trong thống kê suy luận, mục tiêu chính là gì?

A. Mô tả đặc điểm của tập dữ liệu đã thu thập.

B. Đưa ra kết luận về tổng thể dựa trên dữ liệu từ mẫu.

C. Trực quan hóa dữ liệu.

D. Tính toán các giá trị trung bình và độ lệch chuẩn.

35. Sai số lấy mẫu (sampling error) là gì?

A. Lỗi do người nghiên cứu mắc phải trong quá trình thu thập dữ liệu.

B. Sự khác biệt giữa kết quả thu thập từ mẫu và kết quả thực tế của tổng thể.

C. Lỗi do sử dụng phần mềm thống kê không phù hợp.

D. Sai sót trong việc diễn giải kết quả.

36. Trong một nghiên cứu về hiệu quả của một loại thuốc mới, nhóm nào sẽ không nhận thuốc hoặc nhận giả dược?

A. Nhóm can thiệp.

B. Nhóm đối chứng.

C. Nhóm thử nghiệm.

D. Nhóm ngẫu nhiên.

37. Một khoảng tin cậy 95% cho chiều cao trung bình của nam giới là [170 cm, 175 cm]. Điều này có nghĩa là gì?

A. 95% nam giới có chiều cao từ 170 cm đến 175 cm.

B. Chiều cao trung bình thực tế của nam giới chắc chắn nằm trong khoảng này.

C. Nếu lấy nhiều mẫu, khoảng 95% trong số đó sẽ chứa chiều cao trung bình thực tế của nam giới.

D. Chiều cao trung bình của mẫu là 172.5 cm.

38. Trong mô hình hồi quy tuyến tính y = a + bx, biến ‘x’ được gọi là gì?

A. Biến phụ thuộc.

B. Biến độc lập.

C. Sai số ngẫu nhiên.

D. Hệ số chặn.

39. Xác suất của một sự kiện là bao nhiêu nếu sự kiện đó không thể xảy ra?

A. 1

B. 0

C. 0.5

D. Không xác định được.

40. Lấy mẫu ngẫu nhiên đơn giản (simple random sampling) đảm bảo điều gì?

A. Mỗi phần tử trong tổng thể có cơ hội được chọn như nhau.

B. Các phần tử được chọn theo một quy luật định trước.

C. Các phần tử được chọn theo nhóm.

D. Các phần tử được chọn dựa trên đặc điểm nhất định.

41. Giả thuyết không (null hypothesis – H0) trong kiểm định giả thuyết thường phát biểu điều gì?

A. Có sự khác biệt đáng kể giữa các nhóm.

B. Không có sự khác biệt hoặc mối quan hệ nào giữa các biến số.

C. Mô hình có khả năng dự báo tốt.

D. Dữ liệu tuân theo phân phối chuẩn.

42. Phân phối chuẩn (normal distribution) có đặc điểm nào sau đây?

A. Dữ liệu có hình dạng lệch trái.

B. Trung bình, trung vị và mode trùng nhau.

C. Có hai đỉnh.

D. Độ lệch chuẩn bằng 0.

43. Kiểm định Chi-square (Chi-squared test) thường được sử dụng để phân tích loại dữ liệu nào?

A. Dữ liệu định lượng liên tục.

B. Dữ liệu định tính (danh nghĩa hoặc thứ bậc).

C. Dữ liệu chuỗi thời gian.

D. Dữ liệu có phân phối chuẩn.

44. Khi nào chúng ta sử dụng kiểm định t cho hai mẫu độc lập (independent samples t-test)?

A. So sánh trung bình của một mẫu với một giá trị đã biết.

B. So sánh trung bình của hai mẫu độc lập.

C. Đo lường mối quan hệ giữa hai biến định lượng.

D. Kiểm tra sự phù hợp của dữ liệu với một phân phối nhất định.

45. Trong một nghiên cứu, nếu giá trị p (p-value) nhỏ hơn mức ý nghĩa (alpha), chúng ta thường làm gì với giả thuyết không?

A. Chấp nhận giả thuyết không.

B. Bác bỏ giả thuyết không.

C. Không đủ thông tin để đưa ra quyết định.

D. Cần thu thập thêm dữ liệu.

46. Biến ngoại lai (outlier) là gì trong một tập dữ liệu?

A. Giá trị xuất hiện thường xuyên nhất.

B. Giá trị nằm trong phạm vi thông thường của dữ liệu.

C. Giá trị khác biệt đáng kể so với phần lớn các giá trị khác.

D. Giá trị trung bình của tập dữ liệu.

47. Một nhà nghiên cứu thu thập dữ liệu về chiều cao của 100 sinh viên. Dữ liệu này thuộc loại nào?

A. Dữ liệu định tính danh nghĩa.

B. Dữ liệu định lượng rời rạc.

C. Dữ liệu định lượng liên tục.

D. Dữ liệu định tính thứ bậc.

48. Nếu tung một đồng xu công bằng hai lần, xác suất để cả hai lần đều là mặt ngửa là bao nhiêu?

A. 0.25

B. 0.5

C. 0.75

D. 1

49. Khi nào một nhà thống kê có thể sử dụng kiểm định phi tham số (non-parametric test)?

A. Khi dữ liệu có phân phối chuẩn.

B. Khi giả định về phân phối chuẩn hoặc tính đồng nhất phương sai bị vi phạm.

C. Khi cần tính toán giá trị p chính xác tuyệt đối.

D. Khi cỡ mẫu rất lớn.

50. Khi phân tích phương sai (ANOVA), mục đích chính là gì?

A. So sánh trung bình của hai nhóm.

B. So sánh trung bình của ba nhóm trở lên.

C. Đo lường mối quan hệ giữa hai biến định lượng.

D. Dự đoán giá trị của một biến.

51. Độ tin cậy (confidence level) trong khoảng tin cậy cho biết điều gì?

A. Khả năng kết quả sai là bao nhiêu.

B. Tỷ lệ phần trăm các khoảng tin cậy sẽ chứa tham số tổng thể thực tế.

C. Độ chính xác của phép đo.

D. Mức ý nghĩa của kiểm định giả thuyết.

52. Độ lệch chuẩn (standard deviation) cho biết điều gì về tập dữ liệu?

A. Giá trị trung tâm của dữ liệu.

B. Mức độ phân tán của các giá trị so với trung bình.

C. Tần suất xuất hiện của các giá trị.

D. Mối quan hệ giữa hai biến số.

53. Hồi quy tuyến tính đơn (simple linear regression) được sử dụng để làm gì?

A. Phân loại dữ liệu thành các nhóm.

B. Dự đoán giá trị của một biến phụ thuộc dựa trên một biến độc lập.

C. Kiểm tra sự khác biệt giữa hai trung bình mẫu.

D. Đo lường độ phân tán của dữ liệu.

54. Trong thống kê mô tả, đại lượng nào sau đây được coi là thước đo độ phân tán của dữ liệu?

A. Trung vị

B. Mode

C. Khoảng tứ phân vị

D. Trung bình cộng

55. Trong phân tích hồi quy bội (multiple linear regression), hệ số hồi quy cho một biến độc lập đại diện cho điều gì?

A. Mức thay đổi trung bình của biến phụ thuộc khi biến độc lập đó thay đổi một đơn vị, giữ nguyên các biến độc lập khác.

B. Mức thay đổi trung bình của biến phụ thuộc khi tất cả các biến độc lập thay đổi một đơn vị.

C. Mối quan hệ nhân quả trực tiếp giữa biến độc lập và biến phụ thuộc.

D. Độ lệch chuẩn của biến phụ thuộc.

56. Lấy mẫu phân tầng (stratified sampling) bao gồm các bước nào sau đây?

A. Chia tổng thể thành các nhóm nhỏ hơn và lấy mẫu ngẫu nhiên từ mỗi nhóm.

B. Chọn phần tử thứ k sau khi xác định một điểm bắt đầu ngẫu nhiên.

C. Chia tổng thể thành các nhóm và chọn ngẫu nhiên toàn bộ một vài nhóm.

D. Chọn các phần tử gần nhất.

57. Một nhà khoa học muốn so sánh hiệu quả của ba loại phân bón khác nhau đối với sự phát triển của cây trồng. Phương pháp thống kê nào phù hợp nhất?

A. Kiểm định t độc lập.

B. Phân tích tương quan Pearson.

C. Phân tích phương sai (ANOVA).

D. Hồi quy tuyến tính đơn.

58. Đâu là thước đo độ xiên (skewness) của phân phối?

A. Độ lệch chuẩn.

B. Trung vị.

C. Hệ số xiên.

D. Kurtosis.

59. Khi nào chúng ta sử dụng trung vị thay vì trung bình cộng để mô tả xu hướng trung tâm của tập dữ liệu?

A. Khi dữ liệu có phân phối chuẩn.

B. Khi dữ liệu có giá trị ngoại lai ảnh hưởng lớn đến trung bình.

C. Khi cần tính toán nhanh chóng các giá trị thống kê.

D. Khi tập dữ liệu quá nhỏ.

60. Khi nào thì dữ liệu được coi là có phân phối lệch phải (positively skewed)?

A. Khi đuôi của phân phối kéo dài về phía bên trái.

B. Khi đuôi của phân phối kéo dài về phía bên phải.

C. Khi phân phối có hình dạng chuông đối xứng.

D. Khi trung bình nhỏ hơn trung vị.

61. Một nhà thống kê muốn ước tính tỷ lệ người dân sử dụng mạng xã hội tại một quốc gia. Ông ấy đã thực hiện một cuộc khảo sát với kích thước mẫu là 1000 người. Nếu sai số chuẩn của ước lượng tỷ lệ là 0.02, và ông ấy muốn có khoảng tin cậy 95%, thì bán kính của khoảng tin cậy này là bao nhiêu?

A. 0.01

B. 0.02

C. 0.0392

D. 0.04

62. Trong một nghiên cứu về mối quan hệ giữa chiều cao và cân nặng của sinh viên, nhà nghiên cứu đã thu thập dữ liệu từ 100 sinh viên. Các biến số được đo lường là chiều cao (cm) và cân nặng (kg). Loại dữ liệu nào sau đây phù hợp nhất để mô tả các biến số này?

A. Dữ liệu định danh (Nominal data)

B. Dữ liệu thứ bậc (Ordinal data)

C. Dữ liệu khoảng (Interval data)

D. Dữ liệu tỷ lệ (Ratio data)

63. Một nhà tiếp thị muốn biết liệu chiến dịch quảng cáo mới có làm tăng doanh số bán hàng hay không. Họ theo dõi doanh số bán hàng trước và sau khi triển khai chiến dịch. Loại kiểm định giả thuyết nào phù hợp nhất cho trường hợp này?

A. Kiểm định t độc lập

B. Kiểm định t ghép cặp (Paired samples t-test)

C. Kiểm định Chi-bình phương

D. Phân tích phương sai

64. Sai số chuẩn của trung bình (standard error of the mean) đo lường điều gì?

A. Độ lệch của các giá trị cá nhân so với trung bình mẫu

B. Độ lệch của trung bình mẫu so với trung bình tổng thể

C. Tỷ lệ phần trăm dữ liệu nằm trong một khoảng nhất định

D. Mức độ biến thiên của các giá trị trong mẫu

65. Giá trị p (p-value) trong kiểm định giả thuyết cho biết điều gì?

A. Xác suất để giả thuyết không là đúng

B. Xác suất quan sát được kết quả dữ liệu (hoặc kết quả cực đoan hơn) nếu giả thuyết không đúng

C. Xác suất để giả thuyết đối (alternative hypothesis) là đúng

D. Tỷ lệ dữ liệu nằm trong khoảng tin cậy

66. Trong phân tích hồi quy tuyến tính đơn giản, hệ số góc (slope coefficient) của biến độc lập đại diện cho điều gì?

A. Giá trị trung bình của biến phụ thuộc khi biến độc lập bằng 0

B. Sự thay đổi trung bình của biến phụ thuộc khi biến độc lập tăng thêm một đơn vị

C. Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi biến độc lập

D. Mức độ sai số trong mô hình dự báo

67. Khi tính toán giá trị trung bình cộng của một tập dữ liệu, nếu có một giá trị ngoại lệ (outlier) rất lớn so với các giá trị còn lại, thì giá trị trung bình cộng có xu hướng:

A. Không bị ảnh hưởng

B. Bị kéo về phía giá trị ngoại lệ đó

C. Bị giảm xuống

D. Trở nên không xác định

68. Hệ số xác định (R-squared) trong mô hình hồi quy cho biết điều gì?

A. Tỷ lệ phần trăm biến thiên của biến phụ thuộc được giải thích bởi mô hình

B. Xác suất để bác bỏ giả thuyết không

C. Độ lớn của sai số chuẩn của ước lượng

D. Giá trị dự báo trung bình của biến phụ thuộc

69. Trong thống kê suy luận, mục tiêu chính là gì?

A. Mô tả đặc điểm của mẫu dữ liệu đã thu thập

B. Đưa ra kết luận về tổng thể dựa trên thông tin từ mẫu

C. Trực quan hóa dữ liệu bằng biểu đồ

D. Tính toán các tham số của mẫu

70. Một nhà tuyển dụng sử dụng bài kiểm tra kỹ năng để đánh giá ứng viên cho một vị trí. Bài kiểm tra này cần có tính nhất quán trong các lần đo lường khác nhau để được coi là đáng tin cậy. Khái niệm này liên quan đến:

A. Độ giá trị (Validity)

B. Độ tin cậy (Reliability)

C. Tính khách quan (Objectivity)

D. Tính nhạy bén (Sensitivity)

71. Một nhà khoa học muốn kiểm tra xem một loại thuốc mới có hiệu quả hơn thuốc cũ trong việc giảm huyết áp hay không. Ông ta chia ngẫu nhiên 200 bệnh nhân cao huyết áp thành hai nhóm: nhóm dùng thuốc mới và nhóm dùng thuốc cũ. Sau một tháng, ông ta so sánh sự thay đổi huyết áp trung bình của hai nhóm. Đây là ví dụ về loại nghiên cứu nào?

A. Nghiên cứu quan sát (Observational study)

B. Nghiên cứu thực nghiệm (Experimental study)

C. Nghiên cứu cắt ngang (Cross-sectional study)

D. Nghiên cứu đoàn hệ (Cohort study)

72. Khi thực hiện phân tích hồi quy đa biến, việc sử dụng nhiều biến độc lập có thể dẫn đến vấn đề gì nếu các biến độc lập đó có mối tương quan mạnh với nhau?

A. Đa cộng tuyến (Multicollinearity)

B. Tự tương quan (Autocorrelation)

C. Dị sai số (Heteroscedasticity)

D. Phân phối chuẩn sai lệch

73. Hệ số tương quan Pearson (r) đo lường điều gì giữa hai biến định lượng?

A. Mối quan hệ nhân quả

B. Mức độ và hướng của mối quan hệ tuyến tính

C. Sự khác biệt về giá trị trung bình

D. Tỷ lệ biến thiên được giải thích bởi một biến khác

74. Khi nào thì phân phối mẫu của trung bình có xu hướng tiến gần đến phân phối chuẩn, bất kể hình dạng của phân phối tổng thể ban đầu?

A. Khi kích thước mẫu nhỏ

B. Khi kích thước mẫu lớn

C. Khi tổng thể có phân phối chuẩn

D. Khi dữ liệu có độ lệch cao

75. Khi so sánh hai trung bình mẫu độc lập, nếu giá trị p nhỏ hơn mức ý nghĩa alpha (ví dụ: 0.05), chúng ta sẽ:

A. Chấp nhận giả thuyết không

B. Bác bỏ giả thuyết không

C. Không đủ bằng chứng để kết luận

D. Tăng kích thước mẫu

76. Một nhà khoa học dữ liệu đang xây dựng mô hình dự đoán giá nhà. Ông ấy xem xét các yếu tố như diện tích, số phòng ngủ, vị trí, tuổi của ngôi nhà. Đây là một ví dụ về việc sử dụng phương pháp thống kê nào?

A. Kiểm định giả thuyết

B. Thống kê mô tả

C. Phân tích hồi quy

D. Lấy mẫu xác suất

77. Độ lệch chuẩn (standard deviation) là một thước đo về:

A. Giá trị trung tâm của tập dữ liệu

B. Sự phân tán hoặc biến động của các giá trị trong tập dữ liệu

C. Tần suất xuất hiện của mỗi giá trị

D. Mối quan hệ giữa hai biến số

78. Khi nào thì việc sử dụng trung vị (median) làm thước đo xu hướng trung tâm phù hợp hơn trung bình cộng (mean)?

A. Khi dữ liệu có phân phối đối xứng hoàn hảo

B. Khi dữ liệu có phân phối lệch trái (left-skewed)

C. Khi dữ liệu có các giá trị ngoại lệ (outliers)

D. Khi tất cả các giá trị trong tập dữ liệu là duy nhất

79. Một kỹ sư muốn kiểm tra xem liệu một vật liệu mới có độ bền kéo trung bình lớn hơn 100 MPa hay không. Giả thuyết không (H0) và giả thuyết đối (H1) cho kiểm định này là gì?

A. H0: μ = 100 MPa, H1: μ ≠ 100 MPa

B. H0: μ ≤ 100 MPa, H1: μ > 100 MPa

C. H0: μ ≥ 100 MPa, H1: μ < 100 MPa

D. H0: μ > 100 MPa, H1: μ ≤ 100 MPa

80. Trong một phân phối chuẩn (normal distribution), khoảng 95% dữ liệu sẽ nằm trong bao nhiêu độ lệch chuẩn so với giá trị trung bình?

A. 1 độ lệch chuẩn

B. 2 độ lệch chuẩn

C. 3 độ lệch chuẩn

D. 1.96 độ lệch chuẩn

81. Giả thuyết không (null hypothesis, H0) thường đại diện cho điều gì?

A. Luôn là một tuyên bố về sự khác biệt có ý nghĩa thống kê

B. Luôn là tuyên bố không có hiệu ứng, không khác biệt, hoặc không có mối quan hệ

C. Là giả định mà nhà nghiên cứu muốn chứng minh là đúng

D. Chỉ được chấp nhận khi có bằng chứng mạnh mẽ chống lại nó

82. Trong kiểm định Chi-bình phương (Chi-squared test) cho tính độc lập, giả thuyết không (H0) phát biểu rằng:

A. Có mối quan hệ tuyến tính mạnh mẽ giữa hai biến.

B. Hai biến là độc lập với nhau.

C. Giá trị trung bình của hai nhóm là khác nhau.

D. Tất cả các tần suất quan sát được bằng với tần suất kỳ vọng.

83. Trong thống kê mô tả, tần suất tích lũy (cumulative frequency) của một giá trị là gì?

A. Số lần xuất hiện của giá trị đó trong tập dữ liệu

B. Tổng số lần xuất hiện của tất cả các giá trị nhỏ hơn hoặc bằng giá trị đó

C. Tỷ lệ phần trăm của giá trị đó so với tổng số quan sát

D. Giá trị lớn nhất trong tập dữ liệu

84. Khi một phân phối có đuôi dài về phía bên phải (phân phối lệch phải), mối quan hệ giữa trung bình, trung vị và mốt thường là:

A. Trung bình > Trung vị > Mốt

B. Trung bình < Trung vị < Mốt

C. Trung bình = Trung vị = Mốt

D. Trung vị = Mốt < Trung bình

85. Trong lấy mẫu phi xác suất, phương pháp nào mô tả việc chọn các đối tượng dựa trên sự tiện lợi hoặc sẵn có?

A. Lấy mẫu ngẫu nhiên đơn giản (Simple random sampling)

B. Lấy mẫu phân tầng (Stratified sampling)

C. Lấy mẫu thuận tiện (Convenience sampling)

D. Lấy mẫu theo cụm (Cluster sampling)

86. Một nhà nghiên cứu muốn so sánh tỷ lệ thành công của hai phương pháp điều trị khác nhau. Ông ấy thu thập dữ liệu về số lượng bệnh nhân thành công và thất bại cho mỗi phương pháp. Phương pháp thống kê nào là phù hợp nhất?

A. Kiểm định t độc lập

B. Kiểm định Z cho hai tỷ lệ

C. Kiểm định Chi-bình phương

D. Phân tích hồi quy

87. Một nhà nghiên cứu muốn ước tính chiều cao trung bình của tất cả học sinh trung học ở một thành phố. Ông ấy chọn ngẫu nhiên 200 học sinh từ các trường khác nhau. Khoảng tin cậy 95% cho chiều cao trung bình là (165 cm, 175 cm). Điều này có nghĩa là gì?

A. 95% học sinh trong mẫu có chiều cao từ 165 cm đến 175 cm.

B. Có 95% khả năng chiều cao trung bình của tất cả học sinh trung học trong thành phố nằm trong khoảng từ 165 cm đến 175 cm.

C. 95% các khoảng tin cậy được tính từ các mẫu khác nhau sẽ chứa chiều cao trung bình thực tế của tổng thể.

D. Chiều cao trung bình của mẫu là 170 cm, và đây là giá trị chính xác.

88. Một nhà nghiên cứu kinh tế muốn xem xét mối quan hệ giữa chi tiêu quảng cáo và doanh thu. Ông thu thập dữ liệu trong 12 tháng. Phương pháp nào sau đây phù hợp để phân tích xu hướng và mối quan hệ giữa hai biến số này theo thời gian?

A. Phân tích hồi quy chuỗi thời gian (Time series regression analysis)

B. Kiểm định t độc lập

C. Phân tích phương sai

D. Kiểm định Chi-bình phương

89. Một nhà thống kê đang phân tích tỷ lệ cử tri ủng hộ một ứng cử viên trong một cuộc bầu cử sắp tới. Ông ấy đã khảo sát ngẫu nhiên 500 cử tri. Biến số ‘sự ủng hộ ứng cử viên’ (có/không) là ví dụ cho loại biến số nào?

A. Biến số liên tục

B. Biến số định lượng rời rạc

C. Biến số định tính danh nghĩa

D. Biến số định tính thứ bậc

90. Một nhà nghiên cứu muốn xác định xem có sự khác biệt có ý nghĩa thống kê về điểm thi giữa ba phương pháp giảng dạy khác nhau hay không. Phương pháp thống kê nào phù hợp nhất để phân tích dữ liệu này?

A. Kiểm định t độc lập (Independent samples t-test)

B. Phân tích phương sai một yếu tố (One-way ANOVA)

C. Hồi quy tuyến tính đơn giản

D. Kiểm định Chi-bình phương (Chi-squared test)

91. Một nhà nghiên cứu muốn so sánh hiệu quả của hai phương pháp giảng dạy khác nhau. Ông ta chia lớp học thành hai nhóm, mỗi nhóm được áp dụng một phương pháp. Sau đó, ông ta so sánh điểm trung bình của hai nhóm. Phương pháp thống kê phù hợp nhất để phân tích sự khác biệt này là gì?

A. Kiểm định t (t-test)

B. Phân tích tương quan

C. Hồi quy tuyến tính

D. Mốt

92. Một công ty khảo sát ý kiến khách hàng về mức độ hài lòng với sản phẩm mới. Khách hàng có thể chọn ‘Rất không hài lòng’, ‘Không hài lòng’, ‘Bình thường’, ‘Hài lòng’, ‘Rất hài lòng’. Loại dữ liệu này được phân loại là gì?

A. Định lượng rời rạc

B. Định lượng liên tục

C. Định tính danh nghĩa

D. Định tính thứ bậc (ordinal)

93. Trong phân tích dữ liệu định tính, phương pháp nào thường được sử dụng để xác định các chủ đề, mẫu hình hoặc ý nghĩa chung trong một lượng lớn văn bản hoặc ghi chép phỏng vấn?

A. Phân tích hồi quy

B. Phân tích nội dung (Content analysis)

C. Phân tích phương sai (ANOVA)

D. Kiểm định t (t-test)

94. Trong một mẫu ngẫu nhiên đơn giản, tại sao việc không sử dụng tất cả các đơn vị trong tổng thể lại là một đặc điểm chính?

A. Để đảm bảo tính đại diện cho mọi nhóm nhỏ trong tổng thể.

B. Để giảm chi phí, thời gian thu thập dữ liệu và có thể quản lý được.

C. Để có thể áp dụng các phương pháp thống kê suy luận phức tạp hơn.

D. Để tránh sai lệch do ảnh hưởng của các yếu tố bên ngoài.

95. Một nhà sinh vật học muốn nghiên cứu chiều dài trung bình của một loài cá ở một hồ. Ông ta bắt và đo 50 con cá. Giá trị trung bình ông ta tính được từ 50 con cá này được gọi là gì?

A. Tham số tổng thể (population parameter)

B. Thống kê mẫu (sample statistic)

C. Sai số chuẩn (standard error)

D. Ước lượng điểm (point estimate)

96. Một nhà khoa học đang phân tích kết quả của một thí nghiệm và nhận thấy rằng đường cong phân phối của dữ liệu có hình dạng chuông cân đối. Điều này cho thấy điều gì?

A. Dữ liệu có độ xiên lớn.

B. Dữ liệu có khả năng tuân theo phân phối chuẩn.

C. Dữ liệu có nhiều giá trị ngoại lai.

D. Dữ liệu có độ tập trung cao tại một điểm.

97. Một nhà nghiên cứu muốn ước lượng tỷ lệ người dân sử dụng mạng xã hội ở một thành phố. Ông ta chọn ngẫu nhiên 200 người từ danh sách cử tri. Nếu 70% trong số này cho biết họ sử dụng mạng xã hội, thì 70% này là gì?

A. Tham số tổng thể (population parameter)

B. Thống kê mẫu (sample statistic)

C. Khoảng tin cậy (confidence interval)

D. Sai số chuẩn (standard error)

98. Trong thống kê, ‘sai số lấy mẫu’ (sampling error) là gì?

A. Lỗi do người thu thập dữ liệu mắc phải.

B. Sự khác biệt giữa kết quả thu thập từ mẫu và kết quả thực tế của tổng thể do tính ngẫu nhiên của quá trình lấy mẫu.

C. Lỗi do sử dụng sai công thức thống kê.

D. Lỗi do mẫu không đại diện cho tổng thể.

99. Khi nào thì trung vị (median) là một thước đo tốt hơn trung bình cộng (mean) cho xu hướng trung tâm?

A. Khi dữ liệu có phân phối chuẩn và không có giá trị ngoại lai.

B. Khi dữ liệu có phân phối xiên hoặc có sự hiện diện của các giá trị ngoại lai.

C. Khi dữ liệu là định danh (nominal data).

D. Khi cần tính toán độ biến thiên của dữ liệu.

100. Trong phân tích dữ liệu, khái niệm ‘phân phối tần suất’ (frequency distribution) đề cập đến điều gì?

A. Mức độ biến thiên của dữ liệu.

B. Cách các giá trị khác nhau của một biến xuất hiện bao nhiêu lần trong một tập dữ liệu.

C. Mối quan hệ giữa hai biến.

D. Khả năng xảy ra của một sự kiện.

101. Khi nào thì phương pháp lấy mẫu phân tầng là phù hợp nhất để áp dụng?

A. Khi tổng thể có cấu trúc đồng nhất cao và ít biến động.

B. Khi mục tiêu là nghiên cứu sâu về một vài nhóm nhỏ riêng biệt trong tổng thể.

C. Khi các đơn vị trong tổng thể có sự biến động lớn giữa các nhóm nhưng tương đối đồng nhất trong mỗi nhóm.

D. Khi chi phí thu thập dữ liệu là yếu tố quan trọng nhất và cần nhanh chóng.

102. Khi nào thì mốt (mode) là một thước đo tốt cho xu hướng trung tâm của dữ liệu?

A. Khi dữ liệu có phân phối chuẩn.

B. Khi dữ liệu có nhiều giá trị ngoại lai.

C. Khi dữ liệu là định lượng và có một hoặc vài giá trị xuất hiện nhiều nhất.

D. Khi dữ liệu có phân phối xiên trái hoặc xiên phải.

103. Trong thống kê mô tả, đại lượng nào được sử dụng để đo lường mức độ biến thiên hoặc phân tán của dữ liệu xung quanh giá trị trung bình?

A. Trung vị

B. Mốt

C. Độ lệch chuẩn

D. Trung bình cộng

104. Khi nào thì ‘sai số phi lấy mẫu’ (non-sampling error) có thể trở nên nghiêm trọng hơn ‘sai số lấy mẫu’?

A. Khi kích thước mẫu rất lớn.

B. Khi phương pháp thu thập dữ liệu không chính xác hoặc có sai sót hệ thống (ví dụ: câu hỏi không rõ ràng, sai sót nhập liệu).

C. Khi tổng thể có độ biến thiên thấp.

D. Khi sử dụng phương pháp lấy mẫu ngẫu nhiên đơn.

105. Một nhà khoa học xã hội đang nghiên cứu thái độ của công chúng đối với một chính sách mới. Ông ta chia dân số thành các nhóm tuổi (18-25, 26-40, 41-60, trên 60) và lấy mẫu ngẫu nhiên từ mỗi nhóm. Đây là loại hình lấy mẫu nào?

A. Lấy mẫu ngẫu nhiên đơn

B. Lấy mẫu hệ thống

C. Lấy mẫu phân tầng

D. Lấy mẫu thuận tiện

106. Yếu tố nào sau đây có thể gây ra sai lệch trong kết quả thống kê nếu không được xử lý cẩn thận?

A. Tính ngẫu nhiên của mẫu

B. Sử dụng phương pháp lấy mẫu phi xác suất

C. Độ lớn của mẫu

D. Độ biến thiên của tổng thể

107. Trong phân tích thống kê, khái niệm ‘độ xiên’ (skewness) dùng để mô tả đặc điểm nào của phân phối dữ liệu?

A. Mức độ tập trung của dữ liệu quanh giá trị trung bình.

B. Sự đối xứng của phân phối dữ liệu quanh giá trị trung bình.

C. Khả năng dữ liệu tuân theo phân phối chuẩn.

D. Sự hiện diện của các giá trị ngoại lai.

108. Khi nào thì việc sử dụng ‘biến giả’ (dummy variable) là cần thiết trong phân tích hồi quy?

A. Khi biến độc lập là định lượng và có giá trị liên tục.

B. Khi biến phụ thuộc là định lượng và có giá trị liên tục.

C. Khi có biến độc lập là định tính (categorical) với hai hoặc nhiều hơn hai nhóm.

D. Khi muốn kiểm tra độ xiên của phân phối dữ liệu.

109. Giả sử bạn thực hiện kiểm định giả thuyết và nhận được giá trị p (p-value) rất nhỏ (ví dụ: 0.01). Điều này có ý nghĩa gì?

A. Giả thuyết không (null hypothesis) có khả năng đúng cao.

B. Kết quả quan sát được là rất khó xảy ra nếu giả thuyết không là đúng.

C. Cần tăng kích thước mẫu để có kết quả ý nghĩa.

D. Mối quan hệ giữa các biến là yếu.

110. Một nhà kinh tế muốn phân tích mối quan hệ giữa lạm phát và tỷ lệ thất nghiệp. Ông ta thu thập dữ liệu lịch sử và sử dụng phương pháp hồi quy tuyến tính. Biến nào có khả năng là biến phụ thuộc (dependent variable)?

A. Tỷ lệ thất nghiệp

B. Lạm phát

C. Cả lạm phát và tỷ lệ thất nghiệp đều có thể là biến phụ thuộc tùy theo giả thuyết.

D. Không thể xác định nếu không có thêm thông tin về giả thuyết.

111. Trong phân tích thống kê, khi nói đến ‘độ tin cậy’ của một ước lượng, điều này thường đề cập đến khía cạnh nào?

A. Tính chính xác tuyệt đối của ước lượng.

B. Khả năng ước lượng đó đúng với giá trị thực của tổng thể.

C. Tốc độ thu thập dữ liệu.

D. Độ phổ biến của phương pháp thống kê.

112. Trong thống kê suy luận, một khoảng tin cậy (confidence interval) cung cấp thông tin gì về tham số của tổng thể?

A. Một giá trị duy nhất ước lượng chính xác tham số tổng thể.

B. Một phạm vi các giá trị có khả năng chứa tham số tổng thể với một mức độ tin cậy nhất định.

C. Xác suất để một quan sát mới thuộc về tổng thể.

D. Tỷ lệ các giá trị trong mẫu lớn hơn giá trị trung bình.

113. Nếu một nghiên cứu sử dụng tất cả các đơn vị trong tổng thể để thu thập dữ liệu, phương pháp này được gọi là gì?

A. Lấy mẫu ngẫu nhiên đơn

B. Điều tra toàn bộ (Total survey)

C. Lấy mẫu theo cụm

D. Lấy mẫu phi xác suất

114. Giả sử bạn có một tập dữ liệu về chiều cao của 1000 người. Bạn tính được trung bình cộng là 165 cm và độ lệch chuẩn là 5 cm. Nếu bạn chọn ngẫu nhiên một người, khả năng cao nhất chiều cao của người đó sẽ nằm trong khoảng nào?

A. 160 cm đến 170 cm

B. 155 cm đến 175 cm

C. 150 cm đến 180 cm

D. 165 cm +/- 5 cm

115. Một nhà nghiên cứu muốn ước lượng tuổi trung bình của sinh viên tại một trường đại học lớn. Ông ta quyết định lấy mẫu ngẫu nhiên 100 sinh viên từ danh sách tất cả sinh viên. Phương pháp lấy mẫu này được gọi là gì?

A. Lấy mẫu hệ thống

B. Lấy mẫu theo cụm

C. Lấy mẫu ngẫu nhiên đơn

D. Lấy mẫu phân tầng

116. Một nhà thống kê đang xem xét dữ liệu về doanh thu bán hàng và chi phí quảng cáo của một công ty. Ông ta nhận thấy khi chi phí quảng cáo tăng thì doanh thu cũng có xu hướng tăng. Điều này cho thấy mối quan hệ gì?

A. Quan hệ nghịch biến

B. Quan hệ đồng biến

C. Không có mối quan hệ

D. Quan hệ ngẫu nhiên

117. Khi tiến hành một nghiên cứu, nếu mục tiêu là để suy luận về đặc điểm của một tổng thể lớn dựa trên thông tin từ một phần nhỏ của nó, chúng ta đang sử dụng lĩnh vực nào của thống kê?

A. Thống kê mô tả

B. Thống kê suy luận

C. Thống kê ứng dụng

D. Thống kê toán học

118. Khi thực hiện kiểm định giả thuyết, nếu chúng ta bác bỏ giả thuyết không (null hypothesis) một cách không chính xác, chúng ta đã mắc lỗi gì?

A. Lỗi loại II (Type II error)

B. Lỗi loại I (Type I error)

C. Sai số lấy mẫu

D. Sai số phi lấy mẫu

119. Trong phân tích hồi quy, hệ số tương quan (correlation coefficient) ‘r’ có giá trị bằng 1, điều này cho thấy điều gì về mối quan hệ giữa hai biến?

A. Không có mối quan hệ tuyến tính giữa hai biến.

B. Có mối quan hệ tuyến tính nghịch biến hoàn hảo.

C. Có mối quan hệ tuyến tính đồng biến hoàn hảo.

D. Có mối quan hệ phi tuyến tính mạnh mẽ.

120. Khi nào thì việc sử dụng sai số chuẩn của trung bình (standard error of the mean) là phù hợp?

A. Để đo lường sự biến thiên của từng điểm dữ liệu riêng lẻ.

B. Để ước lượng độ chính xác của trung bình mẫu như là một ước lượng cho trung bình tổng thể.

C. Để xác định giá trị lớn nhất trong tập dữ liệu.

D. Để tính toán hệ số tương quan giữa hai biến.

121. Một nhà tiếp thị muốn biết liệu chiến dịch quảng cáo mới có làm tăng doanh số bán hàng so với chiến dịch cũ hay không. Ông thu thập dữ liệu doanh số bán hàng trước và sau khi áp dụng chiến dịch mới. Phương pháp thống kê nào phù hợp để so sánh hai bộ dữ liệu phụ thuộc này?

A. Kiểm định t-test độc lập

B. Kiểm định Chi-square

C. Kiểm định t-test cặp đôi

D. Phân tích tương quan

122. Một nhà nghiên cứu muốn ước lượng chiều cao trung bình của học sinh trung học phổ thông tại một thành phố. Ông ấy chọn ngẫu nhiên 200 học sinh từ danh sách toàn bộ học sinh. Tập hợp 200 học sinh này được gọi là gì trong nghiên cứu thống kê?

A. Tổng thể

B. Tham số

C. Mẫu

D. Thống kê

123. Trong thống kê, ‘p-value’ (giá trị p) thường được sử dụng để đưa ra quyết định trong kiểm định giả thuyết. Nếu p-value nhỏ hơn mức ý nghĩa (alpha), kết luận thường là gì?

A. Chấp nhận giả thuyết null (H0)

B. Bác bỏ giả thuyết null (H0)

C. Không đủ bằng chứng để kết luận

D. Cần thêm dữ liệu

124. Độ lệch chuẩn (standard deviation) được dùng để đo lường điều gì trong một tập dữ liệu?

A. Xu hướng trung tâm của dữ liệu

B. Mức độ phân tán hoặc trải rộng của dữ liệu so với giá trị trung bình

C. Số lượng các giá trị ngoại lai

D. Tỷ lệ phần trăm dữ liệu nằm dưới một giá trị nhất định

125. Trong một phân tích hồi quy, nếu hệ số chặn (intercept) là 10 và hệ số góc (slope) là 2, điều này có nghĩa là gì?

A. Khi biến độc lập bằng 0, biến phụ thuộc có giá trị trung bình là 10.

B. Khi biến độc lập tăng 1 đơn vị, biến phụ thuộc tăng trung bình 2 đơn vị.

C. Khi biến phụ thuộc bằng 0, biến độc lập có giá trị trung bình là 10.

D. Cả hai câu 1 và 2 đều đúng.

126. Trong một nghiên cứu về mối quan hệ giữa số giờ học và điểm thi, người ta tính được hệ số tương quan Pearson là -0.85. Điều này cho thấy mối quan hệ gì?

A. Tương quan dương mạnh

B. Tương quan âm mạnh

C. Tương quan dương yếu

D. Tương quan âm yếu

127. Trong một phân tích hồi quy tuyến tính đơn giản, hệ số góc (slope) của đường hồi quy đại diện cho điều gì?

A. Giá trị trung bình của biến phụ thuộc

B. Giá trị của biến độc lập khi biến phụ thuộc bằng 0

C. Sự thay đổi trung bình trong biến phụ thuộc khi biến độc lập thay đổi một đơn vị

D. Mức độ tương quan giữa hai biến

128. Khi nào ta nên sử dụng trung vị (median) thay vì trung bình (mean) để mô tả xu hướng trung tâm của dữ liệu?

A. Khi dữ liệu có phân phối chuẩn

B. Khi dữ liệu có ít giá trị ngoại lai

C. Khi dữ liệu có phân phối bất đối xứng hoặc có giá trị ngoại lai

D. Khi dữ liệu là định lượng liên tục

129. Khi một phân phối dữ liệu bị lệch phải (positively skewed), điều gì xảy ra với mối quan hệ giữa trung bình (mean), trung vị (median) và yếu vị (mode)?

A. Mean < Median < Mode

B. Mode < Median < Mean

C. Mean < Mode < Median

D. Mode = Median = Mean

130. Một nhà thống kê muốn kiểm định xem liệu có sự khác biệt có ý nghĩa thống kê về tỷ lệ người ủng hộ một ứng cử viên giữa hai thành phố khác nhau hay không. Ông thu thập dữ liệu về số người ủng hộ và không ủng hộ ở mỗi thành phố. Phương pháp kiểm định nào phù hợp nhất?

A. Kiểm định t-test độc lập

B. Phân tích phương sai (ANOVA)

C. Kiểm định Chi-square cho bảng tần số liên hợp

D. Phân tích hồi quy

131. Khi phân tích dữ liệu về thu nhập hàng tháng của các hộ gia đình, người ta sử dụng giá trị trung bình (mean) để mô tả xu hướng trung tâm. Tuy nhiên, nếu có một vài hộ gia đình có thu nhập rất cao, giá trị trung bình có thể bị ‘kéo’ về phía giá trị cao đó. Trường hợp này, yếu tố nào ảnh hưởng đến giá trị trung bình?

A. Độ lệch chuẩn

B. Tính bất đối xứng (skewness)

C. Độ biến thiên

D. Tần suất xuất hiện

132. Một nhà nghiên cứu muốn so sánh hiệu quả của ba loại phân bón khác nhau đối với sự tăng trưởng của cây trồng. Ông chia một mảnh đất thành 12 ô nhỏ, mỗi loại phân bón được áp dụng cho 4 ô. Sau một thời gian, ông đo lường chiều cao của cây trồng. Phương pháp thống kê nào phù hợp nhất để phân tích dữ liệu này?

A. Kiểm định t-test cặp đôi

B. Phân tích hồi quy

C. Kiểm định Chi-square

D. Phân tích phương sai (ANOVA)

133. Trong phân phối Poisson, tham số lambda (λ) đại diện cho điều gì?

A. Độ lệch chuẩn

B. Xác suất thành công trong một lần thử

C. Tỷ lệ xuất hiện trung bình của một sự kiện trong một khoảng thời gian hoặc không gian nhất định

D. Số lần thử

134. Một nhà nghiên cứu xã hội muốn so sánh mức độ hài lòng với công việc giữa ba nhóm nghề nghiệp khác nhau (ví dụ: giáo viên, kỹ sư, nhân viên văn phòng). Ông thu thập dữ liệu về mức độ hài lòng (thang điểm từ 1 đến 5) của mỗi nhóm. Phương pháp thống kê nào phù hợp nhất để kiểm tra xem có sự khác biệt có ý nghĩa thống kê về mức độ hài lòng giữa ba nhóm này không?

A. Kiểm định t-test cặp đôi

B. Kiểm định Chi-square

C. Phân tích phương sai (ANOVA)

D. Kiểm định Z

135. Trong thống kê, ‘tổng thể’ (population) đề cập đến điều gì?

A. Tập hợp tất cả các cá thể hoặc đơn vị có cùng đặc điểm mà chúng ta quan tâm.

B. Tập hợp con được chọn từ một nhóm lớn hơn để nghiên cứu.

C. Các giá trị được tính toán từ dữ liệu mẫu.

D. Các kết quả cuối cùng của một phân tích thống kê.

136. Một nhà thống kê muốn kiểm định giả thuyết rằng không có sự khác biệt về tỷ lệ cử tri ủng hộ ứng cử viên A giữa nam và nữ. Ông thu thập dữ liệu và tính toán giá trị p. Nếu giá trị p = 0.02 và mức ý nghĩa alpha là 0.05, kết luận nào là đúng?

A. Chấp nhận giả thuyết null rằng không có sự khác biệt.

B. Bác bỏ giả thuyết null rằng không có sự khác biệt, chấp nhận có sự khác biệt.

C. Không đủ bằng chứng để kết luận.

D. Cần kiểm định lại.

137. Một nhà thống kê muốn ước lượng khoảng tin cậy cho chiều cao trung bình của nam giới trưởng thành ở một quốc gia. Ông lấy một mẫu ngẫu nhiên và tính toán được khoảng tin cậy 95%. Điều này có nghĩa là gì?

A. Có 95% khả năng chiều cao trung bình của mẫu nằm trong khoảng này.

B. Có 95% khả năng chiều cao trung bình của tổng thể nằm trong khoảng này.

C. Nếu lặp lại quy trình lấy mẫu nhiều lần, 95% các khoảng tin cậy sẽ chứa giá trị trung bình của tổng thể.

D. Chỉ có 5% khả năng chiều cao trung bình của tổng thể nằm ngoài khoảng này.

138. Trong một cuộc khảo sát về sở thích đọc sách, người ta thu thập được các dữ liệu về thể loại sách yêu thích của 1000 người. Dữ liệu này thuộc loại nào trong thống kê mô tả?

A. Dữ liệu định lượng rời rạc

B. Dữ liệu định tính

C. Dữ liệu định lượng liên tục

D. Dữ liệu thứ bậc

139. Một nhà sinh vật học muốn xem xét liệu có mối liên hệ giữa nhiệt độ môi trường và số lượng côn trùng hoạt động hay không. Ông thu thập dữ liệu về nhiệt độ và đếm số lượng côn trùng trong các khoảng thời gian khác nhau. Nếu ông phát hiện ra rằng khi nhiệt độ tăng, số lượng côn trùng cũng có xu hướng tăng, điều này cho thấy mối quan hệ gì?

A. Tương quan âm

B. Tương quan dương

C. Không có tương quan

D. Tương quan phi tuyến

140. Một nhà khoa học đang nghiên cứu mối quan hệ giữa liều lượng thuốc và hiệu quả giảm đau. Ông thu thập dữ liệu về liều lượng thuốc (biến độc lập) và mức độ giảm đau báo cáo bởi bệnh nhân (biến phụ thuộc). Ông muốn đo lường mức độ thay đổi trong hiệu quả giảm đau khi liều lượng thuốc thay đổi. Phương pháp thống kê nào phù hợp nhất cho việc này?

A. Kiểm định t-test

B. Phân tích tương quan

C. Hồi quy tuyến tính

D. ANOVA

141. Khi tính toán hệ số tương quan Pearson (r) giữa hai biến định lượng, giá trị của ‘r’ nằm trong khoảng nào?

A. Từ 0 đến 1

B. Từ -1 đến 1

C. Từ -∞ đến +∞

D. Chỉ có giá trị dương

142. Trong một bài kiểm tra thống kê, nhà nghiên cứu muốn xác định xem có sự khác biệt có ý nghĩa thống kê về điểm trung bình giữa hai nhóm sinh viên (nhóm học thêm và nhóm không học thêm). Phương pháp kiểm định nào nên được sử dụng?

A. Kiểm định Chi-square

B. Kiểm định t-test độc lập

C. Phân tích phương sai (ANOVA)

D. Kiểm định Wilcoxon rank-sum

143. Khi phân tích dữ liệu định tính, ta thường sử dụng biểu đồ nào để biểu diễn tần suất xuất hiện của các danh mục khác nhau?

A. Biểu đồ tần suất (Histogram)

B. Biểu đồ phân tán (Scatter plot)

C. Biểu đồ cột (Bar chart)

D. Biểu đồ hộp (Box plot)

144. Một nhà tiếp thị muốn đánh giá hiệu quả của hai thông điệp quảng cáo khác nhau trên cùng một nhóm khách hàng. Ông cho mỗi khách hàng xem một thông điệp và ghi lại phản hồi. Đây là một ví dụ về thiết kế nghiên cứu nào?

A. Thiết kế mẫu độc lập

B. Thiết kế mẫu cặp đôi (paired sample design)

C. Thiết kế phân nhóm ngẫu nhiên

D. Thiết kế cắt ngang

145. Một nhà khoa học muốn kiểm định xem có sự khác biệt có ý nghĩa thống kê về hiệu quả của ba loại thuốc giảm đau khác nhau hay không. Ông chia bệnh nhân thành ba nhóm, mỗi nhóm nhận một loại thuốc. Sau đó, ông đo lường mức độ giảm đau của mỗi bệnh nhân. Phương pháp nào phù hợp nhất để phân tích dữ liệu này?

A. Kiểm định t-test độc lập

B. Kiểm định Chi-square

C. Phân tích phương sai (ANOVA)

D. Phân tích tương quan

146. Một nhà kinh tế học muốn phân tích xem có mối liên hệ thống kê nào giữa tỷ lệ thất nghiệp và tỷ lệ lạm phát trong một quốc gia hay không. Dữ liệu được thu thập qua nhiều năm. Phương pháp thống kê nào có thể giúp xác định và đo lường mối liên hệ này?

A. Phân tích phương sai (ANOVA)

B. Phân tích tương quan

C. Kiểm định Chi-square

D. Kiểm định Z

147. Khi thực hiện kiểm định giả thuyết, ‘sai lầm loại I’ (Type I error) xảy ra khi nào?

A. Bác bỏ giả thuyết null (H0) khi H0 đúng

B. Chấp nhận giả thuyết null (H0) khi H0 sai

C. Bác bỏ giả thuyết null (H0) khi H0 sai

D. Chấp nhận giả thuyết null (H0) khi H0 đúng

148. Một nhà thống kê muốn ước lượng khoảng tin cậy cho tỷ lệ doanh số bán hàng thành công của một sản phẩm mới. Ông lấy một mẫu gồm 500 giao dịch và thu được tỷ lệ thành công là 0.6. Khoảng tin cậy 95% cho tỷ lệ này có ý nghĩa gì?

A. Có 95% khả năng tỷ lệ thành công của mẫu là 0.6.

B. Có 95% khả năng tỷ lệ thành công thực sự của tổng thể nằm trong khoảng tin cậy đã tính.

C. Nếu lặp lại quy trình lấy mẫu, 95% các tỷ lệ mẫu sẽ nằm trong khoảng này.

D. Chỉ có 5% khả năng tỷ lệ thành công thực sự của tổng thể nằm trong khoảng tin cậy.

149. Trong một phân tích hồi quy, hệ số xác định (R-squared) cho biết điều gì?

A. Tỷ lệ phần trăm sai số trong mô hình

B. Tỷ lệ phần trăm sự biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình

C. Sức mạnh của mối quan hệ tuyến tính giữa hai biến

D. Mức độ ý nghĩa thống kê của các hệ số hồi quy

150. Trong phân phối chuẩn (normal distribution), phần lớn dữ liệu tập trung ở đâu?

A. Ở hai đầu của phân phối

B. Xung quanh giá trị trung bình (mean)

C. Ở các giá trị cực trị

D. Phân bố đều trên toàn bộ phạm vi

HƯỚNG DẪN TÌM MẬT KHẨU