1. Trong Pandas, phương pháp nào được sử dụng để chuẩn hóa dữ liệu trong một cột về một khoảng giá trị nhất định, ví dụ [0, 1]?
A. standardize()
B. normalize()
C. scale()
D. Cần kết hợp các phép toán số học để thực hiện chuẩn hóa
2. Hàm nào trong Pandas được sử dụng để tính toán các thống kê mô tả (descriptive statistics) cho một DataFrame, chẳng hạn như trung bình, độ lệch chuẩn, giá trị lớn nhất, giá trị nhỏ nhất?
A. calculate()
B. describe()
C. statistics()
D. summary()
3. Trong Pandas, làm thế nào để tính tổng của tất cả các giá trị trong một cột của DataFrame?
A. Sử dụng hàm sum()
B. Sử dụng hàm total()
C. Sử dụng hàm add()
D. Sử dụng hàm calculate_sum()
4. Khi làm việc với dữ liệu dạng chuỗi trong Pandas Series, phương thức nào cho phép bạn trích xuất các phần của chuỗi dựa trên một mẫu regular expression?
A. extract()
B. match()
C. findall()
D. replace()
5. Trong Pandas, làm thế nào để đổi tên các cột của một DataFrame?
A. Sử dụng hàm rename()
B. Sử dụng hàm change_name()
C. Gán trực tiếp cho DataFrame.columns
D. Cả A và C
6. Phương pháp nào sau đây là phù hợp nhất để xử lý các giá trị bị thiếu (missing values) trong một tập dữ liệu Pandas?
A. Loại bỏ toàn bộ tập dữ liệu
B. Thay thế bằng một giá trị mặc định hoặc giá trị thống kê (ví dụ: trung bình, trung vị)
C. Giữ nguyên các giá trị bị thiếu
D. Chuyển đổi sang kiểu dữ liệu khác
7. Hàm nào trong Pandas được sử dụng để áp dụng một hàm (function) cho từng phần tử trong một Series hoặc DataFrame?
A. apply()
B. map()
C. transform()
D. iterate()
8. Trong Pandas, hàm nào được sử dụng để lọc các hàng trong DataFrame dựa trên một điều kiện cho trước?
A. sort()
B. filter()
C. query()
D. select()
9. Trong Pandas, làm thế nào để chuyển đổi một cột có kiểu dữ liệu không phù hợp (ví dụ: chuỗi) sang kiểu dữ liệu số (ví dụ: số nguyên hoặc số thực)?
A. Sử dụng hàm convert()
B. Sử dụng hàm astype()
C. Sử dụng hàm changeType()
D. Không thể chuyển đổi kiểu dữ liệu của cột
10. Phương pháp nào trong Pandas được sử dụng để loại bỏ các hàng hoặc cột bị trùng lặp trong DataFrame?
A. drop()
B. remove()
C. drop_duplicates()
D. delete()
11. Trong Pandas, thao tác nào được sử dụng để kết hợp hai DataFrame dựa trên một hoặc nhiều cột chung?
A. concat()
B. merge()
C. append()
D. join()
12. Trong Pandas, hàm nào được sử dụng để chuyển đổi một DataFrame từ định dạng ‘wide’ sang định dạng ‘long’?
A. melt()
B. pivot()
C. stack()
D. unstack()
13. Trong Pandas, phương pháp nào cho phép bạn nhóm các hàng trong DataFrame dựa trên giá trị của một hoặc nhiều cột, sau đó thực hiện các phép tính trên mỗi nhóm?
A. group()
B. aggregate()
C. groupBy()
D. groupby()
14. Trong ngôn ngữ lập trình Python, thư viện nào thường được sử dụng để làm việc với dữ liệu dạng bảng, cung cấp cấu trúc dữ liệu DataFrame?
A. NumPy
B. SciPy
C. Pandas
D. Matplotlib
15. Khi đọc một file CSV vào Pandas DataFrame, tham số nào cho phép bạn chỉ định cột nào sẽ được sử dụng làm index?
A. header
B. index_col
C. usecols
D. dtype
16. Trong Pandas, thuộc tính nào trả về một tuple đại diện cho số lượng hàng và cột của DataFrame?
A. size
B. shape
C. length
D. dimension
17. Phương thức nào trong Pandas được sử dụng để tạo ra một Series mới từ việc áp dụng một hàm lên các hàng hoặc cột của DataFrame?
A. applymap()
B. map()
C. apply()
D. transform()
18. Trong Pandas, hàm nào được sử dụng để đọc dữ liệu từ một file Excel?
A. read_excel()
B. read_csv()
C. read_table()
D. read_html()
19. Trong Pandas, làm thế nào để sắp xếp một DataFrame theo một hoặc nhiều cột?
A. Sử dụng hàm sort()
B. Sử dụng hàm order()
C. Sử dụng hàm sort_values()
D. Sử dụng hàm arrange()
20. Trong Pandas, khi bạn muốn tạo một bản sao (copy) của DataFrame, sự khác biệt giữa shallow copy và deep copy là gì?
A. Shallow copy tạo ra một đối tượng mới nhưng vẫn tham chiếu đến dữ liệu gốc, deep copy tạo ra một đối tượng mới và sao chép toàn bộ dữ liệu
B. Shallow copy tạo ra một đối tượng mới và sao chép toàn bộ dữ liệu, deep copy tạo ra một đối tượng mới nhưng vẫn tham chiếu đến dữ liệu gốc
C. Không có sự khác biệt giữa shallow copy và deep copy
D. Shallow copy nhanh hơn deep copy
21. Khi làm việc với chuỗi thời gian (time series) trong Pandas, đối tượng nào được sử dụng để biểu diễn một điểm thời gian cụ thể?
A. Timestamp
B. TimeDelta
C. Period
D. Interval
22. Trong Pandas, làm thế nào để truy cập vào một phần tử cụ thể trong DataFrame bằng cách sử dụng nhãn hàng và tên cột?
A. Sử dụng phương thức .iloc[]
B. Sử dụng phương thức .loc[]
C. Sử dụng phương thức .ix[]
D. Truy cập trực tiếp bằng DataFrame[row, column]
23. Trong Pandas, hàm nào được sử dụng để tạo ra một Series chứa các số ngẫu nhiên theo một phân phối nhất định?
A. np.random.rand()
B. pd.Series.rand()
C. np.random.series()
D. pd.Series() kết hợp với hàm ngẫu nhiên từ NumPy
24. Trong Pandas, làm thế nào để tính khoảng thời gian giữa hai ngày (date) hoặc hai thời điểm (time)?
A. Sử dụng đối tượng Timestamp
B. Sử dụng đối tượng TimeDelta
C. Sử dụng đối tượng Period
D. Sử dụng đối tượng Interval
25. Khi làm việc với dữ liệu lớn trong Pandas, phương pháp nào giúp giảm thiểu việc sử dụng bộ nhớ bằng cách đọc dữ liệu theo từng phần?
A. Sử dụng toàn bộ dữ liệu cùng lúc
B. Chunking (đọc theo từng phần)
C. Nén dữ liệu
D. Xóa dữ liệu không cần thiết
26. Đâu là mục đích chính của việc sử dụng pivot table trong Pandas?
A. Để tạo ra các biểu đồ trực quan
B. Để thay đổi cấu trúc DataFrame, tổng hợp dữ liệu dựa trên các cột và hàng được chỉ định
C. Để lọc dữ liệu dựa trên điều kiện
D. Để nối hai DataFrame lại với nhau
27. Trong Pandas, khi muốn kiểm tra xem một DataFrame có chứa bất kỳ giá trị NaN (Not a Number) nào hay không, bạn sử dụng phương thức nào?
A. isnull()
B. isna()
C. notnull()
D. Cả A và B
28. Khi thực hiện phép nối (join) hai DataFrame trong Pandas, kiểu nối nào giữ lại tất cả các hàng từ cả hai DataFrame, điền NaN vào các giá trị bị thiếu?
A. Inner join
B. Left join
C. Right join
D. Outer join
29. Đâu là lợi ích chính của việc sử dụng Categorical data type trong Pandas?
A. Tiết kiệm bộ nhớ và tăng hiệu suất tính toán
B. Tăng độ chính xác của dữ liệu
C. Dễ dàng thực hiện các phép toán số học
D. Cải thiện khả năng đọc của dữ liệu
30. Trong Pandas, phương pháp nào được sử dụng để thay thế một giá trị cụ thể trong DataFrame bằng một giá trị khác?
A. change()
B. replace()
C. update()
D. modify()
31. Trong khai phá dữ liệu, thuật ngữ ‘outlier’ (ngoại lệ) đề cập đến điều gì?
A. Một thuộc tính quan trọng trong dữ liệu
B. Một giá trị bất thường so với phần lớn dữ liệu
C. Một phương pháp làm sạch dữ liệu
D. Một thuật toán khai phá dữ liệu
32. Trong khai phá dữ liệu, ‘cross-validation’ (kiểm định chéo) là gì?
A. Một phương pháp làm sạch dữ liệu
B. Một kỹ thuật đánh giá mô hình bằng cách chia dữ liệu thành nhiều phần và huấn luyện mô hình trên các phần khác nhau
C. Một phương pháp chuyển đổi dữ liệu
D. Một thuật toán khai phá dữ liệu
33. Trong khai phá dữ liệu, ‘feature selection’ (lựa chọn đặc trưng) là gì?
A. Quá trình làm sạch dữ liệu
B. Quá trình chọn ra các thuộc tính quan trọng nhất từ tập dữ liệu
C. Quá trình chuyển đổi dữ liệu sang định dạng khác
D. Quá trình giảm số lượng bản ghi trong tập dữ liệu
34. Thuật toán Apriori được sử dụng để làm gì trong khai phá dữ liệu?
A. Phân cụm dữ liệu
B. Phân loại dữ liệu
C. Tìm luật kết hợp
D. Giảm chiều dữ liệu
35. Thuật toán nào sau đây thường được sử dụng để xây dựng mô hình dự đoán?
A. K-means
B. Apriori
C. Decision Tree
D. PCA
36. Trong ngôn ngữ Python, thư viện nào thường được sử dụng để trực quan hóa dữ liệu?
A. NumPy
B. Pandas
C. Matplotlib
D. Scikit-learn
37. Thuật toán nào sau đây thường được sử dụng để phân loại văn bản?
A. K-means
B. Apriori
C. Naive Bayes
D. PCA
38. Thuật toán nào sau đây được sử dụng để giảm chiều dữ liệu bằng cách tìm các thành phần chính?
A. Linear Regression
B. K-means
C. Decision Tree
D. Principal Component Analysis (PCA)
39. Thuật toán DBSCAN được sử dụng để làm gì trong khai phá dữ liệu?
A. Phân cụm dữ liệu dựa trên mật độ
B. Phân loại dữ liệu
C. Tìm luật kết hợp
D. Giảm chiều dữ liệu
40. Đâu là một thách thức khi làm việc với dữ liệu không cân bằng (imbalanced data)?
A. Mô hình có xu hướng dự đoán sai lớp thiểu số
B. Dữ liệu không đủ lớn
C. Dữ liệu quá phức tạp
D. Dữ liệu bị thiếu
41. Đâu là một thách thức khi làm việc với dữ liệu dạng văn bản?
A. Dữ liệu thường không có cấu trúc
B. Dữ liệu thường quá lớn
C. Dữ liệu thường bị thiếu
D. Tất cả các đáp án trên
42. Đâu là một thách thức lớn khi làm việc với dữ liệu lớn (Big Data)?
A. Dung lượng lưu trữ
B. Tốc độ xử lý
C. Độ phức tạp của dữ liệu
D. Tất cả các đáp án trên
43. Phương pháp nào sau đây có thể được sử dụng để xử lý dữ liệu bị thiếu?
A. Loại bỏ các bản ghi chứa giá trị bị thiếu
B. Điền giá trị trung bình hoặc trung vị vào các giá trị bị thiếu
C. Sử dụng một mô hình dự đoán để ước tính các giá trị bị thiếu
D. Tất cả các đáp án trên
44. Trong khai phá dữ liệu, thuật ngữ ‘data warehouse’ (kho dữ liệu) đề cập đến điều gì?
A. Một loại cơ sở dữ liệu đặc biệt được tối ưu hóa cho việc phân tích và báo cáo
B. Một công cụ để làm sạch dữ liệu
C. Một thuật toán khai phá dữ liệu
D. Một ngôn ngữ lập trình
45. Trong khai phá dữ liệu, ‘data transformation’ (chuyển đổi dữ liệu) là gì?
A. Quá trình làm sạch dữ liệu
B. Quá trình thay đổi định dạng hoặc cấu trúc của dữ liệu
C. Quá trình chọn ra các thuộc tính quan trọng nhất từ tập dữ liệu
D. Quá trình giảm số lượng bản ghi trong tập dữ liệu
46. Trong khai phá dữ liệu, mục đích của việc ‘data integration’ (tích hợp dữ liệu) là gì?
A. Tăng kích thước của dữ liệu
B. Kết hợp dữ liệu từ nhiều nguồn khác nhau vào một kho dữ liệu thống nhất
C. Làm sạch dữ liệu
D. Giảm số lượng thuộc tính của dữ liệu
47. Trong khai phá dữ liệu, ‘overfitting’ (quá khớp) là gì?
A. Mô hình hoạt động quá chậm
B. Mô hình học quá tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu mới
C. Mô hình không học được gì từ dữ liệu
D. Mô hình luôn dự đoán sai
48. Thuật toán nào sau đây là một phương pháp phân cụm dữ liệu?
A. Linear Regression
B. K-means
C. Decision Tree
D. Support Vector Machine
49. Phương pháp nào sau đây được sử dụng để tìm các mối quan hệ giữa các mục trong một tập dữ liệu?
A. Phân cụm (Clustering)
B. Phân loại (Classification)
C. Khai thác luật kết hợp (Association Rule Mining)
D. Hồi quy (Regression)
50. Trong khai phá dữ liệu, thuật ngữ ‘confidence’ (độ tin cậy) trong khai thác luật kết hợp đề cập đến điều gì?
A. Tần suất xuất hiện của một tập mục trong tập dữ liệu
B. Xác suất một mục xuất hiện trong giao dịch khi giao dịch đó đã chứa một mục khác
C. Độ nâng của một luật kết hợp
D. Số lượng thuộc tính trong tập dữ liệu
51. Trong khai phá dữ liệu, mục đích của việc phân chia dữ liệu thành tập huấn luyện và tập kiểm tra là gì?
A. Để tăng kích thước của dữ liệu
B. Để đánh giá hiệu quả của mô hình trên dữ liệu chưa thấy
C. Để làm sạch dữ liệu
D. Để giảm số lượng thuộc tính của dữ liệu
52. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực y tế?
A. Dự đoán rủi ro bệnh tật của bệnh nhân
B. Tối ưu hóa chuỗi cung ứng
C. Phân tích tình cảm khách hàng
D. Phát hiện gian lận tài chính
53. Trong khai phá dữ liệu, mục đích của việc ‘data reduction’ (giảm dữ liệu) là gì?
A. Tăng kích thước của dữ liệu
B. Giảm kích thước của dữ liệu bằng cách loại bỏ các thuộc tính hoặc bản ghi không cần thiết
C. Làm sạch dữ liệu
D. Chuyển đổi dữ liệu sang định dạng khác
54. Đâu là một ví dụ về ứng dụng của khai phá dữ liệu trong lĩnh vực tài chính?
A. Dự đoán xu hướng thị trường chứng khoán
B. Tối ưu hóa chuỗi cung ứng
C. Phân tích tình cảm khách hàng
D. Phát hiện gian lận trong bảo hiểm
55. Phương pháp nào sau đây được sử dụng để giảm số lượng chiều của dữ liệu trong khai phá dữ liệu?
A. Chuẩn hóa dữ liệu
B. Rời rạc hóa dữ liệu
C. Giảm chiều dữ liệu
D. Làm sạch dữ liệu
56. Trong khai phá dữ liệu, ‘feature engineering’ (kỹ thuật đặc trưng) là gì?
A. Quá trình làm sạch dữ liệu
B. Quá trình tạo ra các thuộc tính mới từ các thuộc tính hiện có
C. Quá trình chọn ra các thuộc tính quan trọng nhất từ tập dữ liệu
D. Quá trình giảm số lượng bản ghi trong tập dữ liệu
57. Trong khai phá dữ liệu, thuật ngữ ‘support’ (độ hỗ trợ) trong khai thác luật kết hợp đề cập đến điều gì?
A. Tần suất xuất hiện của một tập mục trong tập dữ liệu
B. Độ tin cậy của một luật kết hợp
C. Độ nâng của một luật kết hợp
D. Số lượng thuộc tính trong tập dữ liệu
58. Trong ngôn ngữ lập trình Python, thư viện nào thường được sử dụng để làm việc với dữ liệu dạng bảng?
A. NumPy
B. Pandas
C. Matplotlib
D. Scikit-learn
59. Trong khai phá dữ liệu, mục đích của việc ‘data cleaning’ (làm sạch dữ liệu) là gì?
A. Tăng kích thước của dữ liệu
B. Loại bỏ hoặc sửa chữa các giá trị bị thiếu, nhiễu hoặc không nhất quán
C. Chuyển đổi dữ liệu sang định dạng khác
D. Giảm số lượng thuộc tính của dữ liệu
60. Phương pháp nào sau đây có thể được sử dụng để đánh giá hiệu quả của một mô hình phân loại?
A. Mean Squared Error
B. Accuracy
C. Root Mean Squared Error
D. R-squared
61. Trong Python, hàm `filter()` được sử dụng để làm gì?
A. Để áp dụng một hàm cho mỗi phần tử của một iterable
B. Để lọc các phần tử từ một iterable dựa trên một điều kiện
C. Để giảm một iterable thành một giá trị duy nhất
D. Để sắp xếp một iterable
62. Trong Python, làm thế nào để bạn kiểm tra xem một biến có phải là một thể hiện của một lớp cụ thể không?
A. Sử dụng toán tử ==
B. Sử dụng hàm type()
C. Sử dụng hàm isinstance()
D. Sử dụng hàm typeof()
63. Trong Python, kiểu dữ liệu nào là bất biến (immutable)?
A. List
B. Dictionary
C. Set
D. Tuple
64. Trong Python, làm thế nào để bạn viết một docstring cho một hàm?
A. # Đây là một docstring
B. // Đây là một docstring
C. ”’Đây là một docstring”’
D. /* Đây là một docstring */
65. Trong Python, ngoại lệ (exception) nào được ném ra khi bạn cố gắng truy cập một chỉ mục không tồn tại trong danh sách?
A. TypeError
B. ValueError
C. IndexError
D. KeyError
66. Trong Python, toán tử `%` được sử dụng để làm gì?
A. Phép chia
B. Phép nhân
C. Phép lấy phần dư (modulo)
D. Phép lũy thừa
67. Trong Python, hàm `zip()` được sử dụng để làm gì?
A. Để nén các tệp
B. Để giải nén các tệp
C. Để kết hợp các phần tử từ nhiều iterable thành các tuple
D. Để sắp xếp các iterable
68. Trong Python, phương thức nào được sử dụng để thêm một phần tử vào cuối danh sách?
A. insert()
B. append()
C. extend()
D. add()
69. Trong Python, phương thức `__init__` trong một lớp được sử dụng để làm gì?
A. Để tạo một đối tượng mới của lớp
B. Để khởi tạo các thuộc tính của đối tượng khi nó được tạo
C. Để xóa một đối tượng
D. Để gọi một phương thức khác trong lớp
70. Trong Python, phương thức nào được sử dụng để loại bỏ tất cả các khoảng trắng ở đầu và cuối chuỗi?
A. replace()
B. strip()
C. split()
D. join()
71. Trong Python, hàm `map()` được sử dụng để làm gì?
A. Để lọc các phần tử từ một iterable
B. Để áp dụng một hàm cho mỗi phần tử của một iterable và trả về một iterator
C. Để giảm một iterable thành một giá trị duy nhất
D. Để sắp xếp một iterable
72. Trong Python, kiểu dữ liệu nào được sử dụng để lưu trữ một chuỗi các ký tự Unicode?
A. bytes
B. str
C. int
D. char
73. Trong Python, module nào cung cấp các hàm để làm việc với biểu thức chính quy (regular expressions)?
A. os
B. re
C. math
D. datetime
74. Trong Python, điều gì xảy ra nếu bạn cố gắng chia một số cho 0?
A. Chương trình tiếp tục chạy mà không có lỗi
B. Một ngoại lệ ZeroDivisionError được ném ra
C. Kết quả là vô cực (infinity)
D. Kết quả là NaN (Not a Number)
75. Trong Python, phương thức `pop()` trong danh sách làm gì?
A. Thêm một phần tử vào cuối danh sách
B. Xóa phần tử cuối cùng của danh sách
C. Xóa một phần tử tại một vị trí cụ thể và trả về nó
D. Đảo ngược danh sách
76. Trong Python, cú pháp nào được sử dụng để tạo một list comprehension?
A. {x for x in iterable}
B. (x for x in iterable)
C. [x for x in iterable]
D. x for x in iterable
77. Trong Python, hàm nào được sử dụng để mở một tệp để đọc?
A. open(‘filename’, ‘w’)
B. open(‘filename’, ‘a’)
C. open(‘filename’, ‘r’)
D. open(‘filename’, ‘x’)
78. Trong Python, cấu trúc dữ liệu nào lưu trữ các phần tử theo cặp ‘key: value’?
A. List
B. Tuple
C. Dictionary
D. Set
79. Trong Python, module `json` được sử dụng để làm gì?
A. Để làm việc với các tệp CSV
B. Để làm việc với dữ liệu JSON
C. Để làm việc với cơ sở dữ liệu
D. Để làm việc với hình ảnh
80. Trong ngôn ngữ lập trình Python, thư viện nào thường được sử dụng để làm việc với các mảng đa chiều một cách hiệu quả?
A. Math
B. Numpy
C. Pandas
D. Scipy
81. Trong Python, vòng lặp `for` thường được sử dụng để làm gì?
A. Lặp lại một khối mã cho đến khi một điều kiện sai
B. Lặp lại một khối mã một số lần cố định
C. Lặp lại qua các phần tử của một chuỗi, danh sách hoặc tuple
D. Thực hiện một khối mã chỉ một lần
82. Trong Python, mục đích của câu lệnh `try…except` là gì?
A. Để định nghĩa một hàm
B. Để xử lý các ngoại lệ (exceptions) có thể xảy ra trong một khối mã
C. Để lặp qua một danh sách
D. Để nhập một module
83. Trong Python, hàm lambda thường được sử dụng để làm gì?
A. Định nghĩa một hàm có tên
B. Định nghĩa một hàm ẩn danh (anonymous function)
C. Tạo một lớp (class)
D. Nhập một module
84. Trong Python, toán tử nào được sử dụng để kiểm tra xem một phần tử có nằm trong một chuỗi, danh sách hoặc tuple không?
A. ==
B. is
C. in
D. contains
85. Trong Python, làm thế nào để bạn tạo một bản sao sâu (deep copy) của một đối tượng?
A. Sử dụng toán tử =
B. Sử dụng phương thức copy()
C. Sử dụng module copy và phương thức deepcopy()
D. Không thể tạo bản sao sâu
86. Trong Python, hàm `enumerate()` được sử dụng để làm gì?
A. Để sắp xếp một danh sách
B. Để đảo ngược một danh sách
C. Để lặp qua một danh sách và lấy cả chỉ mục và giá trị của mỗi phần tử
D. Để xóa các phần tử trùng lặp khỏi một danh sách
87. Trong Python, toán tử `//` thực hiện phép chia nào?
A. Phép chia thông thường
B. Phép chia lấy phần dư
C. Phép chia lấy phần nguyên (floor division)
D. Phép chia mũ
88. Trong Python, hàm nào được sử dụng để chuyển đổi một đối tượng sang kiểu chuỗi?
A. int()
B. float()
C. str()
D. bool()
89. Trong Python, điều gì xảy ra khi bạn sử dụng từ khóa `global` trong một hàm?
A. Nó tạo ra một biến cục bộ
B. Nó cho phép bạn truy cập và sửa đổi một biến toàn cục từ bên trong hàm
C. Nó ngăn chặn việc truy cập các biến toàn cục
D. Nó tạo ra một bản sao của biến toàn cục
90. Trong Python, từ khóa `with` thường được sử dụng để làm gì khi làm việc với tệp?
A. Để mở tệp
B. Để đóng tệp một cách tự động sau khi sử dụng
C. Để đọc dữ liệu từ tệp
D. Để ghi dữ liệu vào tệp
91. Trong PowerPoint, chức năng ‘Animation Pane’ dùng để làm gì?
A. Chèn hình ảnh động vào slide
B. Quản lý và tùy chỉnh các hiệu ứng động trên slide
C. Tạo hiệu ứng chuyển slide
D. Chèn video vào slide
92. Trong Microsoft Word, chức năng ‘Find and Replace’ dùng để làm gì?
A. Kiểm tra chính tả
B. Tìm và thay thế văn bản hoặc định dạng
C. Tạo mục lục
D. Chèn hình ảnh
93. Loại tệp nào thường được sử dụng để lưu trữ bản trình chiếu PowerPoint?
A. .docx
B. .xlsx
C. .pptx
D. .txt
94. Chức năng nào trong Word cho phép bạn tạo một danh sách các nguồn tài liệu tham khảo đã sử dụng?
A. Mail Merge
B. Table of Contents
C. Bibliography
D. Index
95. Trong PowerPoint, chức năng ‘Record Slide Show’ dùng để làm gì?
A. Tạo hiệu ứng chuyển slide
B. Ghi lại giọng nói và thời gian trình bày cho mỗi slide
C. Chèn video vào slide
D. Quản lý các hiệu ứng động
96. Trong Excel, hàm nào được sử dụng để nối chuỗi văn bản từ nhiều ô lại với nhau?
A. SUM
B. CONCATENATE
C. AVERAGE
D. COUNT
97. Trong Microsoft Word, chức năng ‘Mail Merge’ được sử dụng để làm gì?
A. Tạo mục lục tự động
B. Gửi email hàng loạt với nội dung cá nhân hóa
C. Kiểm tra lỗi chính tả và ngữ pháp
D. Chèn hình ảnh vào tài liệu
98. Phím tắt nào được sử dụng để sao chép (copy) một đoạn văn bản trong hầu hết các ứng dụng soạn thảo văn bản?
A. Ctrl + X
B. Ctrl + V
C. Ctrl + C
D. Ctrl + Z
99. Trong Excel, hàm nào được sử dụng để tính trung vị của một dãy số?
A. AVERAGE
B. MEDIAN
C. MODE
D. STDEV
100. Để chèn một hình ảnh vào trang chiếu trong Microsoft PowerPoint, bạn chọn thẻ nào?
A. Home
B. Insert
C. Design
D. Transitions
101. Trong Excel, hàm nào được sử dụng để đếm số lượng ô không trống trong một vùng chọn?
A. COUNT
B. COUNTA
C. COUNTBLANK
D. SUM
102. Trong Excel, hàm nào được sử dụng để tìm giá trị nhỏ nhất trong một dãy số?
A. MAX
B. MIN
C. AVERAGE
D. SUM
103. Trong PowerPoint, chế độ xem nào cho phép bạn sắp xếp lại các slide bằng cách kéo và thả?
A. Normal view
B. Slide Sorter view
C. Reading view
D. Slide Show view
104. Phím tắt nào được sử dụng để in (print) một tài liệu trong hầu hết các ứng dụng?
A. Ctrl + S
B. Ctrl + O
C. Ctrl + P
D. Ctrl + X
105. Phím tắt nào được sử dụng để dán (paste) nội dung đã sao chép trong hầu hết các ứng dụng?
A. Ctrl + X
B. Ctrl + C
C. Ctrl + V
D. Ctrl + A
106. Trong Microsoft Word, chức năng ‘Track Changes’ dùng để làm gì?
A. Kiểm tra chính tả và ngữ pháp
B. Theo dõi và ghi lại các thay đổi được thực hiện trong tài liệu
C. Tự động tạo mục lục
D. Chèn chú thích cuối trang
107. Trong Excel, hàm nào được sử dụng để đếm số lượng ô chứa số trong một vùng chọn?
A. COUNT
B. COUNTA
C. COUNTBLANK
D. SUM
108. Phím tắt nào được sử dụng để tạo một tài liệu mới trong hầu hết các ứng dụng?
A. Ctrl + O
B. Ctrl + N
C. Ctrl + S
D. Ctrl + P
109. Trong Microsoft Word, chức năng ‘Styles’ dùng để làm gì?
A. Thay đổi phông chữ của toàn bộ tài liệu
B. Áp dụng định dạng nhất quán cho các phần khác nhau của tài liệu
C. Chèn hình ảnh vào tài liệu
D. Tạo bảng biểu
110. Trong PowerPoint, chức năng ‘Presenter View’ dùng để làm gì?
A. Hiển thị bản trình chiếu ở chế độ toàn màn hình
B. Hiển thị ghi chú và thời gian trình bày cho người thuyết trình
C. Tạo hiệu ứng chuyển slide
D. Chèn video vào slide
111. Trong Microsoft Word, chức năng ‘Table of Contents’ dùng để làm gì?
A. Tạo bảng biểu
B. Tạo mục lục tự động dựa trên các tiêu đề
C. Chèn chú thích cuối trang
D. Kiểm tra chính tả và ngữ pháp
112. Trong Microsoft Word, chức năng ‘Header and Footer’ dùng để làm gì?
A. Tạo bảng biểu
B. Chèn tiêu đề đầu trang và chân trang
C. Kiểm tra chính tả
D. Tạo mục lục
113. Phím tắt nào được sử dụng để hoàn tác (undo) hành động cuối cùng trong hầu hết các ứng dụng?
A. Ctrl + Y
B. Ctrl + Z
C. Ctrl + X
D. Ctrl + C
114. Trong Microsoft Excel, hàm nào được sử dụng để tính trung bình cộng của một dãy số?
A. SUM
B. COUNT
C. AVERAGE
D. MEDIAN
115. Trong PowerPoint, hiệu ứng chuyển tiếp slide nào tạo cảm giác như một trang sách đang lật?
A. Fade
B. Push
C. Flip
D. Wipe
116. Trong Excel, hàm nào được sử dụng để tìm giá trị lớn nhất trong một dãy số?
A. MIN
B. MAX
C. AVERAGE
D. SUM
117. Trong PowerPoint, chức năng ‘Slide Master’ dùng để làm gì?
A. Tạo hiệu ứng chuyển slide
B. Thiết lập bố cục và định dạng mặc định cho các slide
C. Chèn video vào slide
D. Quản lý các hiệu ứng động
118. Phím tắt nào được sử dụng để lưu (save) một tài liệu trong hầu hết các ứng dụng?
A. Ctrl + O
B. Ctrl + N
C. Ctrl + S
D. Ctrl + P
119. Trong Excel, hàm nào được sử dụng để tính tổng của một dãy số dựa trên một điều kiện nhất định?
A. SUM
B. AVERAGE
C. SUMIF
D. COUNTIF
120. Trong PowerPoint, hiệu ứng ‘Morph’ thường được sử dụng để làm gì?
A. Tạo hiệu ứng chuyển động mờ cho văn bản
B. Chuyển đổi mượt mà giữa các slide có các đối tượng tương tự
C. Tạo hiệu ứng âm thanh cho các slide
D. Tạo hiệu ứng 3D cho hình ảnh
121. Trong ngôn ngữ lập trình Python, thư viện nào thường được sử dụng để làm việc với dữ liệu dạng bảng, cung cấp cấu trúc dữ liệu DataFrame?
A. NumPy
B. Pandas
C. Matplotlib
D. Scikit-learn
122. Trong phân tích dữ liệu, thuật ngữ ‘outlier’ dùng để chỉ điều gì?
A. Các giá trị trung bình của dữ liệu
B. Các giá trị nằm ngoài phạm vi thông thường của dữ liệu
C. Các giá trị phổ biến nhất trong dữ liệu
D. Các giá trị bị thiếu trong dữ liệu
123. Loại biểu đồ nào thường được sử dụng để hiển thị mối quan hệ giữa hai biến số liên tục?
A. Biểu đồ cột (Bar chart)
B. Biểu đồ đường (Line chart)
C. Biểu đồ phân tán (Scatter plot)
D. Biểu đồ tròn (Pie chart)
124. Trong phân tích dữ liệu, thuật ngữ ‘correlation’ (tương quan) mô tả điều gì?
A. Mức độ liên quan giữa hai biến số
B. Số lượng các biến trong tập dữ liệu
C. Sự phân bố của dữ liệu
D. Các giá trị bị thiếu trong dữ liệu
125. Trong học máy, ‘regularization’ (điều chuẩn) là gì?
A. Một kỹ thuật để giảm overfitting bằng cách thêm một hình phạt vào hàm mất mát
B. Một kỹ thuật để tăng độ chính xác của mô hình
C. Một kỹ thuật để chọn các đặc trưng quan trọng nhất
D. Một kỹ thuật để chia dữ liệu thành tập huấn luyện và tập kiểm tra
126. Trong học máy, thuật ngữ ‘bias’ (độ lệch) đề cập đến điều gì?
A. Mức độ mà mô hình học được các mẫu trong dữ liệu huấn luyện
B. Mức độ mà mô hình dự đoán sai trên dữ liệu mới
C. Sự khác biệt giữa dự đoán của mô hình và giá trị thực tế
D. Xu hướng của mô hình dự đoán một cách hệ thống sai lệch so với giá trị thực tế
127. Trong học máy (Machine Learning), thuật ngữ nào mô tả việc chia tập dữ liệu thành hai phần: một phần để huấn luyện mô hình và một phần để đánh giá hiệu suất của mô hình?
A. Kiểm định giả thuyết (Hypothesis testing)
B. Huấn luyện và kiểm tra (Training and testing)
C. Phân cụm (Clustering)
D. Phân loại (Classification)
128. Trong lĩnh vực thị giác máy tính (Computer Vision), ứng dụng nào sau đây sử dụng học máy để nhận diện các đối tượng trong ảnh hoặc video?
A. Nhận dạng khuôn mặt
B. Xử lý ngôn ngữ tự nhiên
C. Dự báo thời tiết
D. Phân tích dữ liệu tài chính
129. Khi xây dựng mô hình dự đoán, hiện tượng ‘overfitting’ xảy ra khi nào?
A. Mô hình quá đơn giản và không thể nắm bắt được các mẫu trong dữ liệu
B. Mô hình quá phức tạp và học thuộc cả nhiễu trong dữ liệu huấn luyện
C. Dữ liệu huấn luyện không đủ lớn
D. Dữ liệu kiểm tra khác biệt quá nhiều so với dữ liệu huấn luyện
130. Trong quá trình xây dựng mô hình học máy, ‘feature selection’ (lựa chọn đặc trưng) là gì?
A. Quá trình chọn thuật toán học máy phù hợp
B. Quá trình chọn các đặc trưng quan trọng nhất từ tập dữ liệu
C. Quá trình chia dữ liệu thành tập huấn luyện và tập kiểm tra
D. Quá trình điều chỉnh các tham số của mô hình
131. Trong trực quan hóa dữ liệu, mục đích chính của việc sử dụng màu sắc là gì?
A. Để làm cho biểu đồ đẹp hơn
B. Để mã hóa thông tin và làm nổi bật các điểm quan trọng
C. Để giảm độ phức tạp của biểu đồ
D. Để tăng kích thước của biểu đồ
132. Trong lĩnh vực khai phá dữ liệu (Data Mining), thuật ngữ nào mô tả quá trình tìm kiếm các mẫu và mối quan hệ ẩn trong một tập dữ liệu lớn?
A. Data Cleaning
B. Data Integration
C. Data Mining
D. Data Transformation
133. Thuật ngữ nào mô tả quá trình chuyển đổi dữ liệu từ nhiều nguồn khác nhau thành một định dạng thống nhất để phân tích?
A. Data Mining
B. Data Wrangling
C. Data Visualization
D. Data Reporting
134. Khi làm việc với dữ liệu lớn (Big Data), công cụ nào thường được sử dụng để xử lý và phân tích dữ liệu phân tán trên nhiều máy tính?
A. Microsoft Excel
B. SPSS
C. Hadoop
D. SAS
135. Đâu là một công cụ phổ biến để tạo các bảng điều khiển (dashboards) tương tác, cho phép người dùng khám phá dữ liệu và tạo báo cáo?
A. Microsoft Word
B. Microsoft Excel
C. Tableau
D. PowerPoint
136. Đâu là một phương pháp để giảm thiểu hiện tượng ‘overfitting’ trong mô hình học máy?
A. Tăng kích thước tập dữ liệu huấn luyện
B. Sử dụng mô hình phức tạp hơn
C. Giảm số lượng đặc trưng
D. Tất cả các đáp án trên
137. Phương pháp nào sau đây được sử dụng để đánh giá hiệu quả của một mô hình học máy bằng cách sử dụng một tập dữ liệu mà mô hình chưa từng thấy trước đó?
A. Cross-validation
B. Feature Engineering
C. Regularization
D. Hyperparameter Tuning
138. Trong lĩnh vực xử lý ngôn ngữ tự nhiên (Natural Language Processing – NLP), kỹ thuật nào được sử dụng để loại bỏ các từ không quan trọng như ‘the’, ‘a’, ‘is’?
A. Tokenization
B. Stemming
C. Stop word removal
D. Part-of-speech tagging
139. Trong quá trình tiền xử lý dữ liệu, phương pháp nào được sử dụng để xử lý các giá trị bị thiếu (missing values)?
A. Chuẩn hóa (Normalization)
B. Rời rạc hóa (Discretization)
C. Loại bỏ hoặc thay thế (Imputation)
D. Tích hợp dữ liệu (Data Integration)
140. Phương pháp nào sau đây giúp xác định mối quan hệ giữa các biến trong dữ liệu, ví dụ như biến nào ảnh hưởng đến biến nào?
A. Phân tích phương sai (ANOVA)
B. Phân tích hồi quy (Regression analysis)
C. Phân tích thành phần chính (PCA)
D. Phân tích cụm (Cluster analysis)
141. Đâu là một ví dụ về ứng dụng của học máy trong lĩnh vực tài chính?
A. Dự báo thời tiết
B. Phân loại ảnh
C. Phát hiện gian lận
D. Dịch máy
142. Đâu là một phương pháp đánh giá mô hình phân loại, đo lường tỷ lệ dự đoán đúng trên tổng số các trường hợp?
A. Độ chính xác (Accuracy)
B. ĐộRecall
C. ĐộPrecision
D. F1-score
143. Khi trực quan hóa dữ liệu, biểu đồ ‘boxplot’ (biểu đồ hộp) thường được sử dụng để làm gì?
A. Hiển thị phân bố của một biến số
B. Hiển thị mối quan hệ giữa hai biến số
C. Hiển thị xu hướng theo thời gian
D. Hiển thị tỷ lệ phần trăm của các danh mục
144. Trong phân tích dữ liệu, thuật ngữ ‘variance’ (phương sai) mô tả điều gì?
A. Giá trị trung bình của dữ liệu
B. Mức độ phân tán của dữ liệu so với giá trị trung bình
C. Giá trị lớn nhất trong dữ liệu
D. Giá trị nhỏ nhất trong dữ liệu
145. Trong phân tích dữ liệu văn bản (Text Analytics), kỹ thuật nào được sử dụng để chuyển đổi văn bản thành dạng số để máy tính có thể xử lý?
A. Tokenization
B. Stemming
C. Vectorization
D. Lemmatization
146. Trong các thuật toán phân cụm, thuật toán nào chia dữ liệu thành k cụm, trong đó mỗi điểm dữ liệu thuộc về cụm gần nhất với trung tâm của cụm đó?
A. K-means
B. Hierarchical Clustering
C. DBSCAN
D. Apriori
147. Trong lĩnh vực y tế, học máy có thể được sử dụng để làm gì?
A. Tự động lái xe
B. Chẩn đoán bệnh
C. Sản xuất ô tô
D. Tìm kiếm trên web
148. Đâu là một ví dụ về ứng dụng của học máy trong lĩnh vực bán lẻ?
A. Dự đoán giá cổ phiếu
B. Đề xuất sản phẩm cho khách hàng
C. Điều khiển robot
D. Tìm kiếm trên web
149. Phương pháp nào sau đây giúp giảm số lượng chiều (features) của dữ liệu, đồng thời giữ lại thông tin quan trọng nhất?
A. Phân tích tương quan (Correlation analysis)
B. Phân tích thành phần chính (Principal Component Analysis – PCA)
C. Phân tích hồi quy (Regression analysis)
D. Phân tích phương sai (Analysis of Variance – ANOVA)
150. Khi phân tích dữ liệu, ‘standard deviation’ (độ lệch chuẩn) cho biết điều gì?
A. Giá trị trung bình của dữ liệu
B. Mức độ phân tán của dữ liệu so với giá trị trung bình
C. Giá trị lớn nhất trong dữ liệu
D. Giá trị nhỏ nhất trong dữ liệu