Đánh giá câu trắc nghiệm khách quan thông qua xác định chỉ số khó và chỉ số phân biệt

Cập nhật: 23h3 | 20/05/2012

HVQY: trắc nghiệm trong tiếng Anh là “Test” có nghĩa là “sự khảo sát hoặc thử các phẩm chất của một người hoặc vật”; trong tiếng Hán thì “trắc” có nghĩa là “đo lường”, “nghiệm” có nghĩa là “suy xét, chứng thực”. Trắc nghiệm có hai hình thức: trắc nghiệm khách quan (Objective Test) và trắc nghiệm tự luận (Essay Test). Trong trắc nghiệm khách quan, hệ thống cho điểm là hoàn toàn khách quan, không chủ quan như trắc nghiệm tự luận; kết quả chấm điểm là như nhau và không phụ thuộc vào người chấm[*].

Làm bài trắc nghiệm - Hình mang tính minh họa

Hiện nay, đa số các nhà giáo dục chia các câu trắc nghiệm khách quan thành 5 loại: câu nhiều lựa chọn, câu đúng-sai (là hình thức đặc biệt của câu nhiều lựa chọn), câu ghép đôi (còn gọi là câu xứng-hợp), câu điền khuyết, câu sử dụng hình vẽ (thực chất là biến thể của câu điền khuyết hoặc câu ghép đôi khi sử dụng hình vẽ).

Trong các bước triển khai trắc nghiệm khách quan thì xây dựng và đánh giá câu trắc nghiệm là quan trọng nhất. Bài viết này giới thiệu phương pháp đánh giá câu trắc nghiệm thông qua xác định chỉ số khó (Difficulty Factor) và chỉ số phân biệt (Discrimination Index) theo công thức của Robert L. Ebel[*].

Nhận diện nhóm điểm cao và nhóm điểm thấp.

Robert L. Ebel đề xuất cơ cấu của nhóm điểm “cao” và “thấp” bao gồm 27% đầu tiên (nhóm cao) và 27% cuối cùng (nhóm thấp) của tất cả các sinh viên đã được phân hạng theo thứ tự điểm. Tại sao là 27%? Bởi vì 27% đưa ra sự thoả hiệp nhất giữa 2 mục tiêu mong muốn nhưng trái ngược nhau:

- Làm cho cả hai nhóm càng lớn càng tốt.

- Làm cho cả hai nhóm càng khác biệt càng tốt.

Năm 1939, Truman Kelly cho thấy khi mỗi nhóm chiếm 27% tổng số, có thể nói với mức chắc chắn cao nhất rằng số sinh viên trong nhóm điểm cao thực sự hơn hẳn so với những sinh viên thuộc nhóm điểm thấp. Nếu lấy con số này là 10% thì sự khác biệt giữa điểm trung bình về năng lực của cả hai nhóm sẽ lớn hơn nhưng các nhóm sẽ nhỏ hơn. Tương tự, nếu lấy 50% thì số lượng hai nhóm là cực đại nhưng cơ sở phân loại sẽ không hoàn toàn chính xác, một sinh viên nào đó trong nhóm điểm cao cũng có thể nằm trong nhóm điểm thấp và ngược lại.

Chỉ số khó.

Dùng đo lường, xác định mức độ “dễ” hay “khó” của một câu trắc nghiệm.  Đó là tỷ lệ phần trăm số sinh viên đã trả lời đúng đối với một câu trắc nghiệm. Chỉ số này biến thiên từ 0 đến 100%, chỉ số này càng cao thì câu trắc nghiệm càng dễ, đây là điều không logic nên đôi khi chỉ số này được gọi là “chỉ số dễ”, nhưng trong các tài liệu của Mỹ thì chỉ số này luôn dùng với từ là “chỉ số khó”.

Trong các bài trắc nghiệm thông thường, khi các điều kiện như nhau thì điểm số sẽ có xu hướng phân tán nếu nhiều câu hỏi của bài trắc nghiệm ở mức độ khó trung bình, điều này có nghĩa là nhiều điểm số sẽ nằm ở giữa điểm mà bằng cách đoán mò ngẫu nhiên có thể đạt với số điểm cao nhất có thể có được. Ví dụ: Trong bài trắc nghiệm khách quan MCQ với năm phương án chọn một, có thể 1/5 khả năng số lần đoán mò được câu đúng là 20%. Điểm tuyệt đối sẽ là 100% nếu làm đúng hết, thì mức độ khó trung bình sẽ nằm giữa 20% và 100%, tức là bằng 60%. Như vậy, trong bài trắc nghiệm MCQ như trên thì điều mong muốn là nhiều câu trắc nghiệm sẽ được khoảng 60% sinh viên trả lời đúng.

Công thức tính chỉ số khó: DF (%) = (H + L) x 100/N

Trong đó:

- H = Số trả lời đúng ở nhóm cao.

- L = Số trả lời đúng ở nhóm thấp.

- N = Tổng số sinh viên cả hai nhóm.

Một câu trắc nghiệm có chỉ số khó nằm trong khoảng từ 30% đến 70% là chấp nhận được (trong khoảng này, chỉ số phân biệt hoàn toàn cao); 15% - 30% hoặc 70% - 85%: cần xem xét, sửa chữa; <15% hoặc >85%: câu trắc nghiệm kém, cần loại bỏ.

Chỉ số phân biệt.

Chỉ số phân biệt của một câu trắc nghiệm cho thấy sự phân tách giữa nhóm sinh viên đạt điểm “cao” và nhóm sinh viên đạt điểm “thấp”, chỉ số này càng cao thì câu trắc nghiệm có khả năng phân biệt càng lớn. Nói chung, một câu trắc nghiệm được gọi là phân biệt theo ý nghĩa tích cực là những sinh viên đạt điểm cao của bài trắc nghiệm sẽ trả lời đúng và những sinh viên đạt điểm thấp sẽ trả lời sai.

Công thức tính chỉ số phân biệt DI =  2 x (H – L)/N   

Trong đó:

- H = Số trả lời đúng ở nhóm cao.

- L = Số trả lời đúng ở nhóm thấp.

- N = Tổng số sinh viên cả hai nhóm.

Trường hợp chỉ số phân biệt ³ 0,35: câu trắc nghiệm rất tốt; từ 0,25 đến 0,34: câu trắc nghiệm tốt; từ 0,15 đến 0,24: nằm ở giới hạn sửa chữa; < 0,15: câu trắc nghiệm kém, nên loại bỏ.

Ví dụ xác định chỉ số khó và chỉ số phân biệt của câu trắc nghiệm.

Nhóm cao: 27% sinh viên đạt điểm cao nhất; nhóm thấp: 27% sinh viên đạt điểm thấp nhất; mỗi nhóm có 50 sinh viên; ghi chú: câu trắc nghiệm MCQ có 5 phương án chọn: A, B, C, D, E; ký hiệu "Đ" là đáp án đúng.

 

 

Câu 1

Nhóm

A

B[Đ]

C

D

E

Nhóm cao

1

41

5

1

2

Nhóm thấp

10

19

10

1

10

- Chỉ số khó                  : (41 + 19) x 100/100 = 60%

- Chỉ số phân biệt        : (41 - 19)  x  2/100    = 0,44.

- Đánh giá: câu này rất tốt.

 

 

Câu 2

Nhóm

A[Đ]

B

C

D

E

Nhóm cao

10

9

11

13

7

Nhóm thấp

11

12

12

10

5

- Chỉ số khó                  : 21%.

- Chỉ số phân biệt        : - 0,02.

- Đánh giá: câu này có độ phân biệt rất kém, dường như quá khó hoặc không rõ nghĩa nên học sinh đoán mò. Nên loại bỏ.

 

 

Câu 3

Nhóm

A

B

C[Đ]

D

E

Nhóm cao

0

0

49

1

0

Nhóm thấp

0

1

47

2

0

- Chỉ số khó                  :  96%.

- Chỉ số phân biệt        : 0,04.

- Đánh giá: câu này quá dễ, không thể phân biệt được giữa nhóm cao với nhóm thấp. Nên loại bỏ.

 

 

Câu 4

Nhóm

A[Đ]

B

C

D

E

Nhóm cao

15

22

3

6

4

Nhóm thấp

0

22

18

5

5

- Chỉ số khó                  :  15%.

- Chỉ số phân biệt        :  0,3.

- Đánh giá: câu này phân biệt tốt nhưng rất khó, có thể chưa rõ nghĩa. Nên kiểm tra lại câu B để chắc chắn đó không phải là một câu đúng và diễn đạt lại cho rõ nghĩa. Có thể dùng được nhưng phải sửa chữa.

Ví dụ trên cho thấy một câu trắc nghiệm được chuẩn hóa đưa vào ngân hàng để sử dụng thì đồng thời phải đáp ứng chỉ số khó và chỉ số phân biệt. Ngày nay, nhờ các phần mềm thống kê hoặc các Module phần mềm chuyên dùng đánh giá câu trắc nghiệm được tích hợp trong Hệ thống phần mềm Thi trắc nghiệm có thể dễ dàng đánh giá chỉ số khó và chỉ số phân biệt của câu trắc nghiệm.

Xét về góc độ lý thuyết, câu trắc nghiệm sau khi được đánh giá và chuẩn hóa đưa vào ngân hàng thì không phải sửa chữa. Tuy nhiên, trong thực tế xảy ra trường hợp câu trắc nghiệm trước đây được đánh giá là tốt thì hiện tại vì nhiều lý do khác nhau nên không còn phù hợp. Chính vì vậy, thường xuyên kiểm tra, đánh giá xác định chỉ số khó, chỉ số phân biệt của các câu trắc nghiệm đóng vai trò rất quan trọng trong triển khai trắc nghiệm khách quan đo lường, lượng giá kiến thức tại các nhà trường nói chung và tại Học viện Quân y nói riêng./.

[*] Lê Trung Thắng (2002), Báo cáo kết quả đề tài NCKH cấp Ngành “Xây dựng hệ thống phần mềm thi trắc nghiệm mô hình mạng phục vụ huấn luyện và đào tạo tại Học viện Quân y”, Học viện Quân y.

Lê Trung Thắng – Ban CNTT – HVQY

Tin cùng chuyên mục


CỔNG THÔNG TIN ĐIỆN TỬ HỌC VIỆN QUÂN Y - BỘ QUỐC PHÒNG
Địa chỉ: Số 160 - Đường Phùng Hưng - Phường Phúc La - Quận Hà Đông - Thành phố Hà Nội
Trưởng ban biên tập: Trung tướng PGS. TS. Nguyễn Xuân Kiên - Giám đốc Học viện Quân y
Giấy phép số 122/GP-TTĐT ngày 23/09/2008 của Bộ TT&TT
Thiết kế bởi Ban CNTT - Phòng KHQS - Học viện Quân y
Nhà cái Thabet: https://thabet.asia/