it-swarm-vi.tech

Điều gì được khuyến nghị cho số lượng người dùng sử dụng trong thử nghiệm định tính và định lượng?

Tôi hiện đang xây dựng lại toàn bộ mạng nội bộ của chúng tôi từ đầu, chủ yếu là do công nghệ đằng sau đã lỗi thời và đã được chứng minh rằng rất nhiều thông tin rất khó tìm thấy.

Mặc dù đó là vấn đề quan trọng, điều tôi băn khoăn là số lượng người dùng tối ưu sẽ sử dụng để kiểm tra định tính và định lượng với số lượng người dùng khoảng 1000 người dùng là bao nhiêu?

Có một quy tắc chung cho cả hai dựa trên tổng số người dùng bạn có không? hoặc chỉ nói 5 cho định tính và 10 cho định lượng?

Điều gì sẽ là cách tiếp cận tốt nhất?

9
LiamGu

Trong Tại sao bạn chỉ cần thử nghiệm với 5 người dùng Jakob Nielsen gợi ý:

Kết quả tốt nhất đến từ việc thử nghiệm không quá 5 người dùng và chạy nhiều thử nghiệm nhỏ nhất có thể.

Tuy nhiên, thay vì tập trung vào số lượng người dùng, có lẽ tốt hơn là tập trung vào số lượng và chất lượng của các tác vụ :

Nhiệm vụ kiểm tra khả năng sử dụng rất quan trọng đến nỗi một số người cho rằng chúng thậm chí còn quan trọng hơn số lượng người tham gia bạn sử dụng: có vẻ như có bao nhiêu người tham gia thử, không phải số người tham gia thử nghiệm, là yếu tố quan trọng để tìm ra vấn đề trong một bài kiểm tra khả năng sử dụng .

10
Antony Quinn

Tôi không có tài liệu tham khảo cho việc này, nhưng tôi nghĩ rằng những con số này sẽ phụ thuộc vào quy mô của cơ sở người dùng.

Để kiểm tra định tính, bạn cần phải có người dùng "thông thường". Vì vậy, nếu bạn có 3 vai trò, người dùng của bạn có thể đảm nhận ít nhất 3 người dùng - một vai trò cho mỗi vai trò. Trong thực tế, bạn muốn nhiều hơn một, nhưng đây là mức tối thiểu tuyệt đối của bạn.

Để kiểm tra định lượng, bạn cần một tỷ lệ đáng kể trong cơ sở người dùng của bạn. Tôi không biết con số đó sẽ là bao nhiêu, nhưng nếu bạn lấy số lượng người dùng của mình và 10% như một con số, bạn sẽ cần 100 người dùng. Tuy nhiên, điều này có thể không thực tế - có thể không có cách nào bạn có thể quản lý nhiều người dùng đó hoặc nếu bạn có một cơ sở người dùng nhỏ, nó sẽ tạo ra một số lượng rất nhỏ.

2
ChrisF

Một cái gì đó khác để xem xét là nơi kết quả của báo cáo khả năng sử dụng của bạn đang đi. Mọi người có thể sửa chữa được bao nhiêu công việc từ bạn - và tác dụng của những sửa lỗi đó sẽ là gì?

Nói rằng tôi chạy thử nghiệm với mười lăm người. Sau ba lần đầu tiên tôi phát hiện ra vấn đề A B C. Đến cuối mười lăm, tôi cũng đã phát hiện ra vấn đề D E F G.

Vấn đề là nhóm hạ nguồn từ tôi chỉ có thời gian để sửa A và B.

Thậm chí tệ hơn - một khi chúng tôi đã sửa lỗi A và B, hệ thống đã thay đổi và các vấn đề về khả năng sử dụng nghiêm trọng tiếp theo có thể không phải là C-G.

Vì vậy, tôi sẽ xem xét toàn bộ thời gian chu kỳ của dân gian phát triển sản phẩm của bạn - và chỉ thực hiện kiểm tra khả năng sử dụng vừa đủ để lấp đầy hàng đợi công việc. Bất kỳ nhiều hơn thế có khả năng là lãng phí.

Đó là kinh nghiệm của tôi khi thực hiện nhiều bài kiểm tra khả năng sử dụng với ít người tham gia hơn (thậm chí chỉ một) trong suốt quá trình phát triển có hiệu quả hơn nhiều so với một vài bài kiểm tra lớn.

2
adrianh

Đối với thử nghiệm định lượng, có thể rõ ràng hơn về ảnh hưởng của cỡ mẫu đối với kết quả của bạn nhưng số lượng người dùng bạn cần phụ thuộc vào các thử nghiệm hoặc phân tích cụ thể mà bạn đang xem xét (ví dụ có thể xác định tỷ lệ người tham gia hoàn thành nhiệm vụ thành công , ước tính thời gian thực hiện nhiệm vụ trung bình, so sánh hai phiên bản với bảng câu hỏi như SUMI hoặc SUS Tiết) Do đó, rất khó để đưa ra quy tắc ngón tay cái sẽ hữu ích cho mọi tình huống nhưng có các kỹ thuật để tìm ra cỡ mẫu bạn cần trong một tình huống nhất định.

Bây giờ, nếu bạn không muốn vượt qua tất cả những rắc rối này và thực sự ước tính những thứ như khoảng tin cậy và sức mạnh thống kê, vẫn còn hai kết luận quan trọng cần nhớ.

Đầu tiên là độ chính xác của ước tính và do đó số lượng người dùng bạn cần để đạt được một mức độ chính xác nhất định không không phụ thuộc vào kích thước của cơ sở người dùng của bạn, ít nhất là miễn là cơ sở người dùng này lớn hơn nhiều so với mẫu thử nghiệm của bạn. Thứ hai là kích thước mẫu của bạn càng lớn, sự cải thiện mà bạn có thể mong đợi từ những người dùng thử nghiệm bổ sung sẽ càng nhỏ. Do đó, đi từ 10 đến 110 là một cải tiến rất lớn, đi từ 1000 đến 1100 không quá nhiều.

Đó là lý do tại sao các cuộc thăm dò ý kiến ​​thường có mẫu của khoảng 1000 người tham gia, ngay cả khi dân số quan tâm bao gồm vài triệu người. Trên thực tế, cỡ mẫu cho một cuộc thăm dò trước bầu cử thường sẽ rất giống nhau ở các quốc gia có 5, 80 hoặc 200 triệu dân. Miễn là mẫu của bạn là ngẫu nhiên và dân số lớn hơn nhiều, sẽ không có vấn đề gì nếu bạn chỉ yêu cầu 1%, 0,1% hoặc 0,00001% trong tổng số cử tri.

Cả hai kết luận này vẫn đúng cho những thứ khác ngoài tỷ lệ phần trăm: ví dụ so sánh giữa các xếp hạng trên bảng câu hỏi về sự hài lòng hoặc phân tích về thời gian cần thiết để hoàn thành một nhiệm vụ. Nếu bạn muốn đi xa hơn, một điểm khởi đầu tốt là trang web của Jeff Sauro http://www.measuringusability.com/

1
Gala