Thu thập dữ liệu có thể là trực tiếp hoặc gián tiếp.
- Thu thập dữ liệu trực tiếp là việc thu thập dữ liệu thông qua quan sát, làm thí nghiệm, lập bảng hỏi, phỏng vấn,…
- Thu thập dữ liệu gián tiếp là việc thu thập dữ liệu từ những nguồn sẵn như sách, báo, mạng Internet,…
Để có thể đưa ra các kết luận hợp lý, dữ liệu thu thập được phải đảm bảo tính đại diện cho toàn bộ đối tượng đang được quan tâm.
Số liệu có thể nhận giá trị tùy ý trong một khoảng nào đó được gọi là số liệu liên tục. Số liệu không phải là số liên tục được gọi là số liệu rời rạc.
Sơ đồ phân loại dữ liệu
Ví dụ:
Cho hai dãy dữ liệu như sau:
(1) Số học sinh các lớp 6 trong trường:
35 42 87 38 40 41 38.
(2) Tên món ăn yêu thích của các thành viên trong gia đình:
Bánh chưng, pizza, canh cua, gà rán, rau muống luộc, cá kho, rượu vang.
Trong các dãy dữ liệu trên, dãy (1) là dãy số liệu rời rạc. Giá trị 87 không hợp lý vì theo quy định, mỗi lớp ở bậc THCS thường có không quá 45 học sinh. Thực tế, do điều kiện khó khăn một số lớp có số học sinh nhiều hơn 45 nhưng không lớp nào có 87 học sinh. Do đó 87 là số liệu không hợp lí.
Dãy (2) là dãy dữ liệu không là số, không thể sắp xếp thứ tự. “Rượu vang” là dữ liệu không hợp lí vì đây không phải là tên món ăn mà là tên một loại đồ uống.