Giới thiệu
Chất lượng dữ liệu là một khía cạnh quan trọng không chỉ trong lĩnh vực công nghệ thông tin mà còn trong nhiều lĩnh vực khác như kinh doanh, khoa học dữ liệu, y tế, tài chính, v.v. Dữ liệu chất lượng cao là nền tảng quan trọng cho việc ra quyết định đúng đắn, phát triển sản phẩm và dịch vụ, cũng như nghiên cứu và phát triển trong nhiều lĩnh vực. Dưới đây là một số chiều quan trọng về chất lượng dữ liệu:
1️⃣ Tính chính xác (Accuracy): Dữ liệu phải chính xác và phản ánh đúng thực tế. Sự không chính xác có thể dẫn đến việc đưa ra quyết định sai lầm và kết quả không chính xác.
2️⃣ Tính đầy đủ (Completeness): Dữ liệu cần phải hoàn thiện, không bị thiếu sót quan trọng. Thiếu dữ liệu có thể dẫn đến hiểu biết hạn chế và phân tích không chính xác.
3️⃣ Tính nhất quán (Consistency): Dữ liệu phải nhất quán với nhau và không có mâu thuẫn. Nếu có sự không nhất quán, việc phân tích và đưa ra quyết định sẽ trở nên khó khăn và không đáng tin cậy.
4️⃣ Tính duy nhất (Uniqueness): Dữ liệu phải đảm bảo tính duy nhất. Nếu dữ liệu không đảm bảo tính duy nhất có thể gây ảnh hưởng đến việc thống kê dữ liệu và thời gian xử lý dữ liệu.
5️⃣ Tính hợp lệ (Validity): Dữ liệu phải tuần theo các định dạng hoặc yêu cầu cụ thể theo business. Dữ liệu không hợp lệ có thể gây khó khăn trong quá trình chuẩn hóa dữ liệu và sai sót trong việc thống kê.
6️⃣ Tính kịp thời (Timeliness): Dữ liệu cần phải được cập nhật đúng thời điểm để phản ánh thực trạng hiện tại. Dữ liệu quá cũ có thể không còn mang tính đáng tin cậy và không thể áp dụng vào các quyết định hiện tại.
Accuracy (Tính chính xác)
Tính chính xác thể hiện mức độ đại diện, mức độ thể hiện của dữ liệu đối với các sự vật, sự việc có thực. Có nhiều cách khác khau để xác thực dữ liêu đó là chính xác hay không:
- Xác thực vật lý: Khi mua hàng thường phải kiểm tra hàng trong giỏ hàng có giống với các món hàng được liệt kê trong hóa đơn hay không?
- So sánh nguồn tham chiếu:
- So sánh xem các thông tin các tỉnh thành trong bảng nội bộ có trùng khớp với dữ liệu thông tin quốc gia hay không?
- Kiểm tra dữ liệu crawl có trùng với dữ liệu từ trang gốc.
Việc dữ liệu không chính xác là rất bình thường, và khi dữ liệu không được ghi chép chính xác có thể ảnh hưởng đến quyền lợi của người dùng. Ví dụ khi một người dùng đăng kí tài khoản trên một ứng dụng, họ có xu hướng không khai thật tên tuổi của mình, việc làm này có thể ảnh hưởng đến quyền lợi sinh nhật hoặc ưu đãi cho người trong độ tuổi. Một người đang tuổi 20 nhưng khai báo thông tin là tuổi 40 sẽ không nhận được voucher xem phim cho U22 chẳng hạn.
Dữ liệu có độ chính xác cao giúp cho báo cáo sát với thực tế và tin cậy, qua đó giúp mang lại hiệu quả kinh doanh. Độ chính xác đặc biệt quan trọng đối với các lĩnh vực như chăm sóc sức khỏe và tài chính ngân hàng.
Completeness (Tính đầy đủ)
Tính đầy đủ của dữ liệu đạt được khi những dữ liệu cần thiết được điền đầy đủ theo một yêu cầu nào đấy, không nhất thiết dữ liệu phải điền 100% đầy đủ mà chỉ cần đảm bảo các trường có liên quan được điền phù hợp.
-
Thiê ́u dữ liệu do mất bản ghi:
- Chúng ta cần đưa ra biểu đồ về thông tin của 63 tỉnh thành nhưng chỉ có bản ghi của 60 tỉnh thành, thiếu bản ghi của 3 tỉnh thành còn lại.
- Bạn điền vào đơn đăng ký cuộc thi nhưng tên của bạn lại bị thiếu trong danh sách người tham gia
-
Thuộc tính bị thiếu: Một số người dùng bị thiếu cột thông tin về email, số điện thoại
- Đối với yêu cầu về thông tin liên lạc thì dữ liệu vẫn mang tính đầy đủ vì chúng ta có thể gửi thông tin thông qua email hoặc thông qua hình thức tin nhắn số điện thoại
- Đối với mục đích telesale thì rõ ràng thông tin về những người thiếu số điện thoại sẽ vi phạm tính đầy đủ
-
Thiếu dữ liệu tham chiếu
- Một nhân viên ngân hàng muốn cập nhật trạng thái của một tài khoản nằm trong ba trạng thái Open, Closed, Supspended nhưng trong bảng tham chiếu chỉ có 2 trạng thái Open và Closed do đó anh ấy không tìm thấy giá trị tham chiếu Supspended để điền vào đơn cập nhật.
-
Dữ liệu bị cắt
- Trong quá trình ETL dữ liệu, có thể dữ liệu đã bị cắt mất so với dự định, ví dụ như cột dữ liệu về tên chúng ta thường chỉ đặt tối đa 20 ký tư ̣, do đó những người có tên dài hơn sẽ bị cắt đi dẫn đến sự mất mát thông tin.
Consistency (Tính nhất quán)
Tính nhất quán dữ liệu thể hiện phần trăm đồng nhất của cùng một dữ liệu nhưng được được lưu sang các nơi khác nhau, hoặc sự đồng nhất giữa dữ liệu và bảng tham chiếu của nó. Tính nhất quán dữ liệu đảm bảo rằng các hoạt động phân tích nắm bắt và tận dụng được dữ liệu tốt hơn.
- Cấp độ bản ghi
Khi dữ liệu được tải từ nguồn này sang nguồn khác, cần đảm bảo số lượng bản ghi trong bảng đích khớp với nguồn dữ liệu ban đầu
- Cấp độ thuộc tính
Mặc dù đầy đủ bản ghi như thực tế thuộc tính có thể bị thiếu
- Không đồng nhất về cột dữ liệu
Ví dụ trong cửa hàng quần áo, số lượng sản phẩm Order bị sai lệch so với bảng Shipment
- Nhất quán transaction
Ví dụ ngày 1 gửi 9000$, ngày 2 rút 1000$ thì số tiền cuối ngày 2 phải đảm bảo là 8000$
- Nhất quán theo thời gian
Dữ liệu thường không thay đổi quá nhiều theo thời gian trừ khi gặp trường hợp biến động lớn.
-
Ví dụ nhiệt độ hôm nay không chênh lệch quá nhiều so với ngày hôm qua, nhiệt độ ngày hôm qua 20 độ C thì ngày hôm nay có thể là 23 hoặc 17 độ C
-
Lượng Daily active user truy cập vào trang web thường là một giá trị ổn đinh. Nếu như lượng truy cập mỗi ngày là 1000 người dùng mà đột nhiên hôm nay tăng lên 2000 người dùng thì khả năng cao dữ liệu bị tính toán hai lần. Nếu dữ liệu bằng 0 thì khả năng luồng thống kê dữ liệu đã gặp lỗi không xử lý được.
-
Nhất quán biểu diễn dữ liệu trên các hệ thống
Ví dụ Bảng giới tính, bảng gốc chỉ có Male, Female, Unknown nhưng qua hệ thống khác lại bị viết tắt hoặc thiếu
Uniqueness (Tính duy nhất)
Tính duy nhất thể hiện với cùng một nội dung trong bảng thì mỗi bản ghi nên là duy nhất. Việc này giúp giảm thiểu bộ nhớ lưu trữ cũng như tránh sai sót trong quá trình thống kê. Bản ghi bị trùng lặp cũng ảnh hưởng đến tốc độ xử lý dữ liệu đầu vào và có thể gây sai lệch trong quá trình huấn luyện mô hình. Đảm bảo tính duy nhất trong dữ liệu giúp tránh trường hợp dự đoán các bản ghi giống nhau nhiều lần.
- Cùng một thực thể nhưng hai tên khác nhau
Ví dụ cùng một người nhưng lại có 2 tên khác nhau
- Cùng một thực thể nhưng xuất hiện nhiều lần với cùng một định danh