Data mining - Tổng quan

Ngày nay, với sự phát triển nhanh chóng của các thiết bị lưu trữ và thu thập dữ liệu, thì lượng dữ liệu được sinh ra có thể được xem như nhiều đến mức bùng nổ. Từ rất lâu, các nhà nghiên cứu đã nhận ra dường như các tập dữ liệu này có thể tiết lộ cho chúng ta điều gì đó về bản chất, tính chất của một sự vật, sự việc, hiện tượng hoặc cũng có thể dự báo trước một sự kiện nào đó mà các phương pháp nghiên cứu trước đây chưa thực hiện được. Chính các chuyên gia trong nhiều lĩnh vực khác nhau cũng rất ngạc nhiên về những gì mà Data mining (DM) nói riêng hay AI nói chung có thể làm được. Một số ứng dụng của DM đã và đang được áp dụng có thể kể đến như: chẩn đoán bệnh qua ảnh y khoa, dự đoán giá chứng khoán, dự báo thời tiết, tìm kiếm các khách hàng tiềm năng hay các bài toán đề xuất cho user (hình minh họa đề xuất bài hát trên soundcloud).


Nhìn chung, một quá trình khai phá tri thức từ dữ liệu (Knowledge discovery from data - KDD) đầy đủ gồm ba bước chính, mà DM chỉ là một trong ba bước đó, bao gồm:
1. Tiền xử lý (pre-processing): Dữ liệu thô trong các tập dữ liệu chưa thể khai thác ngay được, mà phải được xử lý qua các bước ban đầu.
2. Khai phá dữ liệu (data mining): Bao gồm các kỹ thuật để rút trích các data pattern từ tập dữ liệu.
3. Hậu xử lý (post-processing): Bao gồm các phương pháp đánh giá các pattern được khai phá có ích hay không, sau đó là trực quan hóa các pattern này để end-user có thể hiểu được ý nghĩa của chúng.

Nói về data pattern, những thứ chúng ta thu được sau quá trình KDD đều được gọi là data pattern (DP). Có nhiều kỹ thuật DM (data mining functionality) có thể được thực hiện để thu được DP, tùy thuộc vào yêu cầu của bài toán, bao gồm: characterization and discrimination; frequent patterns, associations and correlations; classification and regression; clustering analysis; outlier analysis. Nhìn chung, các kỹ thuật này được xếp vào hai loại: descriptive (mô tả các đặc trưng của dữ liệu) và predictive (từ tập dữ liệu quá khứ, đưa ra dự đoán cho tương lai). Chi tiết các kỹ thuật này sẽ được đề cập sau.

Giống như các ngành khác trong lĩnh vực máy tính, hiện nay DM gặp phải một vấn đề không mang tính kỹ thuật. Ví dụ một bài toán cụ thể là tìm ra các điện thoại iPhone có màn hình bị lỗi thông qua ảnh chụp. Trong điều kiện lý tưởng, nếu tập dữ liệu đầu vào bao gồm cả hình ảnh của sản phẩm tốt và sản phẩm lỗi, thì việc build một hệ thống thỏa yêu cầu đề bài là khả thi. Tuy nhiên, với tính chất nhạy cảm của dữ liệu, dữ liệu đầu vào chỉ cho hình ảnh của những sản phẩm tốt. Tại sao như vậy? Vì với một tập dữ liệu đầy đủ trong điều kiện lý tưởng, rất có thể những thông tin khác về quy trình sản xuất, các kỹ thuật được áp dụng của iPhone sẽ bị khai thác và tiết lộ ra ngoài. Điều tương tự xảy ra với dữ liệu nhạy cảm của ngân hàng, chính phủ,... Do đó, đây là một trong những thách thức mà DM đang gặp phải: vẫn phải khai phá được tri thức, với tập dữ liệu đầu vào nhỏ.

Comments

Popular posts from this blog

[Kiến trúc máy tính] Phần 1: Từ tín hiệu sóng điện từ đến phần mềm máy tính

Chặng đường thứ nhất: Toán học và khát khao

Hợp và tan