Học máy không giám sát: Là gì, Thuật toán, Ví dụ

Học không giám sát là gì?

Học tập không giám sát là một kỹ thuật máy học trong đó người dùng không cần phải giám sát mô hình. Thay vào đó, nó cho phép mô hình tự hoạt động để phát hiện ra các mẫu và thông tin mà trước đây chưa được phát hiện. Nó chủ yếu xử lý dữ liệu không được dán nhãn.

Thuật toán học không giám sát

Thuật toán học không giám sát cho phép người dùng thực hiện các tác vụ xử lý phức tạp hơn so với học có giám sát. Mặc dù, việc học không có giám sát có thể khó dự đoán hơn so với các phương pháp học tự nhiên khác. Các thuật toán học tập không giám sát bao gồm phân cụm, phát hiện bất thường, mạng nơ-ron, v.v.

Trong hướng dẫn này, bạn sẽ học:

Ví dụ về Học máy không giám sát

Hãy lấy một ví dụ về Học không giám sát đối với một em bé và chú chó trong gia đình cô ấy.

Cô ấy biết và xác định con chó này. Vài tuần sau, một người bạn của gia đình dẫn theo một con chó và cố gắng chơi với em bé.

Bé đã không nhìn thấy con chó này sớm hơn. Nhưng nó nhận ra nhiều đặc điểm (2 tai, 2 mắt, đi bằng 4 chân) giống chú chó cưng của cô. Cô xác định con vật mới là một con chó. Đây là cách học không có giám sát, nơi bạn không được dạy nhưng bạn học từ dữ liệu (trong trường hợp này là dữ liệu về một con chó.) học có giám sát , người bạn của gia đình sẽ nói với đứa bé rằng đó là một con chó như trong ví dụ về Học tập không giám sát ở trên.

Tại sao học không giám sát?

Dưới đây là những lý do chính để sử dụng Học không giám sát trong Học máy:

  • Học máy không giám sát tìm thấy tất cả các loại mẫu không xác định trong dữ liệu.
  • Các phương pháp không được giám sát giúp bạn tìm ra các tính năng có thể hữu ích cho việc phân loại.
  • Nó được thực hiện trong thời gian thực, vì vậy tất cả các dữ liệu đầu vào sẽ được phân tích và dán nhãn trước sự chứng kiến ​​của người học.
  • Việc lấy dữ liệu chưa được gắn nhãn từ máy tính sẽ dễ dàng hơn so với dữ liệu được gắn nhãn, điều này cần sự can thiệp thủ công.

Phân cụm các loại thuật toán học không giám sát

Dưới đây là các loại phân nhóm của thuật toán Học máy không giám sát:

Các vấn đề học tập không được giám sát tiếp tục được nhóm lại thành các vấn đề phân cụm và liên kết.

Phân cụm

Phân cụm

Phân cụm là một khái niệm quan trọng khi nói đến học không giám sát. Nó chủ yếu giải quyết việc tìm kiếm cấu trúc hoặc mẫu trong tập hợp dữ liệu chưa được phân loại. Thuật toán phân cụm học tập không giám sát sẽ xử lý dữ liệu của bạn và tìm các cụm (nhóm) tự nhiên nếu chúng tồn tại trong dữ liệu. Bạn cũng có thể sửa đổi số lượng cụm mà thuật toán của bạn sẽ xác định. Nó cho phép bạn điều chỉnh mức độ chi tiết của các nhóm này.

Có nhiều kiểu phân cụm khác nhau mà bạn có thể sử dụng:

Độc quyền (phân vùng)

Trong phương pháp phân nhóm này, Dữ liệu được nhóm theo cách mà một dữ liệu chỉ có thể thuộc về một cụm.

Ví dụ: K-mean

Tổng hợp

Trong kỹ thuật phân cụm này, mọi dữ liệu là một cụm. Sự kết hợp lặp đi lặp lại giữa hai cụm gần nhất làm giảm số lượng cụm.

Ví dụ: Phân cụm phân cấp

Qua nối chồng

Trong kỹ thuật này, các tập mờ được sử dụng để phân cụm dữ liệu. Mỗi điểm có thể thuộc hai hoặc nhiều cụm với các cấp độ thành viên riêng biệt.

Tại đây, dữ liệu sẽ được liên kết với một giá trị thành viên thích hợp. Ví dụ: C-Means mờ

Xác suất

Kỹ thuật này sử dụng phân phối xác suất để tạo các cụm

Ví dụ: Các từ khóa sau

  • 'giày của đàn ông.'
  • 'giày của phụ nữ.'
  • 'găng tay của phụ nữ.'
  • 'găng tay của đàn ông.'

có thể được nhóm lại thành hai loại 'giày' và 'găng tay' hoặc 'đàn ông' và 'phụ nữ.'

Các loại phân nhóm

Sau đây là các loại phân cụm của Học máy:

  • Phân cụm theo thứ bậc
  • K-có nghĩa là phân cụm
  • K-NN (k hàng xóm gần nhất)
  • Phân tích thành phần chính
  • Phân rã giá trị đơn lẻ
  • Phân tích thành phần độc lập

Phân cụm theo thứ bậc

Phân cụm phân cấp là một thuật toán xây dựng một hệ thống phân cấp của các cụm. Nó bắt đầu với tất cả dữ liệu được gán cho một nhóm của riêng chúng. Ở đây, hai cụm gần sẽ ở trong cùng một cụm. Thuật toán này kết thúc khi chỉ còn một cụm duy nhất.

K-có nghĩa là phân cụm

K có nghĩa là nó là một thuật toán phân cụm lặp đi lặp lại giúp bạn tìm ra giá trị cao nhất cho mỗi lần lặp. Ban đầu, số lượng cụm mong muốn được chọn. Trong phương pháp phân cụm này, bạn cần phải phân cụm các điểm dữ liệu thành k nhóm. Một k lớn hơn có nghĩa là các nhóm nhỏ hơn với mức độ chi tiết hơn theo cùng một cách. K thấp hơn có nghĩa là các nhóm lớn hơn với độ chi tiết thấp hơn.

Đầu ra của thuật toán là một nhóm 'nhãn'. Nó chỉ định điểm dữ liệu cho một trong k nhóm. Trong phân cụm k-mean, mỗi nhóm được xác định bằng cách tạo một trung tâm cho mỗi nhóm. Các trung tâm giống như trái tim của cụm, lấy các điểm gần chúng nhất và thêm chúng vào cụm.

K-mean clustering xác định thêm hai nhóm con:

  • Phân cụm tích hợp
  • Dendrogram

Phân cụm tích hợp

Loại phân cụm K-mean này bắt đầu với một số cụm cố định. Nó phân bổ tất cả dữ liệu vào số lượng chính xác của các cụm. Phương pháp phân cụm này không yêu cầu số lượng cụm K làm đầu vào. Quá trình tổng hợp bắt đầu bằng cách hình thành mỗi dữ liệu dưới dạng một cụm duy nhất.

Phương pháp này sử dụng một số thước đo khoảng cách, giảm số lượng các cụm (một trong mỗi lần lặp lại) bằng quá trình hợp nhất. Cuối cùng, chúng ta có một cụm lớn chứa tất cả các đối tượng.

Dendrogram

Trong phương pháp phân cụm Dendrogram, mỗi cấp độ sẽ đại diện cho một cụm có thể có. Chiều cao của dendrogram cho thấy mức độ giống nhau giữa hai cụm nối. Càng về cuối quá trình, chúng càng có nhiều cụm giống nhau, điều này được tìm thấy của nhóm từ dendrogram không phải là tự nhiên và chủ yếu là chủ quan.

K- Những người hàng xóm thân thiết nhất

K- láng giềng gần nhất là bộ phân loại học máy đơn giản nhất. Nó khác với các kỹ thuật học máy khác, ở chỗ nó không tạo ra một mô hình. Nó là một thuật toán đơn giản lưu trữ tất cả các trường hợp có sẵn và phân loại các trường hợp mới dựa trên một thước đo tương tự.

Nó hoạt động rất tốt khi có khoảng cách giữa các ví dụ. Tốc độ học tập chậm lại khi tập hợp đào tạo lớn, và tính toán khoảng cách cũng không tầm thường.

Phân tích thành phần chính

Trong trường hợp bạn muốn có một không gian chiều cao hơn. Bạn cần chọn một cơ sở cho không gian đó và chỉ 200 điểm quan trọng nhất của cơ sở đó. Cơ sở này được biết đến như một thành phần chính. Tập hợp con bạn chọn tạo thành một không gian mới có kích thước nhỏ so với không gian ban đầu. Nó duy trì độ phức tạp của dữ liệu càng nhiều càng tốt.

sự kết hợp

Các quy tắc kết hợp cho phép bạn thiết lập các liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn. Kỹ thuật không giám sát này là về việc khám phá các mối quan hệ thú vị giữa các biến trong cơ sở dữ liệu lớn. Ví dụ, những người mua nhà mới có nhiều khả năng mua đồ nội thất mới.

Những ví dụ khác:

  • Một nhóm bệnh nhân ung thư được nhóm lại theo các phép đo biểu hiện gen của họ
  • Nhóm người mua sắm dựa trên lịch sử duyệt và mua hàng của họ
  • Nhóm phim theo xếp hạng của người xem phim

Học máy được giám sát và không giám sát

Đây là sự khác biệt chính giữa Học tập có giám sát và không giám sát :

Thông số Kỹ thuật học máy có giám sát Kỹ thuật học máy không được giám sát
Dữ liệu đầu vàoCác thuật toán được đào tạo bằng cách sử dụng dữ liệu có nhãn.Các thuật toán được sử dụng để chống lại dữ liệu không được gắn nhãn
Tính phức tạpHọc có giám sát là một phương pháp đơn giản hơn.Học không giám sát rất phức tạp về mặt tính toán
Sự chính xácPhương pháp chính xác cao và đáng tin cậy.Phương pháp kém chính xác và đáng tin cậy.

Các ứng dụng của Học máy không giám sát

Một số ứng dụng của Kỹ thuật Học không Giám sát là:

  • Phân cụm tự động chia tập dữ liệu thành các nhóm dựa trên các điểm tương đồng của chúng
  • Tính năng phát hiện bất thường có thể phát hiện ra các điểm dữ liệu bất thường trong tập dữ liệu của bạn. Nó rất hữu ích cho việc tìm kiếm các giao dịch gian lận
  • Khai thác liên kết xác định các tập hợp các mục thường xuất hiện cùng nhau trong tập dữ liệu của bạn
  • Các mô hình biến tiềm ẩn được sử dụng rộng rãi để xử lý trước dữ liệu. Như giảm số lượng tính năng trong tập dữ liệu hoặc phân tách tập dữ liệu thành nhiều thành phần

Nhược điểm của học không giám sát

  • Bạn không thể nhận được thông tin chính xác liên quan đến việc sắp xếp dữ liệu và kết quả đầu ra là dữ liệu được sử dụng trong học tập không có giám sát được gắn nhãn và không được biết
  • Độ chính xác của kết quả kém hơn là do dữ liệu đầu vào không được mọi người biết trước và không được gắn nhãn trước. Điều này có nghĩa là máy yêu cầu tự làm việc này.
  • Các lớp phổ không phải lúc nào cũng tương ứng với các lớp thông tin.
  • Người dùng cần dành thời gian giải thích và gắn nhãn các lớp theo phân loại đó.
  • Thuộc tính phổ của các lớp cũng có thể thay đổi theo thời gian nên bạn không thể có cùng thông tin về lớp trong khi chuyển từ ảnh này sang ảnh khác.

Tóm lược

  • Học không giám sát là một kỹ thuật học máy, trong đó bạn không cần phải giám sát mô hình.
  • Học máy không giám sát giúp bạn tìm tất cả các loại mẫu không xác định trong dữ liệu.
  • Clustering và Association là hai loại hình học không giám sát.
  • Bốn loại phương pháp phân cụm là 1) Loại trừ 2) Tổng hợp 3) Chồng chéo 4) Xác suất.
  • Các kiểu phân cụm quan trọng là: 1) Phân cụm theo thứ bậc 2) Phân cụm K-mean 3) K-NN 4) Phân tích thành phần chính 5) Phân tích giá trị đơn lẻ 6) Phân tích thành phần độc lập.
  • Các quy tắc kết hợp cho phép bạn thiết lập các liên kết giữa các đối tượng dữ liệu bên trong cơ sở dữ liệu lớn.
  • Trong Học tập có giám sát, Các thuật toán được đào tạo bằng cách sử dụng dữ liệu có gắn nhãn trong khi trong Học tập không giám sát, Các thuật toán được sử dụng dựa trên dữ liệu không được gắn nhãn.
  • Tính năng phát hiện bất thường có thể phát hiện ra các điểm dữ liệu quan trọng trong tập dữ liệu của bạn, điều này rất hữu ích cho việc tìm kiếm các giao dịch gian lận.
  • Hạn chế lớn nhất của Học không giám sát là bạn không thể nhận được thông tin chính xác liên quan đến việc sắp xếp dữ liệu.