Hướng dẫn xử lý ngôn ngữ tự nhiên: NLP là gì? Các ví dụ

Xử lý ngôn ngữ tự nhiên là gì?

Xử lý ngôn ngữ tự nhiên (NLP) là một nhánh của AI giúp máy tính hiểu, diễn giải và vận dụng các ngôn ngữ của con người như tiếng Anh hoặc tiếng Hindi để phân tích và tìm ra ý nghĩa của nó. NLP giúp các nhà phát triển tổ chức và cấu trúc kiến ​​thức để thực hiện các tác vụ như dịch, tóm tắt, nhận dạng thực thể được đặt tên, trích xuất mối quan hệ, nhận dạng giọng nói, phân đoạn chủ đề, v.v.

Trong hướng dẫn xử lý ngôn ngữ tự nhiên này, bạn sẽ học các khái niệm NLP như:

Lịch sử của NLP

Đây là những sự kiện quan trọng trong lịch sử Xử lý ngôn ngữ tự nhiên:

1950- NLP bắt đầu khi Alan Turing xuất bản một bài báo có tên 'Máy móc và trí thông minh.'

1950- Cố gắng tự động hóa bản dịch giữa tiếng Nga và tiếng Anh

1960- Công trình của Chomsky và những người khác về lý thuyết ngôn ngữ chính thức và cú pháp tổng hợp

1990- Các mô hình xác suất và theo hướng dữ liệu đã trở nên khá chuẩn

2000- Có sẵn một lượng lớn dữ liệu nói và văn bản

Tiếp theo trong hướng dẫn NLP này, chúng ta sẽ tìm hiểu NLP hoạt động như thế nào.

NLP hoạt động như thế nào?

Trước khi tìm hiểu cách NLP hoạt động, chúng ta hãy hiểu cách con người sử dụng ngôn ngữ-

Mỗi ngày, chúng ta nói hàng nghìn từ mà người khác diễn giải để làm vô số việc. Chúng ta, coi nó như một giao tiếp đơn giản, nhưng chúng ta đều biết rằng lời nói còn sâu sắc hơn thế nhiều. Luôn có một số ngữ cảnh mà chúng ta bắt nguồn từ những gì chúng ta nói và cách chúng ta nói nó., NLP trong Trí tuệ nhân tạo không bao giờ tập trung vào điều chế giọng nói; nó vẽ trên các mẫu theo ngữ cảnh.

Thí dụ:

 Man is to woman as king is to __________? Meaning (king) – meaning (man) + meaning ( woman)=? The answer is- queen 

Ở đây, chúng ta có thể dễ dàng đồng quan hệ vì nam là nam và nữ là nữ. Theo cách tương tự, vua có giới tính nam, và giới tính nữ là hoàng hậu.

Thí dụ:

 Is King to kings as the queen is to_______? The answer is--- queens 

Ở đây, chúng ta có thể thấy hai từ vua và vua trong đó một là số ít và một là số nhiều. Do đó, khi nữ hoàng thế giới đến, nó sẽ tự động đồng quan hệ với các nữ hoàng một lần nữa số nhiều.

Ở đây, câu hỏi lớn nhất là làm thế nào để chúng ta biết những từ có nghĩa là gì? Hãy nói xem ai sẽ gọi nó là nữ hoàng?

Câu trả lời là chúng tôi học được suy nghĩ này thông qua kinh nghiệm. Tuy nhiên, ở đây câu hỏi chính là làm thế nào máy tính biết về cùng một?

Chúng tôi cần cung cấp đủ dữ liệu để Máy móc rút kinh nghiệm. Chúng tôi có thể cung cấp thông tin chi tiết như

  • Nữ hoàng bệ hạ.
  • Bài phát biểu của Nữ hoàng trong chuyến thăm cấp Nhà nước
  • Vương miện của Nữ hoàng Elizabeth
  • Mẹ của nữ hoàng
  • Nữ hoàng là người hào phóng.

Với các ví dụ trên, máy hiểu được thực thể Queen.

Máy tạo ra các vectơ từ như bên dưới. Một vector từ được xây dựng bằng cách sử dụng các từ xung quanh.

Máy tạo ra các vectơ này

  • Khi nó học hỏi từ nhiều tập dữ liệu
  • Sử dụng Học máy (ví dụ: thuật toán Học sâu)
  • Một vector từ được xây dựng bằng cách sử dụng các từ xung quanh.

Đây là công thức:

Nghĩa (vua) - nghĩa (đàn ông) + nghĩa (đàn bà) =?

Điều này tương đương với việc thực hiện các phép toán đại số đơn giản trên các vectơ từ:

Vectơ (vua) - vectơ (đàn ông) + vectơ (phụ nữ) = vectơ (?)

Mà máy trả lời nữ hoàng.

Tiếp theo trong hướng dẫn Xử lý ngôn ngữ tự nhiên này, chúng ta sẽ tìm hiểu về Các thành phần của NLP.

Các thành phần của NLP

Năm thành phần chính của quá trình xử lý Ngôn ngữ Tự nhiên trong AI là:

  • Phân tích hình thái và ngôn ngữ
  • Phân tích cú pháp
  • Phân tích ngữ nghĩa
  • Tích hợp bài giảng
  • Phân tích thực dụng

Các thành phần của NLP

Phân tích hình thái và ngôn ngữ

Phân tích từ vựng là một từ vựng bao gồm các từ và cách diễn đạt của nó. Nó mô tả việc phân tích, xác định và mô tả cấu trúc của từ. Nó bao gồm việc chia một văn bản thành các đoạn văn, các từ và các câu

Các từ riêng lẻ được phân tích thành các thành phần của chúng và các mã thông báo không phải từ khóa như dấu chấm câu được phân tách khỏi các từ.

Phân tích ngữ nghĩa

Phân tích ngữ nghĩa là một cấu trúc được tạo bởi trình phân tích cú pháp để gán các ý nghĩa. Thành phần này chuyển chuỗi tuyến tính của các từ thành cấu trúc. Nó cho thấy các từ được liên kết với nhau như thế nào.

Ngữ nghĩa học chỉ tập trung vào nghĩa đen của các từ, cụm từ và câu. Điều này chỉ tóm tắt ý nghĩa từ điển hoặc ý nghĩa thực sự từ ngữ cảnh nhất định. Các cấu trúc được chỉ định bởi trình phân tích cú pháp luôn có nghĩa được chỉ định

Ví dụ .. 'ý tưởng màu xanh lá cây không màu.' Điều này sẽ bị bác bỏ bởi phân tích Symantec là không màu Ở đây; màu xanh lá cây không có ý nghĩa gì.

Phân tích thực dụng

Phân tích thực dụng đề cập đến nội dung giao tiếp và xã hội tổng thể và ảnh hưởng của nó đối với việc diễn giải. Nó có nghĩa là trừu tượng hóa hoặc suy ra việc sử dụng ngôn ngữ có ý nghĩa trong các tình huống. Trong phân tích này, trọng tâm chính luôn là những gì đã nói khi được giải thích lại về ý nghĩa của nó.

Phân tích thực dụng giúp người dùng phát hiện ra hiệu ứng dự kiến ​​này bằng cách áp dụng một bộ quy tắc đặc trưng cho các cuộc đối thoại hợp tác.

Ví dụ: 'đóng cửa sổ?' nên được hiểu là một yêu cầu thay vì một mệnh lệnh.

Phân tích cú pháp

Các từ thường được chấp nhận là đơn vị cú pháp nhỏ nhất. Cú pháp đề cập đến các nguyên tắc và quy tắc chi phối cấu trúc câu của bất kỳ ngôn ngữ riêng lẻ nào.

Cú pháp tập trung vào thứ tự thích hợp của các từ có thể ảnh hưởng đến ý nghĩa của nó. Điều này liên quan đến việc phân tích các từ trong một câu bằng cách tuân theo cấu trúc ngữ pháp của câu. Các từ được chuyển đổi cấu trúc để chỉ ra các từ có liên quan với nhau như thế nào.

Tích hợp bài giảng

Nó có nghĩa là một cảm giác về bối cảnh. Ý nghĩa của bất kỳ câu đơn lẻ nào phụ thuộc vào các câu đó. Nó cũng xem xét ý nghĩa của câu sau.

Ví dụ, từ 'that' trong câu 'Anh ấy muốn điều đó' phụ thuộc vào ngữ cảnh diễn ngôn trước đó.

Tiếp theo trong hướng dẫn NLP này, chúng ta sẽ tìm hiểu về NLP và hệ thống viết.

NLP và Hệ thống viết

Loại hệ thống chữ viết được sử dụng cho một ngôn ngữ là một trong những yếu tố quyết định trong việc xác định cách tiếp cận tốt nhất để xử lý trước văn bản. Hệ thống viết có thể được

  1. Logographic: một số lượng lớn các ký hiệu riêng lẻ đại diện cho các từ. Ví dụ tiếng Nhật, tiếng Quan Thoại
  2. Âm tiết: Các ký hiệu riêng lẻ đại diện cho các âm tiết
  3. Bảng chữ cái: Các ký hiệu riêng lẻ đại diện cho âm thanh

Phần lớn các hệ thống chữ viết sử dụng hệ thống Âm tiết hoặc Bảng chữ cái. Ngay cả tiếng Anh, với hệ thống chữ viết tương đối đơn giản dựa trên bảng chữ cái La Mã, cũng sử dụng các ký hiệu lôgic bao gồm chữ số Ả Rập, ký hiệu Tiền tệ (S, £) và các ký hiệu đặc biệt khác.

Điều này đặt ra những thách thức sau

  • Trích xuất ý nghĩa (ngữ nghĩa) từ một văn bản là một thách thức
  • NLP trong AI phụ thuộc vào chất lượng của kho dữ liệu. Nếu tên miền rộng lớn, rất khó để hiểu ngữ cảnh.
  • Có một sự phụ thuộc vào bộ ký tự và ngôn ngữ

Cách triển khai NLP

Dưới đây là các phương pháp phổ biến được sử dụng cho Quy trình học tập tự nhiên:

Máy học: Các thủ tục nlp học tập được sử dụng trong quá trình học máy. Nó tự động tập trung vào các trường hợp phổ biến nhất. Vì vậy, khi chúng ta viết các quy tắc bằng tay, nó thường không đúng chút nào vì lo ngại về lỗi của con người.

Suy luận thống kê: NLP có thể sử dụng các thuật toán suy luận thống kê. Nó giúp bạn tạo ra các mô hình mạnh mẽ. ví dụ: chứa các từ hoặc cấu trúc mà mọi người đều biết.

Ví dụ NLP

Ngày nay, công nghệ học quá trình tự nhiên là công nghệ được sử dụng rộng rãi.

Dưới đây là các kỹ thuật xử lý ngôn ngữ tự nhiên phổ biến:

Truy xuất thông tin & Tìm kiếm trên web

Google, Yahoo, Bing và các công cụ tìm kiếm khác dựa trên công nghệ dịch máy của họ dựa trên các mô hình học sâu NLP. Nó cho phép các thuật toán đọc văn bản trên trang web, diễn giải ý nghĩa của nó và dịch nó sang một ngôn ngữ khác.

Sửa ngữ pháp:

Kỹ thuật NLP được sử dụng rộng rãi bởi phần mềm xử lý văn bản như MS-word để sửa lỗi chính tả và kiểm tra ngữ pháp.

Trả lời câu hỏi

Nhập từ khóa để đặt Câu hỏi bằng Ngôn ngữ Tự nhiên.

Tóm tắt văn bản

Quá trình tóm tắt thông tin quan trọng từ một nguồn để tạo ra một phiên bản rút gọn

Dịch máy

Sử dụng các ứng dụng máy tính để dịch văn bản hoặc lời nói từ ngôn ngữ tự nhiên này sang ngôn ngữ tự nhiên khác.

Phân tích tình cảm

NLP giúp các công ty phân tích một số lượng lớn các đánh giá về một sản phẩm. Nó cũng cho phép khách hàng của họ đưa ra đánh giá về sản phẩm cụ thể.

Tương lai của NLP

  • Xử lý ngôn ngữ tự nhiên có thể đọc được của con người là vấn đề lớn nhất của Al-. Tất cả đều giống với việc giải quyết vấn đề trí tuệ nhân tạo trung tâm và làm cho máy tính trở nên thông minh như con người.
  • Các máy tính hoặc máy móc trong tương lai với sự trợ giúp của NLP sẽ có thể học từ thông tin trực tuyến và áp dụng điều đó trong thế giới thực, tuy nhiên, rất nhiều việc cần làm về vấn đề này.
  • Bộ công cụ ngôn ngữ tự nhiên hoặc nltk trở nên hiệu quả hơn
  • Kết hợp với việc tạo ngôn ngữ tự nhiên, máy tính sẽ trở nên có khả năng tiếp nhận và đưa ra những thông tin hoặc dữ liệu hữu ích và nhiều nguồn lực hơn.

Ngôn ngữ tự nhiên so với Ngôn ngữ máy tính

Dưới đây là những điểm khác biệt chính giữa Ngôn ngữ Tự nhiên và Ngôn ngữ Máy tính:

Tham sốTiếng mẹ đẻNgôn ngữ máy tính
Mơ hồChúng mơ hồ về bản chất.Chúng được thiết kế để rõ ràng.
Các ngôn ngữ tự nhiên sử dụng rất nhiều dư thừa.Ngôn ngữ trang trọng ít thừa hơn.
Chữ nghĩaNgôn ngữ tự nhiên được tạo thành từ thành ngữ và ẩn dụNgôn ngữ trang trọng có nghĩa là chính xác những gì họ muốn nói

Ưu điểm của NLP

  • Người dùng có thể đặt câu hỏi về bất kỳ chủ đề nào và nhận được phản hồi trực tiếp trong vòng vài giây.
  • Hệ thống NLP cung cấp câu trả lời cho các câu hỏi bằng ngôn ngữ tự nhiên
  • Hệ thống NLP cung cấp câu trả lời chính xác cho các câu hỏi, không có thông tin không cần thiết hoặc không mong muốn
  • Độ chính xác của các câu trả lời tăng lên cùng với lượng thông tin liên quan được cung cấp trong câu hỏi.
  • Quy trình NLP giúp máy tính giao tiếp với con người bằng ngôn ngữ của họ và mở rộng quy mô các nhiệm vụ khác liên quan đến ngôn ngữ
  • Cho phép bạn thực hiện nhiều dữ liệu dựa trên ngôn ngữ hơn so với con người mà không mệt mỏi và theo cách không thiên vị và nhất quán.
  • Cấu trúc nguồn dữ liệu phi cấu trúc cao

Nhược điểm của NLP

  • Ngôn ngữ truy vấn phức tạp - hệ thống có thể không cung cấp câu trả lời chính xác cho câu hỏi được diễn đạt kém hoặc không rõ ràng.
  • Hệ thống chỉ được xây dựng cho một nhiệm vụ cụ thể và duy nhất; nó không thể thích ứng với các miền và các vấn đề mới vì các chức năng hạn chế.
  • Hệ thống NLP không có giao diện người dùng thiếu các tính năng cho phép người dùng tương tác sâu hơn với hệ thống

Tóm lược

  • Xử lý ngôn ngữ tự nhiên là một nhánh của AI giúp máy tính hiểu, diễn giải và vận dụng ngôn ngữ của con người
  • NLP bắt đầu khi Alan Turing xuất bản một bài báo có tên 'Máy móc và trí thông minh'.
  • NLP không bao giờ tập trung vào điều chế giọng nói; nó vẽ trên các mẫu theo ngữ cảnh
  • Năm thành phần thiết yếu của Xử lý ngôn ngữ tự nhiên trong Trí tuệ nhân tạo là 1) Phân tích hình thái và từ vựng 2) Phân tích cú pháp 3) Phân tích ngữ nghĩa 4) Tích hợp diễn đạt 5) Phân tích thực dụng
  • Ba loại của hệ thống viết quá trình tự nhiên là 1) Lôgic học 2) Âm tiết 3) Bảng chữ cái
  • Học máy và suy luận thống kê là hai phương pháp để thực hiện Học theo quy trình tự nhiên
  • Các ứng dụng thiết yếu của NLP là Truy xuất thông tin & Tìm kiếm trên Web, Trả lời Câu hỏi Chỉnh sửa Ngữ pháp, Tóm tắt Văn bản, Dịch máy, v.v.
  • Máy tính hoặc máy móc trong tương lai với sự trợ giúp của NLP và Khoa học dữ liệu sẽ có thể học từ thông tin trực tuyến và áp dụng thông tin đó trong thế giới thực, tuy nhiên, rất nhiều việc cần làm về vấn đề này
  • NLP không rõ ràng trong khi ngôn ngữ máy tính nguồn mở được thiết kế để rõ ràng
  • Ưu điểm lớn nhất của NLP trong hệ thống Trí tuệ nhân tạo là nó cung cấp câu trả lời chính xác cho các câu hỏi, không có thông tin không cần thiết hoặc không mong muốn
  • Điểm hạn chế lớn nhất của hệ thống NLP là chỉ được xây dựng cho một nhiệm vụ cụ thể và đơn lẻ, do đó nó không thể thích ứng với các lĩnh vực và vấn đề mới vì chức năng hạn chế