Thế giới hiện tại đang tràn ngập các thuật ngữ gây xôn xao dư luận như Trí tuệ nhân tạo (AI), Máy học (Machine Learning), Chuyển đổi AI, Học sâu (Deep Learning) và Khoa học dữ liệu (Data Science). Chúng ta biết rằng những lĩnh vực, công nghệ và công cụ này đang thay đổi bối cảnh cạnh tranh và sẽ sớm trở thành nền tảng cho tương lai. Tuy nhiên, mọi người có thể biết chúng quan trọng trong khi thậm chí không biết chúng thực sự là gì. Không sao cả bởi những từ này tràn ngập khắp nơi và thậm chí chúng không được sử dụng một cách thống nhất. Mục tiêu của bài viết này chính là xóa tan mọi sự nhầm lẫn bằng cách làm sáng tỏ những thuật ngữ này: AI, Machine Learning, Data Science là gì? Chúng giống và khác nhau như thế nào? Hãy đọc để tìm hiểu kỹ hơn nhé.
Tóm tắt nhanh
Trí tuệ nhân tạo (AI) là “một bộ công cụ khổng lồ để làm cho máy tính hoạt động một cách thông minh” và theo xu hướng tự động. Điều này bao gồm trợ lý ảo, hệ thống đề xuất hay ô tô tự hành.
Machine Learning là “lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học mà không cần được lập trình rõ ràng”. Phần lớn Mchine Learning liên quan đến việc máy tính học các mẫu dữ liệu hiện có và áp dụng nó vào dữ liệu mới dưới dạng dự đoán, chẳng hạn như dự đoán liệu email có phải là spam hay không, liệu khách hàng có truy cập hay không và chẩn đoán một phần cụ thể của hình ảnh y tế.
Data Science là về việc thực hiện các khám phá và tạo ra thông tin chi tiết (Insights) từ dữ liệu và truyền đạt những hiểu biết và khám phá này cho các bên liên quan phi kỹ thuật.
Vậy, chúng có liên quan như thế nào?
Machine Learning áp dụng cho cả AI và Data Science
Nếu đầu ra của mô hình Machine Learning của bạn được đưa vào một hệ thống tính toán thực hiện một hành động theo cách tự động, chẳng hạn như đề xuất một bộ phim, giảm tốc độ ở ô tô tự lái hoặc cung cấp kết quả tìm kiếm, nó có thể được xem như một thành phần trong Hệ thống AI.
Nếu đầu ra của mô hình Machine Learning của bạn được đưa vào quy trình ra quyết định của con người, thì nó có thể được coi là công việc của khoa học dữ liệu (ví dụ: dự đoán tình hình tăng trưởng của công ty có thể dẫn đến các quyết định từ phía ban quản trị, thông tin chi tiết hoặc khám phá này chính là một quyết định của khoa học dữ liệu).
Phần lớn Machine Learning và AI dựa vào dữ liệu chất lượng cao, có nghĩa là những con AI thông minh nhất sẽ dựa trên nền tảng của khoa học dữ liệu cực kỳ mạnh mẽ.
AI (Trí tuệ nhân tạo)
Trong khóa học trên Coursera AI for everyone, Andrew Ng, đồng sáng lập Google Brain và từng là người đứng đầu về khoa học dữ liệu tại Baidu, định nghĩa trí tuệ nhân tạo là “một bộ công cụ khổng lồ để làm cho máy tính hoạt động một cách thông minh”. Định nghĩa này, mặc dù tốt, nhưng lại quá tổng quan và đáng để được làm rõ “hành động một cách thông minh” thực sự là như thế nào:
- Trợ lý ảo, chẳng hạn như Siri
- Hệ thống đề xuất, chẳng hạn như Netflix
- Ô tô tự lái
- Máy bay không người lái bay qua cánh đồng và ghi lại hình ảnh, được sử dụng để tối ưu hóa năng suất cây trồng
- Tìm kiếm của Google
- Các thuật toán hiển thị, chẳng hạn như các thuật toán được sử dụng bởi Twitter và Facebook, quyết định nội dung nào sẽ hiển thị ở trên Newfeed của bạn
Điều quan trọng là phải nhận ra rằng ở đây, AI có nghĩa là tự động hóa các hành động và quyết định. Điều quan trọng cần lưu ý là tất cả những điều này đều là ví dụ của Trí tuệ nhân tạo hẹp (ANI), tức là các thuật toán chỉ có thể làm tốt một việc, một lĩnh vực nào đó. Điều này không được nhầm lẫn với Trí tuệ nhân tạo hoàn toàn (AGI), là một AI giả định, tương lai có thể làm bất cứ điều gì mà con người có thể làm được. Đó cũng không phải là Superintelligent AI, một tác nhân phần mềm giả định có trí thông minh vượt trội hơn con người. Cả AGI và Superintelligent AI đều còn một chặng đường dài. Hiện tại, AI cho phép máy tính thực hiện các nhiệm vụ bắt chước các khía cạnh của trí tuệ con người, chẳng hạn như nhận dạng các biển báo dừng và con người trong hình ảnh và video (xe tự lái), giao tiếp cơ bản, truy xuất thông tin và thực hiện các tác vụ (trợ lý ảo) và sắp xếp các tài liệu dựa trên mức độ liên quan của chúng với một truy vấn tìm kiếm (Google Tìm kiếm).
Bây giờ nếu AI là một bộ công cụ khổng lồ, thì chúng ta đang nói đến những công cụ cụ thể nào? Một công cụ có tầm quan trọng bậc nhất đối với AI hiện đại là Machine Learning, mà chúng ta sẽ khám phá ngay sau đây.
Machine Learning (Máy học)
Machine Learning (ML) hỗ trợ cho các hệ thống đề xuất, khám phá nội dung, công cụ tìm kiếm, bộ lọc thư rác email và các vấn đề khác trong lĩnh vực công nghệ. Trong lĩnh vực chăm sóc sức khỏe, nó đang được tận dụng để phát minh ra loại thuốc mới và chẩn đoán hình ảnh chất lượng cao. Trong lĩnh vực tài chính, ML hiện là nền tảng để phát hiện gian lận, tự động hóa quy trình, giao dịch theo thuật toán và robot tư vấn. Trong lĩnh vực bán lẻ, Walmart đi đầu trong việc sử dụng ML để quản lý chuỗi cung ứng. Danh sách cứ kéo dài. Vậy thực chất Máy học là gì?
Machine Learning là một thuật ngữ được phổ biến vào năm 1959 bởi Arthur Samuel, một nhà tiên phong trong lĩnh vực trí tuệ nhân tạo và chơi game trên máy tính. Samuel định nghĩa Máy học là “lĩnh vực nghiên cứu cung cấp cho máy tính khả năng học mà không cần được lập trình rõ ràng”.
Phần lớn ML liên quan đến việc máy tính học các mẫu từ dữ liệu hiện có và sau đó áp dụng nó vào dữ liệu mới dưới dạng đưa ra dự đoán. Những ví dụ bao gồm:
- Dự đoán liệu một giao dịch thẻ tín dụng có gian lận hay không, với các chi tiết giao dịch cụ thể.
- Dự đoán email có phải là spam hay không, dựa trên người gửi email, chủ đề và nội dung.
- Dự đoán chẩn đoán một phần hình ảnh y tế cụ thể.
- Dự đoán vị trí hiện tại và tương lai của người đi bộ, ô tô và các đối tượng đứng yên / chuyển động (chẳng hạn như ô tô tự lái).
Những vấn đề về dự đoán và phân loại này là chủ yếu trong Machine Learning và được gọi là học có giám sát (supervised). Thuật ngữ này là kết quả của việc thứ mà bạn đang cố gắng dự đoán, ví dụ: thư rác, chẩn đoán,… được gắn nhãn và giám sát trong quá trình máy tự học.
Điều quan trọng cần lưu ý là sức mạnh của ML hiện đại phụ thuộc hoàn toàn vào nguồn dữ liệu chất lượng cao để thuật toán của bạn học hỏi từ đó hay nói cách khác là được “training” dựa trên các “training data”, và tất nhiên, các dữ liệu đó cần phải được gắn nhãn. Trong ví dụ về phân loại thư rác, bạn sẽ cần nhiều email được gắn nhãn thư rác hay không phải thư rác; trong ví dụ về chẩn đoán hình ảnh, bạn sẽ yêu cầu ít nhất hàng nghìn hình ảnh được gắn nhãn chẩn đoán của chúng.
Những gì thuật toán ML của bạn làm sau đó là chọn các mẫu trong “training data” của bạn và tổng quát hóa các mẫu đó thành dữ liệu không được gắn nhãn, nơi bạn không biết kết quả mà bạn đang cố gắng dự đoán. Chính vì lý do này mà nhà toán học và giáo sư Đại học Stanford David Donoho thích thuật ngữ “trí tuệ tái tạo” hơn thuật ngữ “trí tuệ nhân tạo” cho Machine Learning, vì không có trí thông minh mới nào được tạo ra, mà là trí thông minh của con người, được con người có chuyên môn về lĩnh vực đã gắn nhãn bằng tay lên dữ liệu, sau đó đưa cho máy học và áp dụng lên dữ liệu mới. Có một chuỗi cung ứng khổng lồ và tiềm ẩn đằng sau thế giới máy học và trí tuệ nhân tạo: mọi người tận dụng các dịch vụ như Amazon Mechanical Turk cho dữ liệu được cộng đồng gắn nhãn. Và Scale AI, một công ty khởi nghiệp làm việc với hàng chục nghìn doanh nghiệp trên toàn thế giới để ghi nhãn dữ liệu bằng tay, gần đây đã huy động được 100 triệu đô la.
Điều đáng nói là, mặc dù đại đa số AI và ML dựa chắc chắn vào dữ liệu được gắn nhãn và trí thông minh tái tạo chứa trong đó, nhưng có một lĩnh vực con đang phát triển của ML được gọi là học tăng cường (RL) phụ thuộc ít hơn, nếu có, vào dữ liệu đã được “training”. Trong RL, dựa trên tâm lý hành vi, các tác nhân phần mềm được đặt trong môi trường hạn chế và được trao “phần thưởng” và “hình phạt” dựa trên hoạt động của chúng. Nếu chơi trò chơi có vẻ giống như một ứng dụng RL phù hợp với bạn, thì bạn đang chú ý: RL là cách AlphaGo Zero trở thành nhà vô địch cờ vây thế giới vào năm 2017, đánh bại AlphaGo, vốn được đào tạo dựa trên dữ liệu của con người. RL cũng có những ứng dụng nghiêm túc trong thế giới xe tự lái và là một mô hình khác mà chúng ta chắc chắn sẽ thấy nhiều hơn. Gần đây hơn, vào năm 2019, Pluribus đã đánh bại những người chơi chuyên nghiệp giỏi nhất trong trò poker Texas Hold’em không giới hạn với sáu người chơi.
Trong khi chúng ta đang nói về Machine Learning, chúng ta hãy cùng tìm hiểu sâu về Deep Learning, là một hình thức cụ thể của Machine Learning đã nhận được rất nhiều sự chú ý trong một thời gian và vì lý do chính đáng.
Deep Learning (Học sâu)
Deep Learning (học sâu) là một hình thức của Machine Learning sử dụng các thuật toán được gọi là mạng thần kinh, được lấy cảm hứng từ các mạng thần kinh sinh học trong não người. Nói rõ hơn, Deep Learning không tương đương với trí thông minh của con người. Phần lớn các ứng dụng của Deep Learning xảy ra trong thế giới học tập có giám sát dưới dạng phân loại hình ảnh (nhận dạng khuôn mặt, ô tô tự lái, cảnh quay bằng máy bay không người lái được sử dụng để ước tính năng suất cây trồng trong AgTech) và xử lý ngôn ngữ tự nhiên (Google dịch, phân loại tài liệu, phân tích tình cảm), mặc dù có những ứng dụng khác trong dự đoán chuỗi thời gian, chẳng hạn như các bài toán dự đoán tài chính.
Điều quan trọng cần nhấn mạnh là các hệ thống Deep Learning hiếm khi thực hiện tốt nhiều nhiệm vụ: một thuật toán được xây dựng để nhận dạng khuôn mặt sẽ không tốt trong việc phân loại các tài liệu pháp lý. Điều này có nghĩa là, mặc dù bạn có thể thích gọi Deep Learning là một dạng AI, nhưng nó theo nghĩa hẹp của trí tuệ nhân tạo, không phải trí tuệ nhân tạo nói chung, lĩnh vực của các hệ thống tính toán giả định thông minh như con người trên diện rộng.
Machine Learning có phải là một hình thức của AI
Vậy Machine Learning có phải là một dạng của AI? Nói một cách thông thường, vâng, Machine Learning được coi là một dạng trí tuệ nhân tạo, nhưng nếu chúng ta đang nghĩ về AI như một “bộ công cụ giúp máy tính hoạt động thông minh”, thì ML sẽ trở thành một trong những công cụ này. Ví dụ: bộ lọc thư rác của Google là một ví dụ về AI và thuật toán ML phân loại một email nhất định có phải là spam hay không, là một thành phần của AI này (một thành phần khác là phần mềm đẩy các email được phân loại là spam bởi thuật toán ML vào thư mục thư rác của bạn).
Bây giờ chúng ta đã xử lý được AI, ML, RL và DL, hãy cùng xem Data Science là gì.
Data Science (Khoa học dữ liệu)
Trong bài báo đăng trên Tạp chí Harvard Business Review năm 2012 Nhà khoa học dữ liệu: “The Sexiest Job of the 21st Century”, Thomas Davenport và DJ Patil đã khẳng định một cách dứt khoát rằng “Hơn bất cứ điều gì khác, những gì các nhà khoa học dữ liệu làm là tạo ra những khám phá trong khi bơi giữa dòng dữ liệu.” Khoa học dữ liệu là tạo ra thông tin chi tiết từ dữ liệu, thường là trong môi trường kinh doanh. Tuy nhiên, các nhà khoa học dữ liệu làm điều này như thế nào? Wikipedia cung cấp rõ ràng hơn một chút khi nói rằng “Khoa học dữ liệu là một lĩnh vực đa ngành sử dụng các phương pháp, quy trình, thuật toán và hệ thống khoa học để trích ra kiến thức và hiểu biết sâu sắc từ dữ liệu có cấu trúc và phi cấu trúc”. Điều này diễn ra như thế nào trong thực tế? Có rất nhiều công cụ và kỹ thuật trong hộp công cụ của nhà khoa học dữ liệu hiện đại nên rất hữu ích khi phân vùng không gian. Một cách để phân chia không gian khoa học dữ liệu là thành các danh mục sau:
- Phân tích mô tả, về cơ bản là cung cấp dữ liệu phù hợp đã có từ trước cho những người cần dưới dạng trang tổng quan, báo cáo hoặc email. Dữ liệu này có thể bao gồm cả dữ liệu trong quá khứ và thời gian thực về doanh thu, mức độ tương tác của khách hàng, thời gian hoạt động cũng như hiệu suất của công ty và nhân viên.
- Phân tích dự đoán đồng nghĩa với Machine Learning và là lĩnh vực dự đoán tương lai, chẳng hạn như liệu khách hàng có rời đi hay không, và các nhiệm vụ phân loại chung hơn: Email có phải là spam hay không? Khối u trong chẩn đoán hình ảnh là lành tính hay ác tính?
- Phân tích đề xuất là lĩnh vực khoa học quyết định và cách đưa ra quyết định dựa trên dữ liệu. Ví dụ: nếu mô hình Machine Learning của bạn cho bạn biết rằng một khách hàng cụ thể sẽ rời đi, thì điều này không cho bạn biết phải làm gì với nó — phân tích đề xuất liên quan đến việc quyết định với dữ liệu được cho.
Vậy chờ đã, Machine Learning là một phần của khoa học dữ liệu hay một phần của AI? Và mối quan hệ giữa khoa học dữ liệu và AI là gì? Như đã thảo luận, các thuật ngữ này được sử dụng theo nhiều cách không nhất quán, nhưng một nguyên tắc chung là:
- Nếu đầu ra của mô hình Machine Learning của bạn được đưa vào quy trình ra quyết định của con người, thì nó có thể được coi là công việc khoa học dữ liệu (ví dụ: nếu việc dự đoán khách hàng có thể dẫn đến việc quyết định khuyến khích khách hàng ở lại, thì điều này có thể được xem là Insight hoặc là khám phá mới được thực hiện từ dữ liệu).
- Nếu đầu ra của mô hình Machine Learning của bạn được đưa vào một hệ thống tính toán thực hiện một hành động theo cách tự động, chẳng hạn như đề xuất một bộ phim, giảm tốc độ ô tô tự lái hoặc cung cấp kết quả tìm kiếm, nó có thể được xem như một thành phần trong Hệ thống AI.
Sự khác biệt chính giữa AI và khoa học dữ liệu mà chúng ta thấy nổi lên ở đây là mặc dù nhiều công cụ, kỹ thuật, cơ sở hạ tầng và quy trình giống nhau, khoa học dữ liệu thường được đưa vào các quá trình ra quyết định của con người trong khi AI liên quan đến tự động hóa. Tuy nhiên, hãy nhớ rằng phần lớn ML và AI dựa vào dữ liệu chất lượng cao. Điều này có nghĩa là các chiến lược AI có tác động và hiệu quả nhất sẽ đứng trên vai của các khả năng khoa học dữ liệu mạnh mẽ.
Ngoài ra, để tìm hiểu thêm những kiến thức mới liên quan đến Digital, Data Analysis, Technology bạn có thể truy cập Blog của Digalyst. Hoặc theo dõi Fanpage Facbook của chúng tôi để nhận được những thông tin bổ ích. Digalyst xin cảm ơn và chúc bạn một ngày vui vẻ!