Được đánh giá là ngành “sexy” nhất thế kỷ 21 theo Harvard Business Review, ngành Data Science nói riêng và lĩnh vực Data nói chung đang từng bước đi lên không chỉ trên Thế giới mà còn ở Việt Nam. Rất nhiều người Việt, nhất là sinh viên đang tìm hiểu về ngành này cùng với những khóa học.
Data đã xuất hiện từ rất lâu, nhưng hiện tại, ngành này mới thực sự đang trở thành xu hướng, bởi các doanh nghiệp đang nhận thấy rõ tầm quan trọng của Data vào Business của mình. Nó luôn luôn đi kèm với Business, khi doanh nghiệp hoạt động, doanh nghiệp sẽ có Data, với nó, doanh nghiệp sẽ phân tích để đưa ra giải pháp phát triển, và rồi lại sinh ra Data mới.
Vậy với Data sẵn có trong quá trình hoạt động, doanh nghiệp có thể làm được việc gì?
- Tối ưu hoá sản xuất
- Đánh giá tình hình kinh doanh, dự báo tương lai
- Tìm kiếm Insight cho Marketing
- Phân tích hành vi của khách hàng
- …
Nếu bạn search trên Google về các vị trí trong lĩnh vực Data, sẽ có nhiều cách phân loại khác nhau. Nhưng trong bài Blog này, Digalyst sẽ phân tích theo 4 vị trí chính trong lĩnh vực Data:
- Data Engineer
- Data Analyst
- Data Scientist
- ML/AI Engineer
1. Data engineer
Theo lý thuyết, Data Engineer là người xây dựng hệ thống để tổng hợp, lưu trữ, xử lý hoặc xuất dữ liệu từ các nguồn khác nhau, có thể là từ website, cơ sở dữ liệu,… Hệ thống xây dựng bởi Data Engineer thường phục vụ cho Data Analyst, Data Scientist, Business Intelligence và một số nhu cầu khác.
Vai trò của Data Engineer dễ thấy nhất và đang được tuyển dụng nhiều nhất là xây dựng luồng dữ liệu (Data Pipeline) để phục vụ cho nhu cầu phát triển Data Warehouse – một nơi lưu trữ dữ liệu đặc biệt dùng cho mục đích phân tích, theo dõi số liệu, lên báo cáo, dashboard và phục vụ một vài việc về vận hành. Data Pipeline sẽ mang dữ liệu từ những chỗ khác nhau về Data Warehouse, trong quá trình đó có thể sẽ cần dọn dẹp dữ liệu một chút.
Mức lương theo VietnamWork
- Trung bình: $1,350
- Khoảng lương phổ biến: $1,410 – $1,780
Kiến thức – Kỹ năng
Data Engineer hầu như xuất phát từ Software Engineer (SWE). Mặc dù vẫn có đôi chút khác với SWE, Data Engineer thiên về hệ thống, xử lý và pipeline hơn là lập trình ứng dụng. Ngành này vẫn có thể sẽ phù hợp cho các bạn SWE.
Sau đây là một số kỹ năng mà một Data Engineer cần biết:
- Database, Data Warehouse, Data Lake… (Có lẽ mình sẽ viết một bài chia sẻ về vấn đề này)
- ETL, ELT: phương thức thu thập, chuyển hóa dữ liệu
- Một số ngôn ngữ lập trình để xây dựng hệ thống data và pipeline để nhập và xuất dữ liệu như Python, SQL, Scala
- Cần biết một chút về Visualization (Trực quan hoá dữ liệu), Machine Learning (Máy Học) … để hỗ trợ các vấn đề cần giải quyết cho Data Analyst, Data Scientist
- Nếu doanh nghiệp hoạt động trên Big Data thì bạn cần tìm hiểu thêm Spark, Hive, Hadoop, Kafka… hoặc Cloud như Google BigQuery, AWS RedShift…
Một số vị trí “nhìn có vẻ giống giống” với Data Engineer
- Data Architect
Cũng giống như những kiến trúc sư tạo nên nền tảng cho các công trình xây dựng, kiến trúc sư dữ liệu (Data Architect) sẽ là người tạo nên các hệ thống tổ chức dữ liệu. Data Architect sẽ tìm hiểu với khách hàng về việc tạo và xử lý các hình thức dữ liệu nào, rồi sau đó đưa ra những cách thức để lưu trữ và cập nhật thông tin một cách an toàn và thống nhất. Tuy nhiên, việc tuyển dụng Data Architect tương đối khó khăn bởi những yêu cầu khắt khe, nhưng đổi lại mức lương sẽ rất cao trong lĩnh vực Data này. - Database Administrator
Database Administrator là người chịu trách nhiệm quản trị, vận hành các hoạt động liên quan đến cơ sở dữ liệu như lên kế hoạch, cài đặt, cấu hình, tối ưu, bảo mật, backup, v.v. nhằm đảm bảo hệ thống luôn sẵn sàng cho người dùng truy cập.
2. Data Analyst
Người làm Data Analyst (DA) sẽ tập trung vào việc thu thập, xử lý (làm sạch, biến đổi) và phân tích bộ dữ liệu để đưa ra quan sát, nhận định, trình bày dữ liệu qua Dashboard và báo cáo về một vấn đề cụ thể. Mục đích của phân tích dữ liệu là để giúp lãnh đạo và các phòng ban khác nắm được tình hình thực tế và đưa ra quyết định đúng đắn.
Việc tuyển dụng DA không hề khắt khe khi so với Data Engineer hay Data Scientist, vì vậy đây là một cơ hội tốt cho các bạn trái ngành muốn theo đuổi ngành Data. Hiện nay, nhu cầu tuyển dụng DA tương đối tốt, nhưng mức lương sẽ khá thấp khi so với Data Engineer và Data Scientist.
Mức lương theo VietnamWork
- Trung bình: $910
- Khoảng lương phổ biến: $570 – $840
Kiến thức – Kỹ năng
- Toán thống kê
- Tư duy dữ liệu, con số
- Kỹ năng giao tiếp: tương đối quan trọng khi bạn cần truyền đạt thông tin đến lãnh đạo, phòng ban khác
- Kiến thức về Business của doanh nghiệp: để hiểu rõ mình phải làm gì khi được đưa ra đề bài từ cấp trên
- Biết sử dụng các công cụ thu thập, xử lý dữ liệu (SQL, Excel, Pandas…) và trực quan hoá dữ liệu (BI, Tableau, Matplotlib …)
Data Analyst (DA) và Business Analyst (BA/BI)
Theo lý thuyết thì BA sẽ dừng lại ở mức truyền tải thông tin qua Dashboard, báo cáo để cấp trên đưa ra quyết định. Còn DA sẽ là người xử lý dữ liệu để tìm ra Insight và đưa ra giải pháp cho doanh nghiệp. Tuy nhiên trong thực tế sẽ tuỳ thuộc vào mỗi công ty, bởi kỹ năng của hai vị trí này khá giống nhau.
Tuỳ vào mỗi phòng ban khác nhau mà sẽ có những vị trí Analyst khác nhau:
- Product Analyst
- Marketing Analyst
- Financial Analyst
- …
3. Data Scientist và ML/AI Engineer
Machine Learning (ML) và Artificial Intelligence (AI) đều là một phần trong lĩnh vực Data, và chính Data Scientist cũng sử dụng ML/AI trong công việc của mình. Vậy Data Scientist và ML/AI Engineer thực sự khác nhau ở đâu?
Công việc
- Data Scientist (DS)
Người làm Data Scientist là những chuyên gia về một lĩnh vực nào đó, họ có thể đào sâu và nghiên cứu rất kỹ về lĩnh vực của mình. Họ là những người có thể vận dụng những kĩ năng, công cụ, thuật toán liên quan đến data và áp dụng để giải quyết các bài toán trong lĩnh vực của họ. Ví dụ như Risk Data Scientist, họ có thể thu thập, khai thác và phân tích data liên quan đến tài chính và quản lý rủi ro. Nhờ vậy có tìm ra phương pháp dự đoán rủi ro tối ưu nhất. - ML/AI Engineer
Có thể coi là những người thực hiện công việc. Họ giải quyết vấn đề bằng những phương pháp, kĩ thuật có sẵn (có thể là do DS nghiên cứu tạo ra). Thông thường, ML/AI Engineer thường gắn với các công việc liên quan đến máy tính, trí tuệ nhân tạo như xử lý hình ảnh hoặc xử lý ngôn ngữ tự nhiên (NLP).
Một ví dụ để các bạn dễ hiểu hơn: Sự khác biệt giữa một nhà khoa học hạt nhân và một kỹ sư hạt nhân là gì?
- Nhà khoa học hạt nhân là người biết về khoa học đằng sau nguyên tử, sự tương tác giữa chúng, là người tạo ra công thức cho phép lấy năng lượng từ nguyên tử.
- Kỹ sư hạt nhân là anh chàng được giao nhiệm vụ đưa công thức của nhà khoa học, và mang nó đến thế giới thực. Vì vậy, tuy kiến thức về vật lý nguyên tử còn khá hạn chế, nhưng anh ta cũng biết về những lĩnh vực khác như vật liệu, tòa nhà, kinh tế và bất cứ điều gì hữu ích khác để xây dựng một nhà máy hạt nhân thích hợp.
Kiến thức – Kỹ năng
- Data Scientist
Về khả năng lập trình, DS không cần xuất sắc trong lập trình. Đối với họ, lập trình hay viết code chỉ là công cụ để phân tích, xử lý và xây dựng mô hình dữ liệu.
Về bằng cấp, các công ty thường yêu cầu bằng cấp của DS trong lĩnh vực toán, thống kê, khoa học máy tính…
Về kiến thức, ngoài Domain Knowledge (kiến thức chuyên ngành) là bắt buộc thì DS còn cần kỹ năng Research (nghiên cứu) để tham khảo các Papers (tài liệu khoa học) và áp dụng vào công việc của mình.
- ML/AI Engineer
Về khả năng lập trình, ML/AI Engineer xuất thân chủ yếu từ IT, khoa học máy tính… nên bắt buộc phải nắm vững kiến thức lập trình, nhưng lại nghiêng về lĩnh vực Data hơn so với Software Engineer.
Ngoài kiến thức về Data Science hay ML/AI, họ còn cần biết về API và DevOps vì họ cũng chính là người đảm bảo mô hình dữ liệu hoặc API luôn chạy ổn định và đưa ra dự đoán chính xác nhất.
Tuỳ vào định nghĩa của mỗi công ty mà vị trí DS và ML/AI Engineer có thể khác nhau, nhiều khi làm công việc của Data Scientist nhưng lại gọi là Machine Learning Engineer và ngược lại.
4. Vậy làm thế nào để trở thành một Data Scientist (DS) hoặc ML/AI Engineer?
Vì Data Scientist và Machine Learning/AI Engineer khá giống nhau, đều thuộc Data Science nên để bước chân vào phạm trù này, chúng ta cần có những kỹ năng:
- Programming Languages (Ngôn ngữ lập trình)
Có một số ngôn ngữ phổ biến trong ngành Data như Python, R, Scala… Ngoài một số ngôn ngữ trên, bạn cũng nên biết SQL căn bản để hỗ trợ công việc của mình. - Statistics (Xác suất thống kê)
Đây có thể là ác mộng đối với nhiều bạn sinh viên, nhưng trong lĩnh vực Data Science, nắm vững XSTK là điều bắt buộc. Bởi mọi thuật toán, mô hình đều sử dụng XSTK để giải quyết. - Data Cleaning và Visualisation (Làm sạch và trực quan hoá dữ liệu)
Thông thường Data ban đầu đều ở dạng thô (Raw Data) và chúng ta cần phải làm sạch nó. Sau khi xử lý xong thì mới đến công đoạn trực quan hoá để “kể những câu chuyện dựa trên Data” cho sếp và khách hàng. - Machine Learning/ Deep Learning/ Artificial Intelligence
Nếu bạn có thích thú về Data Science, đây sẽ là một vài lưu ý dành cho bạn
- Có thể coi Data Scientist (DS) là một phiên bản nâng cấp của Data Analyst (DA). Mọi công việc của DA làm thì DS cũng sẽ làm. Tuy nhiên, điểm khác biệt là DA chủ yếu sẽ tìm ra vấn đề (Insight), còn DS sẽ là người tìm cách giải quyết vấn đề đó. Trong khi đó, Ml/AI Engineer lại là người sử dụng công trình nghiên cứu của DS để tạo ra giải pháp.
- DS rất nặng về nghiên cứu (Research) và toán thống kê (Statistics) nên bạn nào thích Data Science thì có thể cân nhắc hai điều trên nhé.
- Việc tuyển dụng DS khá khắt khe, nên các bạn trái ngành muốn tìm hiểu về Data Science nên tìm hiểu kỹ vấn đề này nhé.
Và như vậy, Digalyst đã chia sẻ tới các bạn những vị trí quan trọng trong ngành Data, mình mong là sau bài viết này, các bạn đọc sẽ có cái nhìn tổng quan về ngành Data. Và biết đâu, các bạn sẽ bước chân vào trong ngành Data thì sao.
Cuối cùng, chuyện gì đến cũng sẽ đến, bài blog đến đây là hết mất tiêu rồi! Mong các bạn sẽ tiếp tục đón xem những bài blog mới về các khía cạnh khác trong ngành Data nhé.
Đôi lời chia sẻ cùng Digalyst, comment nhé!!