Cùng Digalyst khám phá lựa chọn của bạn trong thế giới Data Science, lựa chọn cho những ngành nghề khác nhau, những vai trò khác nhau. Nếu hứng thú với Data Science, bạn cũng nên tìm hiểu kỹ để chuẩn bị cho con đường sự nghiệp sau này.
Theo từ điển Merriam-Webster, dữ liệu (Data) là thông tin thực tế được sử dụng làm cơ sở để lập luận, thảo luận hoặc tính toán. Theo định nghĩa này, dữ liệu về cơ bản là bất kỳ phần thông tin được thu thập có thể được sử dụng, xử lý và phân tích thêm để tìm kiếm Insight. Nó thường được đi kèm với máy tính vì dữ liệu thường được tạo ra và lưu trữ trong máy tính, tuy nhiên dữ liệu đã tồn tại lâu hơn nhiều so với những gì chúng ta có thể tưởng tượng.
Lịch sử về dữ liệu
Ví dụ sớm nhất về việc con người lưu trữ và phân tích dữ liệu có từ năm 18000 trước Công nguyên, khi người ta phát hiện ra rằng người tiền sử đang sử dụng que đếm, như một phương tiện để thực hiện các phép tính thô sơ. Những người thuộc bộ lạc thời kỳ đồ đá này đánh dấu bằng vết cắt trên gậy và xương để theo dõi các hoạt động của họ, chẳng hạn như giao dịch và giám sát nguồn cung cấp. Đến năm 2400 TCN, bàn tính, một công cụ được sử dụng để thực hiện các phép tính, được phát minh ở Babylon.
Trong suốt chiều dài lịch sử, sự phát triển không ngừng của việc thu thập, xử lý và phân tích dữ liệu đã được chứng kiến qua nhiều tác phẩm viết bằng đá, đất sét, giấy cói, gỗ và cuộn giấy. Cuối cùng, khi nhiều dạng dữ liệu được phát hiện hơn, nhu cầu xử lý, thu thập, lưu trữ và phân tích nó cũng phát triển.
Khi xã hội loài người trở nên hiện đại hơn, yêu cầu xử lý dữ liệu cũng tăng theo. Vào những năm 1800, cuộc điều tra dân số bắt đầu diễn ra ở Hoa Kỳ. Số lượng điểm dữ liệu trong cuộc điều tra dân số tăng theo cấp số nhân đến mức Cục điều tra dân số Hoa Kỳ ước tính rằng sẽ mất nhiều năm hoặc thậm chí hàng thập kỷ để thu thập và phân tích tất cả dữ liệu trong cuộc điều tra dân số. Điều này gây ra vấn đề rất lớn vì việc biên soạn và phân tích dữ liệu điều tra dân số hiện tại sẽ được hoàn thành trong khi cuộc điều tra dân số tiếp theo sắp bắt đầu hoặc đã bắt đầu. May mắn thay, một kỹ sư và nhà phát minh trẻ tên là Herman Hollerith đã phát triển Máy lập bảng Hollerith – một máy lập bảng điện cơ giúp giảm thời gian cần thiết để thu thập và phân tích dữ liệu điều tra dân số từ nhiều năm xuống chỉ còn vài tháng. Do đó, Hollerith được coi là cha đẻ của máy tính tự động hiện đại và sau này được biết đến với việc thành lập IBM.
Tua nhanh đến những năm 1900 và sự phát minh ra máy tính. Với sự ra đời của máy tính mạnh hơn, đòi hỏi phức tạp hơn về lưu trữ dữ liệu. Fritz Pfleumer, một kỹ sư người Đức gốc Áo, đã phát minh ra phương pháp lưu trữ thông tin bằng từ tính trên băng từ. Một số nguyên tắc trong phát minh của ông vẫn đang được sử dụng cho đến ngày nay để lưu trữ dữ liệu kỹ thuật số. Trong thời đại hiện nay, thuật ngữ “Business Intelligence” đã trở nên phổ biến khi nhu cầu về phần mềm và các hệ thống phân tích cho các doanh nghiệp tăng lên nhanh chóng.
Cuộc cách mạng dữ liệu thực sự thay đổi khi Tim Berners-Lee tạo ra World Wide Web, còn được gọi là Internet, vào năm 1989. Điều này dẫn đến việc chia sẻ thông tin tự động giữa mọi người trên khắp thế giới. Điều này có nghĩa là hiện tại ngày càng có nhiều dữ liệu được chia sẻ, tạo và lưu trữ, dẫn đến những cách thức mới để thu thập, sử dụng và phân tích dữ liệu.
Chuyển đổi sang “Big Data”
Do tốc độ phát triển đáng kinh ngạc của Internet trong những năm 1990 và sự phát triển ổn định của máy tính cá nhân và máy tính nói chung, số lượng thiết bị trực tuyến đã tăng lên nhanh chóng.
Mặc dù ý tưởng về Big Data đã có từ trước những năm 1990, nhưng chỉ đến năm 2005, Roger Mougalas mới chính thức đặt tên cho nó. Ông mô tả nó là “một tập hợp dữ liệu lớn gần như không thể quản lý và xử lý bằng các công cụ Business Intelligence truyền thống”.
Big Data (Dữ liệu lớn) là một thuật ngữ được sử dụng để mô tả khối lượng lớn dữ liệu – cả có cấu trúc và không có cấu trúc. Nó bao gồm khối lượng thông tin, tốc độ mà nó được tạo ra và thu thập, cũng như sự đa dạng hoặc phạm vi của các điểm dữ liệu được bao phủ.
Với quy mô và độ phức tạp của Big Data, quá trình thu thập, tổ chức và phân tích dữ liệu để khám phá thông tin hữu ích đã trở thành một phần giúp rất nhiều tổ chức đưa ra quyết định kinh doanh của họ. Do đó, điều này đã sinh ra ngành Data Science (Khoa học dữ liệu) – một lĩnh vực liên ngành sử dụng các phương pháp khoa học, quy trình, thuật toán và hệ thống từ một khối lượng lớn dữ liệu, để khám phá ra các mẫu và cho phép các doanh nghiệp rút ra những thông tin sâu sắc.
Data Science là gì?
Theo IBM, Data Science (khoa học dữ liệu) là một cách tiếp cận đa ngành để trích xuất những thông tin cần thiết từ khối lượng lớn dữ liệu được các tổ chức ngày nay thu thập và tạo ra. Lĩnh vực này thường yêu cầu kỹ năng về khoa học máy tính và khoa học thuần túy vì các nhà khoa học dữ liệu áp dụng các phương pháp khoa học trong cách tiếp cận của họ và sử dụng phân tích dự đoán và trí tuệ nhân tạo để rút ra thông tin chi tiết từ dữ liệu.
Một số ngành nghề trong Data Science được biết đến phổ biến
Ngày nay, Data Science thường được các doanh nghiệp và tổ chức sử dụng như một thuật ngữ tổng quát để chỉ quá trình xử lý một lượng lớn dữ liệu, cho dù đó là chuẩn bị, làm sạch, phân tích hoặc trực quan hóa dữ liệu để hiển thị các mẫu. Sau đây là một số ngành nghề trong Data Science được biết đến phổ biến:
Data Scientist:
Nhà khoa học dữ liệu cần có khả năng áp dụng toán học, thống kê và phương pháp khoa học; sử dụng nhiều công cụ và kỹ thuật để làm sạch và chuẩn bị dữ liệu; thực hiện phân tích dự đoán và áp dụng trí tuệ nhân tạo; và giải thích cách những kết quả này có thể được sử dụng để cung cấp các giải pháp theo hướng dữ liệu cho các vấn đề kinh doanh. Họ thường được yêu cầu về kỹ thuật cao hơn nhiều so với Data Analyst.
Data Analyst:
Nhà phân tích dữ liệu thu thập, xử lý và thực hiện các phân tích dữ liệu thống kê để đưa ra kết luận có ý nghĩa cho các tổ chức. Họ biến đổi và thao tác các tập dữ liệu lớn thành báo cáo hoặc bản trình bày. Họ cũng hỗ trợ trong quá trình ra quyết định bằng cách xem xét các mẫu quan trọng và thu thập thông tin chi tiết từ dữ liệu. Sau đó họ có thể truyền đạt hiệu quả cho các nhà lãnh đạo để hỗ trợ trong các quyết định kinh doanh.
Data Engineer:
Kỹ sư dữ liệu chịu trách nhiệm chuẩn bị, xử lý và quản lý dữ liệu được thu thập và lưu trữ, để sử dụng trong phân tích hoặc vận hành. Giống như các kỹ sư khác, các kỹ sư dữ liệu xây dựng và duy trì các “đường ống” dữ liệu kết nối dữ liệu từ hệ thống này sang hệ thống khác, giúp Data Scientist và Data Analyst có thể truy cập được thông tin. Do đó, các kỹ sư dữ liệu được yêu cầu phải hiểu một số ngôn ngữ lập trình được sử dụng trong Data Science như Python, R và SQL.
Data Architect:
Kiến trúc sư dữ liệu chủ yếu thiết kế và tạo bản thiết kế cho hệ thống quản lý dữ liệu mà các kỹ sư dữ liệu sau đó xây dựng. Tương tự như các kiến trúc sư truyền thống, kiến trúc sư dữ liệu là “người có tầm nhìn xa” vì họ chịu trách nhiệm hình dung và thiết kế khung quản lý dữ liệu cho doanh nghiệp. Ngoài ra, các kiến trúc sư dữ liệu cải thiện hiệu suất của các hệ thống hiện có, đảm bảo rằng chúng có thể truy cập được đối với các nhà phân tích và quản trị cơ sở dữ liệu.
Business Intelligence (BI) Developer:
Các nhà phát triển BI là những kỹ sư chuyên môn sử dụng các công cụ phần mềm để chuyển đổi dữ liệu thành những thông tin chi tiết hữu ích giúp đưa ra các quyết định kinh doanh. Họ có trách nhiệm đơn giản hóa thông tin kỹ thuật để mọi người khác trong công ty có thể dễ dàng hiểu được. Nói tóm lại, họ tạo và chạy các báo cáo chứa dữ liệu mà họ tìm thấy bằng cách sử dụng các công cụ BI và chuyển đổi thông tin thành nhiều dạng khác.
Statistician:
Cho rằng thống kê là một trong những nền tảng chính của Data Science, nhiều nhà thống kê có thể dễ dàng chuyển sang lĩnh vực Data Science. Các nhà thống kê chịu trách nhiệm chính trong việc thu thập và xử lý dữ liệu. Họ quyết định dữ liệu họ cần và cách thu thập dữ liệu đó. Ngoài ra, họ thiết kế các thử nghiệm, phân tích và giải thích dữ liệu và báo cáo kết luận.
Machine Learning Engineer:
Kỹ sư học máy là một nhóm kỹ sư chuyên ngành khác, những người tập trung vào nghiên cứu, xây dựng và thiết kế hệ thống trí tuệ nhân tạo (AI) và học máy (Machine Learning) để tự động hóa các mô hình dự đoán. Về cơ bản, họ phát triển các thuật toán sử dụng dữ liệu đầu vào và tận dụng các mô hình thống kê để dự đoán kết quả đầu ra, đồng thời liên tục cập nhật kết quả đầu ra khi có dữ liệu mới.
Biểu đồ dưới đây cho thấy cơ hội việc làm của các nghề nghiệp trên theo Indeed Hoa Kỳ (tính đến ngày 8 tháng 12 năm 2021).
Kiến trúc sư dữ liệu có vẻ xuất hiện nhiều nhất trong ngành Data Science, do tầm quan trọng của họ trong việc tạo ra các hệ thống quản lý dữ liệu mà các chuyên gia khoa học dữ liệu khác sau đó sử dụng. Tiếp theo trong danh sách là kỹ sư học máy, với tầm quan trọng của việc sử dụng trí thông minh nhân tạo để dự đoán kết quả ở nhiều công ty công nghệ.
Nhu cầu ít nhất là các nhà thống kê, chủ yếu là vì nhiều nhà thống kê truyền thống hiện đang trở thành nhà khoa học dữ liệu. Xu hướng này dự kiến sẽ tiếp tục do các nhà thống kê dễ dàng chuyển từ thống kê thuần túy sang khoa học dữ liệu vì họ đã sở hữu kiến thức cơ bản cần thiết để trở thành một nhà khoa học dữ liệu chính thức.
Khoa học dữ liệu không hề chậm lại
Lĩnh vực Data Science trở nên vô cùng phổ biến vào những năm 2010, đặc biệt khi “Data Scientist” được Harvard Business Review tôn vinh là “sexiest job of the 21st century”. Mặc dù thuật ngữ “công việc quyến rũ nhất” thoạt nghe có vẻ vô lý, nhưng nó chủ yếu đề cập đến việc các nhà khoa học dữ liệu không chỉ có nhu cầu tuyển dụng cao mà còn khó giữ chân được họ.
Liệu Data Science có còn phổ biến trong tương lai không? Dữ liệu từ Dự báo việc làm 2020-2030 của Cục Thống kê Lao động Hoa Kỳ cho thấy rằng các nghề nghiệp khoa học dữ liệu, bao gồm thống kê, khoa học dữ liệu và các nghề dựa trên khoa học và toán học khác như kỹ thuật dữ liệu, sẽ có tốc độ tăng trưởng rất cao từ năm 2020 đến năm 2030. Các nhà thống kê xếp hạng chung thứ 14, trong khi các nhà khoa học dữ liệu và các ngành khoa học toán học khác xếp hạng tổng thể 31 trong số 790 công việc được đưa vào dữ liệu.
Mặc dù tỷ lệ của các nhà thống kê và nhà khoa học dữ liệu trong tổng lực lượng lao động là nhỏ so với các ngành nghề khác, nhưng những con số này dự kiến sẽ tăng lên trong những năm tiếp theo khi con đường sự nghiệp khoa học dữ liệu ngày càng trở nên phổ biến hơn. Hình ảnh dưới đây cho thấy cách các nhà thống kê, nhà khoa học dữ liệu và các nghề khoa học toán học khác khi so sánh với các công việc khác có mức tăng trưởng dự kiến cao.
Data Science – Một lĩnh vực thực sự hái ra tiền
Một lý do chính khiến khoa học dữ liệu trở nên phổ biến là vì nó là một trong những công việc được trả lương cao nhất trên thế giới. Hình dưới đây cho thấy mức lương cho 10 ngành nghề khác nhau – bao gồm các nhà khoa học dữ liệu và nhà phân tích dữ liệu – ở Thành phố New York. Dữ liệu được lấy từ Teleport, một trang web tổng hợp dữ liệu về điều kiện sống (ví dụ: lương) ở các thành phố khác nhau.
Theo Teleport, các nhà khoa học dữ liệu có mức lương trung bình hàng năm cao thứ 4 ở Thành phố New York với 114105 đô la, chỉ sau lãnh đạo cấp C và nhân viên chăm sóc sức khỏe. Trên thực tế, ở một số thành phố khác như Manila, các nhà khoa học dữ liệu xếp hạng cao thứ 2, chỉ sau lãnh đạo cấp C. Điều này nói lên mức độ sinh lợi của công việc này. Công việc phân tích dữ liệu, mặc dù không sinh lợi như các vị trí khoa học dữ liệu, nhưng vẫn không thể coi thường được. Với mức lương trung bình hàng năm là 61818 đô la, các nhà phân tích dữ liệu vẫn kiếm được khoảng thu nhập trung bình của hộ gia đình ở Thành phố New York.
Data Science không ngừng phát triển trên thị trường việc làm
Một lý do chính khác khiến khoa học dữ liệu trở nên phổ biến là do cách các tổ chức ngày nay tích hợp khoa học dữ liệu vào trong hoạt động hàng ngày của họ. Biểu đồ dưới đây cho thấy 10 lĩnh vực hàng đầu liên quan đến khoa học dữ liệu trong công việc của họ. Dữ liệu mẫu của 8.000 công ty theo định hướng khoa học dữ liệu được trích xuất từ Diffbot, biểu đồ tri thức lớn nhất thế giới.
Không có gì ngạc nhiên khi các Công ty phần mềm – bao gồm cả các công ty công nghệ như Google, Apple và Uber – đứng đầu. Xét cho cùng, sự tăng trưởng vượt bậc của Big Data là do sự ra đời của Internet, vốn gắn chặt với phần mềm và công nghệ.
Tiếp theo trong danh sách là các công ty dịch vụ tài chính, được thành lập bởi sự nổi lên của các công ty fintech. Là từ ghép của “tài chính” và “công nghệ”, các công ty fintech tích hợp công nghệ và đổi mới trong các dịch vụ và dịch vụ của họ để cải thiện việc cung cấp cho khách hàng và phá vỡ các dịch vụ tài chính truyền thống. Vì nó liên quan đến việc xử lý một lượng lớn dữ liệu như thông tin khách hàng, các công ty dịch vụ tài chính đã nhìn thấy tiềm năng của các công cụ khoa học dữ liệu để giúp hợp lý hóa và tối ưu hóa các quy trình cũng như cải thiện dịch vụ của họ.
Tóm lại, có đáng để theo đuổi ngành Data Science không?
Với tất cả mọi thứ đã được giải thích ở trên, câu trả lời là chắc chắn có! Về việc bạn theo đuổi khoa học dữ liệu với bất cứ vai trò nào, điều này chủ yếu phụ thuộc vào khả năng của bản thân và đam mê của bạn. Điều quan trọng là bất kỳ nghề nghiệp nào được đề cập ở trên cực kỳ đáng giá.
Một con đường sự nghiệp rất hấp dẫn và dường như không có dấu hiệu chậm lại về mức độ phổ biến, khoa học dữ liệu sẽ tiếp tục định hình và ảnh hưởng đến cách các doanh nghiệp và tổ chức hoạt động trong nhiều năm tới.