Chất lượng của bất kỳ phân tích dữ liệu nào được tạo ra để cung cấp các quyết định kinh doanh cuối cùng sẽ bị hạn chế bởi chất lượng của dữ liệu cơ bản. Nếu dữ liệu bị lỗi, thì phân tích cũng sẽ bị lỗi. Đây là lý do vì sao việc xử lý dữ liệu (data wrangling), chuyển đổi dữ liệu thô thành một định dạng thích hợp để sử dụng đã trở thành nhiệm vụ phổ biến trong hầu hết các tổ chức.
Thật không may, tầm quan trọng của việc xử lý dữ liệu vẫn thường bị bỏ qua. Các CEO thiếu kiên nhẫn và quan tâm đến kết quả nhanh chóng có thể gây áp lực buộc nhóm phải bỏ qua các bước chuẩn bị dữ liệu để chuyển nhanh hơn vào các nhiệm vụ cần thiết để tạo ra các phân tích, mô hình và báo cáo.
Bạn đang xem: Data Wrangling và Business Analyst
Và đây là nơi mà các Business Analyst am hiểu dữ liệu có thể giúp tiết kiệm thời gian. Đầu tiên, bằng cách giúp thông báo những rủi ro liên quan đến việc bỏ qua hoặc vội vàng vượt qua giai đoạn xung đột dữ liệu. Thứ hai, bằng cách đề xuất cho các Data Engineer các chiến lược tốt nhất để đảm bảo dữ liệu ở trạng thái đáng tin cậy trước khi được sử dụng để tạo KPI, tạo dự báo, tạo đề xuất và hỗ trợ các quyết định kinh doanh khác nhau.
1. Những hoạt động Data Wrangling đặc trưng là gì?
Các tác vụ data wrangling phổ biến nhất được yêu cầu để dữ liệu sẵn sàng phân tích phù hợp với một trong hai nhóm sau:
- Data cleaning bao gồm việc làm sạch một tập dữ liệu bằng cách sửa lỗi cấu trúc và lỗi chính tả, chuẩn hóa các đơn vị đo lường, đảm bảo rằng các giá trị là hợp lý, loại bỏ các quan sát không mong muốn, xử lý các giá trị ngoại lệ và thiếu,…
- Data structuring là tổ chức, chuyển đổi và ánh xạ dữ liệu từ dạng thô của nó sang một định dạng dễ sử dụng hơn. Ví dụ: sử dụng ngày sinh của bệnh nhân để chỉ định họ cho các nhóm tuổi (<6, 6-17, 18-25,….). Hoặc, chuyển đổi nội dung đánh giá của khách hàng bằng văn bản tự do thành điểm hài lòng của khách hàng trên thang điểm từ 0 đến 5.
2. Ai là người chịu trách nhiệm Data Wrangling cho tổ chức?
Xem thêm : Pc trong kinh doanh là gì? Pc có các khái niệm nào?
Data wrangling có thể tốn nhiều thời gian và đánh thuế tài nguyên, do đó, các Data engineer thường tự động hóa tác vụ này. Tuy nhiên, các quyết định xoay quanh quá trình chuẩn bị dữ liệu để phân tích sẽ được hưởng lợi rất nhiều từ việc nhờ một người có kiến thức về miền mở đường cho quá trình tự động hóa phù hợp diễn ra.
Trên thực tế, phần lớn công việc biến dữ liệu thô thành dữ liệu có thể sử dụng đòi hỏi kiến thức miền cụ thể mà các nhà phân tích kinh doanh có nhiều khả năng sở hữu hơn các kỹ sư dữ liệu.
Và trong khi các hệ thống dựa trên máy tính tốt hơn con người trong việc tìm kiếm các mẫu ẩn trong khối lượng lớn dữ liệu, khi phải quyết định loại biến đổi nào sẽ mang lại lợi ích cho các phân tích, các hệ thống đó sẽ kém hiệu quả hơn so với một người có thể suy nghĩ trừu tượng, khái quát hóa từ một lĩnh vực sang người khác, và khai thác suy nghĩ và ký ức của họ để phát triển các ý tưởng sáng tạo.
- Máy tính kém trong việc tạo ngữ cảnh cho dữ liệu
Một sản phẩm đã ngừng hoạt động của IBM, Watson Analytics là một ứng dụng mô hình hóa dựa trên công nghệ kết hợp học máy, lý luận và xử lý ngôn ngữ tự nhiên để điều tra dữ liệu và tìm ra các mẫu ẩn của nó. Nó đã được thương mại hóa từ năm 2015 đến năm 2018, với các chuyên gia viết về khả năng công cụ này thậm chí có thể “thay thế các nhà khoa học dữ liệu.”.
Xem thêm : Quan sát Hình 2.2, giải thích vì sao tia âm cực bị hút về cực dương của trường điện
Trong một thử nghiệm do IEEE công bố vào năm 2018, một nhà nghiên cứu đã tải lên Watson Analytics một tập dữ liệu chứa dữ liệu sự kiện với các biến bao gồm thời gian bắt đầu, thời gian kết thúc và tổng thời gian. Không giống như con người, một mô hình học máy không thể cho biết ngay lập tức các biến này liên quan với nhau như thế nào. Bởi vì nó chỉ biết thống kê và không có hiểu biết ngữ nghĩa về ý nghĩa thực sự của các biến, Watson Analytics đã tạo ra các kết quả như bên dưới, mà một người bình thường có thể đạt được mà không cần tính toán:
3. Vì sao doanh nghiệp nên khuyến khích Business Analyst tham gia Data Wrangling?
Có rất nhiều lý do chính đáng để các tổ chức thu hút các nhà phân tích kinh doanh của họ tham gia vào các hoạt động xoay quanh dữ liệu:
- Bỏ qua hoặc gấp rút bước này có thể dẫn đến mô hình dữ liệu kém, ảnh hưởng đến việc ra quyết định và danh tiếng của tổ chức.
- Giao nhiệm vụ độc quyền cho kỹ sư dữ liệu có thể dẫn đến kết quả tiêu cực do các lựa chọn không tốt trong các bước chuyển đổi do thiếu kiến thức về lĩnh vực kinh doanh.
- Sự tham gia của một Business Analyst trong quá trình xử lý dữ liệu thường sẽ dẫn đến những hiểu biết sâu sắc thậm chí có thể thay đổi tiến trình trong tương lai của một dự án để tăng khả năng thành công của dự án.
Trên đây là những thông tin về data wrangling và sự ảnh hưởng đến công việc của các Business Analyst. Mong rằng bài viết đã cung cấp cho bạn đọc những thông tin hữu ích, đừng quên đón xem các nội dung mới sẽ được cập nhật thường xuyên tại BAC’s Blog.
Nguồn tham khảo: https://www.modernanalyst.com/
Nhu cầu đào tạo doanh nghiệp
Nguồn: https://sigma.edu.vn
Danh mục: Công Nghệ