Trong những năm gần đây, dữ liệu lớn được định nghĩa bằng 3V nhưng bây giờ đã có 5V cũng được gọi là các đặc trưng của Big Data. Vậy thì đặc trưng 5V của dữ liệu lớn là gì? Đó chính là Volume (khối lượng), Velocity (vận tốc), Variety (đa dạng), Veracity (tính xác thực), Value (giá trị). Chúng ta sẽ cùng tìm hiểu 5 đặc trưng này
Khối lượng
Bản thân cái tên Big Data có liên quan đến một kích thước rất lớn.
Khối lượng là một lượng lớn dữ liệu.
Để xác định giá trị của dữ liệu, kích thước của dữ liệu đóng một vai trò rất quan trọng. Nếu khối lượng dữ liệu rất lớn thì nó thực sự được coi là Big Data. Điều này có nghĩa là một dữ liệu cụ thể có thực sự được coi là Big Data hay không phụ thuộc vào khối lượng dữ liệu.
Do đó, trong khi xử lý Dữ liệu lớn cần phải xem xét một khối lượng đặc trưng.
Ví dụ: Vào năm 2016, lưu lượng di động toàn cầu ước tính là 6,2 Exabyte (6,2 tỷ GB) mỗi tháng. Trong năm 2020, chúng ta sẽ có gần 40000 ExaByte dữ liệu.
Vận tốc
Vận tốc đề cập tích lũy dữ liệu tốc độ cao.
Trong Big Data, dữ liệu tốc độ truyền đến từ các nguồn như máy móc, mạng, mạng xã hội, điện thoại di động, v.v.
Có một luồng dữ liệu lớn và liên tục. Điều này xác định tiềm năng của dữ liệu thông qua tốc độ dữ liệu được tạo ra và xử lý để đáp ứng nhu cầu.
Lấy mẫu dữ liệu có thể giúp giải quyết vấn đề vận tốc.
Ví dụ: Có hơn 3,5 tỷ lượt tìm kiếm mỗi ngày trên Google. Ngoài ra, người dùng FaceBook đang tăng khoảng 22% hàng năm.
Đa dạng
Nó đề cập đến bản chất của dữ liệu là dữ liệu có cấu trúc, bán cấu trúc và dữ liệu phi cấu trúc.
Nó cũng đề cập đến các nguồn không đồng nhất.
Sự đa dạng về cơ bản là sự xuất hiện của dữ liệu từ các nguồn mới cả bên trong và bên ngoài doanh nghiệp. Nó có thể có cấu trúc, bán cấu trúc và không cấu trúc.
Dữ liệu có cấu trúc: Dữ liệu này về cơ bản là dữ liệu có tổ chức, tức là dữ liệu đã xác định độ dài và định dạng của dữ liệu.
Dữ liệu bán có cấu trúc: Dữ liệu này về cơ bản là dữ liệu nửa có tổ chức. Nó thường là một dạng dữ liệu không phù hợp với cấu trúc chính thức của dữ liệu. Các tệp nhật ký là ví dụ của loại dữ liệu này.
Dữ liệu phi cấu trúc: Dữ liệu này về cơ bản là dữ liệu không được tổ chức. Nó là dữ liệu không vừa khít với cấu trúc hàng và cột truyền thống của cơ sở dữ liệu. Văn bản, hình ảnh, video, v.v. là những ví dụ về dữ liệu phi cấu trúc không thể được lưu trữ ở dạng hàng và cột.
Tính xác thực
Đặc trưng này đề cập đến sự không nhất quán và không chắc chắn trong dữ liệu, tức là dữ liệu có sẵn đôi khi có thể lộn xộn, chất lượng và độ chính xác rất khó kiểm soát.
Big Data cũng có thể thay đổi do có vô số thứ nguyên dữ liệu do nhiều nguồn và loại dữ liệu khác nhau tạo ra.
Ví dụ: Dữ liệu hàng loạt có thể tạo ra nhầm lẫn trong khi lượng dữ liệu ít hơn có thể truyền tải một nửa hoặc thông tin không đầy đủ.
Giá trị
Phần lớn dữ liệu không có giá trị sẽ không có lợi cho công ty, trừ khi bạn biến nó thành một thứ hữu ích.
Dữ liệu tự nó không có giá trị sử dụng hoặc tầm quan trọng nhưng nó cần được chuyển đổi thành thứ có giá trị để trích xuất thông tin.