Hadoop trong đám mây giải phóng bạn khỏi sự ảm đạm của lược đồ

Bởi Duane Craig

Fiverr là một thị trường cho các dịch vụ trực tuyến với hàng triệu người dùng ở 200 quốc gia trên toàn cầu. Mỗi ngày công ty thu thập hàng triệu hàng dữ liệu bán cấu trúc và không cấu trúc nằm trong một số nguồn như cơ sở dữ liệu quan hệ MySQL, mongoDB, Redis, v.v. Fiverr cũng sử dụng các dịch vụ dựa trên web như Google Analytics. Tất cả nói lên chi phí dữ liệu lớn của nó bao gồm khoảng 80% dữ liệu lưu lượng bán cấu trúc và 20% dữ liệu có cấu trúc.

Gia trị lơn nhât

Tìm kiếm giá trị tối đa từ dữ liệu lớn, nhiều công ty đã cố gắng thử một giải pháp như hệ thống quản lý cơ sở dữ liệu quan hệ tiêu chuẩn (RDBMS), rất thuận tiện vì nó sử dụng ngôn ngữ SQL thông thường, khiến nó trở nên hấp dẫn đối với các nhà phân tích. Nó cũng tích hợp tốt, cung cấp báo cáo và hỗ trợ trích xuất, dịch và tải phí cầu đường. Sau đó, có giá. MySQL chẳng hạn, là nguồn mở và miễn phí. Nhưng, vì Fiverr sử dụng Agile Development, Slava Borodovsky, giám đốc kinh doanh thông minh, giải thích rằng rất khó sử dụng giải pháp hệ thống quản lý cơ sở dữ liệu quan hệ tiêu chuẩn.

"Trong phát triển nhanh, có rất nhiều thay đổi với một sản phẩm nhất định hàng ngày, rằng sử dụng các công cụ dựa trên lược đồ không hiệu quả. Mỗi lần có các tham số mới trong sản xuất, bạn cần thay đổi lược đồ của cơ sở dữ liệu của mình. thủ tục, đặc biệt là với một lượng lớn dữ liệu ", Borodovsky nói.
Thách thức đó đã truyền cảm hứng cho Fiverr xem xét một giải pháp cho dữ liệu lớn của nó sẽ hỗ trợ một lược đồ mở, từ đó cho phép nó thực hiện các thay đổi nhanh chóng. Hadoop trở thành tâm điểm nhưng không phải không có một số đánh giá sâu sắc về các vấn đề tiềm ẩn có thể phát sinh với nó. Ví dụ, trong khi Hadoop được coi là tối ưu cho loại môi trường dữ liệu và quy mô của Fievrr, nó đòi hỏi các kỹ năng và sự chú ý đặc biệt, theo Borodovsky.
"Đó là một hệ thống mạnh mẽ, nhưng những người thông minh kinh doanh 'thông thường', như các nhà phân tích và thậm chí các nhà phát triển, không thể đối phó với nó, " ông nói. "Nó đòi hỏi kiến ​​thức lập trình đặc biệt như Java và định hướng rất kỹ thuật. Nó rất khác so với thế giới SQL thông thường. Trong hầu hết các trường hợp, nếu một công ty muốn sử dụng Hadoop, họ cần phải thuê nhân viên có kiến ​​thức và kỹ năng đặc biệt, cũng là người rất tốn kém. Ngoài số lượng nhân viên, họ sẽ cần tạo ra một môi trường phân tán, cũng có thêm chi phí. "

Fiverr ban đầu tìm cách giải quyết các thách thức khi triển khai Hadoop bằng cách sử dụng cơ sở dữ liệu cột để lưu trữ dữ liệu lưu lượng. Tuy nhiên, có vấn đề với điều này, và công ty cần một giải pháp tốt hơn. Điều gì sẽ xảy ra nếu tất cả lợi ích của Hadoop nằm trong đám mây, để lại hầu hết các thách thức phía sau? Nhập Xplenty hoặc Hadoop dưới dạng dịch vụ.

Thông tin thêm: Thành công của Hadoop yêu cầu tránh các lỗi dữ liệu trong quá khứ

Xplenty

GUI của Xplenty cho phép người dùng tạo các luồng dữ liệu phức tạp chỉ trong vài phút

Sau khi đăng ký, Fiverr đã triển khai giải pháp của Xplenty trong vài ngày và công ty bắt đầu nhận được kết quả tích cực rất nhanh. Kiến trúc đám mây của Xplenty khiến việc triển khai Hadoop cho các nhu cầu BI trở nên rất đơn giản.

"Bất ngờ lớn nhất là tốc độ thực hiện", Borodovsky nói. "Nó đã hoạt động và hoạt động sau vài ngày. Cơ sở hạ tầng đám mây của Xplenty làm cho quá trình triển khai trở nên rất dễ dàng và chỉ cần những nỗ lực CNTT tối thiểu. Thách thức lớn nhất phải thực hiện với định dạng mà chúng tôi lưu trữ dữ liệu của chúng tôi, kể từ thời điểm đó Xplenty Tuy nhiên, chúng tôi đã giải quyết vấn đề đó trong một hoặc hai ngày. Chúng tôi cũng thực hiện các thay đổi nhỏ trong cấu trúc tệp dữ liệu của mình bằng cách chia chúng thành các tệp nhỏ hơn để tăng hiệu suất. Quá trình thực hiện rất minh bạch và dễ dàng. "

Công ty hiện lưu trữ tất cả dữ liệu lưu lượng truy cập của mình dưới dạng tệp văn bản ở định dạng JSON và xử lý dữ liệu đó bằng Xplenty. Giờ đây, các nhà phân tích của Fiverr có thể tạo các cụm Hadoop và chạy các tác vụ phân tích phức tạp chỉ trong vài cú nhấp chuột. Không cần một người kỹ thuật chăm sóc bảo trì và tối ưu hóa Hadoop. Giải pháp này giúp Fiverr cập nhật các thay đổi mới trên trang web trong khi vẫn giữ cho nó rất nhạy với các số liệu mới.

Fiverr đã có ý định khai thác dữ liệu lưu lượng truy cập của mình để thực hiện phân tích kênh, chuyển đổi và phân tích xu hướng. Các tác vụ phân tích phức tạp đó, cùng với phân tích nhấp chuột, thường là loại có cấu trúc lớn và bán cấu trúc, như khi được lưu trữ ở định dạng JSON. Thời lượng của các quy trình BI từ yêu cầu kinh doanh đến hiểu biết sâu sắc phân tích đã giảm đáng kể.

Thao tác lược đồ ít hơn

Sử dụng Hadoop, Fiverr không cần thay đổi lược đồ của cơ sở dữ liệu / kho dữ liệu của nó. Điều này thường rất tốn thời gian và liên quan đến tài nguyên CNTT, thường có thể tạo ra các nút thắt bổ sung trong quy trình BI. Công ty hiện có thể bắt đầu sử dụng các tham số mới được thêm vào sản xuất ngay sau khi chúng được phát hành trực tuyến. Lấy ví dụ, Borodovsky trích dẫn quy trình đo lường hiệu suất của một tính năng mới được thêm vào sản xuất.

"Trong thế giới cơ sở dữ liệu điển hình, chúng ta sẽ cần thay đổi cấu trúc của kho dữ liệu của mình và thêm các cột bổ sung vào các bảng để lưu trữ các tham số mới, " ông giải thích. "Sau đó, chúng tôi cần thay đổi các quy trình ETL sẽ phân tích các tham số mới và chèn chúng vào một bảng. Tiếp theo, chúng tôi sẽ phải viết các truy vấn, tạo báo cáo và phân tích tính năng."

"Quá trình này thường kéo dài từ một ngày trong các công ty nhỏ và khởi nghiệp, đến một số ngày và thậm chí vài tuần ở các công ty lớn. Với giải pháp Hadoop của Xplenty, chúng tôi có thể bỏ qua hai bước đầu tiên. Chúng tôi có thể tạo một quy trình mới trong Xplenty với một số lần nhấp và nhận được thông tin chi tiết rất nhanh. Thời lượng trung bình của quy trình BI đã thay đổi và nhanh hơn ít nhất hai lần so với trước đây, về các quy trình có liên quan đến phân tích lưu lượng truy cập. "

"Với Xplenty, chúng tôi đang tiết kiệm thời gian xử lý dữ liệu, vì không cần thiết phải thay đổi lược đồ liên tục. Chúng tôi cũng độc lập về CNTT, nơi chúng tôi đã lưu trên tài nguyên số lượng lớn và có thể chú ý nhiều hơn vào phân tích và hiểu biết kinh doanh hơn về bảo trì kỹ thuật của Hadoop. Cũng như nhiều thứ trong CNTT, việc tìm ra giải pháp phù hợp đôi khi mất một thời gian. Chúng tôi đã gặp Xplenty vào đúng thời điểm. "
Cung cấp ngay các nút cụm để tăng quy mô và cung cấp nhiều năng lượng tính toán hơn

© Copyright 2020 | mobilegn.com