Blog

Hbase là gì? Hướng dẫn cài đặt đơn giản Hbase – Bizfly Cloud

hktc.info xin giới thiệu bài viết

Hbase là gì?

HBase là phương pháp lưu trữ dữ liệu hàng loạt linh hoạt và hoàn toàn miễn phí, được nhiều hãng công nghệ ưa chuộng. Vậy hbase là gì? Nó bao gồm những tính năng gì?

Nhằm giúp bạn đọc mới tiếp xúc với dữ liệu lớn hiểu rõ hơn về công nghệ hbase, bài viết mây bay Sau đây sẽ mang đến cho bạn những thông tin hữu ích nhất.

hbase là gì?

cơ sở dữ liệu Nó là một hệ quản trị cơ sở dữ liệu mã nguồn mở dựa trên Hadoop thuộc dự án Apache, được phát triển từ việc mở rộng dự án lưu trữ dữ liệu lớn của Google. HBase được viết bằng ngôn ngữ lập trình Java và có thể lưu trữ dữ liệu rất lớn từ terabyte đến petabyte.

Trên thực tế, hbase là một nosql điển hình, vì vậy các bảng hbase không có lược đồ cố định và không có mối quan hệ giữa các bảng. Cho đến nay, nhiều công ty, doanh nghiệp công nghệ lớn trên thế giới đang sử dụng hbase như: facebook, yahoo, twitter, adobe…

Tuy nhiên, hbase có những đặc điểm riêng và thường chỉ nên được sử dụng trong những trường hợp cụ thể. Ví dụ, hbase rất phù hợp để xử lý lượng dữ liệu lớn và yêu cầu đọc và ghi liên tục, nhưng lại không phù hợp với nhu cầu của các truy vấn phức tạp.

hbase là một hệ quản trị cơ sở dữ liệu mã nguồn mở dựa trên Hadoop thuộc dự án Apache

Các tính năng của hbase

Các tính năng có trong hbase bao gồm:

  • Lọc mất ít thời gian hơn
  • Có khả năng lưu trữ dữ liệu lớn, lưu trữ hàng tỷ hàng và cột
  • hbase ổn định và giảm rủi ro khi lưu các bản song công lớn
  • Truy vấn dữ liệu theo thời gian thực
  • Hỗ trợ giao thức nghỉ ngơi, trả về dữ liệu ở nhiều định dạng như xml. json, thử nghiệm đơn giản.Vì vậy, bạn vẫn có thể khai thác dữ liệu mà không cần thông qua api của bên thứ 3
  • Cơ chế đọc và ghi nhất quán dựa trên Hadoop
  • hbase được hỗ trợ bởi nhiều tiện ích mở rộng trong nhiều ngôn ngữ lập trình như php, java, python…
  • Nhiều công ty, doanh nghiệp và tổ chức công nghệ trên khắp thế giới sử dụng lưu trữ dữ liệu đáng tin cậy trên quy mô lớn.
  • mô hình làm việc hbase

    Mô hình làm việc của hbase như sau:

    • hbase có nhiều điểm giống bigtable vì được xây dựng theo thiết kế bigtable chuẩn của google. Tất cả dữ liệu sẽ được lưu trữ trong các bảng được xác định bằng các từ khóa như “bảng, họ cột, khóa hàng, dấu thời gian, cột”. Một bảng sẽ chứa nhiều hàng và mỗi hàng có thể lưu trữ hàng chục tỷ hàng trong một bảng hbase.
    • Các hàng này sẽ được xác định bằng một khóa chính duy nhất có tên là rowkey. Nó rất giống với ket chính trong cơ sở dữ liệu SQL phổ biến nổi tiếng.
    • Ngoài ra, mỗi hàng chứa nhiều cột riêng lẻ được tổng hợp thành các họ cột. Mỗi cột giá trị được gọi là một ô và mỗi ô chứa một cặp “giá trị phiên bản (dấu thời gian)”.
    • Không giống như các hệ điều hành quan hệ, các cột trong hbase có thể được tạo trong khi hệ thống vẫn đang chạy. Ngoài ra, một điểm khác biệt nữa của hbase là giá trị null không được lưu trữ trong cơ sở dữ liệu hbase.
    • hbase được thiết kế và xây dựng theo tiêu chuẩn bigtable của google

      Để hiểu rõ hơn về hbase, bạn cũng cần hiểu kiến ​​trúc của nó. Cụ thể nó bao gồm 4 thành phần cơ bản sau:

      • Người sở hữu: Đây là thành phần cốt lõi của kiến ​​trúc hbase và chức năng của nó là giám sát tất cả các máy chủ miền. Mọi thay đổi đối với siêu dữ liệu sẽ được thực hiện thông qua hmaster.
      • Máy chủ khu vực: Thành phần này chịu trách nhiệm quản lý trực tiếp các vùng.
      • khu vực: Đây là thành phần kiến ​​trúc cơ bản của hbase cluster, hregions gồm 2 thành phần chính là hfile và memstore.
      • Người giữ vườn thú: là nơi lưu trữ trung tâm và giám sát thông tin cho các tệp cấu hình.
      • Cách lưu trữ và tra cứu trong hbase

        Phương thức lưu trữ của hbase như sau:

        • Hbase lưu trữ các hàng trong bảng và mỗi bảng có thể xác định nhiều họ cột (cf). Mỗi khóa chính duy nhất sẽ quản lý một hàng. Ngoài ra, bạn cũng có thể xem lịch sử lưu dữ liệu của từng hàng, được quản lý theo dấu thời gian.
        • Bạn hoàn toàn có thể giới hạn số lượng bản ghi lịch sử được lưu, điều này sẽ tiết kiệm dung lượng dữ liệu sau thời gian sử dụng và các bản ghi lịch sử cũ hơn sẽ bị xóa mỗi khi dữ liệu được cập nhật.
        • Phương pháp tìm kiếm của hbase như sau:

          • Cách phổ biến nhất để tìm dữ liệu là sử dụng thrift, thông thường khi chạy hbase thì thrift sẽ không start nên bạn cần sử dụng lệnh sau “./bin /hbase thrift start”. thrift cung cấp 4 bộ so sánh để lọc dữ liệu:: “chuỗi regex, tiền tố nhị phân, nhị phân, chuỗi con”.
          • Một cách khác thuận tiện hơn để truy vấn dữ liệu bằng hbase là sử dụng các câu lệnh sql. Đối với điều này, bạn cần phải cài đặt hive. Sau khi cài đặt hoàn tất, tất cả các hoạt động xử lý dữ liệu có thể được sử dụng thông qua các câu lệnh sql và các phép nối cũng được hỗ trợ.
          • hướng dẫn cài đặt hbase

            Để cài đặt hbase ở chế độ phân tán, hãy sử dụng lệnh sau:

            • Đầu tiên, tải bộ cài đặt hbase theo liên kết sau: http://www-us.apache.org/dist/hbase/. Ngoài ra, bạn có thể google cho từ khóa hbase miễn phí và bạn có thể tìm thấy nhiều nguồn khác nhau.
            • Sau đó giải nén hbase vào một thư mục:
              • Tiếp tục thêm các biến môi trường vào tệp ~/.bash_profile, bao gồm các biến sau:
                • Dùng lệnh: hbase version để kiểm tra cài đặt có thành công hay không.
                • Chỉnh sửa nội dung file /opt/hbase/conf/hbase-env.sh với nội dung như sau:
                  • Hãy tiếp tục và chỉnh sửa nội dung của tệp /opt/hbase/conf/hbase-site.xml và thêm vào như sau:
                    • Sử dụng lệnh: /opt/hbase/bin/shserver.sh bắt đầu để bắt đầu hbase
                    • Sử dụng lệnh: /opt/hbase/bin/shserver.sh stop để tắt hbase
                    • hbase với apache hadoop là một công nghệ tuyệt vời, linh hoạt và miễn phí dành cho các doanh nghiệp cần giải quyết các vấn đề và sự cố liên quan đến lượng dữ liệu lớn. Hãy chắc chắn rằng bạn đã hiểu hbase là gì và những lợi ích mà nó mang lại với những bài viết mà bizfly cloud cung cấp ở trên.

Cảm ơn bạn đã xem qua bài viết của hktc.info

Rate this post

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *