Apache Spark

Apache Spark là một hệ thống mã nguồn mở cho phép thực hiện tính toán trên cụm nhằm tạo ra khả năng phân tích dữ liệu nhanh

Kiến thức cơ bản về Apache Spark

Ngày nay có rất nhiều hệ thống xử lý dữ liệu thông tin đang sử dụng Hadoop rộng rãi để phân tích ...

Resilient Distributed Datasets Resilient Distributed Datasets (RDD) là một cấu trúc dữ liệu cơ b...

1. Tạo Scala project trong Intellij Click New Project - Chọn Maven -> Create from archetyp...

Spark session: Đại diện cho khả năng tương tác với executors trong 1 chương trình. Spark session ...

Hướng dẫn cài đặt Apache Spark trên Ubuntu Tải xuống Apache Spark từ trang web chính thức củ...

Hướng dẫn cài đặt Apache Spark trên CentOS Tải xuống Apache Spark từ trang web chính thức củ...

Hướng dẫn cài đặt Apache Spark trên Windows Tải xuống Apache Spark từ trang web chính thức c...

Apache Spark SQL là một trong những thành phần quan trọng của Apache Spark, được sử dụng để xử lý...

Trong Apache Spark SQL, DataFrame là một cấu trúc dữ liệu phân tán giống như bảng trong cơ sở dữ ...

Spark SQL cung cấp nhiều cách để đọc dữ liệu từ các nguồn khác nhau. Bao gồm: Đọc dữ liệu từ ...

Spark SQL cho phép đọc và xử lý dữ liệu từ các tệp JSON trong các ứng dụng của bạn. Khi bạn đọc d...

Để đọc dữ liệu từ Hive table trong Spark SQL, bạn có thể sử dụng phương thức read() của đối tượng...

Để đọc dữ liệu từ một tệp Parquet trong Spark SQL, bạn có thể sử dụng phương thức read() của đối ...