Skip to main content

Apache Spark

Apache Spark là một hệ thống mã nguồn mở cho phép thực hiện tính toán trên cụm nhằm tạo ra khả năng phân tích dữ liệu nhanh

Apache Spark basic

Kiến thức cơ bản về Apache Spark

Apache Spark overview

Ngày nay có rất nhiều hệ thống xử lý dữ liệu thông tin đang sử dụng Hadoop rộng rãi để phân tích ...

Apache Spark RDD

Resilient Distributed Datasets Resilient Distributed Datasets (RDD) là một cấu trúc dữ liệu cơ b...

Hướng dẫn tạo Spark Scala Maven project trong Intellij

1. Tạo Scala project trong Intellij Click New Project - Chọn Maven -> Create from archetyp...

Spark - SparkSession

Spark session: Đại diện cho khả năng tương tác với executors trong 1 chương trình. Spark session ...

Hướng dẫn cài đặt Apache Spark trên Ubuntu

Hướng dẫn cài đặt Apache Spark trên Ubuntu Tải xuống Apache Spark từ trang web chính thức củ...

Hướng dẫn cài đặt Apache Spark trên CentOS

Hướng dẫn cài đặt Apache Spark trên CentOS Tải xuống Apache Spark từ trang web chính thức củ...

Hướng dẫn cài đặt Apache Spark trên Windows

Hướng dẫn cài đặt Apache Spark trên Windows Tải xuống Apache Spark từ trang web chính thức c...

Apache Spark SQL

Apache Spark SQL là một trong những thành phần quan trọng của Apache Spark, được sử dụng để xử lý...

Apache Spark SQL - DataFrame

Trong Apache Spark SQL, DataFrame là một cấu trúc dữ liệu phân tán giống như bảng trong cơ sở dữ ...

Apache Spark SQL - Data Sources

Spark SQL cung cấp nhiều cách để đọc dữ liệu từ các nguồn khác nhau. Bao gồm: Đọc dữ liệu từ ...

Apache Spark SQL - JSON Dataset

Spark SQL cho phép đọc và xử lý dữ liệu từ các tệp JSON trong các ứng dụng của bạn. Khi bạn đọc d...

Apache Spark SQL - Hive Table

Để đọc dữ liệu từ Hive table trong Spark SQL, bạn có thể sử dụng phương thức read() của đối tượng...

Apache Spark SQL - Parquet File

Để đọc dữ liệu từ một tệp Parquet trong Spark SQL, bạn có thể sử dụng phương thức read() của đối ...