Skip to main content

Apache Spark SQL - Parquet File

Để đọc dữ liệu từ một tệp Parquet trong Spark SQL, bạn có thể sử dụng phương thức read() của đối tượng SparkSession và chỉ định đường dẫn đến tệp (ví dụ: spark.read.parquet("path/to/file.parquet")).

spark-sql.jpg

Bạn cũng có thể chỉ định các tùy chọn cấu hình khác nhau để định dạng dữ liệu đầu vào, ví dụ như chỉ định tên cột và kiểu dữ liệu tương ứng.

Ví dụ, nếu bạn có một tệp Parquet chứa các dữ liệu của các nhân viên như sau:

name  | age | position
------+-----+---------
John  | 30  | Developer
Jane  | 25  | Designer
Bob   | 40  | Manager

Bạn có thể đọc tệp này bằng cách sử dụng phương thức read() như sau:

from pyspark.sql import SparkSession

spark = SparkSession.builder.appName("Read Parquet").getOrCreate()

df = spark.read.parquet("path/to/employees.parquet")
df.show()

Kết quả trả về sẽ là một đối tượng DataFrame chứa dữ liệu của các nhân viên trong tệp Parquet.

+----+---+---------+
|name|age| position|
+----+---+---------+
|John| 30|Developer|
|Jane| 25| Designer|
| Bob| 40|  Manager|
+----+---+---------+

Sau khi đọc dữ liệu từ tệp Parquet, bạn có thể sử dụng các phương thức của đối tượng DataFrame để truy vấn và biến đổi dữ liệu. Ví dụ, bạn có thể sử dụng phương thức select() để chọn các cột cụ thể trong DataFrame, hoặc phương thức filter() để lọc các dòng dựa trên một điều kiện cho trước. Bạn cũng có thể sử dụng các phương thức nhóm và sắp xếp dữ liệu để tạo các báo cáo phức tạp hơn.

Với tính năng đọc dữ liệu từ các tệp Parquet, Spark SQL là một công cụ mạnh mẽ và linh hoạt cho các nhà phát triển và nhà nghiên cứu dữ liệu để xử lý dữ liệu phức tạp từ nhiều nguồn khác nhau. Tuy nhiên, để đảm bảo hiệu suất tối đa khi xử lý dữ liệu lớn, bạn cần cân nhắc các tùy chọn cấu hình và tối ưu hóa truy vấn của mình.

Vì vậy, đọc dữ liệu từ tệp Parquet trong Spark SQL là một kỹ năng quan trọng mà bạn nên nắm vững để có thể xử lý dữ liệu phức tạp từ nhiều nguồn khác nhau. Hãy tham khảo tài liệu chính thức của Spark SQL để biết thêm chi tiết về cách sử dụ