# Introdução Teórica

PySpark é uma biblioteca de processamento distribuído de dados em larga escala. Ele fornece uma interface em Python para a estrutura de processamento de dados distribuída Apache Spark, permitindo que usuários executem operações de processamento de grandes conjuntos de dados em clusters distribuídos.

# Cheat Sheet

<p align = "center">
<img src = "https://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1625837623/PySpark_Cheat_Sheet-_Spark_in_Python_owornh.png" width = 1500>
</p>

# Primeiros passos com PySpark

In [8]:
import pyspark as spark
from pyspark.sql import SparkSession

import pandas as pd

print(f"A versão atual do PySpark é: {spark.__version__}")

A versão atual do PySpark é: 3.4.0


In [2]:
# Cria ou recupera uma sessão Spark
my_spark = SparkSession.builder.getOrCreate()
print(my_spark)

<pyspark.sql.session.SparkSession object at 0x000002B9C5619210>


In [23]:
# Retorna o nome de todas as tabelas dentro do clusters em uma lista
print(f"Lista de todas as tabelas no cluster atual: {my_spark.catalog.listTables()}")

Lista de todas as tabelas no cluster atual: []


In [15]:
# Vamos carregar o DataFrame Iris:
iris_df = pd.read_csv(
    r"G:\Meu Drive\Data Science\Dados\Classificação\Iris\Iris.csv"
)

iris_df.drop('Id', axis = 1, inplace = True)

iris_df.head(3)

Unnamed: 0,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa


In [18]:
# Caso queiramos carregar utilizando PySpark, podemos fazer da seguinte forma:

iris_spark = my_spark.createDataFrame(iris_df) # Cria um DataFrame Spark a partir de um DataFrame do Pandas

# ou

iris_spark = my_spark.read.csv(
    r"G:\Meu Drive\Data Science\Dados\Classificação\Iris\Iris.csv"
)

# Podemos ver o tipo de dados de cada coluna:
print(iris_spark)

DataFrame[_c0: string, _c1: string, _c2: string, _c3: string, _c4: string, _c5: string]


In [22]:
# Para visualizar as primeiras linhas do DataFrame, podemos utilizar o método show():
iris_spark.show(5)

+---+-------------+------------+-------------+------------+-----------+
|_c0|          _c1|         _c2|          _c3|         _c4|        _c5|
+---+-------------+------------+-------------+------------+-----------+
| Id|SepalLengthCm|SepalWidthCm|PetalLengthCm|PetalWidthCm|    Species|
|  1|          5.1|         3.5|          1.4|         0.2|Iris-setosa|
|  2|          4.9|         3.0|          1.4|         0.2|Iris-setosa|
|  3|          4.7|         3.2|          1.3|         0.2|Iris-setosa|
|  4|          4.6|         3.1|          1.5|         0.2|Iris-setosa|
+---+-------------+------------+-------------+------------+-----------+
only showing top 5 rows



In [28]:
# Adiciona a tabela ao catálogo do cluster atual:
iris_spark.createOrReplaceTempView("iris")

print(f"Lista de todas as tabelas no cluster atual: {my_spark.catalog.listTables()}")

Lista de todas as tabelas no cluster atual: [Table(name='iris', catalog=None, namespace=[], description=None, tableType='TEMPORARY', isTemporary=True)]


In [None]:
# Realiza uma QUERY SQL em uma tabela do cluster.
query = ""
query_df = my_spark.sql(query)
query_df.show()

# Manipulando Colunas

https://www.youtube.com/watch?v=EMACjF6eCU4&ab_channel=Stack retomar no tempo 17min 

https://www.youtube.com/watch?v=8esz7IWSbMM&ab_channel=AprenderDados%7CBernardoCambruzzi assistir

https://community.cloud.databricks.com/?o=4566189763914988#notebook/3855061166299265 notebook no databricks

https://www.youtube.com/playlist?list=PLIHpLBNsiHE3Zmdc8Hc8H8n8TVpmrb-fp playlist de engenharia de dados.