In [6]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [7]:
spark = (
    SparkSession.builder
    .appName("Curso de PySpark")
    .config("spark.sql.repl.eagerEval.enabled", True)
    .getOrCreate()
)

In [8]:
spark

In [9]:
path = "C:/Users/marlos.barros/Cursos/pyspark_na_pratica/DATASETS/LOGINS.parquet"

In [10]:
df = spark.read.format("parquet").load(path)

In [11]:
df.printSchema()

root
 |-- cpf: string (nullable = true)
 |-- email: string (nullable = true)
 |-- senha: string (nullable = true)
 |-- data_de_nascimento: date (nullable = true)
 |-- estado: string (nullable = true)
 |-- data_cadastro: date (nullable = true)
 |-- ipv4: string (nullable = true)
 |-- cor_favorita: string (nullable = true)
 |-- profissao: string (nullable = true)
 |-- telefone: string (nullable = true)



In [12]:
type(df)

pyspark.sql.dataframe.DataFrame

### Converter DataFrame PySpark para Pandas
- Função: Converte um **DataFrame do PySpark** para um **DataFrame do Pandas**. Essa operação coleta os dados do **PySpark** e os transfere para o **Pandas**, o que pode ser útil para realizar análises locais mais simples ou para salvar o resultado em formatos compatíveis com **Pandas**, como **CSV** ou **Excel**.

In [13]:
pdf = df.toPandas()

In [14]:
type(pdf)

pandas.core.frame.DataFrame

In [18]:
pdf

Unnamed: 0,cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
0,981.507.362-12,pedro-lucas53@gmail.com,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046
1,493.705.168-75,rezendeisaac@hotmail.com,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremesso De Peso,(031) 0803-6753
2,398.471.625-73,felipepires@uol.com.br,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
3,092.618.354-06,stellamoraes@bol.com.br,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177
4,509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468
...,...,...,...,...,...,...,...,...,...,...
995,073.128.546-80,nicolas11@hotmail.com,hp%24OQsr(,1913-04-05,AL,2023-02-12,132.202.220.34,Verde Claro,Ortodontista,(031) 3563 5055
996,841.950.263-42,francisco14@bol.com.br,6^02PPwbKM,1928-07-01,ES,2023-01-02,71.49.101.55,Azul,Tecnólogo Em Esporte E Lazer,+55 (061) 0639 3574
997,175.682.043-08,barbara51@hotmail.com,E5B6wYv8!i,1945-08-21,AM,2023-01-09,141.223.84.73,Violeta,Musicoterapeuta,(051) 6399-9536
998,570.263.819-03,imendes@yahoo.com.br,^17tb#Fym_,1929-05-18,AL,2023-01-16,55.128.117.22,Rosa,Pastilheiro,81 0564-6409


### Criar DataFrame Pandas a partir de um DataFrame PySpark coletado
Função: Coleta os dados de um **DataFrame PySpark** com o método **collect()**, o que **retorna uma lista de linhas**, e então cria um **DataFrame do Pandas** com essas linhas. Os nomes das colunas são mantidos usando o atributo **df.columns**.

In [15]:
!pip install pd



In [16]:
import pandas as pd

In [17]:
pd.DataFrame(df.collect(), columns=df.columns)

Unnamed: 0,cpf,email,senha,data_de_nascimento,estado,data_cadastro,ipv4,cor_favorita,profissao,telefone
0,981.507.362-12,pedro-lucas53@gmail.com,+7^7E%xFBc,2006-12-18,RR,2023-02-26,99.107.250.210,Roxo,Jogador De Golfe,31 7785-4046
1,493.705.168-75,rezendeisaac@hotmail.com,_O_2GRnGOe,1992-06-17,GO,2023-02-16,197.11.26.213,Ciano,Atleta De Arremesso De Peso,(031) 0803-6753
2,398.471.625-73,felipepires@uol.com.br,*Aw5EOAvy9,1921-11-11,MG,2023-01-02,181.90.63.58,Azul,Papiloscopista,11 9674-0553
3,092.618.354-06,stellamoraes@bol.com.br,mw0AWYAs#s,2021-06-01,AC,2023-01-08,26.121.127.94,Marrom,Aeromoça,+55 (071) 3033 9177
4,509.427.136-99,wcarvalho@ig.com.br,pGD%!2Pq5X,1969-10-28,AP,2023-02-14,76.184.52.163,Laranja,Fonoaudiólogo,+55 (071) 6272 2468
...,...,...,...,...,...,...,...,...,...,...
995,073.128.546-80,nicolas11@hotmail.com,hp%24OQsr(,1913-04-05,AL,2023-02-12,132.202.220.34,Verde Claro,Ortodontista,(031) 3563 5055
996,841.950.263-42,francisco14@bol.com.br,6^02PPwbKM,1928-07-01,ES,2023-01-02,71.49.101.55,Azul,Tecnólogo Em Esporte E Lazer,+55 (061) 0639 3574
997,175.682.043-08,barbara51@hotmail.com,E5B6wYv8!i,1945-08-21,AM,2023-01-09,141.223.84.73,Violeta,Musicoterapeuta,(051) 6399-9536
998,570.263.819-03,imendes@yahoo.com.br,^17tb#Fym_,1929-05-18,AL,2023-01-16,55.128.117.22,Rosa,Pastilheiro,81 0564-6409


### Converter DataFrame Pandas para PySpark usando PySpark Pandas (Koalas)
- Função: **Converte um DataFrame do Pandas (pdf)** de volta para um **DataFrame do PySpark**. Usando o pacote **pyspark.pandas (anteriormente conhecido como Koalas)**, você pode interagir facilmente entre os dois formatos de DataFrames, facilitando a transição entre operações de análise em **Pandas** e operações de **big data em PySpark**.

In [31]:
import pyspark.pandas as ps

In [39]:
df_2 = ps.DataFrame(pdf).to_spark()



In [40]:
type(df_2)

pyspark.sql.dataframe.DataFrame

In [None]:
df_2