<a href="https://colab.research.google.com/github/pedroh6s/Conhecendo-o-PySpark/blob/main/PySpark.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
pip install pyspark

In [27]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F

In [10]:
#CONFIGURAR A SPARKSESSION
spark = SparkSession.builder\
        .master("local")\
        .appName("aprendendo-dataframes")\
        .config("spark.ui.port", "4050")\
        .getOrCreate()

#\ permite a quebra de linha, facilitando a leitura, mas mantém tudo como apenas uma linha de comando.
#também é possível escrever tudo dentro de parênteses

In [11]:
spark

In [14]:
#CRIANDO DATAFRAMES

dados = [
         ('João da Silva', 'São Paulo', 'SP', 1100.00),
         ('Maria dos Santos', 'São Paulo', 'SP', 2100.00),
         ('Carlos Victor', 'Rio de Janeiro', 'SP', 2100.00),
         ('Pedro José', 'Maceió', 'AL', 3600.00)
]

schema = ['Nome', 'Cidade', 'Estado', 'Salário']

df = spark.createDataFrame(data=dados, schema=schema)

df

DataFrame[Nome: string, Cidade: string, Estado: string, Salário: double]

In [15]:
df.show()

+----------------+--------------+------+-------+
|            Nome|        Cidade|Estado|Salário|
+----------------+--------------+------+-------+
|   João da Silva|     São Paulo|    SP| 1100.0|
|Maria dos Santos|     São Paulo|    SP| 2100.0|
|   Carlos Victor|Rio de Janeiro|    SP| 2100.0|
|      Pedro José|        Maceió|    AL| 3600.0|
+----------------+--------------+------+-------+



In [16]:
df.printSchema()

root
 |-- Nome: string (nullable = true)
 |-- Cidade: string (nullable = true)
 |-- Estado: string (nullable = true)
 |-- Salário: double (nullable = true)



In [17]:
#Importando CSV no Pyspark
#existem diferentes maneiras de importar arquivos no Pyspark
df2 = (spark
       .read
       .format("csv")
       .option("header", "true")
       .option("delimiter", ";")
       .load("/content/drive/MyDrive/FONTES DE DADOS/arquivo_geral.csv")
)

In [20]:
df2.show(10)
#por padrão mostra 20 linhas, mas é possível personalizar

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

In [21]:
df2.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: string (nullable = true)
 |-- casosNovos: string (nullable = true)
 |-- casosAcumulados: string (nullable = true)
 |-- obitosNovos: string (nullable = true)
 |-- obitosAcumulados: string (nullable = true)



In [24]:
#inferschema faz um reconhecimento automático dos tipos de dados presentes no dataframe
#se numa coluna com valores de integer, caso exista uma string, a coluna entrará como string
#assim como no pandas
df2 = (spark
       .read
       .format("csv")
       .option("header", "true")
       .option("inferschema", "true")
       .option("delimiter", ";")
       .load("/content/drive/MyDrive/FONTES DE DADOS/arquivo_geral.csv")
)

In [25]:
df2.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: string (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: integer (nullable = true)
 |-- obitosAcumulados: integer (nullable = true)



In [29]:
#COMANDOS SELECT E FILTER
#SELECT - FORMA 1
df2.select('regiao', 'estado', 'casosNovos').show(20)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
+------+------+----------+
only showing top 20 rows



In [28]:
#SELECT - FORMA 2
#UTILIZANDO FUNCTIONS PARA TRABALHAR COM COLUNAS
df2.select(F.col('regiao'), F.col('estado'), F.col('casosNovos')).show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
| Norte|    RO|         0|
+------+------+----------+
only showing top 10 rows



In [32]:
#FAZENDO FILTROS COM A FUNÇÃO FILTER
df2.select(F.col('regiao'), F.col('estado'), F.col('casosNovos')).filter(F.col('estado') == 'RS').show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
|   Sul|    RS|         0|
+------+------+----------+
only showing top 10 rows



In [34]:
df2.select('regiao', 'estado', 'casosNovos').filter(F.col('estado') == 'RJ').show(10)

+-------+------+----------+
| regiao|estado|casosNovos|
+-------+------+----------+
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
+-------+------+----------+
only showing top 10 rows



In [35]:
#OUTRA FORMA DE FILTRAR DADOS
df2.select('regiao', 'estado', 'casosNovos').filter(df2.regiao == 'Sudeste').show(10)


+-------+------+----------+
| regiao|estado|casosNovos|
+-------+------+----------+
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
+-------+------+----------+
only showing top 10 rows



In [38]:
df2.select('regiao', 'estado', 'casosNovos').filter(df2.estado == 'RJ').show(10)

+-------+------+----------+
| regiao|estado|casosNovos|
+-------+------+----------+
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
|Sudeste|    RJ|         0|
+-------+------+----------+
only showing top 10 rows



In [39]:
df2.select('regiao', 'estado', 'casosNovos').filter("estado = 'MG'").show(10)

+-------+------+----------+
| regiao|estado|casosNovos|
+-------+------+----------+
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
|Sudeste|    MG|         0|
+-------+------+----------+
only showing top 10 rows



In [46]:
filtro = F.col('regiao') == 'Sul'
df2.select('regiao', 'estado', 'casosNovos').filter(filtro).show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
|   Sul|    PR|         0|
+------+------+----------+
only showing top 10 rows



In [41]:
filtro2 = "estado = 'AL'"
df2.select('regiao', 'estado', 'casosNovos').filter(filtro2).show(10)

+--------+------+----------+
|  regiao|estado|casosNovos|
+--------+------+----------+
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
|Nordeste|    AL|         0|
+--------+------+----------+
only showing top 10 rows



In [43]:
lista_colunas = ['regiao', 'estado', 'casosNovos']
filtro3 = df2.estado == 'SP'
df2.select(lista_colunas).filter(filtro3).show(10)

+-------+------+----------+
| regiao|estado|casosNovos|
+-------+------+----------+
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
|Sudeste|    SP|         0|
+-------+------+----------+
only showing top 10 rows



In [48]:
#Filtro duplo
#O filtro está retornando os resultados cuja região é Sul
#O filtro2 está retornando os resultados cujo estado é Alagoas
#Como não existe nenhum resultado em comuns nas duas buscas, temos como resultado
#um dataframe vazio 
df2.select(lista_colunas).filter(filtro).filter(filtro2).show(10)

+------+------+----------+
|regiao|estado|casosNovos|
+------+------+----------+
+------+------+----------+

