In [37]:
# Importando a Biblioteca
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

In [38]:
# Criando uma sessão do Spark
spark = SparkSession.builder.appName("Leitura de CSV").getOrCreate()

In [39]:
# Carregando arquivo CSV em um DataFrame

# inferSchema: Inferencia de dados | header: Cabeçalho primeira linha | sep: Separador dos dados
# Quando o parâmetro inferSchema é definido como True, o PySpark examina os dados no arquivo CSV para tentar determinar o tipo de dados correto para cada coluna. 

df = spark.read.csv(r"C:\Users\sicilia.giacomazza\Desktop\Estudos Python\arquivo_geral.csv", header=True, inferSchema=True, sep=";")

In [40]:
# Visualizando o conteudo do DataFrame usando o método show()
df.show(10)

+------+------+-------------------+----------+---------------+-----------+----------------+
|regiao|estado|               data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+-------------------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-01-31 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-01 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-02 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-03 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-04 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-05 00:00:00|         0|              0|          0|               0|
| Norte|    RO|2020-02-06 00:00:00|         0|              0|          0|      

In [41]:
# Visualizar o Schema das colunas
df.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: timestamp (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: integer (nullable = true)
 |-- obitosAcumulados: integer (nullable = true)



In [42]:
# Selecionando colunas e filtrando

# Usando col
df.select('regiao', 'estado').where(col('regiao') == 'Sul').where(col('estado') == 'RS').show(3)

# Usando df
df.select('regiao', 'estado').where((df.regiao == 'Sudeste') & (df.estado == 'ES')).show(3)
df.select('regiao', 'estado').where(df.regiao.isin(['Sudeste', 'Sul'])).show(3)

# *É possivel usar varios where

+------+------+
|regiao|estado|
+------+------+
|   Sul|    RS|
|   Sul|    RS|
|   Sul|    RS|
+------+------+
only showing top 3 rows

+-------+------+
| regiao|estado|
+-------+------+
|Sudeste|    ES|
|Sudeste|    ES|
|Sudeste|    ES|
+-------+------+
only showing top 3 rows

+-------+------+
| regiao|estado|
+-------+------+
|Sudeste|    MG|
|Sudeste|    MG|
|Sudeste|    MG|
+-------+------+
only showing top 3 rows



In [43]:
# Storando em uma variavel para selecionar/filtrar depois
colunas_selecionadas = ["regiao", "estado"]
df.select(colunas_selecionadas).show(5)

regiao_selecionadas = ["Norte", "Nordeste"]
df.select(colunas_selecionadas).where(df.regiao.isin(regiao_selecionadas)).show(5)

+------+------+
|regiao|estado|
+------+------+
| Norte|    RO|
| Norte|    RO|
| Norte|    RO|
| Norte|    RO|
| Norte|    RO|
+------+------+
only showing top 5 rows

+------+------+
|regiao|estado|
+------+------+
| Norte|    RO|
| Norte|    RO|
| Norte|    RO|
| Norte|    RO|
| Norte|    RO|
+------+------+
only showing top 5 rows

