<a href="https://colab.research.google.com/github/MarianaDuartee/Pyspark/blob/main/Pyspark1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Pyspark

> * Biblioteca para Python que "conecta" ao Apache Spark por ser uma API Python
> * Utilizado para grandes quantidades de dados - BigData
> * Ao contrario do Pandas, trabalha com Streamings, ou seja, processamento de dados em tempo real
> * Também, ao contrario do Pandas, é escalonavel, ou seja, distribui os dados para o processamento rápido.

#Instalando a Bibliota -Pyspark

In [None]:
!pip install pyspark



#Para executar os codigos

* SparkSession - String que conecta o codigo da aplicação ao Spark
* Importar funções do Pyspark : pyspark.sql.functions

In [None]:
from pyspark.sql import SparkSession
import pyspark.sql.functions as F 

#Configurar o SparkSession

variavel = SparkSession.builder - (*construção*)

.master("local") - (*definindo quem é a maquina master - computador local*)

.appName('nomedaaplicação') - (*Qual nome do aplicativo que vou criar em pyspark*)

.config("spark.ui.port","4050") - (*Configuração para acessar o apache spark pela porta 4050*)

.getOrCreate() - (*Iniciar a sessão*)



In [None]:
spark = (SparkSession.builder
         .master("local")
         .appName("aprendendo-dataframes")
         .config("spark.ui.port","4050")
         .getOrCreate())

#Verificar se esta instalado

In [None]:
spark

#Criando Dataframes

> dados = [(dados1),(dados2),(dados3),(dados4)]

* Primeira linha do Dataframe = Colunas

> esquema = ["NomeColuna1","NomeColuna2",...]

* Criar o dataframe

> df = spark.createDataFrame(data=dados,schema = esquema)

* Mostrar o dataframe 

> df.show()

In [None]:
dados = [
         ("Mariana Duarte","Araújos","MG",3500.00),
         ("Bismark Willian","São Paulo","SP",4700.00),
         ("Lucas Brandão","São Paulo","SP",2100.00),
         ("Ana Andrade","Centralina","MG",3200.00)
]

esquema = ["Nome","Cidade","Estado","Salario"]

df = spark.createDataFrame(data = dados,schema=esquema)

df.show()

+---------------+----------+------+-------+
|           Nome|    Cidade|Estado|Salario|
+---------------+----------+------+-------+
| Mariana Duarte|   Araújos|    MG| 3500.0|
|Bismark Willian| São Paulo|    SP| 4700.0|
|  Lucas Brandão| São Paulo|    SP| 2100.0|
|    Ana Andrade|Centralina|    MG| 3200.0|
+---------------+----------+------+-------+



* Mostrar os tipos de dados presentes no Schema

In [None]:
df.printSchema()

root
 |-- Nome: string (nullable = true)
 |-- Cidade: string (nullable = true)
 |-- Estado: string (nullable = true)
 |-- Salario: double (nullable = true)



#Importar dados csv

dataframe = (spark
  > .read (*Lê o arquivo e importa no dataframe*)

  > .format("formatoArquivo") (*Mostra qual tipo de arquivo estamos lendo*)

  > .option("header","true") (*Mostrar o cabeçalho*)

  > .option("inferschema","true") (*Retorna os tipos de dados certos das colunas*)

  > .option("delimiter",";") (*Mostrar que o arquivo é delimitado por ponto e virgula*)
  
  > .load("caminhoDoArquivo")

In [None]:
df2 = (spark
       .read 
       .format("csv") 
       .option("header","true") 
       .option("inferschema","true") 
       .option("delimiter",";") 
       .load("/content/drive/MyDrive/DataSets/arquivo_geral.csv")
)
       
df2.show(10)

+------+------+----------+----------+---------------+-----------+----------------+
|regiao|estado|      data|casosNovos|casosAcumulados|obitosNovos|obitosAcumulados|
+------+------+----------+----------+---------------+-----------+----------------+
| Norte|    RO|2020-01-30|         0|              0|          0|               0|
| Norte|    RO|2020-01-31|         0|              0|          0|               0|
| Norte|    RO|2020-02-01|         0|              0|          0|               0|
| Norte|    RO|2020-02-02|         0|              0|          0|               0|
| Norte|    RO|2020-02-03|         0|              0|          0|               0|
| Norte|    RO|2020-02-04|         0|              0|          0|               0|
| Norte|    RO|2020-02-05|         0|              0|          0|               0|
| Norte|    RO|2020-02-06|         0|              0|          0|               0|
| Norte|    RO|2020-02-07|         0|              0|          0|               0|
| No

In [None]:
df2.printSchema()

root
 |-- regiao: string (nullable = true)
 |-- estado: string (nullable = true)
 |-- data: string (nullable = true)
 |-- casosNovos: integer (nullable = true)
 |-- casosAcumulados: integer (nullable = true)
 |-- obitosNovos: integer (nullable = true)
 |-- obitosAcumulados: integer (nullable = true)



#Funções de DataFrame

* SELECT: Seleciona as colunas que vão aparecer 

> 1º forma de utilização : 
>> `dataframe.select('colunas').show()`

> 2º forma de utilização: (Com funções)
>> `dataframe.select(F.col('nomecoluna')).show()` - *Retorna as colunas*
>>

* FILTER: 
> `dataframe.select(F.col('nomecoluna')).filter(F.col('coluna') == "Filtro").show()`

>  Formas de selecionar a coluna no filter: F.col() | dataframe.nomecoluna | "nomeColuna = 'Filtro'"

> Outra maneira de usar os Filtros é armazenando o filtro em uma variavel :
>> filtro = F.col('coluna') == 'Filtro'



In [None]:
df2.select("regiao","estado","data","casosNovos").show(50)

In [None]:
df2.select(F.col('regiao'),F.col('estado'),F.col('data'),F.col('casosNovos')).show(20)

In [None]:
#Exibir a região,estado e casosNovos apenas da região Sudeste

#1º Maneira
df2.select(F.col('regiao'),F.col('estado'),F.col('casosNovos')).filter(F.col('regiao') == 'Sudeste').show(20)


In [None]:
#Exibir a regiao, estado, casosNovos com a data 2020-02-07
df2.select(F.col('regiao'),F.col('estado'),F.col('casosNovos')).filter(F.col('data') == '2020-02-07').show(50)

In [None]:
#2º Maneira
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(df2.regiao == "Nordeste").show(50)

In [None]:
#3º Maneira
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter("regiao = 'Sudeste'").show(20)

In [None]:
#4º Maneira
#Criando uma variavel
filtro = F.col('regiao') == 'Sul'
df2.select(F.col("regiao"), F.col("estado"), F.col("casosNovos")).filter(filtro).show(50)

#Lista dinamica com varias colunas

* Utilizar dentro do comando select :
> dataframe.select(lista).filter(filtro).show()

In [None]:
lista_colunas = ['regiao','estado','data','casosAcumulados','obitosAcumulados']
filtro = F.col('data') >= "2020-03-20"
df2.select(lista_colunas).filter(filtro).show(20)

+------+------+----------+---------------+----------------+
|regiao|estado|      data|casosAcumulados|obitosAcumulados|
+------+------+----------+---------------+----------------+
| Norte|    RO|2020-03-20|              1|               0|
| Norte|    RO|2020-03-21|              1|               0|
| Norte|    RO|2020-03-22|              3|               0|
| Norte|    RO|2020-03-23|              3|               0|
| Norte|    RO|2020-03-24|              3|               0|
| Norte|    RO|2020-03-25|              5|               0|
| Norte|    RO|2020-03-26|              5|               0|
| Norte|    RO|2020-03-27|              6|               0|
| Norte|    RO|2020-03-28|              6|               0|
| Norte|    RO|2020-03-29|              6|               0|
| Norte|    RO|2020-03-30|              6|               0|
| Norte|    RO|2020-03-31|              8|               1|
| Norte|    RO|2020-04-01|              9|               1|
| Norte|    RO|2020-04-02|             1

#Aplicar mais de um filtro dentro do DataFrame

* Filtragem pela regiao Sudeste e estado de Minas Gerais

> .filter().filter() ...

> Para mostrar todas as colunas não precisa do Select : dataframe.filter() ...

In [None]:
filtroRegiao = F.col('regiao') == 'Sudeste'
filtroEstado = F.col('estado') == 'MG'
filtroData = F.col('data') >= '2020-03-20'
df2.select(F.col('estado'),F.col('data'),F.col('casosAcumulados'),F.col('obitosAcumulados')).filter(filtroRegiao).filter(filtroEstado).filter(filtroData).show(20)

+------+----------+---------------+----------------+
|estado|      data|casosAcumulados|obitosAcumulados|
+------+----------+---------------+----------------+
|    MG|2020-03-20|             35|               0|
|    MG|2020-03-21|             38|               0|
|    MG|2020-03-22|             83|               0|
|    MG|2020-03-23|            128|               0|
|    MG|2020-03-24|            130|               0|
|    MG|2020-03-25|            133|               0|
|    MG|2020-03-26|            153|               0|
|    MG|2020-03-27|            189|               0|
|    MG|2020-03-28|            205|               0|
|    MG|2020-03-29|            231|               0|
|    MG|2020-03-30|            261|               1|
|    MG|2020-03-31|            275|               2|
|    MG|2020-04-01|            314|               3|
|    MG|2020-04-02|            370|               4|
|    MG|2020-04-03|            397|               6|
|    MG|2020-04-04|            430|           

* Retornar quantas linhas o dataframe possui .count()

In [None]:
df2.count()

2349