<a href="https://colab.research.google.com/github/marcellamj/soulcode-martech/blob/main/Dicion%C3%A1rio_de_Comandos_Python_(Pandas_PySpark).ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Dicionário de Comandos**

# **Pandas**

## **Importações**



```
!pip install gcsfs
!pip install pandera
```

```
import os
import pandas as pd
import numpy as np
import pandera as pa
from google.cloud import storage
```

```
import warnings
warnings.filterwarnings("ignore")
```

## **EXTRAÇÃO**



```
from google.colab import drive
drive.mount('/content/drive')
path = 'caminho_arquivo'
df = pd.read_csv(path)
```



### **Comandos**

* **df** - mostra o início e fim da tabela
* **df.samples(5)** - mostra linhas aleatórias da tabela (número de linhas)
* **df.shape** - número de linhas e colunas da tabela
* **df.dtypes** - tipo de cada atributo
* **df.count()** - contagem de valores válidos (não nulos) em cada atributo
* **df.info()** - informações gerais dos atributos: tipo e quantidade de cada um, contagem de valores não nulos
* **dfback1 = df.copy()** - backup1 local dos dados
* **df = dfback1** - trazer um backup salvo

## **TRANSFORMAÇÃO**

### **Comandos**

* **.all()** - verifica se colunas são iguais, linhas a linha - usado em conjunto com o IF/ELSE

* **colunas_verificar = ['codigo_ocorrencia1', 'codigo_ocorrencia2', 'codigo_ocorrencia3', 'codigo_ocorrencia4']** - criar uma variável lista para checagem, fórmulas

* **df.coluna.is_unique** - verifica se dados na coluna são únicos, se não há valores repetidos - funciona bem para índices

* **df.isna.sum()** - verifica dados nulos, ausentes
 * **df.isnull.sum()** - outra forma de fazer
 * **(df.isna.sum() / len(df)) * 100** - verificaçáo da porcentagem de nulos (soma nulos/len)

* **df.drop(n_linha)** - exclui colunas
  * ([ ' ' ],axis=1, inplace=True) - estrutura do drop entre parênteses

* **df.head(5)** - exibe apenas 5 linhas do topo

* **df.tail(5)** - exibe apenas 5 linhas do final ou quantas quiser, só trocar o número

* **print(pd.unique(df['coluna']))** - exibe os valores únicos de uma coluna específica

* **print(sorted(pd.unique(df['coluna'])))** - exibe os valores únicos de uma coluna específica em ordem crescente

***
Trocar valores
* **pd.NA**
 * **df.replace(['*'], pd.NA, inplace=True)** - troca um valor estranho em dado não numérico por um valor ausente, utilizando o método replace()

* **np.NaN**
 * **df.replace(['*'], np.NaN, inplace=True)** - troca um valor estranho em dado numérico por um valor ausente, utilizando o método replace()

* **df = df.dropna()** - remove linhas com valores NaN

* **df.rename(columns={'coluna':'nome_novo'}, inplace=True)** - renomear a(s) colunas de um dataframe

***
Trocar tipos de dados
* **.astype(tipo)** - troca os valores da coluna por outro tipo de dado
  * **ex.: df['coluna']=df['coluna'].astype(float)
  * **ex.: df['coluna']=df['coluna'].astype('datetime[ns]')

* **df['ano'] = df.data.dt.year** - Ano - cria uma nova coluna só com o valor do "ano" a partir dos valores da coluna "data" (depois de ter tipado a coluna data como datetime)

* **df['mês'] = df.data.dt.month** - Mês

* **df['dia'] = df.data.dt.day** - Dia

* **.split(':')** - separar uma coluna definindo o delimitador
  * **ex.: df['hora'] = df['hora'].str.split(':').str[0] - salva apenas a parte da "hora" antes do delimitador

* **df[['coluna1', 'coluna2']] = df[['coluna1', 'coluna2']].round(2)** - arredondar valores de várias colunas

***
Modificações no df
* **df_pd['sexo'] = ['M','F','M','F','M','F']** - adicionar linha ao df

***
Merge

* **uniao=pd.concat([df_pd1,df_pd2], ignore_index=True)** - concatenar dois DataFrames Pandas

### **Exemplo de .all()**



```
if (df['codigo_ocorrencia'] == df['codigo_ocorrencia1']).all():
    print("As colunas são iguais.")
else:
    print("As colunas são diferentes.")
```



### **Validação Schema**
* **pa.schema** - validação dos tipos de dados de todas as colunas do DataFrame

- Definir o esquema de validação
- Nome da coluna e tipo
- Validar Dataframe

```
schema = pa.DataFrameSchema({'coluna': pa.Column(pa.String),
                            'classificacao': pa.Column(pa.String),
                            'cidade': pa.Column(pa.String),
                            'uf': pa.Column(pa.String),
                            'data': pa.Column(pa.DateTime),
                            'n_aeronaves': pa.Column(pa.Float)
                            })

schema.validate(df)
```



## **CARREGAMENTO**

In [None]:
# Google Drive - Utilizar se for o rotulo padrão

df.to_csv('caminho_arquivo_tratado',index=False)

In [None]:
# GCP - Salvar no bucket

df.to_csv('caminho_arquivo_tratado', index=False)

## **ANÁLISES**

### **Comandos Localização**

Localizar
* **df.loc[5]** - dados de uma linha específica

* **df.iloc[0]** - dados de uma linha com índice

* **df.iloc[0][0]** - dados de uma linha e coluna

* **df_pd[['nome','peso']].iloc[1:4][0:2]** - intervalo de colunas e linhas

* **df.loc[1000:1002]** - dados de um conjunto de linhas

* **df.loc[1000:1002], ['cidade', 'uf']]** - dados de um conjunto de linhas e colunas

***
Alterações
* **df.loc[0,'coluna'] = 'CAMPO GRANDE'** - troca um valor em uma linha e coluna específica

* **df.loc[:,'coluna'] = 'CAMPO GRANDE'** - troca um valor da coluna inteira - menos utilizado

* **df.loc[df.coluna == 'VALOR', ['coluna']] = 'VALOR_NOVO'** - pesquisa um valor em uma coluna e substitui todos os que forem localizados


### **Comandos Filtro**

* **filtro = df.coluna == 'VALOR'** - seleciona em uma coluna apenas um valor definido
  * Podemos criar um novo dataframe para salvar o filtro:
```
df_filtro = df.loc[filtro]
df_filtro
```

* Guarda posições de valores ausentes
```
filtro_nulo = df.coluna.isna()
```
* mostra as linhas com valor ausente
```
df.loc[filtro_nulo].head()
```
*  Últimas 3 letras sendo RIO
```
filtro_letras = df.cidade.str[-3:] == 'RIO'
```
* Contendo letras/string em qualquer lugar da palavra
```
filtro_interno = df.cidade.str.contains('BO|MA')
```
* Localiza o ano 2019 na coluna data
```
df.loc[(df['data']).dt.year == 2019]
```
* Período de tempo
```
ft_quinz = (df.data.dt.day > 0) & (df.data.dt.day < 16) -
```

In [None]:
# Filtro com mais detalhes ao mesmo tempo:

ft_cidade = df.cidade == 'SÃO PAULO'
ft_pista = df.saida_pista == 'SIM'
ft_2021 = df.data.dt.year == 2021
ou
ft_2021 = df.ano == 2021
ft_uf = df.uf == 'SP'

# Localiza e mostra as linhas que tiverem os valores definidos
df.loc[ft_cidade & ft_pista & ft_2021 & ft_uf]

### **Comandos Groupby**


*   **df.groupby(['coluna']).size()** - contagem da coluna
*   **df.groupby(['coluna']).size().sort_values(ascending=False)** - contagem de valores da coluna do maior para o menor
*  **df.groupby('coluna')['coluna que quero contar'].sum().sort_values(ascending=False)** - mostrar uma contagem com atributos específicos
* ex.:
  ```
   df.groupby('cidade')['n_aeronaves'].sum().sort_values(ascending=False).head(10)
  ```
* Contagem considerando valores ausentes:

 ```
 df.groupby(['coluna'],dropna=False).size().sort_values(ascending=False).head(10)
 ```
* Contagem do mais frequente: **moda**:
```
 df.groupby(['coluna'],dropna=False).count().sort_values(ascending=False).first()
```




```
# FILTRO + GROUPBY

# Filtros
filtro_incidente = df.classificacao =='INCIDENTE'
filtro_sul = df.uf.isin(['RS','PR','SC'])                 # método isin() usado para selecionar as regiões.

# Filtros juntos: incidentes e sul
dfsul = df.loc[filtro_incidente & filtro_sul]             # incidentes dos Estados da Região Sul

# Agrupamento
dfsul.groupby(['uf']).size().sort_values(ascending=False) # Contagem
```



### **Comandos Medidas Descritivas**

* medidas de count, mean, stddev, min, max
  ```
  df.describe()
  ```
* medidas de count, mean, stddev, min, 25, 50, 75, max
  ```
  df.summary()
  ```
* medidas de moda/multimoda
  ```
  mode([1,2])
  ```
  ```
  multimode([1,2,2,3,3])
  ```


# **PySpark**

## **Importações**

* Instalar no computador do Google
* Importar ferramentas do ambiente clusterizado
* Criar sessão Spark em um cluster e deixar visualização das tabelas mais amigável


```
!apt-get install openjdk-8-jdk-headless -qq > /dev/null
# caminho Apache, se não funcionar colocar nos arquivos do Colab e copiar caminho
!wget -q http://archive.apache.org/dist/spark/spark-3.1.1/spark-3.1.1-bin-hadoop3.2.tgz
!tar xf spark-3.1.1-bin-hadoop3.2.tgz
!pip install -q findspark
```

```
import os
os.environ["JAVA_HOME"] = "/usr/lib/jvm/java-8-openjdk-amd64"
os.environ["SPARK_HOME"] = "/content/spark-3.1.1-bin-hadoop3.2"
```

```
import findspark
findspark.init()
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local[*]").getOrCreate()
from pyspark.sql.functions import regexp_replace
spark.conf.set("spark.sql.repl.eagerEval.enabled", True) # Para deixar a visualição das tabelas mais amigável
spark
```



## **EXTRAÇÃO**



```
from google.colab import drive
drive.mount('/content/drive')
path = 'caminho_arquivo'
df = pd.read_csv(path)
```



### Criar Dataframe PySpark

* Importando estrutura da tabela (Structfield)
* Criação do Schema, esqueleto da tabela
* Criação do objeto, nível Python, que contém as tuplas com os registros que farão parte da tabela
* Criação do dataframe py spark, juntando a estrutura da tabela com o objeto que contém os registros

- A função **StructType** é usada para definir a estrutura de uma tabela
- A função **StructField** é usada para definir os atributos da tabela
- (String, Integer -inteiro-, Double -float-)**Type** define o tipo da variável
- True significa que aceita valor nulo

In [None]:
from pyspark.sql.types import *
from pyspark.sql.types import StructType,StructField,StringType,IntegerType,DoubleType
schema = StructType([ \
    StructField('coluna',StringType(),True), \
    StructField('coluna',IntegerType(),True), \
    StructField('coluna',DoubleType(),True), \
  ])
dados = [('x',y,z.),
    ('x',y,z.),
    ('x',y,z.),
    ('x',y,z.),
  ]

df_py = spark.createDataFrame(data=dados,schema=schema)
df_py.printSchema()
df_py.show()

### Criar Dataframe PySpark a partir de df Pandas

```
df_py = spark.createDataFrame(df_pd)
df_py.printSchema()
df_py.show()
```

### **Comandos**

* **df_py.printSchema()** - mostra tipo de dado das colunas

* **df_py.describe()** - medidas descritivas de count, mean, stddev, min, max

* **df_py.head(5)** - exibe apenas 5 linhas do topo

* **df_py.tail(5)** - exibe apenas 5 linhas do final ou quantas quiser, só trocar o número

* **df_py.collect()[0]** - seleciona 1ª linha do df

* **df_py.collect()[0][0]** - seleciona dado específico de [linha][colun]

* **df_ex.orderBy("coluna",ascending=True/False)** - ordena df por coluna específica
  * também pode usar o sort("coluna")

## **TRANSFORMAÇÃO**

### **Comandos**

Alterações
* **** - insere colunas
* **df_py.drop("")** - exclui colunas

***
Filter

* **df_py.filter(df_py.nome == ' ')** - filtra por valor da coluna
 * **df_py.where(df_py.nome == ' ')** - outro jeito

***
Merge

* **df_py2 = df_py.union(df_py1)** - unir as linhas de 2 dataframes com os mesmos atributos

***

Renomear coluna
* **df_py = df_py.withColumnRenamed("a","b").withColumnRenamed("x","y")** - renomear colunas

### **Validação Schema**
* **pa.schema** - validação dos tipos de dados de todas as colunas do DataFrame

- Definir o esquema de validação
- Nome da coluna e tipo
- Validar Dataframe

 ```
 schema = pa.DataFrameSchema({'coluna': pa.Column(pa.String),
                            'classificacao': pa.Column(pa.String),
                            'cidade': pa.Column(pa.String),
                            'uf': pa.Column(pa.String),
                            'data': pa.Column(pa.DateTime),
                            'n_aeronaves': pa.Column(pa.Float)
                            })

 schema.validate(df)
 ```



### Adicionar colunas ao df_py via mudança de schema

 ```
 dados = [('Douglas',45,1.85,70.,'M'),
    ('Daniela',7,1.23,22.,'F'),
    ('Pedro',65,1.75,87.,'M'),
    ('Maria',64,1.67,64.,'F'),
    ('Eduardo',37,1.82,96.,'M'),
    ('Ester',37,1.73,68.,'F')
  ]

 schema = StructType([ \
    StructField('nome',StringType(),True), \
    StructField('idade',IntegerType(),True), \
    StructField('altura',DoubleType(),True), \
    StructField('peso', DoubleType(), True), \
    StructField('sexo', StringType(), True), \
  ])

 df_py = spark.createDataFrame(data=dados,schema=schema)
 df_py.printSchema()
 df_py.show(truncate=False)
```



### Adicionar linha ao df_py

 ```
 nova_linha = spark.createDataFrame([('Tobias',18,1.67,65.,'M')])
 df_py = df_py.union(nova_linha)
 df_py.show()
 ```



## **ANÁLISES**

### **Comandos Medidas Descritivas**

* medidas de count, mean, stddev, min, max
  ```
  df.describe()
  ```
* medidas de count, mean, stddev, min, 25, 50, 75, max
  ```
  df.summary()
  ```

* Q1, Q2, Q3
 ```
 df_py.approxQuantile(['coluna1','coluna2','coluna3'],[0.25,0.5,0.75],0)
 ```

* AT
  ```
 df_py.approxQuantile(['coluna1','coluna2','coluna3'],[0.25,0.5,0.75],0)
 ```
* AIQ
 ```
 df_py.approxQuantile(['coluna1','coluna2','coluna3'],[0.25,0.5,0.75],0)
 ```
* LS
 ```
 df_py.approxQuantile(['coluna1','coluna2','coluna3'],[0.25,0.5,0.75],0)
 ```
* LI
 ```
 df_py.approxQuantile(['coluna1','coluna2','coluna3'],[0.25,0.5,0.75],0)
 ```

### Automação - Listar colunas e calcular medidas
(Diego, Aska, Samira, Gus)
```
from pyspark.sql.functions import col
#Lista todas as Colunas do dataframe
todas_colunas = [coluna for coluna, tipo in df_ex.dtypes ]
#Lista todas as Colunas do dataframe
colunas_numericas = [coluna for coluna, tipo in df_ex.dtypes if tipo in ['double', 'float', 'decimal', 'int', 'long']]
# Calculando os quartis de todos os atributos quantitativos
quartis = df_ex.approxQuantile(colunas_numericas, [0.25,0.5,0.75], 0)
print(colunas_numericas,quartis)
```



# DataViz

**Visualização Dinâmica de Dados**

```
!pip install pygwalker -q
import pygwalker as pyg
pyg.walk(df)
```