# Ferramentas importantes para análise de dados em **PYTHON**

Métodos para tratamento de NA  

| **Variável** | **Descrição** | **Aplicação** | 
|--------------|---------------|---------------| 
| .dropna      | Remove as linhas ou colunas que têm valores vazios (nulos). | df.dropna() |
| .fillna      | Substitui os valores vazios por algum valor que você escolher (ex: 0, média, texto etc). | df.fillna(0) |
| .isnull      | Retorna True se o valor for nulo (vazio) e False se não for. | df.isnull() |
| .notnull      | É o oposto do isnull(). Retorna True se o valor não estiver vazio. | df.notnull() |
| .mode      | Encontra o(s) valor(es) que mais aparecem em uma coluna. | df["cidade"].mode() |
| .mean      | Calcula a média aritmética das colunas numéricas. | df["idade"].mean() |
| .describre      | Mostra um resumo com as estatísticas principais das colunas numéricas (ou todas, se for configurado). | df.describe(include='all') |
| pd.read_excel      | Importa uma ou mais planilhas de um arquivo Excel para um DataFrame do Pandas. | df = pd.read_excel("nome_arquivo.xlsx") |
| .replace     | Troca valores específicos por outros, de forma rápida. | df["coluna"].replace(valor_antigo, novo_valor) |

# Exercício de ETL

## Base de Dados
Descrição dos dados:  `dirtyshop.xlsx`  
Está planilha apresenta os dados de clientes de uma magazine.  



| **Variável** | **Descrição** | **Formato Esperado** |
|--------------|---------------|---------------| 
| CLIENTE      | Código simples de 1 a 1400 que identifica o cliente | Caractere |
| STATUS       | Bom = Bom cliente ; Mau = mau cliente | Caractere |
| IDADE        | Idade em anos completos | Numérico | 
| UNIFED       | Unidade da federação em que reside | Caractere |
| RESID        | Tempo de residência (formato original) | Caractere |
| TMPRSD       | Tempo de residência em anos completos | Numérico |  
| FONE         | 0 = em branco ; 1 = sim ; 2 = não | Numérico | 
| ECIV         | Estado civil |  Caractere |
| INSTRU       | Nível educacional |  Caractere |
| RNDTOT       | Salários + outros rendimentos (GV$) | Numérico |
| REST         | Restrições creditícias? Sim ou Não | Numérico |  

--------------------------
**EXTRACT**  

* **Tarefa 1**: Use os comandos abaixo para "sentir" os dados. O que você percebe?  
    * df.info() - Para ver os tipos de dados e os valores nulos.  
    * df.head(10) - Para ver as 10 primeiras linhas.  

Perguntas para você pensar: Existem colunas com valores faltando? Existem colunas com dados inconsistentes (escritos de formas diferentes)? Os nomes das colunas são claros?  

**TRANSFORM**

* **Tarefa 2**: Padronizar a coluna ECIV (Estado Civil)  
* Problema: A coluna tem valores como CAS, CASAD, VIUVO, DIVORC. Precisamos padronizá-los.  
* Ação: Mapeie os valores para um padrão mais claro. Por exemplo:  
    * CAS e CASAD -> CASADO  
    * VIUVO -> VIUVO  
    * DIVORC -> DIVORCIADO  
    * Dica: Use o método .replace()  
  
* **Tarefa 3**: Tratar valores ausentes na coluna INSTRU (Instrução)  
* Problema: A coluna INSTRU tem vários valores faltando (mostrados como NaN no df.info()).  
    * Ação: Preencha os valores ausentes com a string "NAO INFORMADO".  
    * Dica: Use o método .fillna().  
  
* **Tarefa 4**: Renomear as colunas para nomes mais claros  
* Problema: Nomes como UNIFED, TMPRSD, RNDTOT são abreviados e difíceis de entender.  
    * Ação: Renomeie as colunas para nomes mais descritivos e em minúsculo (uma boa prática).  
    * Dica: Use o método .rename().  

**LOAD**
* **Tarefa 5**: Salve o DataFrame limpo em um novo banco de dados (tem uma colinha no final, mas vocês tem que organizar os parâmetros).  


# E- Extraction

In [None]:
# caso não tenha baixado as ferramentas, usar:
# !pip install -q sqlalchemy
# !pip install -q sqlalchemy_utils
# !pip install -q pandas
!pip install -q openpyxl

In [5]:
import pandas as pd

In [None]:
# carregar o arquivo (usar o pd.read_excel)
# verificar os tipos de dados (shape, info, describe)

df = pd.read_excel("./base-dados/dirtyshop.xlsx", sheet_name="DIRTYSHOPCSV")

Unnamed: 0,CLIENTE,STATUS,IDADE,UNIFED,RESID,TMPRSD,FONE,ECIV,INSTRU,RNDTOT,RST
0,CLI_0001,mau,44.0,MG,PROP,5.0,1,CAS,SEC,6040,sim
1,CLI_0002,bom,46.0,MG,ALUG,12.0,1,CAS,SUP,6986,sim
2,CLI_0003,bom,56.0,MG,PROP,12.0,1,CAS,SUP,8797,sim
3,CLI_0004,bom,31.0,RJ,ALUG,4.0,1,CAS,SEC,4968,sim
4,CLI_0005,bom,46.0,RJ,PROP,8.0,1,CAS,,7430,sim


# T - Transform

In [None]:
# substituir os valores nulos por não informado, para casos de dados categóricos
# substituir os valores para média, para casos de dados numéricos

# L - Load

Dica para salvar os dados no postgres (conforme visto em sala de aula)

In [None]:
from sqlalchemy import create_engine
from sqlalchemy_utils import create_database

In [None]:
# Criando a conexão com o banco PostgreSQL
print("\nIniciando a etapa de Carregamento para o PostgreSQL...\n")

# credenciais do banco de dados
db_user = 'postgres'
db_password = '1234' 
db_host = 'localhost'
db_port = '5432'
db_name = 'etl_traffic'

# Criar uma engine de conexão
# engine_str = f"postgresql+psycopg2://{db_name}:{db_password}@{db_host}:{db_port}/{db_name}"
engine_server = create_engine(f"postgresql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}")
print(engine_server)

In [None]:
# cirnado um banco de dados
create_database(engine_server.url)

In [None]:
# Salvando o dataframe no banco

tabela_df.to_sql(name='nome_da_tabela', con=engine_server, schema='public', if_exists='replace', index=False)