# üìå Set up

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# üìå Extract: O E do ETL

## 1Ô∏è‚É£ Lendo em excel

In [None]:
df = pd.read_excel("planilha.excel", sheet_name="aba")

##  2Ô∏è‚É£ Lendo em csv

In [None]:
df = pd.read_csv("arquivo.csv")

## 3Ô∏è‚É£ Lendo de Google Sheets

In [None]:
import gspread #Importa a biblioteca gspread, usada para interagir com o Google Sheets.
from google.colab import auth #importa uma forma de autentica√ß√£o para o google colab
auth.authenticate_user() # Autenticar no Google (ir√° solicitar permiss√£o)
from google.auth import default #Permite obter as credenciais padr√£o do ambiente (√∫til se estiver rodando no Google Colab ou em um servidor com autentica√ß√£o do Google)
creds, _ = default() #Atribui as credenciais de autentica√ß√£o automaticamente.

def aquisicao_google_sheets(sheet_id, sheet_name):
    SHEET_ID = sheet_id
    SHEET_NAME = sheet_name
    gc = gspread.authorize(creds)
    spreadsheet = gc.open_by_key(SHEET_ID)
    worksheet = spreadsheet.worksheet(SHEET_NAME)
    rows = worksheet.get_all_records()
    df = pd.DataFrame(rows)
    return df

df = aquisicao_google_sheets("SHEET_ID", "SHEET_NAME")

# üìå Avalia√ß√£o Sum√°ria

## 1Ô∏è‚É£ Verificando as Dimens√µes do DataFrame

In [None]:
# retorna o n√∫mero de linhas e colunas do DataFrame.
df.shape

In [None]:
# retornar primeiros valores
df.head(10)

In [None]:
# retornar √∫ltimos valores
df.tail(10)

## 2Ô∏è‚É£ Identificando os Tipos de Dados das Colunas

In [None]:
# Mostra informa√ß√µes gerais sobre o DataFrame.
df.info()

In [None]:
# ver quantas linhas nula
df.isna().sum()

In [None]:
# quiser saber apenas dos tipos
df.dtypes

## 3Ô∏è‚É£  Obtendo Estat√≠sticas Descritivas das Colunas Num√©ricas

In [None]:
# estat√≠sticas resumidas
df.describe()

In [None]:
# filtra colunas num√©ricas, para ter estat√≠sticas aplic√°veis a dados num√©ricos
df.describe(include=[float, int])

## 4Ô∏è‚É£  Obtendo Estat√≠sticas Descritivas das Colunas Categ√≥ricas

In [None]:
# quais os valores existentes na coluna
df['coluna'].unique()

In [None]:
# exibe estat√≠sticas resumidas para todas as colunas categ√≥ricas
df.describe(include=[object])

In [None]:
# usando o m√©todo .value_counts() em uma coluna espec√≠fica √© poss√≠vel verificar sua distribui√ß√£o de valores
df["coluna"].value_counts()

In [None]:
# caso queira contar n√∫meros de nulos, adicione como par√¢metro do value_counts()
df["coluna"].value_counts(dropna=False)

In [None]:
# caso queira na verdade o percentual, adicione como par√¢metro de value_counts()
df["coluna"].value_counts(dropna=False, normalize=True)

In [None]:
# se quer multiplicar por 100, basta multiplicar por 100
df["coluna"].value_counts(dropna=False, normalize=True) * 100

# üìå Transform: Primeiro Tratar

## 1Ô∏è‚É£ Ao n√≠vel de colunas

### üí° Acessar nomes de coluna

In [None]:
# visualizar os nomes das colunas do DataFrame
df.columns

### üí° Mudar nomes de coluna

In [None]:
# permite passar um dicion√°rio que atribue a cada coluna existente um novo nome
df = df.rename(columns={
    'nome_antigo_1': 'nome_novo_1',
    'nome_antigo_2': 'nome_novo_2',
    })

In [None]:
# Se os nomes das colunas estiverem inconsistentes, podemos format√°-los automaticamente para min√∫sculo
# df.columns = df.columns.str.lower()

In [None]:
# se quisermos remover espa√ßos e deixar padronizado:
# df_receitas.columns = df_receitas.columns.str.strip().str.replace(" ", "_")

### üí° Colocar a tipologia da coluna

In [None]:
# Se uma coluna que deveria ser string foi carregada como n√∫mero, podemos convert√™-la usando a fun√ß√£o astype
df['coluna'] = df['coluna'].astype(str)

In [None]:
# converter a coluna 'data_lancamento' para o tipo datetime
df['coluna'] = pd.to_datetime(df['coluna'], format='%Y/%m/%d', errors='coerce')

[Clique para ver a documenta√ß√£o](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html)

### üí° Mudar ordem das colunas

In [None]:
# definir uma nova ordem das colunas especificando a sequ√™ncia

df = df[[
    "coluna_1", "coluna_2"
]]

In [None]:
# Se quisermos organizar automaticamente as colunas em ordem alfab√©tica
# df = df[sorted(df.columns)]

### üí° Descartando uma coluna desnecess√°ria

In [None]:
# retirar uma coluna espec√≠fica
df = df.drop(columns=["coluna"])

In [None]:
# retirar mais de uma coluna espec√≠fica
df = df.drop(columns=["coluna_1", "coluna_2"])

### üí° Descartando uma coluna com nulidade

In [None]:
# axis = 1 identifica para dropar colunas, how identifica o crit√©rio de nulidade
df = df.dropna(axis=1, how="all")

[Clique para ver documenta√ß√£o](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html)

## 2Ô∏è‚É£ Ao n√≠vel de linhas

### üí° Substituir linhas

In [None]:
# substitui√ß√£o condicional simples
df["coluna"] = np.where(df["coluna"] == 'X', "Valor", df["coluna"])

In [None]:
# substitui√ß√£o condicional complexa

# condicoes
condicoes = [df["coluna"] == "X",
             df["coluna"] == "Y"
             ]

# Definir os valores correspondentes para cada condi√ß√£o. Tem que ter um valor para cada condi√ß√£o
valores = ["Valor_1", "Valor_2"]

# Aplicar a substitui√ß√£o com np.select() com um valor default
df["coluna"] = np.select(condicoes, valores, default= df["coluna"])

In [None]:
# Substituir diretamente valores espec√≠ficos para texto
df["coluna"] = df["coluna"].replace({"X": "Valor_1", "Y": "Valor_2"})

In [None]:
# Criar um dicion√°rio de mapeamento e aplicar com map().
mapa = {"X": "Valor_1", "Y": "Valor_2"}
df["coluna"] = df["coluna"].map(mapa)

In [None]:
# Fun√ß√£o personalizada para padronizar a coluna

def padronizar(valor):
    if valor in ["X"]:
        return "Valor_1"
    elif valor in ["Y"]:
        return "Valor_2"
    return valor #retorna o valor original caso n√£o seja alterado

# Aplicando a fun√ß√£o com apply()
df["coluna"] = df["coluna"].apply(padronizar)

### üí° Imputar linhas

In [None]:
# Substituir valores nulos por "N√£o informado"
df["coluna"] = np.where(df["coluna"].isna(), "N√£o informado", df["coluna"])

In [None]:
# Preenchendo nulos com a moda (valor mais frequente) da coluna
df["coluna"] = df["coluna"].fillna("N√£o informado")

[Clique para ver a documenta√ß√£o](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)

### üí° Filtrar linhas

In [None]:
# filtragem simples de coluna com valor X
df.loc[df["coluna"] == "X"]

In [None]:
# filtragem simples posicional, retorna as primeiras 5 linhas, Porque o index m√°ximo √© 4? Porque em Python a indexa√ß√£o come√ßa no 0.
df.iloc[0:5]

In [None]:
# filtragem simples ao perguntar pelas linhas com a fun√ß√£o .query()
df.query("coluna == 'X'")

In [None]:
# filtragem composta de coluna
df.loc[(df["coluna"] == "X") & (df["coluna"] == "Y")]
df.loc[(df["coluna"] == "X") | (df["coluna"] == "Y")]

In [None]:
# filtragem composta de coluna com query
df.query("coluna == 'X' & coluna == 'Y'")
df.query("coluna == 'X' | coluna == 'Y'")

In [None]:
# filtrar composta de texto que est√° dentro de uma lista
df[df["coluna"].isin(["X", "Y"])]

In [None]:
# filtrar composta de texto que cont√©m
df[df['coluna'].str.contains('X', case=False)]

In [None]:
# filtrar valor que est√° ausente (NaN)
df[df["coluna"].isna()]

In [None]:
# filtrar valor que est√° N√ÉO ausente (NaN)
df[df["coluna"].notna()]

In [None]:
# filtrar por data
df[df["coluna"].between("data_1", "data_2")]

### üí° Deduplicar linhas

In [None]:
# Verifica se h√° linhas duplicadas (considerando todas as colunas)
df.duplicated().sum()

In [None]:
# exibir apenas as linhas duplicadas
df[df.duplicated()]

In [None]:
# remover duplicatas e manter apenas a primeira ocorr√™ncia
df = df.drop_duplicates()

In [None]:
# Remover duplicatas considerando apenas uma coluna
df = df.drop_duplicates(subset=["coluna"])

In [None]:
# Mantendo apenas a √∫ltima ocorr√™ncia
df = df.drop_duplicates(subset=["coluna"], keep="last")

[Clique para acessar a documenta√ß√£o](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

### üí° Ordenar linhas

In [None]:
# ordenar pelo valor de venda
df = df.sort_values(by="coluna_data")

In [None]:
# ordenar do maior para o menor valor de venda
df = df.sort_values(by="venda_valor", ascending=False)

In [None]:
# ordenar primeiro pela coluna_1 e depois pela coluna_2
df = df.sort_values(by=["coluna_1", "coluna_2"])

In [None]:
# ordenar primeiro pela coluna_1 do maior para menor e depois pela coluna_2 do menor para maior
df = df.sort_values(by=["coluna_1", "coluna_2"], ascending = [False, True])

In [None]:
# ordenar primeiro pela coluna_1 do maior para menor e depois pela coluna_2 do menor para maior, reindexando
df = df.sort_values(by=["coluna_1", "coluna_2"], ascending = [False, True]).reset_index(drop=True)

# üìå Transform: Depois Enriquecer

## 1Ô∏è‚É£ Ao n√≠vel de colunas

### üí° Coluna Condicional ou Personalizada

In [None]:
# Criando a coluna de idade baseada na data de nascimento. Pegamos o ano atual e subtra√≠mos o ano de nascimento, obtendo a idade.
from datetime import datetime
df["idade"] = datetime.today().year - pd.to_datetime(df["data_nascimento"]).dt.year

In [None]:
# Criando categorias de idade com pd.cut()
df["faixa_etaria"] = pd.cut(
    df["idade"],
    bins=[0, 17, 35, 60, 100],  # Limites das faixas et√°rias
    labels=["0-17", "18-35", "36-60", "61-100"]
)

In [None]:
# Criando condi√ß√µes para as faixas et√°rias
condicoes = [
    df["idade"] < 18,
    (df["idade"] >= 18) & (df["idade"] <= 35),
    (df["idade"] > 35) & (df["idade"] <= 60),
    df["idade"] > 60
]

# Definindo os r√≥tulos correspondentes
categorias = ["0-17", "18-35", "36-60", "61-100"]

# Criando a nova coluna com np.select()
df["faixa_etaria"] = np.select(condicoes, categorias, default="Desconhecido")

### üí° Aplicando fun√ß√µes

In [None]:
# Fun√ß√£o para categorizar a idade
def classificar_faixa_etaria(idade):
    if idade < 18:
        return "0-17"
    elif idade <= 35:
        return "18-35"
    elif idade <= 60:
        return "36-60"
    elif idade > 60:
        return "61-100"
    else:
        return "Desconhecido"

In [None]:
# Aplicando a fun√ß√£o com apply()
df["faixa_etaria"] = df["idade"].apply(classificar_faixa_etaria)

## 2Ô∏è‚É£ Ao n√≠vel da tabela

### üí° Jun√ß√£o de tabelas (Join / Merge)

##### üö© **INNER JOIN**

In [None]:
# valor comuns aos dois dataframe com chaves com mesmo nome
pd.merge(df_esquerda, df_direita, on='chave', how='inner')

##### üö© **LEFT OUTER JOIN**

In [None]:
# valor comuns aos dois daframe e valor do dataframe da esquerda
pd.merge(df_esquerda, df_direita, on='chave', how='left')

In [None]:
# valor comuns aos dois dataframe com chaves com diferentes nomes e mostrando como ficaram os merges
pd.merge(df_esquerda, df_direita, left_on="chave_esquerda", right_on="chave_direita", how="left", indicator=True)

##### üö© **RIGHT OUTER JOIN**

In [None]:
# valor comuns aos dois daframe e valor do dataframe da direita
pd.merge(df_esquerda, df_direita, on='chave', how='right')

##### **üö© FULL OUTER JOIN**

In [None]:
# valor comuns aos dois daframe e valor do dataframe da direita e da esqueda
pd.merge(df_esquerda, df_direita, on='chave', how='outer')

##### **üö© COMBINING**

In [None]:
# empilhar os dois dataframes
pd.concat([df_esquerda, df_direita])

[Clique para consultar a documenta√ß√£o](https://pandas.pydata.org/docs/reference/api/pandas.merge.html)

### üí° Agrega√ß√µes

In [None]:
# agregar por uma coluna
df_agg = df.groupby('coluna_agregante')['medida'].mean()

In [None]:
# agregar por mais de uma coluna
df_agg = df.groupby(['coluna_agregante_1', 'coluna_agregante_2'])['medida'].mean()

In [None]:
# agregar por mais de uma medida
df_agg = df.groupby("coluna_agregante")["medida"].agg(["mean", "min"])

In [None]:
# agregar por uma fun√ß√£o

def classificar_grupo(grupo):
    media = grupo["medida"].mean()
    if media > 8:
        return "Excelente"
    elif media >= 6:
        return "Regular"
    else:
        return "Ruim"

# Aplicando por grupo de Sexo
df_agg = df.groupby("coluna_agregante").apply(classificar_grupo)

### üí° Multi-√≠ndices

In [None]:
multi_indices = df.set_index(['indice_1', 'indice_2'])
multi_indices

### üí° Stack & Unstack

#### `Stack`

In [None]:
empilhado = df.stack(0)
empilhado

#### `Unstack`

In [None]:
desempilhado = empilhado.unstack(0)
desempilhado

### üí° Tabelas Din√¢micas

- index: Coluna que vai para o eixo das linhas (√≠ndice da tabela)
- columns: Coluna que ser√° transformada em colunas
- values: Coluna cujos valores ser√£o agregados
- aggfunc: Fun√ß√£o de agrega√ß√£o (ex: 'mean', 'sum', 'count', etc.)

In [None]:
df_pivot = df.pivot_table(
    index="coluna_agregante",
    values='coluna_medida'
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values='medida'
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values='coluna_medida',
    aggfunc="medida"
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values='coluna_medida',
    aggfunc=["medida_1", "medida_2"]
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values=['coluna_medida_1', 'coluna_medida_2'],
    aggfunc={'coluna_medida_1': 'medida_1','coluna_medida_2': ['medida_1','medida_2']}
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values=['coluna_medida_1', 'coluna_medida_2'],
    columns=['coluna_coluna_1', 'coluna_coluna_2'], # colunas para unstack
    aggfunc={'coluna_medida_1': 'medida_1','coluna_medida_2': ['medida_1','medida_2']}
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values=['coluna_medida_1', 'coluna_medida_2'],
    columns=['coluna_coluna_1', 'coluna_coluna_2'], # colunas para unstack
    aggfunc={'coluna_medida_1': 'medida_1','coluna_medida_2': ['medida_1','medida_2']},
    fill_value=0 # preencher valores nulos com 0
)

df_pivot

In [None]:
df_pivot = df.pivot_table(
    index= ["coluna_agregante_1", "coluna_agregante_2"],
    values=['coluna_medida_1', 'coluna_medida_2'],
    columns=['coluna_coluna_1', 'coluna_coluna_2'], # colunas para unstack
    aggfunc={'coluna_medida_1': 'medida_1','coluna_medida_2': ['medida_1','medida_2']},
    fill_value=0,
    margins=True, #adicionar totais
    margins_name='Total' #modificar nome do total
)

df_pivot

[Clique para consultar a documenta√ß√£o](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)

# üìå Um recurso r√°pido

In [None]:
pip install https://github.com/ydataai/pandas-profiling/archive/master.zip --quiet

In [None]:
from pandas_profiling import ProfileReport

In [None]:
profile = ProfileReport(df, title="Pandas Profiling Report")

In [None]:
profile

In [None]:
profile.to_file("meu_relatorio.html")