# [NOME DO PROJETO] - An√°lise Explorat√≥ria de Dados

**Objetivo:** Descreva aqui o objetivo principal desta an√°lise.

**Fonte dos Dados:** Indique a origem dos dados (ex: Sistema de Vendas, Relat√≥rio de Marketing, etc.).

**Data:** 17 de agosto de 2025

## 1. Configura√ß√£o do Ambiente

Nesta se√ß√£o, importamos as bibliotecas e configuramos o ambiente para uma melhor visualiza√ß√£o dos dados.

In [1]:
# Importa√ß√£o de bibliotecas essenciais
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Importa√ß√£o das nossas ferramentas
from ferramentas_analista import carregar_dados, converter_notebook_para_py

# --- Configura√ß√µes de Visualiza√ß√£o (Essencial para An√°lise) ---
pd.set_option('display.max_columns', None)
# pd.set_option('display.max_rows', None) # Descomente se precisar ver todas as linhas
pd.set_option('display.float_format', lambda x: '%.2f' % x)

# Configura√ß√µes de gr√°ficos
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("Ambiente configurado com sucesso!")

Ambiente configurado com sucesso!


## 2. Carga de Dados

Utilizamos a fun√ß√£o `carregar_dados` para importar os dados de forma inteligente (CSV, Excel, JSON, etc.).

In [None]:
caminho_arquivo_dados = 'iris.csv'
df = carregar_dados(caminho_arquivo_dados)

if df is not None:
    df_analise = df.copy()

--- üïµÔ∏è‚Äç‚ôÇÔ∏è Analisando e Carregando: iris.csv ---
‚ùå ERRO: Arquivo n√£o encontrado em 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv'


## 3. Inspe√ß√£o Inicial dos Dados (Dossi√™ do Dataset)

Esta √© a etapa mais crucial para 'sentir' os dados. Realizamos uma s√©rie de verifica√ß√µes b√°sicas para criar um dossi√™ completo sobre o dataset que recebemos.

In [None]:
if 'df_analise' in locals() and df_analise is not None:
    print(f"O dataset cont√©m {df_analise.shape[0]} linhas e {df_analise.shape[1]} colunas.\n")
    
    print("--- 1. Visualiza√ß√£o das Primeiras e √öltimas Linhas ---")
    display(df_analise.head())
    display(df_analise.tail())

    print("\n--- 2. Nomes de Todas as Colunas ---")
    print(df_analise.columns.tolist())
    
    print("\n--- 3. Tipos de Dados e Uso de Mem√≥ria ---")
    df_analise.info(memory_usage='deep')
    
    print("\n--- 4. An√°lise de Linhas Duplicadas (em colunas seguras) ---")
    colunas_problematicas = []
    for col in df_analise.columns:
        if df_analise[col].apply(lambda x: isinstance(x, (list, dict))).any():
            colunas_problematicas.append(col)
    
    if colunas_problematicas:
        print(f"Aviso: As seguintes colunas cont√™m listas/dicion√°rios e ser√£o ignoradas na checagem: {colunas_problematicas}")
    
    colunas_para_verificar = [col for col in df_analise.columns if col not in colunas_problematicas]
    num_duplicatas = df_analise.duplicated(subset=colunas_para_verificar).sum()
    
    if num_duplicatas > 0:
        print(f"\033[91mAVISO: Foram encontradas {num_duplicatas} linhas duplicadas.\033[0m")
    else:
        print("‚úÖ Nenhuma linha duplicada encontrada.")
        
    print("\n--- 5. An√°lise de Valores √önicos (Cardinalidade) ---")
    print("Contagem de valores √∫nicos por coluna (ajuda a identificar IDs e constantes):")
    display(df_analise[colunas_para_verificar].nunique().sort_values(ascending=True).to_frame(name='Contagem de √önicos'))
    
    print("\n--- 6. An√°lise de Valores Nulos (Percentual) ---")
    percent_nulos = (df_analise.isnull().sum() / len(df_analise) * 100).sort_values(ascending=False)
    percent_nulos = percent_nulos[percent_nulos > 0]
    if not percent_nulos.empty:
        print("Colunas com valores nulos:")
        display(percent_nulos.to_frame(name='Percentual de Nulos (%)'))
    else:
        print("‚úÖ Nenhuma coluna com valores nulos encontrada.")
        
    print("\n--- 7. Estat√≠sticas Descritivas (Colunas Num√©ricas) ---")
    display(df_analise.describe())
    
    print("\n--- 8. Estat√≠sticas Descritivas (Colunas Categ√≥ricas) ---")
    display(df_analise.describe(include=['object', 'category']))

## 4. Limpeza e Pr√©-Processamento (Checklist de ETL)

Com base no dossi√™ acima, tratamos os problemas identificados. Descomente e adapte os blocos de c√≥digo que forem relevantes para o seu projeto.

In [None]:
# --- 4.1 Sele√ß√£o e Remo√ß√£o de Colunas ---
# # Op√ß√£o A: Remover colunas irrelevantes pelo nome
# colunas_para_remover = ['id_transacao', 'coluna_inutil']
# df_analise.drop(columns=colunas_para_remover, inplace=True, errors='ignore')

# # Op√ß√£o B: Selecionar apenas as colunas que voc√™ quer manter
# colunas_para_manter = ['id_cliente', 'data_venda', 'produto', 'preco']
# df_analise = df_analise[colunas_para_manter]

# # Op√ß√£o C (Avan√ßado): Usar .filter() para selecionar colunas por padr√£o no nome
# df_ids = df_analise.filter(like='id') # Pega todas as colunas que cont√™m 'id' no nome

# --- 4.2 Renomea√ß√£o de Colunas ---
# # Renomear colunas espec√≠ficas para nomes mais claros e sem acentos/espa√ßos
# df_analise.rename(columns={'NM_CLIENTE': 'nome_cliente', 'DT_VENDA': 'data_venda'}, inplace=True)

# # Padronizar todos os nomes de colunas (ex: para min√∫sculas e snake_case)
# df_analise.columns = df_analise.columns.str.strip().str.lower().str.replace(' ', '_', regex=False).str.replace('(', '', regex=False).str.replace(')', '', regex=False)

# --- 4.3 Tratamento de Dados Ausentes ---
# # Estrat√©gia 1: Remover linhas onde colunas CR√çTICAS s√£o nulas
# df_analise.dropna(subset=['id_cliente', 'valor_compra'], inplace=True)

# # Estrat√©gia 2: Preencher nulos com um valor espec√≠fico (medidas de tend√™ncia central ou constantes)
# df_analise['idade'].fillna(df_analise['idade'].median(), inplace=True)
# df_analise['categoria_produto'].fillna('Desconhecida', inplace=True)

# --- 4.4 Corre√ß√£o de Tipos de Dados ---
# # Converter colunas de data que foram lidas como texto
# df_analise['data_venda'] = pd.to_datetime(df_analise['data_venda'], errors='coerce') # 'coerce' transforma datas inv√°lidas em NaT (Not a Time)

# # Exemplo pr√°tico: Converter uma coluna de pre√ßo (ex: 'R$ 1.234,56') para n√∫mero
# if df_analise['preco'].dtype == 'object':
#     df_analise['preco'] = df_analise['preco'].str.replace('R$', '', regex=False).str.replace('.', '', regex=False).str.replace(',', '.', regex=False).astype(float)

# # Converter para tipos de dados que economizam mem√≥ria
# df_analise['status'] = df_analise['status'].astype('category')

# --- 4.5 Tratamento de Duplicatas ---
# # Remover linhas que s√£o inteiramente duplicadas (usando o subset seguro definido na inspe√ß√£o)
# df_analise.drop_duplicates(subset=colunas_para_verificar, inplace=True)

# --- 4.6 Cria√ß√£o de Novas Colunas (Engenharia de Features) ---
# # Extrair informa√ß√µes de datas
# df_analise['ano_venda'] = df_analise['data_venda'].dt.year
# df_analise['mes_venda'] = df_analise['data_venda'].dt.month

# # Criar categorias a partir de uma vari√°vel num√©rica (Binning)
# df_analise['faixa_etaria'] = pd.cut(df_analise['idade'], bins=[0, 18, 35, 60, 100], labels=['Jovem', 'Adulto', 'Meia-Idade', 'Idoso'])

# --- 4.7 Limpeza e Padroniza√ß√£o de Strings ---
# # Remover espa√ßos em branco no in√≠cio e no fim de uma coluna de texto
# df_analise['nome_produto'] = df_analise['nome_produto'].str.strip()

# # Padronizar para letras min√∫sculas
# df_analise['cidade'] = df_analise['cidade'].str.lower()

print("Etapa de limpeza e pr√©-processamento conclu√≠da. Verifique os resultados abaixo.")
# df_analise.info() # √â uma boa pr√°tica verificar os tipos de dados novamente ap√≥s a limpeza

## 5. Transforma√ß√£o e Agrupamento de Dados

Ap√≥s a limpeza, podemos come√ßar a transformar os dados, criando agrega√ß√µes e juntando informa√ß√µes de diferentes fontes para responder perguntas de neg√≥cio.

In [None]:
# --- 5.1 Agrupamentos com .groupby() ---
# # Objetivo: Calcular estat√≠sticas agregadas para diferentes categorias.
# # Exemplo: Calcular o pre√ßo m√©dio, m√≠nimo e m√°ximo por categoria de produto.
# df_agrupado_categoria = df_analise.groupby('categoria_produto').agg(
#     preco_medio=('preco', 'mean'),
#     preco_maximo=('preco', 'max'),
#     contagem=('produto', 'count')
# ).sort_values(by='preco_medio', ascending=False)
# 
# display(df_agrupado_categoria)

# --- 5.2 Tabelas Din√¢micas com .pivot_table() ---
# # Objetivo: Reorganizar os dados em formato de matriz, similar a uma tabela din√¢mica do Excel.
# # Exemplo: Ver o faturamento total por `ano` e `mes`.
# df_pivot = pd.pivot_table(
#     df_analise,
#     values='faturamento',
#     index='ano_venda',
#     columns='mes_venda',
#     aggfunc='sum',
#     fill_value=0 # Preenche meses sem vendas com 0
# )
# 
# display(df_pivot)

# --- 5.3 Combina√ß√£o de Datasets com .merge() ---
# # Objetivo: Enriquecer o dataset principal com informa√ß√µes de outras tabelas.
# # Exemplo: Juntar os dados de vendas (df_analise) com um DataFrame de informa√ß√µes de clientes (df_clientes).

# # Criando um DataFrame de exemplo para clientes
# dados_clientes = {'id_cliente': [101, 102, 103], 'regiao_cliente': ['Sudeste', 'Nordeste', 'Sudeste']}
# df_clientes = pd.DataFrame(dados_clientes)

# # Juntando os dois DataFrames pela coluna em comum ('id_cliente')
# df_completo = pd.merge(
#     df_analise, 
#     df_clientes, 
#     on='id_cliente', # Chave para a jun√ß√£o
#     how='left'      # Mant√©m todos os registros de vendas, mesmo que n√£o encontre cliente correspondente
# )
# 
# display(df_completo.head())

## 6. Exporta√ß√£o dos Dados Tratados

Ap√≥s a limpeza e transforma√ß√£o, √© uma excelente pr√°tica salvar o DataFrame resultante. Isso cria um "checkpoint" de dados limpos que pode ser usado em outras an√°lises, relat√≥rios ou modelos, sem precisar repetir todo o processo de ETL.

In [None]:
# --- Salvando em CSV (.to_csv) ---
# # SUGEST√ÉO: Use ';' como separador e encoding 'utf-8-sig' para m√°xima compatibilidade com Excel.
# caminho_saida_csv = 'dados_analise_limpos.csv'
# df_analise.to_csv(
#     caminho_saida_csv,
#     index=False,          # Para n√£o salvar o √≠ndice do DataFrame como uma coluna no arquivo
#     sep=';',              # Ponto e v√≠rgula √© bem reconhecido pelo Excel no Brasil
#     decimal=',',          # Define a v√≠rgula como separador decimal
#     encoding='utf-8-sig'  # 'sig' (Byte Order Mark) ajuda o Excel a reconhecer a codifica√ß√£o UTF-8
# )
# print(f"DataFrame limpo salvo em '{caminho_saida_csv}'")

# --- Salvando em Excel (.to_excel) ---
# # √ötil para compartilhar com √°reas de neg√≥cio que n√£o usam Python.
# caminho_saida_excel = 'dados_analise_limpos.xlsx'
# df_analise.to_excel(
#     caminho_saida_excel,
#     index=False,
#     sheet_name='Dados Principais'
# )
# print(f"DataFrame limpo salvo em '{caminho_saida_excel}'")

## 7. An√°lise Explorat√≥ria de Dados (EDA)

Com os dados limpos, investigamos e visualizamos os dados para encontrar padr√µes e insights.

### 7.1 An√°lise Univariada
An√°lise de cada vari√°vel individualmente para entender sua distribui√ß√£o e caracter√≠sticas.

In [None]:
# --- Para vari√°veis NUM√âRICAS --- 
# SUGEST√ÉO: Use Histogramas para ver a distribui√ß√£o e Boxplots para identificar outliers.

# # Exemplo com uma coluna num√©rica (descomente e adapte)
# coluna_numerica = 'sua_coluna_numerica'
# sns.histplot(data=df_analise, x=coluna_numerica, kde=True).set_title(f'Distribui√ß√£o de {coluna_numerica}')
# plt.show()

# sns.boxplot(data=df_analise, x=coluna_numerica).set_title(f'Boxplot de {coluna_numerica}')
# plt.show()

In [None]:
# --- Para vari√°veis CATEG√ìRICAS ---
# SUGEST√ÉO: Use Gr√°ficos de Barras para ver a frequ√™ncia de cada categoria.

# # Exemplo com uma coluna categ√≥rica (descomente e adapte)
# coluna_categorica = 'sua_coluna_categorica'
# sns.countplot(data=df_analise, y=coluna_categorica, order = df_analise[coluna_categorica].value_counts().index).set_title(f'Contagem de {coluna_categorica}')
# plt.show()

### 7.2 An√°lise Bivariada
An√°lise da rela√ß√£o entre pares de vari√°veis.

In [None]:
# --- Rela√ß√£o entre duas vari√°veis NUM√âRICAS ---
# SUGEST√ÉO: Use Gr√°fico de Dispers√£o (Scatter Plot) para identificar correla√ß√µes.

# # Exemplo (descomente e adapte)
# sns.scatterplot(data=df_analise, x='coluna_numerica_X', y='coluna_numerica_Y').set_title('Rela√ß√£o entre X e Y')
# plt.show()

In [None]:
# --- Rela√ß√£o entre uma vari√°vel NUM√âRICA e uma CATEG√ìRICA ---
# SUGEST√ÉO: Use Boxplots ou Violin Plots para comparar a distribui√ß√£o da vari√°vel num√©rica entre as categorias.

# # Exemplo (descomente e adapte)
# sns.boxplot(data=df_analise, x='coluna_categorica', y='coluna_numerica').set_title('Distribui√ß√£o Num√©rica por Categoria')
# plt.xticks(rotation=45)
# plt.show()

In [None]:
# --- Rela√ß√£o entre duas vari√°veis CATEG√ìRICAS ---
# SUGEST√ÉO: Use uma Tabela de Conting√™ncia (crosstab) e um Mapa de Calor (Heatmap) para visualizar a rela√ß√£o.

# # Exemplo (descomente e adapte)
# contingency_table = pd.crosstab(df_analise['coluna_categorica_1'], df_analise['coluna_categorica_2'])
# sns.heatmap(contingency_table, annot=True, fmt='d', cmap='YlGnBu')
# plt.title('Mapa de Calor da Rela√ß√£o entre Categoria 1 e 2')
# plt.show()

## 8. Conclus√µes e Pr√≥ximos Passos

In [None]:
print("Escreva aqui os principais insights e pr√≥ximos passos da an√°lise.")

## 9. Exporta√ß√£o do Script

Convertemos este notebook em um script Python limpo.

In [None]:
# Certifique-se de que o nome do arquivo corresponde ao seu notebook
converter_notebook_para_py('notebook_modelo.ipynb')