# 🧪 Pré-processamento de Dados – Grupo: App – Controle Financeiro
Aplicativo para controle de receitas e despesas pessoais.

> Este notebook contém instruções para realizar as etapas de pré-processamento com base no dataset do projeto. Utilize as células abaixo como base para desenvolver sua análise.

## 📁 Etapa 1: Importação de bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

pd.set_option('display.max_columns', None)
sns.set(style="whitegrid")

## 📂 Etapa 2: Carregamento do Dataset
Carregue o dataset `app_controle_financeiro.csv`.

In [None]:
# Leitura do arquivo (certifique-se de que ele esteja no mesmo diretório ou faça upload)
df = pd.read_csv("app_controle_financeiro.csv")
df.head()

## 🧼 Etapa 3: Limpeza de Dados
Verificação de valores nulos, duplicados, inconsistentes.

In [None]:
# Verificar valores ausentes
print(df.isnull().sum())

# Verificar duplicatas
print("Duplicatas:", df.duplicated().sum())

# Excluir duplicatas se necessário
# df = df.drop_duplicates()


## 🔗 Etapa 4: Integração de Dados (se aplicável)
Exemplo de junção com outro dataframe.

In [None]:
# Exemplo fictício de junção
# df_outro = pd.read_csv("outro_dataset.csv")
# df = pd.merge(df, df_outro, how='left', on='id_comum')


## 🧹 Etapa 5: Redução de Dados
Amostragem, remoção de atributos irrelevantes.

In [None]:
# Excluir colunas irrelevantes
# df = df.drop(columns=['coluna_irrelevante'])

# Amostragem (10%)
# df_amostra = df.sample(frac=0.1, random_state=42)


## 🔄 Etapa 6: Transformação de Dados
Inclui normalização, codificação de categorias, padronização de formatos.

In [None]:
# Normalização com Min-Max
# from sklearn.preprocessing import MinMaxScaler
# scaler = MinMaxScaler()
# df[['coluna_numerica']] = scaler.fit_transform(df[['coluna_numerica']])

# Codificação de categorias
# df = pd.get_dummies(df, columns=['coluna_categorica'])

# Padronização de texto
# df['coluna_texto'] = df['coluna_texto'].str.lower().str.strip()


## 📊 Etapa 7: Análise Exploratória
Visualização de dados para melhor compreensão.

In [None]:
# Distribuição de categorias
# df['coluna_categorica'].value_counts().plot(kind='bar')

# Boxplot para identificar outliers
# sns.boxplot(x='coluna', y='coluna_numerica', data=df)


## 🧠 Reflexão Final
Explique as principais dificuldades encontradas na limpeza e transformação dos dados e como elas impactam o modelo de mineração de dados.

In [None]:
# Utilize esta célula para sua resposta
resposta = """Escreva aqui sua análise sobre o processo de pré-processamento realizado no seu dataset."""
print(resposta)