### Atividade 3 - Código Corrigido e Otimizado
Este notebook contém o código corrigido, seguindo a ordem lógica correta para a limpeza e análise dos dados.

#### 1. Leitura dos Dados e Importação das Bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# A leitura já estava correta, usando o separador ';' e o decimal ','
df = pd.read_csv('atividade3_dataset.csv', sep=';', decimal=',')

print("Dados carregados com sucesso!")
df.head()

#### 2. Tratamento de Tipos e Valores Ausentes
É crucial converter as colunas para o tipo numérico **ANTES** de realizar cálculos como a mediana para evitar erros.

In [None]:
# Coluna 'Idade':
# a) Converte a coluna para tipo numérico. 'errors=coerce' transforma textos que não são números em NaN (Nulo).
df['Idade'] = pd.to_numeric(df['Idade'], errors='coerce')

# b) Agora que a coluna é numérica, calculamos a mediana.
mediana_idade = df['Idade'].median()

# c) Preenchemos todos os valores nulos (os originais e os criados pelo 'coerce') com a mediana.
df['Idade'].fillna(mediana_idade, inplace=True)

# Coluna 'Preço':
# a) Removemos as linhas onde o preço é nulo.
df.dropna(subset=['Preço'], inplace=True)

# b) Garantimos que a coluna 'Preço' é numérica (é uma boa prática após remover nulos).
df['Preço'] = pd.to_numeric(df['Preço'])

print('Valores ausentes tratados e tipos de dados corrigidos.')
df.info()

#### 3. Remoção de Duplicatas e Padronização dos Dados

In [None]:
# a) Removemos linhas duplicadas.
df.drop_duplicates(inplace=True)

# b) Padronizamos a coluna 'Cidade' para maiúsculas.
df['Cidade'] = df['Cidade'].str.upper()

# c) Convertemos a coluna de data.
df['Data_Compra'] = pd.to_datetime(df['Data_Compra'], format='%d-%m-%Y')

print(f"Processo de padronização e remoção de duplicatas concluído. Total de duplicatas agora: {df.duplicated().sum()}")

#### 4. Criação de Novas Colunas (Feature Engineering)
Com a coluna 'Preço' devidamente convertida para numérica, o cálculo funciona corretamente.

In [None]:
df['Valor_Total_Compra'] = df['Preço'] * df['Quantidade']
print("Coluna 'Valor_Total_Compra' criada com sucesso.")
df.head()

#### 5. Análise e Visualização

In [None]:
print("--- Estatísticas Descritivas do DataFrame Limpo ---")
display(df.describe())

In [None]:
# Gráfico de Histograma
plt.figure(figsize=(10, 6))
sns.set_style("whitegrid")
sns.histplot(df['Idade'], bins=20, kde=True, color='skyblue')
plt.title('Distribuição da Idade dos Clientes', fontsize=16)
plt.xlabel('Idade', fontsize=12)
plt.ylabel('Frequência', fontsize=12)
plt.show()

In [None]:
# Gráfico de Correlação (Heatmap)
plt.figure(figsize=(12, 8))
numeric_cols = df.select_dtypes(include=np.number)
correlation_matrix = numeric_cols.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Mapa de Calor da Correlação entre Variáveis Numéricas', fontsize=16)
plt.show()

#### 6. Salvando o Resultado Final

In [None]:
# Exportando o DataFrame limpo para um novo arquivo CSV
df.to_csv('base_limpa.csv', index=False, sep=';', decimal=',')
print("Arquivo 'base_limpa.csv' salvo com sucesso!")