In [15]:
# 1. LEITURA E INSPEÇÃO

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [6]:
# Leitura da base
df = pd.read_csv("atividade3_dataset.csv")

# Inspeção inicial
print("Tipos de dados:\n", df.dtypes)
print("\nQuantidade de valores nulos:\n", df.isnull().sum())
print("\nLinhas duplicadas:", df.duplicated().sum())

Tipos de dados:
 ID;Nome;Idade;Cidade;Produto;Preço;Quantidade;Data_Compra    object
dtype: object

Quantidade de valores nulos:
 ID;Nome;Idade;Cidade;Produto;Preço;Quantidade;Data_Compra    491
dtype: int64

Linhas duplicadas: 490


In [7]:
# 2. TRATAMENTO DE VALORES AUSENTES

# Exemplo de tratamento:
# - Preencher colunas numéricas com a média
num_cols = df.select_dtypes(include=['int64', 'float64']).columns
df[num_cols] = df[num_cols].fillna(df[num_cols].mean())

# - Preencher colunas categóricas com "Desconhecido"
cat_cols = df.select_dtypes(include=['object']).columns
df[cat_cols] = df[cat_cols].fillna("Desconhecido")

In [8]:
# 3. REMOÇÃO DE DUPLICADOS

df = df.drop_duplicates()

In [9]:
# 4. CORREÇÕES ADICIONAIS

# Exemplo: padronizar valores de uma coluna de estado
if 'estado' in df.columns:
    df['estado'] = df['estado'].replace({
        'SP': 'São Paulo',
        'sp': 'São Paulo',
        'sao paulo': 'São Paulo'
    })

# Exemplo: converter coluna numérica que veio como texto
if 'idade' in df.columns:
    df['idade'] = pd.to_numeric(df['idade'], errors='coerce')

# Exemplo: converter datas que vieram como string
if 'data' in df.columns:
    df['data'] = pd.to_datetime(df['data'], errors='coerce')

In [10]:
# 5. CRIAÇÃO DE NOVA COLUNA

# Exemplo: criar indicador binário de acima/abaixo da média de uma coluna numérica
if 'renda' in df.columns:
    media_renda = df['renda'].mean()
    df['acima_media_renda'] = df['renda'] > media_renda

In [19]:
# 6. EXPLORAÇÃO APÓS LIMPEZA
# ================================

# Estatísticas descritivas
print("\nEstatísticas descritivas:\n", df.describe(include='all'))

# Gráfico 1: Histograma da primeira coluna numérica
if len(num_cols) > 0:
    df[num_cols[0]].hist()
    plt.title(f"Distribuição de {num_cols[0]}")
    plt.xlabel(num_cols[0])
    plt.ylabel("Frequência")
    plt.show()

# Gráfico 2: Mapa de correlação entre variáveis numéricas
if len(num_cols) > 1:
    plt.matshow(df[num_cols].corr())
    plt.title("Mapa de Correlação", pad=20)
    plt.colorbar()
    plt.show()


Estatísticas descritivas:
        ID;Nome;Idade;Cidade;Produto;Preço;Quantidade;Data_Compra
count                                                  20       
unique                                                 20       
top                                       87;7;30-05-2024       
freq                                                    1       


In [20]:
# 7. EXPORTAÇÃO DA BASE LIMPA

df.to_csv("base_limpa.csv", index=False)