# Geração e Limpeza de Dados Fictícios com Python
Este notebook demonstra como gerar um conjunto de dados fictícios, introduzir problemas comuns e realizar sua limpeza usando Python.

## 1. Importação de Bibliotecas

In [None]:
import pandas as pd
from faker import Faker
import random
import numpy as np

## 2. Geração de Dados Fictícios

In [None]:
fake = Faker('pt-BR')
registros = []
num_registros = 10

for _ in range(num_registros):
    registro = {
        'id': fake.uuid4(),
        'nome': fake.name(),
        'email': fake.email(),
        'telefone': fake.phone_number(),
        'data_nascimento': fake.date_of_birth(minimum_age=18, maximum_age=90),
        'endereco': fake.address(),
        'salario': round(random.uniform(1000, 10000), 2),
    }
    registros.append(registro)

df = pd.DataFrame(registros)
df

## 3. Introduzindo Problemas no Conjunto de Dados
### 3.1 Valores Nulos

In [None]:
for _ in range(int(len(df) * 0.1)):
    idx = random.randint(0, len(df) - 1)
    col = random.choice(df.columns)
    df.at[idx, col] = np.nan

### 3.2 Introduzir Duplicatas

In [None]:
duplicatas = df.sample(frac=0.5)
df = pd.concat([df, duplicatas])

### 3.3 Introduzir Formatação Inconsistente

In [None]:
for _ in range(int(len(df) * 0.05)):
    idx = random.randint(0, len(df) - 1)
    email = df.iloc[idx]['email']
    nome = df.iloc[idx]['nome']
    if pd.notna(email):
        df.at[idx, 'email'] = email.replace('@', ' at ')
    if pd.notna(nome):
        df.at[idx, 'nome'] = nome.upper()

## 4. Verificação e Limpeza de Dados

In [None]:
print(df.isnull().sum())

### 4.1 Remover ou Preencher Valores Nulos

In [None]:
df = df.loc[:, df.isnull().mean() < 0.5]  # Remove colunas com +50% de valores nulos
df = df.dropna()  # Remove linhas com valores nulos
df.fillna({'email': df['email'].mode()[0], 'telefone': df['telefone'].mode()[0]}, inplace=True)

### 4.2 Remover Duplicatas

In [None]:
print(f"Número de duplicatas: {df.duplicated().sum()}")
df = df.drop_duplicates()

### 4.3 Corrigir Formatação de Dados

In [None]:
df.loc[:, 'email'] = df['email'].str.replace(r' \[at\] ', '@', regex=True)
df.loc[:, 'nome'] = df['nome'].str.title()

## Conclusão
Esse notebook mostrou um pipeline completo de geração, corrupção e limpeza de dados. Se tiver dúvidas, fique à vontade para explorar e modificar o código!