In [30]:
import pandas as pd
import numpy as np
from faker import Faker

# Configuração
np.random.seed(42)
fake = Faker('pt_BR')

# Criando DataFrame com 1,000 registros
data = {
    'ID_Pedido': range(1001, 2001),
    'Cliente': [fake.name() for _ in range(1000)],
    'Produto': np.random.choice(['Smartphone', 'Notebook', 'Tablet', 'Fone Bluetooth', 'Smartwatch', 'Câmera'], 1000),
    'Preço': np.round(np.random.uniform(100, 5000, 1000), 2),
    'Quantidade': np.random.randint(1, 10, 1000),
    'Data_Pedido': pd.date_range('2022-01-01', periods=1000, freq='D'),
    'Cidade': np.random.choice(['São Paulo', 'Rio de Janeiro', 'Belo Horizonte', None, 'Porto Alegre', 'Curitiba', 'Recife'], 1000),
    'Método_Pagamento': np.random.choice(['Cartão', 'Boleto', 'PIX', 'Cartão', None, 'Cartão', 'Boleto'], 1000),
    'Avaliação': np.random.choice([1, 2, 3, 4, 5, None, np.nan], 1000)
}

df = pd.DataFrame(data)

# Adicionando problemas intencionais
df.loc[np.random.choice(df.index, 50), 'Preço'] = 0
df.loc[np.random.choice(df.index, 30), 'Quantidade'] = -1
df.loc[np.random.choice(df.index, 20), 'Cliente'] = 'N/A'
df.loc[np.random.choice(df.index, 40), 'Produto'] = '  '
df.loc[np.random.choice(df.index, 60), 'Método_Pagamento'] = 'Crediário'  # Valor inválido

df

Unnamed: 0,ID_Pedido,Cliente,Produto,Preço,Quantidade,Data_Pedido,Cidade,Método_Pagamento,Avaliação
0,1001,Sr. Theo Novaes,Fone Bluetooth,598.73,6,2022-01-01,Belo Horizonte,,2
1,1002,Rael Rios,Smartwatch,849.01,5,2022-01-02,São Paulo,Boleto,5
2,1003,Ryan Moura,Tablet,1305.19,4,2022-01-03,,Cartão,5
3,1004,Maria Isis Cardoso,Smartwatch,887.34,1,2022-01-04,São Paulo,Cartão,5
4,1005,Dom Aparecida,Smartwatch,1014.18,6,2022-01-05,Porto Alegre,Boleto,
...,...,...,...,...,...,...,...,...,...
995,1996,Lucas Nascimento,Câmera,2291.29,8,2024-09-22,Curitiba,Boleto,
996,1997,Arthur Miguel Mendonça,Smartwatch,3042.91,1,2024-09-23,Rio de Janeiro,PIX,3
997,1998,Fernando Fernandes,Smartphone,2626.83,8,2024-09-24,Belo Horizonte,Boleto,
998,1999,Sra. Milena Nogueira,Smartphone,4605.02,7,2024-09-25,,Cartão,4


Identificação de Valores Ausentes

    Conte quantos valores nulos existem em cada coluna

    Mostre as linhas que têm valores nulos na coluna 'Cidade'

In [24]:
df.isna().sum()

ID_Pedido             0
Cliente               0
Produto               0
Preço                 0
Quantidade            0
Data_Pedido           0
Cidade              149
Método_Pagamento    147
Avaliação           295
dtype: int64

In [25]:
df[df["Cidade"].isna()]

Unnamed: 0,ID_Pedido,Cliente,Produto,Preço,Quantidade,Data_Pedido,Cidade,Método_Pagamento,Avaliação
2,1003,Valentim Machado,Tablet,1305.19,4,2022-01-03,,Cartão,5
10,1011,Raul Brito,Fone Bluetooth,0.00,7,2022-01-11,,PIX,5
14,1015,Bernardo da Paz,Notebook,4850.41,3,2022-01-15,,Cartão,1
23,1024,Melina Caldeira,Notebook,1471.90,9,2022-01-24,,Cartão,3
31,1032,Benjamin Rezende,Notebook,3092.04,3,2022-02-01,,Cartão,4
...,...,...,...,...,...,...,...,...,...
972,1973,Bruno Martins,Smartphone,0.00,1,2024-08-30,,Boleto,
976,1977,Danilo da Paz,Smartphone,2745.79,6,2024-09-03,,PIX,4
980,1981,Ravi Lucca da Mata,Câmera,536.71,2,2024-09-07,,Cartão,5
984,1985,Giovanna Camargo,Tablet,3931.94,6,2024-09-11,,Cartão,3


Remoção de Duplicatas

    Verifique se existem pedidos duplicados (mesmo ID_Pedido)

    Remova as linhas completamente duplicadas (todas as colunas iguais)

In [26]:
df['ID_Pedido'].duplicated().value_counts()

ID_Pedido
False    1000
Name: count, dtype: int64

In [27]:
df.drop_duplicates(inplace=True)

Correção Simples

    Substitua todos os valores 'N/A' na coluna 'Cliente' por 'Não Informado'

    Substitua os valores de espaço em branco (' ') na coluna 'Produto' por np.nan

In [49]:
df.replace('N/A','Não Informado',inplace=True)
df[df['Cliente'] == 'Não Informado']


Unnamed: 0,ID_Pedido,Cliente,Produto,Preço,Quantidade,Data_Pedido,Cidade,Método_Pagamento,Avaliação
30,1031,Não Informado,Tablet,662.7,3,2022-01-31,Curitiba,Cartão,
38,1039,Não Informado,Fone Bluetooth,1749.36,5,2022-02-08,Belo Horizonte,Boleto,4.0
65,1066,Não Informado,Fone Bluetooth,901.91,7,2022-03-07,Recife,Cartão,
107,1108,Não Informado,Tablet,4247.62,1,2022-04-18,Rio de Janeiro,Cartão,
186,1187,Não Informado,Smartwatch,428.67,9,2022-07-06,Curitiba,Cartão,4.0
202,1203,Não Informado,Smartphone,860.68,9,2022-07-22,Recife,Boleto,2.0
259,1260,Não Informado,Smartphone,4019.29,-1,2022-09-17,Porto Alegre,Boleto,
277,1278,Não Informado,Notebook,0.0,7,2022-10-05,,,
303,1304,Não Informado,Smartphone,1555.9,3,2022-10-31,Curitiba,Cartão,2.0
420,1421,Não Informado,Câmera,4729.19,3,2023-02-25,Curitiba,Crediário,3.0


In [50]:
df.replace('  ',np.nan,inplace=True)
df[df['Produto'].isna()]



Unnamed: 0,ID_Pedido,Cliente,Produto,Preço,Quantidade,Data_Pedido,Cidade,Método_Pagamento,Avaliação
18,1019,Otto Cunha,,937.35,2,2022-01-19,Recife,Boleto,1.0
32,1033,Ravi Teixeira,,1514.29,9,2022-02-02,Porto Alegre,Cartão,2.0
43,1044,Kaique Cavalcanti,,4068.38,4,2022-02-13,Rio de Janeiro,PIX,4.0
89,1090,Dr. Mateus Albuquerque,,1741.04,7,2022-03-31,Curitiba,Cartão,4.0
100,1101,José Pedro Melo,,264.31,5,2022-04-11,Curitiba,Boleto,4.0
154,1155,Luna da Cunha,,368.33,1,2022-06-04,Porto Alegre,Boleto,4.0
221,1222,Helena Sousa,,974.87,5,2022-08-10,Belo Horizonte,PIX,1.0
228,1229,Miguel da Mota,,4168.08,6,2022-08-17,Porto Alegre,Cartão,5.0
252,1253,Laís Dias,,1542.88,1,2022-09-10,São Paulo,PIX,5.0
254,1255,Erick Machado,,3841.67,3,2022-09-12,Curitiba,Boleto,


Tratamento de Outliers

    Identifique pedidos com Quantidade negativa e corrija para valor absoluto

    Substitua os preços igual a zero pela mediana dos preços do mesmo produto

In [None]:
df['Quantidade'] = df['Quantidade'].abs()
df[df['Quantidade'] < 0]

Unnamed: 0,ID_Pedido,Cliente,Produto,Preço,Quantidade,Data_Pedido,Cidade,Método_Pagamento,Avaliação
0,1001,Sr. Theo Novaes,Fone Bluetooth,598.73,6,2022-01-01,Belo Horizonte,,2.0
1,1002,Rael Rios,Smartwatch,849.01,5,2022-01-02,São Paulo,Boleto,5.0
2,1003,Ryan Moura,Tablet,1305.19,4,2022-01-03,,Cartão,5.0
3,1004,Maria Isis Cardoso,Smartwatch,887.34,1,2022-01-04,São Paulo,Cartão,5.0
4,1005,Dom Aparecida,Smartwatch,1014.18,6,2022-01-05,Porto Alegre,Boleto,
...,...,...,...,...,...,...,...,...,...
995,1996,Lucas Nascimento,Câmera,2291.29,8,2024-09-22,Curitiba,Boleto,
996,1997,Arthur Miguel Mendonça,Smartwatch,3042.91,1,2024-09-23,Rio de Janeiro,PIX,3.0
997,1998,Fernando Fernandes,Smartphone,2626.83,8,2024-09-24,Belo Horizonte,Boleto,
998,1999,Sra. Milena Nogueira,Smartphone,4605.02,7,2024-09-25,,Cartão,4.0


In [None]:
medianas_por_produto = df[df['Preço'] > 0].groupby('Produto')['Preço'].median()
mascara_zero = df['Preço'] == 0
df.loc[mascara_zero, 'Preço'] = df[mascara_zero]['Produto'].map(medianas_por_produto)
(df['Preço'] == 0).value_counts()

Preço
False    1000
Name: count, dtype: int64

In [62]:
df.describe()

Unnamed: 0,ID_Pedido,Preço,Quantidade,Data_Pedido,Avaliação
count,1000.0,1000.0,1000.0,1000,705.0
mean,1500.5,2557.47648,4.861,2023-05-15 12:00:00,3.083688
min,1001.0,122.7,1.0,2022-01-01 00:00:00,1.0
25%,1250.75,1322.2025,3.0,2022-09-07 18:00:00,2.0
50%,1500.5,2541.58,5.0,2023-05-15 12:00:00,3.0
75%,1750.25,3685.5675,7.0,2024-01-20 06:00:00,4.0
max,2000.0,4997.13,9.0,2024-09-26 00:00:00,5.0
std,288.819436,1384.470248,2.600854,,1.382758
