In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

In [2]:
df = pd.read_csv("dataset_sudeste_simples_realista_outliers-1k.csv")

In [3]:
df.head(10)

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,36.0,7038.01,Rio de Janeiro,A,2.9,Bom
1,2,,9306.04,Belo Horizonte,B,5.1,Regular
2,3,35.0,5148.47,Vitória,B,9.4,Ruim
3,4,16.0,12597.91,Belo Horizonte,B,1.8,Regular
4,5,41.0,11057.24,Vitória,B,0.3,
5,6,51.0,6113.01,São Paulo,B,1.1,Regular
6,7,69.0,,Belo Horizonte,B,6.4,Regular
7,8,31.0,4359.39,Vitória,B,1.8,Regular
8,9,41.0,10422.77,São Paulo,B,2.8,Ruim
9,10,40.0,9635.7,Vitória,B,9.9,Ruim


In [4]:
print("### Informações gerais do Dataset ###\n")
df.info()

### Informações gerais do Dataset ###

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         1000 non-null   int64  
 1   idade      981 non-null    float64
 2   renda      986 non-null    float64
 3   cidade     993 non-null    object 
 4   categoria  990 non-null    object 
 5   nota       990 non-null    float64
 6   feedback   985 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 54.8+ KB


In [5]:
print("\n### Descrição estatística ###")
print(df.describe())


### Descrição estatística ###
                id       idade         renda        nota
count  1000.000000  981.000000    986.000000  990.000000
mean    500.500000   43.054027   7170.179635    5.171919
std     288.819436   16.409496   3446.664173    2.938992
min       1.000000    1.000000    661.810000   -0.600000
25%     250.750000   29.000000   4511.930000    2.800000
50%     500.500000   42.000000   7058.235000    5.200000
75%     750.250000   57.000000   9861.952500    7.600000
max    1000.000000  113.000000  29361.100000   14.800000


In [6]:
print(df.describe(include='all'))

                 id       idade         renda          cidade categoria  \
count   1000.000000  981.000000    986.000000             993       990   
unique          NaN         NaN           NaN               4         2   
top             NaN         NaN           NaN  Belo Horizonte         B   
freq            NaN         NaN           NaN             270       503   
mean     500.500000   43.054027   7170.179635             NaN       NaN   
std      288.819436   16.409496   3446.664173             NaN       NaN   
min        1.000000    1.000000    661.810000             NaN       NaN   
25%      250.750000   29.000000   4511.930000             NaN       NaN   
50%      500.500000   42.000000   7058.235000             NaN       NaN   
75%      750.250000   57.000000   9861.952500             NaN       NaN   
max     1000.000000  113.000000  29361.100000             NaN       NaN   

              nota feedback  
count   990.000000      985  
unique         NaN        3  
top      

In [7]:
print("\n### Contagem de valores ausentes ###")
print(df.isnull().sum())


### Contagem de valores ausentes ###
id            0
idade        19
renda        14
cidade        7
categoria    10
nota         10
feedback     15
dtype: int64


In [8]:
median_idade = df['idade'].median()
median_nota = df['nota'].median()
mean_renda = df['renda'].mean()

In [9]:
print(f"Mediada das Idades {median_idade}")
print(f"Mediada das Notas {median_nota}")
print(f"Valor médio das Rendas {mean_renda} - {mean_renda:.2f}")

Mediada das Idades 42.0
Mediada das Notas 5.2
Valor médio das Rendas 7170.179634888438 - 7170.18


In [10]:
df['idade'] = df['idade'].fillna(median_idade)
df['nota'] = df['nota'].fillna(median_nota)
df['renda'] = df['renda'].fillna(mean_renda)

In [11]:
df.head(10)

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,36.0,7038.01,Rio de Janeiro,A,2.9,Bom
1,2,42.0,9306.04,Belo Horizonte,B,5.1,Regular
2,3,35.0,5148.47,Vitória,B,9.4,Ruim
3,4,16.0,12597.91,Belo Horizonte,B,1.8,Regular
4,5,41.0,11057.24,Vitória,B,0.3,
5,6,51.0,6113.01,São Paulo,B,1.1,Regular
6,7,69.0,7170.179635,Belo Horizonte,B,6.4,Regular
7,8,31.0,4359.39,Vitória,B,1.8,Regular
8,9,41.0,10422.77,São Paulo,B,2.8,Ruim
9,10,40.0,9635.7,Vitória,B,9.9,Ruim


In [12]:
df['cidade'] = df['cidade'].fillna("Desconhecido")
df['feedback'] = df['feedback'].fillna("Desconhecido")

In [13]:
df[['cidade', 'feedback']].head(10)

Unnamed: 0,cidade,feedback
0,Rio de Janeiro,Bom
1,Belo Horizonte,Regular
2,Vitória,Ruim
3,Belo Horizonte,Regular
4,Vitória,Desconhecido
5,São Paulo,Regular
6,Belo Horizonte,Regular
7,Vitória,Regular
8,São Paulo,Ruim
9,Vitória,Ruim


In [14]:
print(df.isnull().sum())

id            0
idade         0
renda         0
cidade        0
categoria    10
nota          0
feedback      0
dtype: int64


In [15]:
Q1 = df['renda'].quantile(0.25)
Q3 = df['renda'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

In [16]:
print (f"\n\n\t IQR - Campo Renda\n\n")
print(f"Quartis -> Q1: {Q1:-8.2f}  ->  Q3: {Q3:-8.2f}")
print(f"IQR ----- {IQR}")
print(f"Limites - Inf: {limite_inferior:-8.2f}  -> Sup: {limite_superior:-8.2f}")
print(f"\n\n")



	 IQR - Campo Renda


Quartis -> Q1:  4538.67  ->  Q3:  9849.35
IQR ----- 5310.677500000002
Limites - Inf: -3427.35  -> Sup: 17815.36





In [17]:
outliers = df[(df['renda'] < limite_inferior) | (df['renda'] > limite_superior)]
print(f"\n### Possíveis outliers em 'renda' ###\n\n{outliers}\n")


### Possíveis outliers em 'renda' ###

      id  idade     renda          cidade categoria  nota feedback
307  308   12.0  24562.06         Vitória         B  14.8     Ruim
522  523   72.0  29361.10       São Paulo         B  10.7     Ruim
923  924    1.0  27037.94  Belo Horizonte         B  11.8  Regular



In [18]:
df_clean = df[(df['renda'] >= limite_inferior) & (df['renda'] <= limite_superior)].copy()

In [19]:
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 997 entries, 0 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         997 non-null    int64  
 1   idade      997 non-null    float64
 2   renda      997 non-null    float64
 3   cidade     997 non-null    object 
 4   categoria  987 non-null    object 
 5   nota       997 non-null    float64
 6   feedback   997 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 62.3+ KB


In [20]:
outliers_v2 = df_clean[(df_clean['renda'] < limite_inferior) | (df_clean['renda'] > limite_superior)]
print(f"\n### Possíveis outliers em 'renda' ###\n\n{outliers_v2}\n")


### Possíveis outliers em 'renda' ###

Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [21]:
df_encoded = pd.get_dummies(df, columns=['cidade','categoria','feedback'], drop_first=False)

In [22]:
df_encoded_v2 = pd.get_dummies(
    df, 
    columns=['cidade', 'categoria', 'feedback'], 
    drop_first=False,
    dtype=int  # Garante que os valores serão 0 ou 1 (int) em vez de True/False (bool)
)

In [23]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     1000 non-null   int64  
 1   idade                  1000 non-null   float64
 2   renda                  1000 non-null   float64
 3   nota                   1000 non-null   float64
 4   cidade_Belo Horizonte  1000 non-null   bool   
 5   cidade_Desconhecido    1000 non-null   bool   
 6   cidade_Rio de Janeiro  1000 non-null   bool   
 7   cidade_São Paulo       1000 non-null   bool   
 8   cidade_Vitória         1000 non-null   bool   
 9   categoria_A            1000 non-null   bool   
 10  categoria_B            1000 non-null   bool   
 11  feedback_Bom           1000 non-null   bool   
 12  feedback_Desconhecido  1000 non-null   bool   
 13  feedback_Regular       1000 non-null   bool   
 14  feedback_Ruim          1000 non-null   bool   
dtypes: bo

In [24]:
df_encoded_v2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     1000 non-null   int64  
 1   idade                  1000 non-null   float64
 2   renda                  1000 non-null   float64
 3   nota                   1000 non-null   float64
 4   cidade_Belo Horizonte  1000 non-null   int64  
 5   cidade_Desconhecido    1000 non-null   int64  
 6   cidade_Rio de Janeiro  1000 non-null   int64  
 7   cidade_São Paulo       1000 non-null   int64  
 8   cidade_Vitória         1000 non-null   int64  
 9   categoria_A            1000 non-null   int64  
 10  categoria_B            1000 non-null   int64  
 11  feedback_Bom           1000 non-null   int64  
 12  feedback_Desconhecido  1000 non-null   int64  
 13  feedback_Regular       1000 non-null   int64  
 14  feedback_Ruim          1000 non-null   int64  
dtypes: fl

In [25]:
df_encoded.head(15)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_São Paulo,cidade_Vitória,categoria_A,categoria_B,feedback_Bom,feedback_Desconhecido,feedback_Regular,feedback_Ruim
0,1,36.0,7038.01,2.9,False,False,True,False,False,True,False,True,False,False,False
1,2,42.0,9306.04,5.1,True,False,False,False,False,False,True,False,False,True,False
2,3,35.0,5148.47,9.4,False,False,False,False,True,False,True,False,False,False,True
3,4,16.0,12597.91,1.8,True,False,False,False,False,False,True,False,False,True,False
4,5,41.0,11057.24,0.3,False,False,False,False,True,False,True,False,True,False,False
5,6,51.0,6113.01,1.1,False,False,False,True,False,False,True,False,False,True,False
6,7,69.0,7170.179635,6.4,True,False,False,False,False,False,True,False,False,True,False
7,8,31.0,4359.39,1.8,False,False,False,False,True,False,True,False,False,True,False
8,9,41.0,10422.77,2.8,False,False,False,True,False,False,True,False,False,False,True
9,10,40.0,9635.7,9.9,False,False,False,False,True,False,True,False,False,False,True


In [26]:
df_encoded_v2.head(10)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_São Paulo,cidade_Vitória,categoria_A,categoria_B,feedback_Bom,feedback_Desconhecido,feedback_Regular,feedback_Ruim
0,1,36.0,7038.01,2.9,0,0,1,0,0,1,0,1,0,0,0
1,2,42.0,9306.04,5.1,1,0,0,0,0,0,1,0,0,1,0
2,3,35.0,5148.47,9.4,0,0,0,0,1,0,1,0,0,0,1
3,4,16.0,12597.91,1.8,1,0,0,0,0,0,1,0,0,1,0
4,5,41.0,11057.24,0.3,0,0,0,0,1,0,1,0,1,0,0
5,6,51.0,6113.01,1.1,0,0,0,1,0,0,1,0,0,1,0
6,7,69.0,7170.179635,6.4,1,0,0,0,0,0,1,0,0,1,0
7,8,31.0,4359.39,1.8,0,0,0,0,1,0,1,0,0,1,0
8,9,41.0,10422.77,2.8,0,0,0,1,0,0,1,0,0,0,1
9,10,40.0,9635.7,9.9,0,0,0,0,1,0,1,0,0,0,1


In [27]:
numeric_cols = ['idade', 'renda', 'nota']
scaler = StandardScaler()
df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])

In [28]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 15 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     1000 non-null   int64  
 1   idade                  1000 non-null   float64
 2   renda                  1000 non-null   float64
 3   nota                   1000 non-null   float64
 4   cidade_Belo Horizonte  1000 non-null   bool   
 5   cidade_Desconhecido    1000 non-null   bool   
 6   cidade_Rio de Janeiro  1000 non-null   bool   
 7   cidade_São Paulo       1000 non-null   bool   
 8   cidade_Vitória         1000 non-null   bool   
 9   categoria_A            1000 non-null   bool   
 10  categoria_B            1000 non-null   bool   
 11  feedback_Bom           1000 non-null   bool   
 12  feedback_Desconhecido  1000 non-null   bool   
 13  feedback_Regular       1000 non-null   bool   
 14  feedback_Ruim          1000 non-null   bool   
dtypes: bo

In [29]:
df_encoded.head(10)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_São Paulo,cidade_Vitória,categoria_A,categoria_B,feedback_Bom,feedback_Desconhecido,feedback_Regular,feedback_Ruim
0,1,-0.432989,-0.038638,-0.777409,False,False,True,False,False,True,False,True,False,False,False
1,2,-0.06365,0.62439,-0.024702,True,False,False,False,False,False,True,False,False,True,False
2,3,-0.494546,-0.591019,1.446498,False,False,False,False,True,False,True,False,False,False,True
3,4,-1.664121,1.586723,-1.153763,True,False,False,False,False,False,True,False,False,True,False
4,5,-0.125206,1.136329,-1.666972,False,False,False,False,True,False,True,False,True,False,False
5,6,0.49036,-0.309049,-1.393261,False,False,False,True,False,False,True,False,False,True,False
6,7,1.598379,0.0,0.420079,True,False,False,False,False,False,True,False,False,True,False
7,8,-0.740772,-0.821696,-1.153763,False,False,False,False,True,False,True,False,False,True,False
8,9,-0.125206,0.950851,-0.811623,False,False,False,True,False,False,True,False,False,False,True
9,10,-0.186763,0.720761,1.617567,False,False,False,False,True,False,True,False,False,False,True


In [30]:
df_encoded.to_csv('exemplo_dataset2_limpo.csv.gz', compression='gzip', index=False)

In [31]:
df_encoded.to_csv('exemplo_dataset2_limpo.csv', index=False)