In [1]:
#importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
from sklearn.preprocessing import StandardScaler

In [2]:
 #ler csv
df=pd.read_csv('dataset_sudeste_simples_realista_outliers-2k.csv')

In [3]:
df.head(40) #mostrar primeiras 40 linhas

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,48.0,11115.8,Rio de Janeiro,B,1.9,Bom
1,2,23.0,6027.95,Belo Horizonte,A,3.3,Regular
2,3,37.0,7350.94,Rio de Janeiro,B,5.7,Regular
3,4,40.0,9471.62,São Paulo,A,1.6,Ruim
4,5,49.0,12265.85,São Paulo,A,5.5,Bom
5,6,28.0,3795.6,Rio de Janeiro,A,3.1,Bom
6,7,17.0,12115.32,Belo Horizonte,B,10.0,Regular
7,8,31.0,3474.64,São Paulo,B,2.9,Ruim
8,9,30.0,5045.89,Vitória,B,3.4,Bom
9,10,59.0,11073.48,São Paulo,A,7.5,Regular


In [4]:
#informações geriais, é possivel ver os tipos de dados, total de colunas, quantos valores não nulos 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         2000 non-null   int64  
 1   idade      1978 non-null   float64
 2   renda      1986 non-null   float64
 3   cidade     1980 non-null   object 
 4   categoria  1977 non-null   object 
 5   nota       1981 non-null   float64
 6   feedback   1976 non-null   object 
dtypes: float64(3), int64(1), object(3)
memory usage: 109.5+ KB


In [5]:
df.describe() #Informações estatísticas

Unnamed: 0,id,idade,renda,nota
count,2000.0,1978.0,1986.0,1981.0
mean,1000.5,42.704752,7339.95861,4.909389
std,577.494589,16.3933,3693.464164,2.913917
min,1.0,1.0,516.12,-4.8
25%,500.75,29.0,4348.6025,2.4
50%,1000.5,43.0,7406.215,4.9
75%,1500.25,56.0,10169.0575,7.4
max,2000.0,120.0,46259.97,15.0


In [6]:
df.describe(include='all') #descrição com mais detalhes

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
count,2000.0,1978.0,1986.0,1980,1977,1981.0,1976
unique,,,,4,2,,3
top,,,,Rio de Janeiro,A,,Regular
freq,,,,507,1006,,675
mean,1000.5,42.704752,7339.95861,,,4.909389,
std,577.494589,16.3933,3693.464164,,,2.913917,
min,1.0,1.0,516.12,,,-4.8,
25%,500.75,29.0,4348.6025,,,2.4,
50%,1000.5,43.0,7406.215,,,4.9,
75%,1500.25,56.0,10169.0575,,,7.4,


In [7]:
#contar valores nulos 
df.isnull().sum()

id            0
idade        22
renda        14
cidade       20
categoria    23
nota         19
feedback     24
dtype: int64

In [8]:
#utlizando métodos pandas para achar as medidas estatísticas
mediana_idade = df['idade'].median()
mediana_nota = df['nota'].median()
mediana_renda = df['renda'].median()
media_renda = df['renda'].mean()


print(f'Mediana das idades {mediana_idade}')
print(f'Mediana das Notas {mediana_nota}')
print(f'Mediana das rendas {mediana_renda}')
print(f'valor medio das rendas {media_renda:.4f}')

Mediana das idades 43.0
Mediana das Notas 4.9
Mediana das rendas 7406.215
valor medio das rendas 7339.9586


In [9]:
#Calculo IQRe outliers para renda, idade e nota

Q1_renda = df['renda'].quantile(0.25)
Q3_renda = df['renda'].quantile(0.75)
IQR_renda = Q3_renda - Q1_renda
limite_inferior_renda = Q1_renda - 1.5 * IQR_renda
limite_superior_renda = Q3_renda + 1.5 * IQR_renda

outliers_renda=df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]

#---------------------------------------------------------

Q1_idade = df['idade'].quantile(0.25)
Q3_idade = df['idade'].quantile(0.75)
IQR_idade = Q3_idade - Q1_idade
limite_inferior_idade = Q1_idade - 1.5 * IQR_idade
limite_superior_idade = Q3_idade + 1.5 * IQR_idade

outliers_idade=df[(df['idade'] < limite_inferior_idade) | (df['idade'] > limite_superior_idade)]

#---------------------------------------------------------
Q1_nota = df['nota'].quantile(0.25)
Q3_nota = df['nota'].quantile(0.75)
IQR_nota = Q3_nota - Q1_nota
limite_inferior_nota = Q1_nota - 1.5 * IQR_nota
limite_superior_nota = Q3_nota + 1.5 * IQR_nota

outliers_nota=df[(df['nota'] < limite_inferior_nota) | (df['nota'] > limite_superior_nota)]

print(f'\n\n\t Calculo de IQR e Outliers \n\n')
print(f'\n\t IQR - Campo Renda \n')
print(f'IQR ----------- {IQR_renda:.2f}')
print(f'Quartis -- Q1:  {Q1_renda:-8.2f}   -> Q3: {Q3_renda:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_renda:-5.2f}  -> Sup: {limite_superior_renda:-8.2f}')
print(f'\nPossíveis outliers em "renda":\n{outliers_renda}\n')


print(f'\n\t IQR - Campo Idade \n')
print(f'IQR ----------- {IQR_idade:.2f}')
print(f'Quartis -- Q1: {Q1_idade:-6.2f}   -> Q3: {Q3_idade:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_idade:-5.2f}  -> Sup: {limite_superior_idade:-7.2f}')
print(f'\nPossíveis outliers em "idade":\n{outliers_idade}\n')


print(f'\n\t IQR - Campo Nota \n')
print(f'IQR ----------- {IQR_nota:.2f}')
print(f'Quartis -- Q1: {Q1_nota:-5.2f}   -> Q3: {Q3_nota:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_nota:-5.2f}  -> Sup: {limite_superior_nota:-7.2f}')
print(f'\nPossíveis outliers em "nota": \n{outliers_nota}\n')






	 Calculo de IQR e Outliers 



	 IQR - Campo Renda 

IQR ----------- 5820.46
Quartis -- Q1:   4348.60   -> Q3: 10169.06
Limites -- Inf: -4382.08  -> Sup: 18899.74

Possíveis outliers em "renda":
        id  idade     renda          cidade categoria  nota feedback
447    448    4.0  35797.63       São Paulo         A  15.0      Bom
775    776  103.0  30761.69       São Paulo         A  -0.9      Bom
907    908   95.0  46259.97       São Paulo         B  14.8     Ruim
1377  1378   97.0  43668.12  Rio de Janeiro         B  -1.2  Regular
1841  1842  106.0  25696.03  Rio de Janeiro         A  11.2  Regular
1917  1918    8.0  23058.03         Vitória         B  10.3      Bom


	 IQR - Campo Idade 

IQR ----------- 27.00
Quartis -- Q1:  29.00   -> Q3:    56.00
Limites -- Inf: -11.50  -> Sup:   96.50

Possíveis outliers em "idade":
        id  idade     renda          cidade categoria  nota feedback
358    359  106.0  16350.65             NaN         B  -3.6      Bom
775    776  103.0  3076

In [10]:
df.loc[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda), 'renda'] = mediana_renda

In [11]:
outliers_renda=df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]
print(f'\nOutliers em "renda":\n{outliers_renda}\n')



Outliers em "renda":
Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [12]:
# Codificação das colunas categóricas 'cidade', 'categoria' e 'feedback' com get.dummies .
# transforma cada categoria distinta em uma nova coluna binária,
# facilitando a análise e uso desses dados em modelos estatísticos e de machine learning.
# O parâmetro drop_first=False garante que todas as categorias sejam mantidas (sem exclusão da primeira)
#dtype=int  # Garante que os valores serão 0 ou 1 (int) em vez de True/False (bool)
df_encoded = pd.get_dummies(df, columns=['cidade','feedback'], drop_first=False, dtype=int)

df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     2000 non-null   int64  
 1   idade                  1978 non-null   float64
 2   renda                  1986 non-null   float64
 3   categoria              1977 non-null   object 
 4   nota                   1981 non-null   float64
 5   cidade_Belo Horizonte  2000 non-null   int64  
 6   cidade_Rio de Janeiro  2000 non-null   int64  
 7   cidade_São Paulo       2000 non-null   int64  
 8   cidade_Vitória         2000 non-null   int64  
 9   feedback_Bom           2000 non-null   int64  
 10  feedback_Regular       2000 non-null   int64  
 11  feedback_Ruim          2000 non-null   int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 187.6+ KB


In [13]:

# Criamos um objeto StandardScaler, que vai aplicar a padronização: transformar os dados para que
# tenham média 0 e desvio padrão 1.
scaler = StandardScaler()

# lista com os nomes das colunas numéricas que queremos padronizar (normalizar):
numeric_cols = ['idade', 'renda', 'nota']

In [14]:
# Aplicamos a padronização nas colunas numéricas do DataFrame 'df_encoded'. O método fit_transform
# calcula a média e o desvio padrão de cada coluna e transforma os valores para a escala padronizada.
# Substituímos as colunas originais pelas colunas padronizadas.
df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])
df_encoded[numeric_cols].head(10)

Unnamed: 0,idade,renda,nota
0,0.323095,1.151263,-1.033025
1,-1.202304,-0.367467,-0.552451
2,-0.348081,0.027447,0.271391
3,-0.165033,0.660473,-1.136005
4,0.384111,1.494554,0.202737
5,-0.897224,-1.033826,-0.621104
6,-1.5684,1.449621,1.74744
7,-0.714177,-1.129633,-0.689758
8,-0.775193,-0.660613,-0.518124
9,0.99427,1.13863,0.889272


In [15]:
df_encoded.head(10)

Unnamed: 0,id,idade,renda,categoria,nota,cidade_Belo Horizonte,cidade_Rio de Janeiro,cidade_São Paulo,cidade_Vitória,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,0.323095,1.151263,B,-1.033025,0,1,0,0,1,0,0
1,2,-1.202304,-0.367467,A,-0.552451,1,0,0,0,0,1,0
2,3,-0.348081,0.027447,B,0.271391,0,1,0,0,0,1,0
3,4,-0.165033,0.660473,A,-1.136005,0,0,1,0,0,0,1
4,5,0.384111,1.494554,A,0.202737,0,0,1,0,1,0,0
5,6,-0.897224,-1.033826,A,-0.621104,0,1,0,0,1,0,0
6,7,-1.5684,1.449621,B,1.74744,1,0,0,0,0,1,0
7,8,-0.714177,-1.129633,B,-0.689758,0,0,1,0,0,0,1
8,9,-0.775193,-0.660613,B,-0.518124,0,0,0,1,1,0,0
9,10,0.99427,1.13863,A,0.889272,0,0,1,0,0,1,0
