In [1]:
#importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
from sklearn.preprocessing import StandardScaler

In [2]:
 #ler csv
df=pd.read_csv('dataset_sudeste_simples_realista_outliers-1k.csv')

In [3]:
df.head(40) #mostrar primeiras 40 linhas

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,65.0,8912.27,Belo Horizonte,B,,Bom
1,2,51.0,2668.9,Belo Horizonte,B,0.6,Ruim
2,3,35.0,,Vitória,B,4.4,Regular
3,4,45.0,3417.56,São Paulo,B,1.3,Bom
4,5,56.0,7536.57,Rio de Janeiro,A,8.6,
5,6,53.0,7825.52,São Paulo,B,8.2,Regular
6,7,28.0,3045.86,Belo Horizonte,B,3.8,Regular
7,8,20.0,9873.58,Rio de Janeiro,B,4.6,Bom
8,9,21.0,3103.06,Vitória,B,8.0,Regular
9,10,56.0,7666.91,Belo Horizonte,A,9.2,Bom


In [4]:
#informações geriais, é possivel ver os tipos de dados, total de colunas, quantos valores não nulos 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         1000 non-null   int64  
 1   idade      993 non-null    float64
 2   renda      990 non-null    float64
 3   cidade     992 non-null    object 
 4   categoria  990 non-null    object 
 5   nota       986 non-null    float64
 6   feedback   992 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 54.8+ KB


In [5]:
df.describe() #Informações estatísticas

Unnamed: 0,id,idade,renda,nota
count,1000.0,993.0,990.0,986.0
mean,500.5,42.886203,7213.230515,5.136207
std,288.819436,16.023802,4092.152138,2.895801
min,1.0,3.0,473.61,-3.6
25%,250.75,29.0,3792.745,2.8
50%,500.5,43.0,7158.405,5.2
75%,750.25,56.0,10340.9975,7.4
max,1000.0,120.0,45312.73,12.7


In [6]:
df.describe(include='all') #descrição com mais detalhes

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
count,1000.0,993.0,990.0,992,990,986.0,992
unique,,,,4,2,,3
top,,,,Belo Horizonte,A,,Ruim
freq,,,,273,516,,336
mean,500.5,42.886203,7213.230515,,,5.136207,
std,288.819436,16.023802,4092.152138,,,2.895801,
min,1.0,3.0,473.61,,,-3.6,
25%,250.75,29.0,3792.745,,,2.8,
50%,500.5,43.0,7158.405,,,5.2,
75%,750.25,56.0,10340.9975,,,7.4,


In [7]:
#contar valores nulos 
df.isnull().sum()

id            0
idade         7
renda        10
cidade        8
categoria    10
nota         14
feedback      8
dtype: int64

In [8]:
#utlizando métodos pandas para achar as medidas estatísticas
mediana_idade = df['idade'].median()
mediana_nota = df['nota'].median()
mediana_renda = df['renda'].median()
media_renda = df['renda'].mean()


print(f'Mediana das idades {mediana_idade}')
print(f'Mediana das Notas {mediana_nota}')
print(f'Mediana das rendas {mediana_renda}')
print(f'valor medio das rendas {media_renda:.4f}')

Mediana das idades 43.0
Mediana das Notas 5.2
Mediana das rendas 7158.405
valor medio das rendas 7213.2305


In [9]:
#Calculo IQRe outliers para renda, idade e nota

Q1_renda = df['renda'].quantile(0.25)
Q3_renda = df['renda'].quantile(0.75)
IQR_renda = Q3_renda - Q1_renda
limite_inferior_renda = Q1_renda - 1.5 * IQR_renda
limite_superior_renda = Q3_renda + 1.5 * IQR_renda

outliers_renda=df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]

#---------------------------------------------------------

Q1_idade = df['idade'].quantile(0.25)
Q3_idade = df['idade'].quantile(0.75)
IQR_idade = Q3_idade - Q1_idade
limite_inferior_idade = Q1_idade - 1.5 * IQR_idade
limite_superior_idade = Q3_idade + 1.5 * IQR_idade

outliers_idade=df[(df['idade'] < limite_inferior_idade) | (df['idade'] > limite_superior_idade)]

#---------------------------------------------------------
Q1_nota = df['nota'].quantile(0.25)
Q3_nota = df['nota'].quantile(0.75)
IQR_nota = Q3_nota - Q1_nota
limite_inferior_nota = Q1_nota - 1.5 * IQR_nota
limite_superior_nota = Q3_nota + 1.5 * IQR_nota

outliers_nota=df[(df['nota'] < limite_inferior_nota) | (df['nota'] > limite_superior_nota)]

print(f'\n\n\t Calculo de IQR e Outliers \n\n')
print(f'\n\t IQR - Campo Renda \n')
print(f'IQR ----------- {IQR_renda:.2f}')
print(f'Quartis -- Q1:  {Q1_renda:-8.2f}   -> Q3: {Q3_renda:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_renda:-5.2f}  -> Sup: {limite_superior_renda:-8.2f}')
print(f'\nPossíveis outliers em "renda":\n{outliers_renda}\n')


print(f'\n\t IQR - Campo Idade \n')
print(f'IQR ----------- {IQR_idade:.2f}')
print(f'Quartis -- Q1: {Q1_idade:-6.2f}   -> Q3: {Q3_idade:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_idade:-5.2f}  -> Sup: {limite_superior_idade:-7.2f}')
print(f'\nPossíveis outliers em "idade":\n{outliers_idade}\n')


print(f'\n\t IQR - Campo Nota \n')
print(f'IQR ----------- {IQR_nota:.2f}')
print(f'Quartis -- Q1: {Q1_nota:-5.2f}   -> Q3: {Q3_nota:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_nota:-5.2f}  -> Sup: {limite_superior_nota:-7.2f}')
print(f'\nPossíveis outliers em "nota": \n{outliers_nota}\n')






	 Calculo de IQR e Outliers 



	 IQR - Campo Renda 

IQR ----------- 6548.25
Quartis -- Q1:   3792.74   -> Q3: 10341.00
Limites -- Inf: -6029.63  -> Sup: 20163.38

Possíveis outliers em "renda":
      id  idade     renda          cidade categoria  nota feedback
334  335    4.0  45312.73  Belo Horizonte         A  11.1  Regular
702  703    8.0  26964.82       São Paulo         B  -3.6     Ruim
714  715    7.0  36505.96         Vitória         A  -1.2      Bom
849  850   10.0  33199.49         Vitória         A  11.8  Regular
888  889   11.0  32115.54         Vitória         A  -2.3  Regular
914  915  120.0  21792.73       São Paulo         B  12.5      Bom


	 IQR - Campo Idade 

IQR ----------- 27.00
Quartis -- Q1:  29.00   -> Q3:    56.00
Limites -- Inf: -11.50  -> Sup:   96.50

Possíveis outliers em "idade":
      id  idade     renda     cidade categoria  nota feedback
834  835  104.0  19427.42  São Paulo         B  -3.6     Ruim
914  915  120.0  21792.73  São Paulo         B  12.

In [10]:
df.loc[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda), 'renda'] = mediana_renda

In [11]:
outliers_renda=df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]
print(f'\nOutliers em "renda":\n{outliers_renda}\n')



Outliers em "renda":
Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [12]:
# Codificação das colunas categóricas 'cidade', 'categoria' e 'feedback' com get.dummies .
# transforma cada categoria distinta em uma nova coluna binária,
# facilitando a análise e uso desses dados em modelos estatísticos e de machine learning.
# O parâmetro drop_first=False garante que todas as categorias sejam mantidas (sem exclusão da primeira)
#dtype=int  # Garante que os valores serão 0 ou 1 (int) em vez de True/False (bool)
df_encoded = pd.get_dummies(df, columns=['cidade','feedback'], drop_first=False, dtype=int)

In [13]:
df_encoded.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   id                     1000 non-null   int64  
 1   idade                  993 non-null    float64
 2   renda                  990 non-null    float64
 3   categoria              990 non-null    object 
 4   nota                   986 non-null    float64
 5   cidade_Belo Horizonte  1000 non-null   int64  
 6   cidade_Rio de Janeiro  1000 non-null   int64  
 7   cidade_São Paulo       1000 non-null   int64  
 8   cidade_Vitória         1000 non-null   int64  
 9   feedback_Bom           1000 non-null   int64  
 10  feedback_Regular       1000 non-null   int64  
 11  feedback_Ruim          1000 non-null   int64  
dtypes: float64(3), int64(8), object(1)
memory usage: 93.9+ KB


In [14]:
# lista com os nomes das colunas numéricas que queremos padronizar (normalizar):
numeric_cols = ['idade', 'renda', 'nota']

In [15]:
# Criamos um objeto StandardScaler, que vai aplicar a padronização: transformar os dados para que
# tenham média 0 e desvio padrão 1.
scaler = StandardScaler()

In [16]:
# Aplicamos a padronização nas colunas numéricas do DataFrame 'df_encoded'. O método fit_transform
# calcula a média e o desvio padrão de cada coluna e transforma os valores para a escala padronizada.
# Substituímos as colunas originais pelas colunas padronizadas.
df_encoded[numeric_cols] = scaler.fit_transform(df_encoded[numeric_cols])

In [17]:
df_encoded[numeric_cols].head(10)

Unnamed: 0,idade,renda,nota
0,1.380755,0.525208,
1,0.506614,-1.243891,-1.567272
2,-0.492404,,-0.254362
3,0.131983,-1.031753,-1.32542
4,0.818807,0.135395,1.19675
5,0.631491,0.217271,1.058549
6,-0.929474,-1.137077,-0.461663
7,-1.428983,0.797602,-0.185261
8,-1.366544,-1.120869,0.989449
9,0.818807,0.172328,1.404052


In [18]:
df_encoded.head(10)

Unnamed: 0,id,idade,renda,categoria,nota,cidade_Belo Horizonte,cidade_Rio de Janeiro,cidade_São Paulo,cidade_Vitória,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,1.380755,0.525208,B,,1,0,0,0,1,0,0
1,2,0.506614,-1.243891,B,-1.567272,1,0,0,0,0,0,1
2,3,-0.492404,,B,-0.254362,0,0,0,1,0,1,0
3,4,0.131983,-1.031753,B,-1.32542,0,0,1,0,1,0,0
4,5,0.818807,0.135395,A,1.19675,0,1,0,0,0,0,0
5,6,0.631491,0.217271,B,1.058549,0,0,1,0,0,1,0
6,7,-0.929474,-1.137077,B,-0.461663,1,0,0,0,0,1,0
7,8,-1.428983,0.797602,B,-0.185261,0,1,0,0,1,0,0
8,9,-1.366544,-1.120869,B,0.989449,0,0,0,1,0,1,0
9,10,0.818807,0.172328,A,1.404052,1,0,0,0,1,0,0
