In [1]:
#importar bibliotecas necessárias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt 
from sklearn.preprocessing import StandardScaler

In [2]:
 #ler csv
df=pd.read_csv('dataset_sudeste_realista_outliers-2k.csv')

In [3]:
df.head(40) #mostrar primeiras 40 linhas

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,16.0,42455.22,Belo Horizonte,B,7.6,Bom
1,2,62.0,43551.51,Belo Horizonte,B,5.1,Bom
2,3,44.0,18124.62,Rio de Janeiro,B,8.9,Bom
3,4,53.0,35339.45,São Paulo,B,5.3,Bom
4,5,,37560.7,São Paulo,A,7.0,Bom
5,6,25.0,29344.5,Vitória,A,8.7,Bom
6,7,49.0,20612.81,São Paulo,B,8.5,Bom
7,8,61.0,1744.18,São Paulo,B,7.3,Bom
8,9,48.0,44460.52,Vitória,A,9.8,Bom
9,10,74.0,45709.95,Belo Horizonte,B,7.9,Bom


In [4]:
#informações geriais, é possivel ver os tipos de dados, total de colunas, quantos valores não nulos 
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2000 entries, 0 to 1999
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         2000 non-null   int64  
 1   idade      1974 non-null   float64
 2   renda      1984 non-null   float64
 3   cidade     1983 non-null   object 
 4   categoria  1980 non-null   object 
 5   nota       1981 non-null   float64
 6   feedback   1923 non-null   object 
dtypes: float64(3), int64(1), object(3)
memory usage: 109.5+ KB


In [5]:
df.describe() #Informações estatísticas

Unnamed: 0,id,idade,renda,nota
count,2000.0,1974.0,1984.0,1981.0
mean,1000.5,49.04002,23937.121759,7.414791
std,577.494589,19.618147,13232.070647,1.514425
min,1.0,5.0,498.47,0.6
25%,500.75,32.0,12854.965,6.2
50%,1000.5,49.0,23666.495,7.4
75%,1500.25,66.0,34800.2025,8.6
max,2000.0,120.0,88262.74,10.0


In [6]:
df.describe(include='all') #descrição com mais detalhes

Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
count,2000.0,1974.0,1984.0,1983,1980,1981.0,1923
unique,,,,4,2,,1
top,,,,Vitória,B,,Bom
freq,,,,529,998,,1923
mean,1000.5,49.04002,23937.121759,,,7.414791,
std,577.494589,19.618147,13232.070647,,,1.514425,
min,1.0,5.0,498.47,,,0.6,
25%,500.75,32.0,12854.965,,,6.2,
50%,1000.5,49.0,23666.495,,,7.4,
75%,1500.25,66.0,34800.2025,,,8.6,


In [7]:
#contar valores nulos 
df.isnull().sum()

id            0
idade        26
renda        16
cidade       17
categoria    20
nota         19
feedback     77
dtype: int64

In [8]:
#utlizando métodos pandas para achar as medidas estatísticas
mediana_idade = df['idade'].median()
mediana_nota = df['nota'].median()
mediana_renda = df['renda'].median()
media_renda = df['renda'].mean()


print(f'Mediana das idades {mediana_idade}')
print(f'Mediana das Notas {mediana_nota}')
print(f'Mediana das rendas {mediana_renda}')
print(f'valor medio das rendas {media_renda:.4f}')

Mediana das idades 49.0
Mediana das Notas 7.4
Mediana das rendas 23666.495
valor medio das rendas 23937.1218


In [9]:
#Calculo IQRe outliers para renda, idade e nota

Q1_renda = df['renda'].quantile(0.25)
Q3_renda = df['renda'].quantile(0.75)
IQR_renda = Q3_renda - Q1_renda
limite_inferior_renda = Q1_renda - 1.5 * IQR_renda
limite_superior_renda = Q3_renda + 1.5 * IQR_renda

outliers_renda=df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]

#---------------------------------------------------------

Q1_idade = df['idade'].quantile(0.25)
Q3_idade = df['idade'].quantile(0.75)
IQR_idade = Q3_idade - Q1_idade
limite_inferior_idade = Q1_idade - 1.5 * IQR_idade
limite_superior_idade = Q3_idade + 1.5 * IQR_idade

outliers_idade=df[(df['idade'] < limite_inferior_idade) | (df['idade'] > limite_superior_idade)]

#---------------------------------------------------------
Q1_nota = df['nota'].quantile(0.25)
Q3_nota = df['nota'].quantile(0.75)
IQR_nota = Q3_nota - Q1_nota
limite_inferior_nota = Q1_nota - 1.5 * IQR_nota
limite_superior_nota = Q3_nota + 1.5 * IQR_nota

outliers_nota=df[(df['nota'] < limite_inferior_nota) | (df['nota'] > limite_superior_nota)]

print(f'\n\n\t Calculo de IQR e Outliers \n\n')
print(f'\n\t IQR - Campo Renda \n')
print(f'IQR ----------- {IQR_renda:.2f}')
print(f'Quartis -- Q1:  {Q1_renda:-8.2f}   -> Q3: {Q3_renda:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_renda:-5.2f}  -> Sup: {limite_superior_renda:-8.2f}')
print(f'\nPossíveis outliers em "renda":\n{outliers_renda}\n')


print(f'\n\t IQR - Campo Idade \n')
print(f'IQR ----------- {IQR_idade:.2f}')
print(f'Quartis -- Q1: {Q1_idade:-6.2f}   -> Q3: {Q3_idade:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_idade:-5.2f}  -> Sup: {limite_superior_idade:-7.2f}')
print(f'\nPossíveis outliers em "idade":\n{outliers_idade}\n')


print(f'\n\t IQR - Campo Nota \n')
print(f'IQR ----------- {IQR_nota:.2f}')
print(f'Quartis -- Q1: {Q1_nota:-5.2f}   -> Q3: {Q3_nota:-8.2f}')
print(f'Limites -- Inf: {limite_inferior_nota:-5.2f}  -> Sup: {limite_superior_nota:-7.2f}')
print(f'\nPossíveis outliers em "nota": \n{outliers_nota}\n')






	 Calculo de IQR e Outliers 



	 IQR - Campo Renda 

IQR ----------- 21945.24
Quartis -- Q1:  12854.97   -> Q3: 34800.20
Limites -- Inf: -20062.89  -> Sup: 67718.06

Possíveis outliers em "renda":
        id  idade     renda          cidade categoria  nota feedback
71      72    7.0  88262.74         Vitória         A   1.5      Bom
475    476  110.0  81814.80  Rio de Janeiro         A   1.3      Bom
542    543   14.0  76311.56         Vitória         B   1.5      Bom
1920  1921   92.0  79448.55  Belo Horizonte         A   1.7      Bom


	 IQR - Campo Idade 

IQR ----------- 34.00
Quartis -- Q1:  32.00   -> Q3:    66.00
Limites -- Inf: -19.00  -> Sup:  117.00

Possíveis outliers em "idade":
        id  idade    renda          cidade categoria  nota feedback
809    810  120.0  1475.98  Rio de Janeiro         A   1.9      Bom
1695  1696  119.0   694.80  Belo Horizonte         A   2.1      Bom


	 IQR - Campo Nota 

IQR ----------- 2.40
Quartis -- Q1:  6.20   -> Q3:     8.60
Limites --

In [10]:
df.loc[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda), 'renda'] = mediana_renda

In [11]:
outliers_renda=df[(df['renda'] < limite_inferior_renda) | (df['renda'] > limite_superior_renda)]
print(f'\nOutliers em "renda":\n{outliers_renda}\n')



Outliers em "renda":
Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []

