# 1. Carregamento das Bibliotecas

In [5]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler

# 2. Carregamento do Dataset 

In [6]:
df = pd.read_csv("exemplo_dataset2.csv")

# 3. Display do Dataset

## 3.1 - Listando as colunas

In [7]:
df.columns.tolist()

['id', 'idade', 'renda', 'cidade', 'categoria', 'nota', 'feedback']

## 3.2 - Listando informações gerais

In [8]:
print("### Informações gerais do Dataset ###")
df.info()

### Informações gerais do Dataset ###
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 50 entries, 0 to 49
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         50 non-null     int64  
 1   idade      48 non-null     float64
 2   renda      49 non-null     float64
 3   cidade     45 non-null     object 
 4   categoria  50 non-null     object 
 5   nota       47 non-null     float64
 6   feedback   50 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 2.9+ KB


## 3.3 Listando as primeiras 10 linhas do dataset

In [11]:
print("### Exibindo as primeiras 10 linhas do dataset ###")
df.head(10)

### Exibindo as primeiras 10 linhas do dataset ###


Unnamed: 0,id,idade,renda,cidade,categoria,nota,feedback
0,1,30.0,1200.0,Sao Paulo,A,8.5,Bom
1,2,45.0,2500.0,Rio de Janeiro,B,7.0,Regular
2,3,29.0,1200.0,Belo Horizonte,A,5.5,Bom
3,4,55.0,3000.0,Salvador,B,,Ruim
4,5,40.0,2100.0,Sao Paulo,A,9.0,Bom
5,6,23.0,900.0,,B,7.5,Ruim
6,7,35.0,1800.0,Rio de Janeiro,B,6.8,Regular
7,8,38.0,2500.0,Belo Horizonte,A,8.2,Bom
8,9,29.0,1500.0,Salvador,B,7.1,Regular
9,10,50.0,2800.0,Sao Paulo,A,8.7,Bom


## 3.4 Informações Estatísticas do Dataset

In [12]:
print("\n### Descrição Estatística ###")
print(df.describe())


### Descrição Estatística ###
             id      idade        renda       nota
count  50.00000  48.000000    49.000000  47.000000
mean   25.50000  38.208333  2253.265306   7.348936
std    14.57738  10.671015  1108.351606   1.308479
min     1.00000  20.000000   900.000000   4.300000
25%    13.25000  28.750000  1500.000000   6.500000
50%    25.50000  38.000000  2100.000000   7.500000
75%    37.75000  45.250000  2800.000000   8.250000
max    50.00000  60.000000  6000.000000   9.500000


In [15]:
#Informações estatísticas completas
print(df.describe(include='all'))

              id      idade        renda     cidade categoria       nota  \
count   50.00000  48.000000    49.000000         45        50  47.000000   
unique       NaN        NaN          NaN          4         2        NaN   
top          NaN        NaN          NaN  Sao Paulo         A        NaN   
freq         NaN        NaN          NaN         14        25        NaN   
mean    25.50000  38.208333  2253.265306        NaN       NaN   7.348936   
std     14.57738  10.671015  1108.351606        NaN       NaN   1.308479   
min      1.00000  20.000000   900.000000        NaN       NaN   4.300000   
25%     13.25000  28.750000  1500.000000        NaN       NaN   6.500000   
50%     25.50000  38.000000  2100.000000        NaN       NaN   7.500000   
75%     37.75000  45.250000  2800.000000        NaN       NaN   8.250000   
max     50.00000  60.000000  6000.000000        NaN       NaN   9.500000   

       feedback  
count        50  
unique        3  
top         Bom  
freq         23

## 3.5 - Contagem de dados nulos do dataset

In [16]:
print("\n### Contagem de dados nulos/ausentes ###")
print(df.isnull().sum())


### Contagem de dados nulos/ausentes ###
id           0
idade        2
renda        1
cidade       5
categoria    0
nota         3
feedback     0
dtype: int64


# 4. Calculando as primeiras informações estatísticas

## 4.1 - Média e mediana dos dados

In [18]:
median_idade=df['idade'].median()
median_nota=df['nota'].median()
mean_renda=df['renda'].mean()

In [21]:
print(f'Mediana das Idades: {median_idade:.4f}')
print(f'Mediana das Notas: {median_nota:.4f}')
print(f'Média das Rendas: {mean_renda:.4f}')

Mediana das Idades: 38.0000
Mediana das Notas: 7.5000
Média das Rendas: 2253.2653


## 4.2 - Atualizando o dataset com os valores calculados

In [23]:
df['idade']=df['idade'].fillna(median_idade)
df['nota']=df['nota'].fillna(median_nota)
df['renda']=df['renda'].fillna(mean_renda)

## 4.3 - Preenchendo os campos vazios não-numéricos

In [26]:
cols_preencher=['cidade','feedback']
df[cols_preencher]=df[cols_preencher].fillna('Desconhecido')

In [27]:
df[['cidade','feedback']].head(10)

Unnamed: 0,cidade,feedback
0,Sao Paulo,Bom
1,Rio de Janeiro,Regular
2,Belo Horizonte,Bom
3,Salvador,Ruim
4,Sao Paulo,Bom
5,Desconhecido,Ruim
6,Rio de Janeiro,Regular
7,Belo Horizonte,Bom
8,Salvador,Regular
9,Sao Paulo,Bom


### Verificando se ainda existem dados nulos

In [29]:
print("\n### Contagem de dados nulos/ausentes ###")
print(df.isnull().sum())


### Contagem de dados nulos/ausentes ###
id           0
idade        0
renda        0
cidade       0
categoria    0
nota         0
feedback     0
dtype: int64


# 5. Detecção e tratamento de outliers

## 5.1 - Calculando o intervalo interquartil (IQR) e limites inferior e superior

In [30]:
#Cálculo do IQR e identificando os limites para o cmapo renda
Q1 = df['renda'].quantile(0.25)
Q3 = df['renda'].quantile(0.75)
IQR=Q3-Q1
limite_inferior=Q1-1.5*IQR
limite_superior=Q3+1.5*IQR


In [33]:
print(f'\n\n\t IQR - Campo Renda\n\n')
print(f'Quartis -  Q1: {Q1:-8.2f} -  Q3: {Q3:-8.2f}')
print(f'IQR ----- {IQR}')
print(f'Limites - Inf: {limite_inferior:-8.2f} - Sup: {limite_superior:-8.2f}')
print(f'\n\n')




	 IQR - Campo Renda


Quartis -  Q1:  1500.00 -  Q3:  2775.00
IQR ----- 1275.0
Limites - Inf:  -412.50 - Sup:  4687.50





## 5.2 - Identificando os outliers

In [36]:
outliers = df[(df['renda'] < limite_inferior) | (df['renda'] > limite_superior)]
print(f'\n### Possíveis outliers em "renda" ###\n\n{outliers}\n')


### Possíveis outliers em "renda" ###

    id  idade   renda     cidade categoria  nota feedback
23  24   60.0  5800.0  Sao Paulo         A   9.1      Bom
27  28   58.0  6000.0   Salvador         A   8.3      Bom



## 5.3 - Remoção de Outliers

In [42]:
## Criar um dataset 'limpo' para avaliar o impacto da remoção dos outliers
df_clean = df[(df['renda'] >= limite_inferior) & (df['renda'] <= limite_superior)].copy()

In [43]:
#Confirmando a remoção dos outliers: entradas caíram de 50 para 48
df_clean.info()

<class 'pandas.core.frame.DataFrame'>
Index: 48 entries, 0 to 49
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         48 non-null     int64  
 1   idade      48 non-null     float64
 2   renda      48 non-null     float64
 3   cidade     48 non-null     object 
 4   categoria  48 non-null     object 
 5   nota       48 non-null     float64
 6   feedback   48 non-null     object 
dtypes: float64(3), int64(1), object(3)
memory usage: 3.0+ KB


In [44]:
##Verificando novamente os outliers
outliers_v2 = df_clean[(df_clean['renda'] < limite_inferior) | (df_clean['renda'] > limite_superior)]
print(f'\n### Possíveis outliers em "renda" após a remoção dos outliers ###\n\n{outliers_v2}\n')


### Possíveis outliers em "renda" após a remoção dos outliers ###

Empty DataFrame
Columns: [id, idade, renda, cidade, categoria, nota, feedback]
Index: []



In [45]:
df_encoded=pd.get_dummies(df,columns=['cidade','categoria','feedback'],drop_first=False)
df_encoded.head(5)

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_Salvador,cidade_Sao Paulo,categoria_A,categoria_B,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,30.0,1200.0,8.5,False,False,False,False,True,True,False,True,False,False
1,2,45.0,2500.0,7.0,False,False,True,False,False,False,True,False,True,False
2,3,29.0,1200.0,5.5,True,False,False,False,False,True,False,True,False,False
3,4,55.0,3000.0,7.5,False,False,False,True,False,False,True,False,False,True
4,5,40.0,2100.0,9.0,False,False,False,False,True,True,False,True,False,False


In [49]:
df_encoded_v2=pd.get_dummies(
    df,
    columns=['cidade','categoria','feedback'],
    drop_first=False,
    dtype=int
)

display(df_encoded_v2.head(5))

Unnamed: 0,id,idade,renda,nota,cidade_Belo Horizonte,cidade_Desconhecido,cidade_Rio de Janeiro,cidade_Salvador,cidade_Sao Paulo,categoria_A,categoria_B,feedback_Bom,feedback_Regular,feedback_Ruim
0,1,30.0,1200.0,8.5,0,0,0,0,1,1,0,1,0,0
1,2,45.0,2500.0,7.0,0,0,1,0,0,0,1,0,1,0
2,3,29.0,1200.0,5.5,1,0,0,0,0,1,0,1,0,0
3,4,55.0,3000.0,7.5,0,0,0,1,0,0,1,0,0,1
4,5,40.0,2100.0,9.0,0,0,0,0,1,1,0,1,0,0
