# 1. Carregamento das bibliotecas utilizadas
As bibliotecas abaixo serão as utilizadas para esse pré-processamento de dados de um dataset realista

In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler  #A biblioteca StandardScale será usada para a normalização dos dados

# 2. Carregamento do dataset

In [5]:
#Carregamento do dataset gerado pelo script gerador de datasets "realistas"
df = pd.read_csv("datasets-codigo/dataset_feedback_realista.csv")

# 3. Informações do Dataset

## 3.1 - Informações Gerais

In [6]:
#Lista das informações gerais do dataset
print("### Informações gerais do Dataset ###\n")
df.info()

### Informações gerais do Dataset ###

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   id         100 non-null    int64  
 1   idade      94 non-null     float64
 2   renda      95 non-null     float64
 3   cidade     99 non-null     object 
 4   categoria  100 non-null    object 
 5   nota       96 non-null     float64
 6   feedback   100 non-null    object 
dtypes: float64(3), int64(1), object(3)
memory usage: 5.6+ KB


## 3.2 - Informações Estatísticas Básicas

In [9]:
print("\n### Descrição estatística ###\n")
print(df.describe(include='all'))


### Descrição estatística ###

                id      idade         renda    cidade categoria       nota  \
count   100.000000  94.000000     95.000000        99       100  96.000000   
unique         NaN        NaN           NaN        20         2        NaN   
top            NaN        NaN           NaN  Salvador         A        NaN   
freq           NaN        NaN           NaN        10        53        NaN   
mean    150.500000  43.180851   7513.205368       NaN       NaN   5.107292   
std      29.011492  16.018110   3944.807566       NaN       NaN   2.798956   
min     101.000000  16.000000   1636.450000       NaN       NaN   0.000000   
25%     125.750000  29.000000   3940.745000       NaN       NaN   2.975000   
50%     150.500000  44.500000   6405.840000       NaN       NaN   4.850000   
75%     175.250000  57.750000  11203.125000       NaN       NaN   7.700000   
max     200.000000  70.000000  15381.450000       NaN       NaN  10.000000   

       feedback  
count       1

### 3.2.1 - Verificando os valores ausentes

In [11]:
print("\n### Contagem de valores ausentes ###\n")
print(df.isnull().sum())


### Contagem de valores ausentes ###

id           0
idade        6
renda        5
cidade       1
categoria    0
nota         4
feedback     0
dtype: int64


### 3.2.2 - Tratamento dos valores ausentes
Foi escolhido o tratamento dos valores ausentes no dataset através dos seguintes métodos:

* Coluna ['cidade'] - preenchimento com "Desconhecido"
* Colunas ['idade'] e ['nota'] - preenchimento com a mediana, para evitar o desperdício dos dados e também não causar distorção nas análises
* Coluna ['renda'] - preenchimento com a média pelo mesmo motivo das duas colunas anteriores

In [21]:
#Criação de função para cálculo da análise descritiva completa da coluna idade
def analise_descritiva(df):
    dados = df['idade']

    print(f'\n=== Análise da coluna idade ===')
    print(f'Média: {dados.mean():.2f}')
    print(f'Mediana: {dados.median():.2f}')
    print(f'Desvio Padrão: {dados.std():.4f}')
    print(f'Variância: {dados.var():.4f}')
    print(f'Valor Mínimo: {dados.min():.2f}')
    print(f'Valor Máximo: {dados.max():.2f}')

    #Preenchimento dos valores NaN com a mediana
    dados = dados.fillna(dados.median())
    
    q1, q2, q3 = np.percentile(dados, [25, 50, 75])
    iqr = q3 - q1
    limite_inf = q1 - 1.5 * iqr
    limite_sup = q3 + 1.5 * iqr

    print('\nMedidas de Posição:')
    print(f'Q1 (25%): {q1:.2f}')
    print(f'Q2/Mediana (50%): {q2:.2f}')
    print(f'Q3 (75%): {q3:.2f}')
    print(f'IQR: {iqr:.2f}')

    print('\nLimites')
    print(f'Limite Inferior: {limite_inf:.2f}')
    print(f'Limite Superior: {limite_sup:.2f}')

# Chamando a função para analisar a idade
analise_descritiva(df)


=== Análise da coluna idade ===
Média: 43.26
Mediana: 44.50
Desvio Padrão: 15.5283
Variância: 241.1287
Valor Mínimo: 16.00
Valor Máximo: 70.00

Medidas de Posição:
Q1 (25%): 29.00
Q2/Mediana (50%): 44.50
Q3 (75%): 56.25
IQR: 27.25

Limites
Limite Inferior: -11.88
Limite Superior: 97.12


In [22]:
#Criação de função para cálculo da análise descritiva completa da coluna nota
def analise_descritiva(df):
    dados = df['nota']

    print(f'\n=== Análise da coluna nota ===')
    print(f'Média: {dados.mean():.2f}')
    print(f'Mediana: {dados.median():.2f}')
    print(f'Desvio Padrão: {dados.std():.4f}')
    print(f'Variância: {dados.var():.4f}')
    print(f'Valor Mínimo: {dados.min():.2f}')
    print(f'Valor Máximo: {dados.max():.2f}')

    #Preenchimento dos valores NaN com a mediana
    dados = dados.fillna(dados.median())
    
    q1, q2, q3 = np.percentile(dados, [25, 50, 75])
    iqr = q3 - q1
    limite_inf = q1 - 1.5 * iqr
    limite_sup = q3 + 1.5 * iqr

    print('\nMedidas de Posição:')
    print(f'Q1 (25%): {q1:.2f}')
    print(f'Q2/Mediana (50%): {q2:.2f}')
    print(f'Q3 (75%): {q3:.2f}')
    print(f'IQR: {iqr:.2f}')

    print('\nLimites')
    print(f'Limite Inferior: {limite_inf:.2f}')
    print(f'Limite Superior: {limite_sup:.2f}')

# Chamando a função para analisar a idade
analise_descritiva(df)


=== Análise da coluna nota ===
Média: 5.11
Mediana: 4.85
Desvio Padrão: 2.7990
Variância: 7.8342
Valor Mínimo: 0.00
Valor Máximo: 10.00

Medidas de Posição:
Q1 (25%): 3.08
Q2/Mediana (50%): 4.85
Q3 (75%): 7.55
IQR: 4.47

Limites
Limite Inferior: -3.64
Limite Superior: 14.26
