# TIM AI Academy

## Demonstração 11 - A partir do dataset fictício, explanação a respeito de dados faltantes (missing values).

### Prof. Dr. Ahirton Lopes (https://github.com/ahirtonlopes)

# Identificando Dados Faltantes em Dados de Clientes

Criando um conjunto de dados de clientes de uma operadora de telecomunicações, com informações como ID do Cliente, Idade, Plano de Dados, e Valor da Fatura.

In [8]:
import pandas as pd

# Exemplo de DataFrame com dados de telecom
data = {
    'ID_Cliente': [1, 2, 3, 4],
    'Idade': [25, 30, None, 40],
    'Plano_de_Dados': ['Pós-Pago', 'Pós-Pago', 'Pré-Pago', None],
    'Valor_da_Fatura': [150, None, 100, 200]
}

df = pd.DataFrame(data)

# Verificando valores faltantes
print(df.isnull())

   ID_Cliente  Idade  Plano_de_Dados  Valor_da_Fatura
0       False  False           False            False
1       False  False           False             True
2       False   True           False            False
3       False  False            True            False


2. Removendo Dados Faltantes em Telecomunicações

É importante remover-mos registros incompletos ou corrigir dados faltantes, especialmente quando eles afetam as análises subsequentes.

In [9]:
# Remover linhas com qualquer valor faltante
df_dropped = df.dropna()
print(df_dropped)

# Remover colunas com qualquer valor faltante
df_dropped_cols = df.dropna(axis=1)
print(df_dropped_cols)

   ID_Cliente  Idade Plano_de_Dados  Valor_da_Fatura
0           1   25.0       Pós-Pago            150.0
   ID_Cliente
0           1
1           2
2           3
3           4


# Imputação com a Média ou Mediana

Preencher valores faltantes com a média ou mediana pode ser útil para atributos como Idade ou Valor da Fatura.

In [10]:
# Preenchendo valores faltantes com a média
df_filled_mean = df.copy()
df_filled_mean['Idade'] = df_filled_mean['Idade'].fillna(df_filled_mean['Idade'].mean())
df_filled_mean['Valor_da_Fatura'] = df_filled_mean['Valor_da_Fatura'].fillna(df_filled_mean['Valor_da_Fatura'].mean())
print("DataFrame preenchido com a média:")

# Preenchendo valores faltantes com a mediana
df_filled_median = df.copy()
df_filled_median['Idade'] = df_filled_median['Idade'].fillna(df_filled_median['Idade'].median())
df_filled_median['Valor_da_Fatura'] = df_filled_median['Valor_da_Fatura'].fillna(df_filled_median['Valor_da_Fatura'].median())
print("\nDataFrame preenchido com a mediana:")
print(df_filled_median)

DataFrame preenchido com a média:

DataFrame preenchido com a mediana:
   ID_Cliente  Idade Plano_de_Dados  Valor_da_Fatura
0           1   25.0       Pós-Pago            150.0
1           2   30.0       Pós-Pago            150.0
2           3   30.0       Pré-Pago            100.0
3           4   40.0           None            200.0


# Imputação KNN em Dados de Telecom

Para dados mais complexos, como o Valor da Fatura, você pode usar a imputação KNN, preenchendo valores faltantes com base nos vizinhos mais próximos.

Vamos usar Idade e Plano de Dados como variáveis preditoras.

In [11]:
from sklearn.impute import KNNImputer

# Exemplo de imputação KNN para preencher valores faltantes em 'Valor_da_Fatura'
df_knn = df[['Idade', 'Valor_da_Fatura']].copy()  # Selecionando variáveis relevantes
imputer = KNNImputer(n_neighbors=2)

# Aplicando imputação KNN
df_knn_imputed = imputer.fit_transform(df_knn)
df_knn_imputed = pd.DataFrame(df_knn_imputed, columns=['Idade', 'Valor_da_Fatura'])

# Exibindo resultados
print(df_knn_imputed)

   Idade  Valor_da_Fatura
0   25.0            150.0
1   30.0            175.0
2   32.5            100.0
3   40.0            200.0


# Preenchendo Valores Faltantes com um Valor Constante

Pode ser útil preencher valores faltantes com valores específicos.

No exemplo, podemos preencher Plano de Dados com 'Não Especificado' e Valor da Fatura com zero.

In [12]:
# Preenchendo valores faltantes com um valor constante
df_filled_constant = df.fillna({'Plano_de_Dados': 'Não Especificado', 'Valor_da_Fatura': 0})
print(df_filled_constant)

   ID_Cliente  Idade    Plano_de_Dados  Valor_da_Fatura
0           1   25.0          Pós-Pago            150.0
1           2   30.0          Pós-Pago              0.0
2           3    NaN          Pré-Pago            100.0
3           4   40.0  Não Especificado            200.0


# Imputação com o Uso de Outras Variáveis

Pode ser mais eficaz preencher dados faltantes com base em outra variável relevante, como, por exemplo, o Plano de Dados para imputar o Valor da Fatura.

In [13]:
# Preenchendo valores faltantes com base no 'Plano_de_Dados'
df_filled_plano = df.groupby('Plano_de_Dados')['Valor_da_Fatura'].transform(lambda x: x.fillna(x.mean()))
df['Valor_da_Fatura'] = df_filled_plano
print(df)

   ID_Cliente  Idade Plano_de_Dados  Valor_da_Fatura
0           1   25.0       Pós-Pago            150.0
1           2   30.0       Pós-Pago            150.0
2           3    NaN       Pré-Pago            100.0
3           4   40.0           None              NaN
