# Lidar com dados faltantes é essencial na preparação de dados para machine learning. Isso envolve identificar, remover ou preencher valores ausentes de forma apropriada. A escolha das técnicas depende da quantidade de dados ausentes e da natureza do problema.

# Abaixo seguem técnicas que auxiliam em possíveis soluções

# Identificação de dados faltantes

In [6]:
import pandas as pd

data = {
    'Feature1': [1, 2, 3, None, 5, 6],
    'Feature2': [None, 2, 3, 4, 5, 6],
    'Feature3': [1, 2, 3, 4, 5, 6]
}

df = pd.DataFrame(data)

missing_data = df.isnull()

df_without_missing_rows = df.dropna()

threshold = len(df) * 0.8  
df_without_missing_columns = df.dropna(axis=1, thresh=threshold)

print("DataFrame Original:")
print(df)

print("\nDados Faltantes (True indica valores ausentes):")
print(missing_data)

print("\nDataFrame após Remover Linhas com Dados Faltantes:")
print(df_without_missing_rows)

print("\nDataFrame após Remover Colunas com a Maioria de Valores Ausentes:")
print(df_without_missing_columns)

DataFrame Original:
   Feature1  Feature2  Feature3
0       1.0       NaN         1
1       2.0       2.0         2
2       3.0       3.0         3
3       NaN       4.0         4
4       5.0       5.0         5
5       6.0       6.0         6

Dados Faltantes (True indica valores ausentes):
   Feature1  Feature2  Feature3
0     False      True     False
1     False     False     False
2     False     False     False
3      True     False     False
4     False     False     False
5     False     False     False

DataFrame após Remover Linhas com Dados Faltantes:
   Feature1  Feature2  Feature3
1       2.0       2.0         2
2       3.0       3.0         3
4       5.0       5.0         5
5       6.0       6.0         6

DataFrame após Remover Colunas com a Maioria de Valores Ausentes:
   Feature1  Feature2  Feature3
0       1.0       NaN         1
1       2.0       2.0         2
2       3.0       3.0         3
3       NaN       4.0         4
4       5.0       5.0         5
5       6.0 

# Preenchimento de dados faltantes

In [7]:
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.impute import KNNImputer

data = {
    'Feature1': [1, 2, 3, None, 5, 6],
    'Feature2': [None, 2, 3, 4, 5, 6],
    'Feature3': [1, 2, 3, 4, 5, None]
}

df = pd.DataFrame(data)

imputer = SimpleImputer(strategy='mean')
df_mean_imputed = imputer.fit_transform(df)
df_mean_imputed = pd.DataFrame(df_mean_imputed, columns=df.columns)

knn_imputer = KNNImputer(n_neighbors=2)
df_knn_imputed = knn_imputer.fit_transform(df)
df_knn_imputed = pd.DataFrame(df_knn_imputed, columns=df.columns)

print("DataFrame Original:")
print(df)

print("\nDataFrame após Preenchimento com Média:")
print(df_mean_imputed)

print("\nDataFrame após Preenchimento com K-Nearest Neighbors (KNN):")
print(df_knn_imputed)

DataFrame Original:
   Feature1  Feature2  Feature3
0       1.0       NaN       1.0
1       2.0       2.0       2.0
2       3.0       3.0       3.0
3       NaN       4.0       4.0
4       5.0       5.0       5.0
5       6.0       6.0       NaN

DataFrame após Preenchimento com Média:
   Feature1  Feature2  Feature3
0       1.0       4.0       1.0
1       2.0       2.0       2.0
2       3.0       3.0       3.0
3       3.4       4.0       4.0
4       5.0       5.0       5.0
5       6.0       6.0       3.0

DataFrame após Preenchimento com K-Nearest Neighbors (KNN):
   Feature1  Feature2  Feature3
0       1.0       2.5       1.0
1       2.0       2.0       2.0
2       3.0       3.0       3.0
3       4.0       4.0       4.0
4       5.0       5.0       5.0
5       6.0       6.0       4.5


# Consideração do significado de dados faltantes
### Vamos considerar um exemplo em que os dados faltantes podem ter significado e como criar uma variável indicadora para representar a ausência de um valor. Suponhamos que estamos trabalhando com um conjunto de dados de registros de pacientes em um hospital, e estamos interessados nas informações sobre o histórico de tabagismo dos pacientes. No entanto, muitos pacientes não forneceram essas informações voluntariamente.

In [8]:
import pandas as pd
import numpy as np

data = {
    'Idade': [45, 32, 55, 68, 26, 41, 63, 37],
    'Histórico_Tabagismo': [1, 0, np.nan, 1, np.nan, np.nan, 0, np.nan]
}

df = pd.DataFrame(data)

df['Tabagismo_Desconhecido'] = df['Histórico_Tabagismo'].isnull().astype(int)

print("DataFrame Original:")
print(df)

DataFrame Original:
   Idade  Histórico_Tabagismo  Tabagismo_Desconhecido
0     45                  1.0                       0
1     32                  0.0                       0
2     55                  NaN                       1
3     68                  1.0                       0
4     26                  NaN                       1
5     41                  NaN                       1
6     63                  0.0                       0
7     37                  NaN                       1
