# O que é Imputer?

No campo de modelagem de IA, um "imputer" refere-se a uma técnica ou função usada para preencher valores ausentes ou faltantes em um conjunto de dados. Valores ausentes são um problema comum em conjuntos de dados do mundo real e podem prejudicar o desempenho e a precisão de um modelo de IA.

Um "imputer" é usado para estimar e substituir os valores ausentes com base em uma estratégia específica. Existem várias abordagens comumente usadas para lidar com valores ausentes, incluindo:

1. Imputação média: Nessa abordagem, os valores ausentes são substituídos pela média dos valores existentes no mesmo atributo ou recurso.

2. Imputação mediana: Aqui, os valores ausentes são substituídos pela mediana dos valores existentes no mesmo atributo. A mediana é o valor central quando os dados são ordenados.

3. Imputação por moda: Essa abordagem envolve substituir os valores ausentes pela moda, que é o valor mais comum ou frequente no mesmo atributo.

4. Imputação por valor constante: Nessa estratégia, os valores ausentes são preenchidos com um valor constante pré-definido, como zero ou -1. Essa abordagem pode ser apropriada em certos casos, mas pode introduzir vieses nos dados.

5. Imputação baseada em modelos: Essa técnica envolve o uso de algoritmos de aprendizado de máquina para prever os valores ausentes com base nos valores existentes. Os modelos, como regressão linear, árvores de decisão ou algoritmos mais avançados, podem ser usados para realizar essa imputação.

A escolha do método de imputação depende do contexto do problema e das características dos dados. É importante ter cuidado ao lidar com valores ausentes, pois a imputação incorreta pode distorcer os dados e afetar a qualidade e a validade dos resultados do modelo de IA. Portanto, a seleção cuidadosa e a avaliação dos métodos de imputação são essenciais para garantir resultados confiáveis.

# Imputação de recursos univariados¶
A aula fornece estratégias básicas para imputar faltas Valores. Os valores ausentes podem ser imputados com um valor constante fornecido ou usando as estatísticas (média, mediana ou mais frequente) de cada coluna em que o os valores ausentes são localizados. Essa classe também permite diferentes valores ausentes Codificações.

Parametros de strategy:
1. mean
2. median
3. constant
4. most_frequent

In [1]:
import numpy as np
from sklearn.impute import SimpleImputer

imp_mean = SimpleImputer(missing_values=np.nan, strategy='mean') #strategy o parametro para escolher que tipo de abordagem o algoritmo irá usar, como media, mediana, mais frequente e constante.
imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])

X_simple = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]


print(f'\nSimpleImputer: \n{imp_mean.transform(X_simple)}\n')




SimpleImputer: 
[[ 7.   2.   3. ]
 [ 4.   3.5  6. ]
 [10.   3.5  9. ]]



# Imputação de características multivariadas
Uma abordagem mais sofisticada é usar a classe, que modela cada recurso com valores ausentes em função de outros recursos, e usa essa estimativa para imputação. Ele faz isso em um round-robin iterado Moda: Em cada etapa, uma coluna de recurso é designada como saída e o Outras colunas de recursos são tratadas como entradas. Um regressor é adequado para conhecido . Em seguida, o regressor é usado para prever os valores faltantes de. Isso é feito para cada recurso de forma iterativa e, em seguida, é repetido para rondas de imputação. Os resultados da final A rodada de imputação é devolvida.yX(X, y)yymax_iter

In [2]:
import numpy as np
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

X_interative = [[np.nan, 2, 3], [4, np.nan, 6], [10, np.nan, 9]]

i_imp_mean = IterativeImputer(random_state=0)
i_imp_mean.fit([[7, 2, 3], [4, np.nan, 6], [10, 5, 9]])

print(f'\nIterativeImputer: \n{i_imp_mean.transform(X_interative)}')


IterativeImputer: 
[[ 6.95847623  2.          3.        ]
 [ 4.          2.6000004   6.        ]
 [10.          4.99999933  9.        ]]


# Nearest neighbors imputation
A classe fornece imputação para preenchimento de valores faltantes usando a abordagem k-Vizinhos mais próximos. Por padrão, uma métrica de distância euclidiana que suporta valores em falta, , é usado para encontrar os vizinhos mais próximos. Cada recurso ausente é imputado usando valores de vizinhos mais próximos que têm um valor para o característica. A característica dos vizinhos é média uniforme ou ponderada por distância para cada vizinho. Se um exemplo tiver mais de um recurso ausente, então Os vizinhos para essa amostra podem ser diferentes dependendo do particular recurso sendo imputado. Quando o número de vizinhos disponíveis é menor do que e não há distâncias definidas para o conjunto de treinamento, o A média do conjunto de treinamento para esse recurso é usada durante a imputação. Se houver em pelo menos um vizinho com distância definida, a média ponderada ou não ponderada dos demais vizinhos serão utilizados durante a imputação. Se um recurso for Sempre ausente nos treinos, ele é retirado durante o . Para mais informações informações sobre a metodologia, ver ref.nan_euclidean_distancesn_neighborsn_neighborstransform

O trecho a seguir demonstra como substituir valores ausentes, codificado como , usando o valor médio do recurso dos dois mais próximos vizinhos de amostras com valores faltantes:np.nan

In [3]:
import numpy as np
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=2)

X = [[1, 2, np.nan], [3, 4, 3], [np.nan, 6, 5], [8, 8, 7]]

print(f'\nKNNImputer: \n{imputer.fit_transform(X)}')


KNNImputer: 
[[1.  2.  4. ]
 [3.  4.  3. ]
 [5.5 6.  5. ]
 [8.  8.  7. ]]


Fonte: [https://scikit-learn.org/stable/search.html?q=Imputer](http://)

Intro: ChatGPT