# Importação de bibliotecas 
* Gerais (Pandas e Numpy)
* Para 'imputação': SimpleImputer e KNNImputer (família sklearn.impute)

In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.impute import KNNImputer

# Leitura dos conjuntos de dados: 'full' e 'missing'

In [None]:
df_full = pd.read_excel('SoilData_VG.xlsx',sheet_name='DadosSolo-VG')
df_full.head()

In [None]:
df_missing = pd.read_excel('SoilData_VG.xlsx',sheet_name='DadosSolo-VG-Faltantes')
df_missing.head()

## Verificação do número de dados faltantes em cada atributo

In [6]:
# Verificar número de dados faltantes em cada atributo
df_missing.isnull().sum()
# Ou df_missing.isna().sum()

Areia        3
Silte        3
Argila       3
Carbono      3
Densidade    6
P33_Obs      0
P33VG        0
P1500_Obs    0
P1500VG      0
dtype: int64

In [7]:
# Verificar número de dados NÃO FALTANTES em cada atributo
df_missing.count()

Areia        47
Silte        47
Argila       47
Carbono      47
Densidade    44
P33_Obs      50
P33VG        50
P1500_Obs    50
P1500VG      50
dtype: int64

# Univariate feature imputation - SimpleImputer
* (from sklearn.impute import SimpleImputer)

In [8]:
# Definir o 'imputador' 
impSimple = SimpleImputer()

In [10]:
# Ajuste do 'imputador' no conjunto de dados 
# Nesta fase, serão calculadas as médias de cada atributo e armazenado em statistics_
# E simultaneamente, o preenchimento dos dados faltantes com as médias
# Os dados faltantes de cada atributo será preenchido pela média daquele atributo
X = impSimple.fit_transform(df_missing)

In [11]:
# Voltar para DataFrame, agora com os valores faltantes preenchidos
df_Simple = pd.DataFrame(X, columns=df_missing.columns, index=df_missing.index) 
df_Simple.head()

Unnamed: 0,Areia,Silte,Argila,Carbono,Densidade,P33_Obs,P33VG,P1500_Obs,P1500VG
0,8.0,39.0,53.0,2.436195,0.87,0.315,0.227086,0.236,0.159169
1,8.0,24.0,68.0,1.972158,1.08,0.386,0.310273,0.3,0.235364
2,9.0,13.702128,73.0,1.792343,0.95,0.348,0.331365,0.28,0.268074
3,9.0,18.0,73.0,1.397912,1.253485,0.327,0.331964,0.273,0.267881
4,9.0,16.0,75.0,1.322506,0.85,0.32,0.354072,0.266,0.285868


In [None]:
# Verificar número de dados faltantes em cada atributo (depois da 'imputação')
df_Simple.isnull().sum()

In [15]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Areia
df_full[df_missing.Areia.isnull()], df_Simple[df_missing.Areia.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 6      18     29      53  2.870000  ...    0.378  0.363279      0.305  0.265099
 24     17      6      77  1.044084  ...    0.333  0.324112      0.251  0.253831
 34     44     15      41  0.284223  ...    0.279  0.271411      0.218  0.188154
 
 [3 rows x 9 columns],
        Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 6   28.12766   29.0    53.0  2.870000  ...    0.378  0.363279      0.305  0.265099
 24  28.12766    6.0    77.0  1.044084  ...    0.333  0.324112      0.251  0.253831
 34  28.12766   15.0    41.0  0.284223  ...    0.279  0.271411      0.218  0.188154
 
 [3 rows x 9 columns])

In [16]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Silte
df_full[df_missing.Silte.isnull()], df_Simple[df_missing.Silte.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 2       9     18      73  1.792343  ...    0.348  0.331365      0.280  0.268074
 13     38     11      51  1.510000  ...    0.311  0.283251      0.258  0.221938
 39     60     12      28  0.162413  ...    0.215  0.196369      0.165  0.130756
 
 [3 rows x 9 columns],
     Areia      Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 2     9.0  13.702128    73.0  1.792343  ...    0.348  0.331365      0.280  0.268074
 13   38.0  13.702128    51.0  1.510000  ...    0.311  0.283251      0.258  0.221938
 39   60.0  13.702128    28.0  0.162413  ...    0.215  0.196369      0.165  0.130756
 
 [3 rows x 9 columns])

In [17]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Argila
df_full[df_missing.Argila.isnull()], df_Simple[df_missing.Argila.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 9      11     21      68  1.360000  ...    0.460  0.386895      0.380  0.301228
 12     51     11      38  2.040000  ...    0.287  0.253967      0.242  0.192548
 19     14      6      80  1.024749  ...    0.320  0.307731      0.236  0.245857
 
 [3 rows x 9 columns],
     Areia  Silte     Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 9    11.0   21.0  58.042553  1.360000  ...    0.460  0.386895      0.380  0.301228
 12   51.0   11.0  58.042553  2.040000  ...    0.287  0.253967      0.242  0.192548
 19   14.0    6.0  58.042553  1.024749  ...    0.320  0.307731      0.236  0.245857
 
 [3 rows x 9 columns])

In [18]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Carbono
df_full[df_missing.Carbono.isnull()], df_Simple[df_missing.Carbono.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 15     19      8      73  1.817479  ...    0.320  0.312400      0.212  0.240882
 26     15      8      77  1.005414  ...    0.288  0.272604      0.227  0.227951
 40     61     12      27  0.116009  ...    0.204  0.194369      0.159  0.130802
 
 [3 rows x 9 columns],
     Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 15   19.0    8.0    73.0  1.358834  ...    0.320  0.312400      0.212  0.240882
 26   15.0    8.0    77.0  1.358834  ...    0.288  0.272604      0.227  0.227951
 40   61.0   12.0    27.0  1.358834  ...    0.204  0.194369      0.159  0.130802
 
 [3 rows x 9 columns])

In [20]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Densidade
print(df_full.loc[df_missing.Densidade.isnull(),'Densidade'])
print(df_Simple.loc[df_missing.Densidade.isnull(),'Densidade'])

3     0.890000
22    1.230000
29    1.316667
41    1.450000
46    1.050000
49    1.420000
Name: Densidade, dtype: float64
3     1.253485
22    1.253485
29    1.253485
41    1.253485
46    1.253485
49    1.253485
Name: Densidade, dtype: float64


# Univariate feature imputation - KNNImputer
* (from sklearn.impute import KNNImputer)

In [21]:
# Definir o 'imputador'
impKNN = KNNImputer()

In [22]:
# Ajuste do 'imputador' no conjunto de dados 
# Nesta fase, serão calculadas as médias de cada atributo e armazenado em statistics_
# E simultaneamente, o preenchimento dos dados faltantes com as médias
# Os dados faltantes de cada atributo será preenchido pela média daquele atributo
X_KNN = impKNN.fit_transform(df_missing)

In [23]:
# Voltar para DataFrame, agora com os valores faltantes preenchidos
df_KNN = pd.DataFrame(X_KNN, columns=df_missing.columns, index=df_missing.index)
df_KNN.head()

Unnamed: 0,Areia,Silte,Argila,Carbono,Densidade,P33_Obs,P33VG,P1500_Obs,P1500VG
0,8.0,39.0,53.0,2.436195,0.87,0.315,0.227086,0.236,0.159169
1,8.0,24.0,68.0,1.972158,1.08,0.386,0.310273,0.3,0.235364
2,9.0,17.0,73.0,1.792343,0.95,0.348,0.331365,0.28,0.268074
3,9.0,18.0,73.0,1.397912,1.018,0.327,0.331964,0.273,0.267881
4,9.0,16.0,75.0,1.322506,0.85,0.32,0.354072,0.266,0.285868


In [24]:
# Verificar número de dados faltantes em cada atributo (depois da 'imputação')
df_KNN.isnull().sum()

Areia        0
Silte        0
Argila       0
Carbono      0
Densidade    0
P33_Obs      0
P33VG        0
P1500_Obs    0
P1500VG      0
dtype: int64

In [26]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Areia
df_full[df_missing.Areia.isnull()], df_KNN[df_missing.Areia.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 6      18     29      53  2.870000  ...    0.378  0.363279      0.305  0.265099
 24     17      6      77  1.044084  ...    0.333  0.324112      0.251  0.253831
 34     44     15      41  0.284223  ...    0.279  0.271411      0.218  0.188154
 
 [3 rows x 9 columns],
     Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 6    18.4   29.0    53.0  2.870000  ...    0.378  0.363279      0.305  0.265099
 24   15.4    6.0    77.0  1.044084  ...    0.333  0.324112      0.251  0.253831
 34   31.4   15.0    41.0  0.284223  ...    0.279  0.271411      0.218  0.188154
 
 [3 rows x 9 columns])

In [27]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Silte
df_full[df_missing.Silte.isnull()], df_KNN[df_missing.Silte.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 2       9     18      73  1.792343  ...    0.348  0.331365      0.280  0.268074
 13     38     11      51  1.510000  ...    0.311  0.283251      0.258  0.221938
 39     60     12      28  0.162413  ...    0.215  0.196369      0.165  0.130756
 
 [3 rows x 9 columns],
     Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 2     9.0   17.0    73.0  1.792343  ...    0.348  0.331365      0.280  0.268074
 13   38.0   20.2    51.0  1.510000  ...    0.311  0.283251      0.258  0.221938
 39   60.0   13.0    28.0  0.162413  ...    0.215  0.196369      0.165  0.130756
 
 [3 rows x 9 columns])

In [28]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Argila
df_full[df_missing.Argila.isnull()], df_KNN[df_missing.Argila.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 9      11     21      68  1.360000  ...    0.460  0.386895      0.380  0.301228
 12     51     11      38  2.040000  ...    0.287  0.253967      0.242  0.192548
 19     14      6      80  1.024749  ...    0.320  0.307731      0.236  0.245857
 
 [3 rows x 9 columns],
     Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 9    11.0   21.0    70.8  1.360000  ...    0.460  0.386895      0.380  0.301228
 12   51.0   11.0    41.6  2.040000  ...    0.287  0.253967      0.242  0.192548
 19   14.0    6.0    77.8  1.024749  ...    0.320  0.307731      0.236  0.245857
 
 [3 rows x 9 columns])

In [29]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Carbono
df_full[df_missing.Carbono.isnull()], df_KNN[df_missing.Carbono.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 15     19      8      73  1.817479  ...    0.320  0.312400      0.212  0.240882
 26     15      8      77  1.005414  ...    0.288  0.272604      0.227  0.227951
 40     61     12      27  0.116009  ...    0.204  0.194369      0.159  0.130802
 
 [3 rows x 9 columns],
     Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 15   19.0    8.0    73.0  1.341841  ...    0.320  0.312400      0.212  0.240882
 26   15.0    8.0    77.0  1.090487  ...    0.288  0.272604      0.227  0.227951
 40   61.0   12.0    27.0  1.039536  ...    0.204  0.194369      0.159  0.130802
 
 [3 rows x 9 columns])

In [30]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Densidade
print(df_full.loc[df_missing.Densidade.isnull(),'Densidade'])
print(df_KNN.loc[df_missing.Densidade.isnull(),'Densidade'])

3     0.890000
22    1.230000
29    1.316667
41    1.450000
46    1.050000
49    1.420000
Name: Densidade, dtype: float64
3     1.018000
22    1.260000
29    1.225333
41    1.510000
46    1.210000
49    1.434000
Name: Densidade, dtype: float64


# Multivariate feature imputation - IterativeImputer
# OBS:
* AINDA EM FASE EXPERIMENTAL  
* INSPIRADO NO MICE (Multivariate Imputation by Chained Equations)

In [32]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer

In [33]:
# Definir o 'imputador'
impMICE = IterativeImputer(random_state=2020)

In [34]:
# Ajuste do 'imputador' no conjunto de dados 
# Nesta fase, serão calculadas as médias de cada atributo e armazenado em statistics_
# E simultaneamente, o preenchimento dos dados faltantes com as médias
# Os dados faltantes de cada atributo será preenchido pela média daquele atributo
X_MICE = impMICE.fit_transform(df_missing)

In [35]:
# Voltar para DataFrame, agora com os valores faltantes preenchidos
df_MICE = pd.DataFrame(X_MICE, columns=df_missing.columns, index=df_missing.index)
df_MICE.head()

Unnamed: 0,Areia,Silte,Argila,Carbono,Densidade,P33_Obs,P33VG,P1500_Obs,P1500VG
0,8.0,39.0,53.0,2.436195,0.87,0.315,0.227086,0.236,0.159169
1,8.0,24.0,68.0,1.972158,1.08,0.386,0.310273,0.3,0.235364
2,9.0,17.999971,73.0,1.792343,0.95,0.348,0.331365,0.28,0.268074
3,9.0,18.0,73.0,1.397912,1.087785,0.327,0.331964,0.273,0.267881
4,9.0,16.0,75.0,1.322506,0.85,0.32,0.354072,0.266,0.285868


In [None]:
# Verificar número de dados faltantes em cada atributo (depois da 'imputação')
df_MICE.isnull().sum()

In [37]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Areia
df_full[df_missing.Areia.isnull()], df_MICE[df_missing.Areia.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 6      18     29      53  2.870000  ...    0.378  0.363279      0.305  0.265099
 24     17      6      77  1.044084  ...    0.333  0.324112      0.251  0.253831
 34     44     15      41  0.284223  ...    0.279  0.271411      0.218  0.188154
 
 [3 rows x 9 columns],
         Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 6   17.999908   29.0    53.0  2.870000  ...    0.378  0.363279      0.305  0.265099
 24  17.000007    6.0    77.0  1.044084  ...    0.333  0.324112      0.251  0.253831
 34  44.000003   15.0    41.0  0.284223  ...    0.279  0.271411      0.218  0.188154
 
 [3 rows x 9 columns])

In [38]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Silte
df_full[df_missing.Silte.isnull()], df_MICE[df_missing.Silte.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 2       9     18      73  1.792343  ...    0.348  0.331365      0.280  0.268074
 13     38     11      51  1.510000  ...    0.311  0.283251      0.258  0.221938
 39     60     12      28  0.162413  ...    0.215  0.196369      0.165  0.130756
 
 [3 rows x 9 columns],
     Areia      Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 2     9.0  17.999971    73.0  1.792343  ...    0.348  0.331365      0.280  0.268074
 13   38.0  10.999978    51.0  1.510000  ...    0.311  0.283251      0.258  0.221938
 39   60.0  11.999996    28.0  0.162413  ...    0.215  0.196369      0.165  0.130756
 
 [3 rows x 9 columns])

In [39]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Argila
df_full[df_missing.Argila.isnull()], df_MICE[df_missing.Argila.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 9      11     21      68  1.360000  ...    0.460  0.386895      0.380  0.301228
 12     51     11      38  2.040000  ...    0.287  0.253967      0.242  0.192548
 19     14      6      80  1.024749  ...    0.320  0.307731      0.236  0.245857
 
 [3 rows x 9 columns],
     Areia  Silte     Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 9    11.0   21.0  67.999985  1.360000  ...    0.460  0.386895      0.380  0.301228
 12   51.0   11.0  37.999995  2.040000  ...    0.287  0.253967      0.242  0.192548
 19   14.0    6.0  80.000002  1.024749  ...    0.320  0.307731      0.236  0.245857
 
 [3 rows x 9 columns])

In [40]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Carbono
df_full[df_missing.Carbono.isnull()], df_MICE[df_missing.Carbono.isnull()]

(    Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 15     19      8      73  1.817479  ...    0.320  0.312400      0.212  0.240882
 26     15      8      77  1.005414  ...    0.288  0.272604      0.227  0.227951
 40     61     12      27  0.116009  ...    0.204  0.194369      0.159  0.130802
 
 [3 rows x 9 columns],
     Areia  Silte  Argila   Carbono  ...  P33_Obs     P33VG  P1500_Obs   P1500VG
 15   19.0    8.0    73.0  0.986065  ...    0.320  0.312400      0.212  0.240882
 26   15.0    8.0    77.0  1.654448  ...    0.288  0.272604      0.227  0.227951
 40   61.0   12.0    27.0  1.248481  ...    0.204  0.194369      0.159  0.130802
 
 [3 rows x 9 columns])

In [41]:
# Comparação dos dados faltantes preenchidos pela média e os dados originais
# Densidade
print(df_full.loc[df_missing.Densidade.isnull(),'Densidade'])
print(df_MICE.loc[df_missing.Densidade.isnull(),'Densidade'])

3     0.890000
22    1.230000
29    1.316667
41    1.450000
46    1.050000
49    1.420000
Name: Densidade, dtype: float64
3     1.087785
22    1.203346
29    1.205311
41    1.581509
46    1.149027
49    1.343487
Name: Densidade, dtype: float64
