In [10]:
import pandas as pd
import matplotlib.pyplot as plt
from matplotlib.patches import Rectangle
import matplotlib.dates as mdates
import numpy as np

In [11]:
import matplotlib
import sklearn
import statsmodels as sm

print(f'''
pandas -> {pd.__version__}
numpy -> {np.__version__}
matplotlob -> {matplotlib.__version__}
statsmodels -> {sm.__version__}
scikit-learn -> {sklearn.__version__}
''')


pandas -> 1.3.5
numpy -> 1.21.6
matplotlob -> 3.2.2
statsmodels -> 0.12.2
scikit-learn -> 1.0.2



In [12]:
def read_dataset(url, date_col):
    '''
     date_col: especifica uma coluna de data para ser usada como coluna de índice
    
    Por praticidade e pela possibilidade de executar este notebook na Nuvem, opta-se pela utilização de 
    URL's para obter o dataset. Caso você queira utilizar datasets localmente em sua máquina, comente 
    as linhas abaixo que não estão comentadas e descomente as que estão comentadas'''
    df = pd.read_csv(url, 
                     index_col=date_col, 
                     parse_dates=[date_col])
    '''
    #dir: é um objeto de Path #(necessário importar a biblioteca: from pathlib import Path) 
    #arquivo: o nome do arquivo CSV no objeto Path

   
    df = pd.read_csv(folder / file, 
                     index_col=date_col, 
                     parse_dates=[date_col])
    '''
    
    #  retorna: pandas DataFrame com um DatetimeIndex
    return df

In [13]:
def plot_df(df1, df2, col, titulo=None, xlabel=None, ylabel=None):
    '''	
    df1: dataframe original (sem dados faltantes)
    df2: dataframe com dados faltantes
    col: nome da coluna que contém dados faltantes
    '''    
    df_f = df2.rename(columns={col: 'faltante'})
    
    colunas = df_f.loc[:, 'faltante':].columns.tolist()
    subplots_t = len(colunas)
   
    fig, ax = plt.subplots(subplots_t+1, 1, sharex=True)
    plt.subplots_adjust(hspace=0.25)
    fig.suptitle = titulo 
    
    df1[col].plot(ax=ax[0], figsize=(10, 16))
    ax[0].set_title('Dataset Original')
    ax[0].set_xlabel(xlabel)
    ax[0].set_ylabel(ylabel)    
    
    for i, nomecol in enumerate(colunas):
        df_f[nomecol].plot(ax=ax[i+1])
        ax[i+1].set_title(nomecol)

    plt.show()

In [14]:
def indice_rmse(df1, df2, col=None):
    '''
    df1: dataframe original (sem dados faltantes)
    df2: dataframe com dados faltantes
    col: nome da coluna que contém dados faltantes

    retorna: a lista de índices
    '''
    df_f = df2.rename(columns={col: 'faltante'})
    colunas = df_f.loc[:, 'faltante':].columns.tolist()
    scores = []
    for comp_col in df_f[1:]:
        rmse = np.sqrt(np.mean((df1[col] - df_f[comp_col])**2))
        scores.append(rmse)
        print(f'RMSE de {comp_col}: {rmse}')
    return scores

In [15]:
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.impute import SimpleImputer

In [16]:
co2_original = pd.read_csv('https://raw.githubusercontent.com/mvscti/GTI04019-COMPUTACAO_EM_NUVEM_E_IOT_II/dados_faltantes/dados_faltantes/datasets/co2_original.csv', index_col=0)
co2_faltante = pd.read_csv('https://raw.githubusercontent.com/mvscti/GTI04019-COMPUTACAO_EM_NUVEM_E_IOT_II/dados_faltantes/dados_faltantes/datasets/co2_missing_only.csv', index_col=0)
clicks_original = pd.read_csv('https://raw.githubusercontent.com/mvscti/GTI04019-COMPUTACAO_EM_NUVEM_E_IOT_II/dados_faltantes/dados_faltantes/datasets/clicks_original.csv', index_col=0)
clicks_faltante = pd.read_csv('https://raw.githubusercontent.com/mvscti/GTI04019-COMPUTACAO_EM_NUVEM_E_IOT_II/dados_faltantes/dados_faltantes/datasets/clicks_missing.csv', index_col=0)

In [29]:
##### Verificando os valores e colunas #####

#print(OderEncFit.isna().any()) # Exibe como True ou False os valores nan do Dataframe
#print(OderEncFit.isna().sum()) # Exibe a soma dos valores nan no Dataframe
#clicks_faltante.head()
#OderEncFit.info(verbose=True)
#print(OderEncFit.info())
clicks_faltante.shape
#OderEncFit.isna().sum()
#OderEncFit.isnull().sum()

(135, 6)

In [17]:
display(clicks_original) # Exibe o Dataframe

Unnamed: 0_level_0,price,location,clicks
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4/1/08,43.155647,2,18784
4/2/08,43.079056,1,24738
4/3/08,43.842609,2,15209
4/4/08,43.312376,1,14018
4/5/08,43.941176,1,11974
...,...,...,...
8/9/08,44.182033,1,6716
8/10/08,43.608260,1,9523
8/11/08,43.553363,1,8881
8/12/08,44.500469,1,7272


In [18]:
display(clicks_faltante) # Exibe o Dataframe

Unnamed: 0_level_0,price,location,clicks
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4/1/08,43.155647,2,18784.0
4/2/08,43.079056,1,24738.0
4/3/08,43.842609,2,15209.0
4/4/08,43.312376,1,14018.0
4/5/08,43.941176,1,11974.0
...,...,...,...
8/9/08,44.182033,1,6716.0
8/10/08,43.608260,1,9523.0
8/11/08,43.553363,1,8881.0
8/12/08,44.500469,1,7272.0


In [19]:
### Descobrir se tem valores vazios e a quantidade deles em cada coluna

#print(train.isna().any()) # Exibe como True ou False os valores do Dataframe
print(clicks_faltante.isna().sum()) # Exibe a soma dos valores no Dataframe

price        0
location     0
clicks      16
dtype: int64


In [20]:
print(clicks_faltante.isna().any()) # Exibe como True ou False os valores do Dataframe

price       False
location    False
clicks       True
dtype: bool


In [21]:
estrategia = [
    ('Estratégia da média', 'mean'),
    ('Estratégia da mediana', 'median'),
    ('Estratégia do "mais frequente"', 'most_frequent')]

In [22]:
#Transformando o arranjo 1D (226,) para um array de forma 2d (226,1)
clicks_valores = clicks_faltante['clicks'].values.reshape(-1,1)


for s_name, s in estrategia:
    clicks_faltante[s_name] = (SimpleImputer(strategy=s).fit_transform(clicks_valores)) 

In [23]:
_ = indice_rmse(clicks_original, clicks_faltante, 'clicks')

RMSE de price: 10406.550235597697
RMSE de location: 10444.288595172926
RMSE de faltante: 0.0
RMSE de Estratégia da média: 997.7600138929953
RMSE de Estratégia da mediana: 959.3580492530756
RMSE de Estratégia do "mais frequente": 1097.6425985146868
