# Qualidade dos dados e Pré-processamento 

![alt text](https://joaomrcarvalho.github.io/images/images.png)

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot
%matplotlib inline

## Valores em falta (missing values)

### Detectar valores em falta

In [None]:
data = pd.read_csv('../dados/missed_phone_data.csv',index_col='index')

data.head()

In [None]:
data.isnull().head()

In [None]:
print(data.isnull().any(axis=0))

print('------------------------------------------------------------------------------------------')

print(data.isnull().any(axis=1))

In [None]:
print(data.isnull().any(axis=0).value_counts())


print('----------------------------------------------------------------------------------------------')

print(data.isnull().any(axis=1).value_counts())

### Como copiar uma nova estrutura as entradas (indexes) com "missing values"?

In [None]:
# Resolução


### e com apenas com entradas (indexes) completos?

In [None]:
# Resolução 


### Lidar com valores em falta

In [None]:
incomplet_data = pd.read_csv('../dados/missed_phone_data.csv', index_col='index')
complet_data = pd.read_csv('../dados/phone_data.csv', index_col='index')

miss_indexes =  incomplet_data[incomplet_data.isnull().any(axis=1)].index

print(miss_indexes)

In [None]:
print(incomplet_data.columns[incomplet_data.isnull().any(axis=0)])
print('-----------------------------------------')
print(incomplet_data[incomplet_data['duration'].isnull()])

In [None]:
print(incomplet_data['duration'].head(11))
print(incomplet_data['duration'].mean())
incomplet_data['duration'].fillna(incomplet_data['duration'].mean(),inplace=True)

In [None]:
duration_true = complet_data.iloc[miss_indexes]['duration']
duration_completed = incomplet_data.iloc[miss_indexes]['duration']

print(abs(duration_true - duration_completed).sum()/len(duration_completed))

In [None]:
print(incomplet_data['item'].head(5))

print("-------------------------")

print('mode: {}'.format(incomplet_data['item'].mode()[0]))

print("-------------------------")

incomplet_data['item'].fillna(incomplet_data['item'].mode,inplace=True)

In [None]:
item_true = complet_data.iloc[miss_indexes]['item']
item_completed = incomplet_data.iloc[miss_indexes]['item']

print(len(item_true.loc[item_true == item_completed])/len(item_completed))

In [None]:
incomplet_data = pd.read_csv('../dados/missed_phone_data.csv',index_col='index')

out_data = incomplet_data.loc[incomplet_data['duration'].notnull()]

In [None]:
group = out_data.groupby('item').mean()['duration']

print(group)

print('------------------------------')

print('Media total: {}'.format(incomplet_data['duration'].mean()))
print('Media call: {}'.format(group.loc['call']))

**Sugestão de exercício**: Completar o código que se segue substituindo o preenchimento de valores em falta pela variável agrupada por outra coluna, de forma a obter um resultado mais fidedigno. 

In [None]:
# tendo em conta os resultados anteriores,
# podemos  preencher os dados em falta:

#incomplet_data['duration'].fillna(incomplet_data['duration'].mean(),inplace=True)

for i, value in enumerate(incomplet_data['item']):
    #TODO: se encontrar valor em falta
    # substituir valor
        

print(incomplet_data.head(11))

In [None]:
# vamos carregar os registos da coluna 'duration' com missing values
duration_true = complet_data.iloc[miss_indexes]['duration']
duration_completed = incomplet_data.iloc[miss_indexes]['duration']

print(abs(duration_true - duration_completed).sum()/len(duration_completed))

In [None]:
incomplet_data = pd.read_csv('../dados/missed_phone_data.csv', index_col='index')


out_data = incomplet_data.loc[incomplet_data[['network_type','network']].notnull().any(axis=1)]

In [None]:
print(out_data.head())

print("--------------------------------")
group_main = out_data.groupby(['network_type','network'],as_index=True).agg(lambda x: x.value_counts().index[0])['item']

# vamos agora fazer o mesmo procedimento, mas fazendo os grupos coluna a coluna individualmente
# estes valores vão ser úteis no caso em que um dos valores seja NaN
group_network_type =  out_data.groupby(['network_type'],as_index=True).agg(lambda x:x.value_counts().index[0])['item']
group_network =  out_data.groupby(['network'],as_index=True).agg(lambda x:x.value_counts().index[0])['item']


print(group_main)

print("--------------------------------")

print(group_network_type)

print("--------------------------------")

print(group_network)

In [None]:
# com esses três grupos, podemos agora substituir os valores em falta:
for i,nt in enumerate(incomplet_data[['network_type','network']].values):
    if pd.isnull(incomplet_data['item'][i]) == True: 
        
        if pd.notnull(incomplet_data['network_type'][i]) == True and pd.notnull(incomplet_data['network'][i]) == True:
            incomplet_data.loc[i,['item']] = group_main.loc[incomplet_data['network_type'][i]][incomplet_data['network'][i]]
       
        elif pd.notnull(incomplet_data['network_type'][i]) == False and pd.notnull(incomplet_data['network'][i]) == True:
            print('atual:{}\nsubstituir:{}'.format(incomplet_data['network_type'][i],group_network.loc[incomplet_data['network'][i]]))
            incomplet_data.loc[i,['item']] = group_network.loc[incomplet_data['network'][i]]
        
        elif pd.notnull(incomplet_data['network_type'][i]) == True and pd.notnull(incomplet_data['network'][i]) == False:
            incomplet_data.loc[i,['item']] = group_network_type.loc[incomplet_data['network_type'][i]]
    

#incomplet_data['item'].fillna(incomplet_data['item'].mode(), inplace=True)

In [None]:
item_true = complet_data.iloc[miss_indexes]['item']
item_completed = incomplet_data.iloc[miss_indexes]['item']


print(len(item_true.loc[item_true == item_completed])/len(item_completed))

## Dados redundantes

In [None]:
data = pd.read_csv('../dados/Calls_for_Service_2015.csv')

data.head()

In [None]:
print(data.duplicated().head(10))

In [None]:
print(data.duplicated().value_counts())

In [None]:
print(data.drop_duplicates().head())

In [None]:
print(data['NOPD_Item'].duplicated().head(10))
print('----------------')
print(data['NOPD_Item'].duplicated().value_counts())

In [None]:
print(data[['Priority', 'InitialType']].duplicated().value_counts())

In [None]:
data = data[data[['Priority', 'InitialType']].duplicated() == False]

print(len(data))

## Lidar com ruído nos dados

In [None]:
data = pd.read_csv('../dados/house_data.csv',index_col=0)

data.head(10)

**Sugestão de Exercício:** Preencher os valores do dataset 'house_data.csv' e justificar o motivo para os métodos utilizados.

In [None]:
# Exercício

#algum missing value?
print('BEFORE:', data.isnull().values.any())

#indices com missing values?

#colunas com missing values?


#ainda temos missing values?
print('-------------------------')
print('AFTER:',data.isnull().values.any())

### Encontrar ruído através da visualização de dados

In [None]:
data['SalePrice'].plot.box()
print(data['SalePrice'].describe())

In [None]:
data.boxplot(column='SalePrice', by='SaleCondition')

In [None]:
data.boxplot(column='SalePrice', by='GarageCars')

In [None]:
data.boxplot(column='SalePrice', by=['GarageCars','SaleCondition'],figsize=(25,7))

In [None]:
data.plot.scatter(x='LotArea',y='SalePrice')

In [None]:
data.plot.scatter(x='LotArea',y='SalePrice', c= data['GarageCars'])

In [None]:
select_data = data[(data['SalePrice'] < 600000) & (data['LotArea'] < 50000)]

select_data.plot.scatter(x='LotArea',y='SalePrice',c=select_data['GarageCars'])

**Sugestão de Exercício:** Utilizar o box plot e scatter plot aplicados também a outras variáveis, para eliminar ruídos e apresentar a média dos preços das transações de imóveis.

In [None]:
# Resolução

#boxplot

#scatter


#selected area


### Detectar ruído através de índices e fórmulas estatísticas

## Z-score

In [None]:
data = pd.read_csv('../dados/house_data.csv',index_col=0)

In [None]:
from scipy.stats import zscore

data['SalePrice_standartized'] = zscore(data['SalePrice'],axis=0)

print(data['SalePrice_standartized'].head())

In [None]:
noise_data_super = data[data['SalePrice_standartized'] >= 3]['SalePrice']

print(noise_data_super)

In [None]:
print(noise_data_super.min())

In [None]:
noise_data_inf = data[data['SalePrice_standartized'] <= -3]['SalePrice']

print(noise_data_inf)

In [None]:
data['std_SalePrice_by_group'] = data.groupby('GarageCars')['SalePrice'].transform(zscore)
print(data)

In [None]:
noise_data = data[abs(data['std_SalePrice_by_group']) >= 3]['SalePrice']

print(noise_data)

## IQR

In [None]:
primeiro_quartil = data['SalePrice'].quantile(0.25)

terceiro_quartil = data['SalePrice'].quantile(0.75)

print('primeiro quartil: {}'.format(primeiro_quartil))
print('terceiro quartil: {}'.format(terceiro_quartil))
#print(data['SalePrice'].describe())

In [None]:
clean_data = data[~((data['SalePrice'] < primeiro_quartil) | (data['SalePrice'] > terceiro_quartil))]
# Nota: o símbolo "~" indica negação
#clean_data2 = data[((data['SalePrice'] >= primeiro_quartil) & (data['SalePrice'] <= terceiro_quartil))]
print(clean_data.head())


In [None]:
clean_data.plot.scatter(x='LotArea',y='SalePrice')

In [None]:
percentil_5 = data['SalePrice'].quantile(0.05)

percentil_95 = data['SalePrice'].quantile(0.95)

print('percentil 5: {}'.format(percentil_5))
print('percentil 95: {}'.format(percentil_95))

clean_data = data[~((data['SalePrice'] < percentil_5) | (data['SalePrice'] > percentil_95))]

clean_data.plot.scatter(x='LotArea',y='SalePrice')