## Orientações - Prof. Louzada

2. Uma questão será relacionada com as disciplinas “Programação para Ciência de Dados” e “Técnicas Avançadas de Captura e Tratamento de Dados”. Essa questão envolve a leitura de um arquivo no formato .CSV de modo a identificar e tratar dados faltantes e outliers. Ao concluir a questão e assinalar a resposta que julgue correta no Moodle, os seguintes passos devem ser realizados para concluir a submissão da resposta: 
   2.1) Exportar o notebook que foi utilizado para resolver a questão da prova em formato .py e fazer upload no Moodle. Atenção: não deve ser feito upload de um arquivo notebook (.ipynb), mas sim de um arquivo texto .py contendo os códigos python que foram utilizados para resolver às questões. O arquivo .py pode ser gerado realizando-se as seguintes ações: File --> Download as --> Python (.py) disponível no Jupyter Notebook. ou File --> Download .py no Google Colab.Caso a resolução da questão não tenha sido feita usando Jupyter, o código desenvolvido para responder à questão deve ser enviado em um arquivo ASCII (Texto) salvo na extensão .py
   2.2) O arquivo deve ser nomeado com o nome e o sobrenome do aluno, SEM ESPAÇO entre as partes de seu nome. Exemplo: moacirponti.py
   2.3) É OBRIGATÓRIO conter no cabeçalho (início) do arquivo um comentário com o seu nome completo. Por exemplo, #Moacir Ponti

## Verificar Aula 07 - Programacao Ciencia de Dados

#### Dados faltantes
Dados faltantes são muito comuns em aplicações reais, ou seja, valores dos elementos não são fornecidos para algumas entradas da série ou DataFrame. Dados faltantes são representados pelo <font color='blue'>pandas</font> com o símbolo 'NaN'.

Pandas fornece diversas funcionalidades para lidar com dados faltantes, por exemplo:
- detectar dados faltantes com os métodos <font color='blue'>isnull</font> e <font color='blue'>notnull</font>
- remover linhas que contenham dados faltantes utilizando o método <font color='blue'>dropna</font>
   - linhas faltando qualquer elemento 
   - linhas faltando todos os dados
   - linhas faltando um número específico de dados
- Substituir os valores faltantes (NaN) por um valor específico utilizando o método  <font color='blue'>fillna</font>
- Especificar valores para substituir dados faltantes em operações aritmétricas

In [None]:
#bibliotecas
import pandas as pd

# o método 'isnull' cria uma máscara booleana onde os valores True corresondem as entradas com dados faltantes
df.isnull()
# o método 'dropna' remove todas as linhas onde um dado faltante aparece
df.dropna()
# remove linhas onde todos os dados estejam faltando
df.dropna(how='all')
# remove colunas que contenham algum dado faltante
df.dropna(how='any',axis=1)
# remove linhas com 3 ou mais dados faltantes
df.dropna(thresh=2)
# Substitui valores faltantes por zero e guarda em um novo DataFrame. O data frame original não é afetado
df1 = df.fillna(0)
# substitui o valor faltante da coluna 1 por -1 da coluna 3 por 0 e da coluna 4 por 1
df.fillna({1:-1,3:0,4:1})

# detecta linhas duplicadas
df.duplicated()
# removerlinhas duplicadas
df.drop_duplicates()

# modificando os valores da coluna 'type' para que fiquem em letras maiusculas
df['type'] = df['type'].map(lambda x: x.upper())

#mapeando um dicionario para aplicar classificação em uma nova coluna no dataframe
calories_by_type = {'Cheese':'high','Apple':'low','Bread':'high'}
df['calories'] = df['food'].map(calories_by_type)

# substitui valores no DataFrame todo utilizando duas listas, a primeira lista corresponde aos valores que serão modificados
# a segunda lista contém os novos valores. No exemplo abaixo, 2 será substituido por -2 e 'cla' por 'clam'
dfr.replace([2,'cla'],[-2,'clam'])
#utilizando dicionario como parametro
dfr.replace({2:-2,'cla':'clam'})
#utilizando dicionário em colunas específicas
dfr.replace({'c1':{4:-4,2:-2},'c3':{'ela':'eles'}})

#renomeando rótulos de linhas ou colunas. Neste exemplo, o primeiro parametro renomeia os indices acrescentando um a na string. 
#No segundo converte o nome das colunas pra maiusculo
df.rename(index=lambda x: str(x)+'a', columns=lambda x: x.upper())

## Verificar Aula 03 e Prova Final - Introducao Ciencia de Dados

 ##### Amostragem de dados
       No caso de termos muitos dados e pouco poder computacional, podemos processar uma parte simplesmente pegando uma amostra do todo, porém, quanto mais dados, maior tende ser a acurácia do modelo. O ideal é fazer um balanço entre a eficiência computacional e a acurácia dos dados.
       Um dos problemas da amostragem é o balanceamento, ou seja, quando pegamos um dado, que só representa um tipo de informação, induzindo a análise para conclusões que podem não ser verdadeiras ou altamente influenciáveis.
       
       Amostragem aleatório simples:
           Com reposição: Vou retirando amostras aleatórias sem me preocupar se os dados que saíram estão repetidos ou não.
           Sem reposição: Vou retirando amostras aleatórias e me preocupando com os dados que já saíram, não repetindo.
           
       Amostragem estratificada:
           Manter o mesmo número de objetos para cada classe de dados ou manter um número de dados proporcionais. Ex, temos uma amostra com 100 homens e 20 mulheres, então vamos tentar deixar ambos com uma quantidade igual de elementos, ou aumentando o número de mulheres ou diminuindo o número de homens. Algumas técnicas pra isso são acréscimo ou eliminação.
           
       Amostragem progressiva:
           Vai processando uma amostra pequena e vai incluindo dados até a amostra ficar com uma acurácia preditiva pára de melhorar, então não precisamos mais continuar processando dados, uma vez que não teremos mais ganho com isso.
       
   
   ##### Limpeza de dados
       Ruídos: erros ou valores diferentes do esperado. Ex. Idade com valores negativos.
       Inconsistências: valores que não combinam ou contradizem a lógica. Ex. pessoa de 1,95m de altura pesando 10Kg.
       Redundâncias: objetos/atributos com mesmos valores. Ex. 2 entradas iguais, influenciando no algoritimo.
       Dados incompletos: ausência de atributos.
           Soluções:  Eliminar objetos com valores ausentes.
                      Preencher manualmente valores faltantes.
                      Utilizar algum método/heurística/algoritmo para prever/estimar valores faltantes automaticamente.
                      
   
   ##### Transformação de valores
       Quando os algoritimos tem dificuldades de usar os dados no seu formato original, então nesse caso, você realiza uma transformação, passando ele para um formato que seja inteligivel tanto para a análise quanto para o algoritimo de processamento. Por ex, one-hot encoding scheme:
   
   ###### One-Hot Enconding    
   <img src="img/one-hot-encoding.jpg" width="500" height="400">
   

    Normalização (MinMax Scaling):
        Os dados serão ajustados de forma que o valor máximo será 1 e o valor mínimo será 0.
        Desvantagem: Sensível a outliers.
 
 <img src="img/min-max-scaling.png">        
 <img src="img/graf-min-max-scaling.png" width="300" height="200">   
        
    Padronizaçao (Z-Score Normalization:)
        Os dados serão ajustados de forma que a média será 0 e o desvio padrão será 1.
        
  <img src="img/z-normalization.gif" width="150" height="100">    
  <img src="img/graf-z-normalization.png" width="500" height="400">
  

In [None]:
#Exemplo de padronização (converter os dados para terem média 0 e desvio padrão 1) - exemplo da prova de estatística
#(variável menos média dividido pelo desvio padrão)
Tamanho_p = (data.Tamanho-np.mean(data.Tamanho))/(np.std(data.Tamanho))

#Exemplo de normalização (converter os valores no intervalo de 0 e 1)
#(variavel menos minimo dividido pela amplitude que é p max menos o mínimo)
def normalize(train):
    d_max = np.max(train)
    d_min = np.min(train)
    return ((train - d_min) / (d_max-d_min))

SxNorm = normalize(Sx)


#Outra forma de normalização:

from sklearn.preprocessing import StandardScaler
#converte dataframe para array
X = np.array(data[data.columns[0:data.shape[1]-1]])
# prepara a função para transformar os dados
scaler = StandardScaler().fit(X)
# realiza a padronização (média=0, variância = 1)
rescaledX = scaler.transform(X)

#### Outliers:
Podemos dizer que uma observação é um outlier se ao menos uma das variáveis está fora dos limites máximos do boxplot. Ou seja, se o valor é menor do que (Q1 - 1.5 * IQR) ou maior do que (Q3 + 1.5 * IQR).

In [None]:
#criando uma função para detectar outliers usando o método do IQR, se encontrar outlier, substitui por um NaN
def detect_outlier(data):
    Q1 = data.quantile(0.25)
    Q3 = data.quantile(0.75)
    IQR = Q3-Q1
    mask = ((data < (Q1 - 1.5 * IQR)) | (data > (Q3 + 1.5 * IQR)))
    data[mask] = np.nan
    return data

#DICA:
#Plotar os gráficos de outlier com boxplot
import seaborn as sns
plt.figure(figsize=(16,5))
sns.boxplot(x="variable", y="value", data=pd.melt(df.iloc[:,-4:]))
plt.show()

## Verificar Aula 02 - Tecnicas Avancadas Ciencia de Dados

#### Detectando outliers

**Relembrando - outliers, pontos "fora-da-curva" ou pontos aberrantes** : exemplos ou instâncias que, dentre do espaco de possíveis valores, recaem num intervalo *fora* daquele relativo a maior parte dos exemplos de uma base de dados.

Detectar outliers por meio de análise exploratória é útil para entender o comportamento da base de dados.

Existem também métodos **estatísticos** e de **aprendizado de máquina** que auxiliam nesse processo e que podem facilitar essa análise, detectando *outliers* de forma automática.

1. Dispersão: desvio padrão e intervalo interquartil
2. Distribuição: Normal univaridada
3. Agrupamento


#### 1. Desvio padrão e amplitude inter-quartil (por dispersão)

Para cada atributo, podemos estudar como os valores estão relacionados com a dispersão dos dados.

Entre as medidas de dispersão temos:
* desvio padrão (*standard deviation*)
    Seja $\mu$ a média de uma variável,
    $$\sigma = \frac{\sqrt{ \sum_i (x_i - \mu)^2}}{n}$$


* amplitude - ou intervalo - interquartil (IQR, *interquartile range*)
    Sejam:
    - $Q_{1}$ o valor relativo aos primeiros 25% dados,
    - $Q_{2}$ o valor relativo aos primeiros 50% dados (mediana),
    - $Q_{3}$ o valor relativo aos primeiros 75% dos dados,
    
    $$IQR = Q_{3} - Q_{1}$$

In [None]:
#verificando outliers e inliers por IQR

# definindo o primeiro e terceiro interquartil (IQR)
Q1 = data['total'].quantile(0.25)
Q3 = data['total'].quantile(0.75)
IQR = Q3 - Q1

#encontrando média e desvio padrão
desvp = data['total'].std()
media = data['total'].mean()

print("IQR = %.2f" % IQR)
print("media = %.2f, desvio padrao = %.2f" % (media, desvp))

# apenas outliers segundo IQR
dataout_iqr = data[(data['total'] < Q1-(IQR*1.5)) 
                    | (data['total'] > Q3+(IQR*1.5))]
# apenas inliers segundo IQR
dc_iqr = data[(data['total'] >= Q1-(IQR*1.5)) 
              & (data['total'] <= Q3+(IQR*1.5))]

# apenas outliers segundo std
dataout_std = data[(data['total'] < media-(desvp*2)) 
                   | (data['total'] > media+(desvp*2))]
# apenas inliers segundo std
dc_std = data[(data['total'] >= media-(desvp*2)) 
                   & (data['total'] <= media+(desvp*2))]

#DICA:
#removendo outliers
dc = data.copy()

for var in data:
    print(var)
    
    # verifica se variável é numerica
    if np.issubdtype(dc[var].dtype, np.number):
        print('\tnumérica: removendo outliers via IQR')
        Q1 = dc[var].quantile(0.25)
        Q2 = dc[var].quantile(0.50)
        Q3 = dc[var].quantile(0.75)
        IQR = Q3 - Q1
        print("\tmediana = %.2f IQR = %.2f" % (Q2,IQR))
        # apenas inliers segundo IQR
        dc = dc[(dc[var] >= Q1-(IQR*1.5)) & (dc[var] <= Q3+(IQR*1.5))]

#Plotando resultados
plt.figure(figsize=(9,4))
plt.subplot(121); data.boxplot(['total'])
plt.title('Original')

plt.subplot(122); dc.boxplot(['total']); 
plt.title('Apos remocao de outliers')

#### 3. Agrupamento - DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Outra técnica consiste em utilizar aprendizado não-supervisionado, inferindo agrupamentos e verificando se há pontos isolados em certos grupos.

Vamos considerar um par de atributos para considerar ao mesmo tempo: rent e hoa

O método utilizado será o DBSCAN - *Density-Based Spatial Clustering of Applications with Noise*, mas outros também podem ser empregados na mesma lógica:
* agrupamentos (clusters) isolados com poucos pontos tendem a indicar outliers

In [None]:
#verificando outliers e inliers por agrupamento

#bibliotecas
from sklearn.cluster import DBSCAN
from sklearn import metrics
#dados
X1 = np.array(dc['rent'])
X2 = np.array(dc['hoa'])
X = np.vstack((X1,X2)).T

# aprende o agrupamento
# eps = distancia máxima para dois pontos serem considerados vizinhos
#     (depende bastante da amplitude dos atributos)
# min_samples = minimo de exemplos numa vizinhanca para considerar um 
#               agrupamento
db = DBSCAN(eps = 200, min_samples=3).fit(X)
clusters = db.labels_

# número de rótulos -1 sao considerados outliers!
n_outl_ = list(clusters).count(-1)
# retirando os outliers, quantos clusters foram encontrados:
n_clusters_ = len(set(clusters)) - (1 if -1 in clusters else 0)
# índices dos outliers
outl_ind = np.where(clusters==-1)

print('Número de agrupamentos estimado: %d' % n_clusters_)
print('Número de outliers estimados: %d' % n_outl_)
print("Coeficiente de silhueta: %0.3f"
      % metrics.silhouette_score(X, clusters))

plt.plot(X1, X2,'.')
plt.plot(X1[outl_ind], X2[outl_ind],'xr')
plt.show()