
# Outliers
  
Os outliers são dados que se diferenciam drasticamente de todos os outros. Em outras palavras, um outlier é um valor que foge da normalidade e que pode (e provavelmente irá) causar anomalias nos resultados obtidos por meio de algoritmos e sistemas de análise.

Entender os outliers é fundamental em uma análise de dados por pelo menos dois aspectos:

os outliers podem viesar negativamente todo o resultado de uma análise;
o comportamento dos outliers pode ser justamente o que está sendo procurado.
Os outliers presentes em datasets  (o que são datasets) possuem diversos outros nomes, como:

- dados discrepantes;
- pontos fora da curva; (o que é curva normal?)
- observações fora do comum;
- anomalias;
- valores atípicos

Após reconhecer os dados discrepantes da sua análise, é preciso tomar certos cuidados para que a efetividade da mesma não seja comprometida. Algumas alternativas são:

1) ELIMINAR O VALOR

Caso seu dataset seja amplo o suficiente, é possível simplesmente excluir o valor anômalo sem causar grandes prejuízos à análise de dados.

2) TRATAR SEPARADAMENTE

Se a quantidade de outliers for relativamente grande, uma opção é realizar uma análise separada somente com esses dados. É possível separá-los em dois grupos e criar modelos específicos para analisá-los. Essa solução é útil para investigar casos extremos, como por exemplo casos de empresas que continuam vendendo bastante e lucrando mesmo em tempos de crise.

3) TRANSFORMAÇÃO LOGARÍTMICA

Transformar os dados logaritmicamente é uma técnica que pode diminuir a variação causada pelos valores extremos e anômalos.

4) MÉTODOS DE CLUSTERIZAÇÃO

Utilize esses métodos para achar uma aproximação que corrige e dá um novo valor aos outliers. Por exemplo, se os outliers forem causados por erros de input, ao invés de eliminar e perder uma linha inteira de registros, uma solução é usar algoritmos de clusterização. Esses algoritmos encontram o comportamento das observações mais próximas ao outlier e fazem uma interferência de qual seria o melhor valor aproximado.

Identificação de ouliers

In [None]:
import pandas as pd
import numpy as np

In [None]:
df_loan = pd.read_csv('./dados/Loan_Default.csv')
df_loan.head()

In [None]:
df_loan['income'].plot(kind='box')

**Bora praticar!**
  
Os bancos obtêm uma receita importante com empréstimos concedidos. Mas muitas vezes está associado ao risco. O mutuário pode não pagar o empréstimo. Para mitigar esse problema, os bancos decidiram usar o Machine Learning para superar esse problema. Eles coletaram dados anteriores sobre os tomadores de empréstimos e gostariam que você desenvolvesse um modelo de ML forte para classificar se algum novo devedor provavelmente entrará em default ou não.  
  
O conjunto de dados é enorme e consiste em vários fatores determinísticos, como renda do mutuário, gênero, finalidade do empréstimo, etc. O conjunto de dados está sujeito a uma forte multicolinearidade e valores vazios. Você pode superar esses fatores e construir um classificador forte para prever inadimplentes?  
  
Importe a base **Loan_Default.csv** que está em csv dentro do diretório **dados**.

In [None]:
df_loan = pd.read_csv('./dados/Loan_Default.csv')
df_loan.head()

In [None]:
df_loan.shape

In [None]:
df_loan.columns

In [None]:
df_loan.info()

In [None]:
df_loan.describe()

In [None]:
df_loan.isna().sum()

In [None]:
df_loan.isnull().sum()

In [None]:
(df_loan.isnull().sum() / len(df_loan))*100

Análise de variáveis contínuas

In [None]:
df_loan[['Credit_Score']].plot(kind='box');

Vamos analisar nossa variável de interesse **Status**

In [None]:
df_loan['Status'].value_counts()

In [None]:
df_loan['Status'].value_counts(normalize=True)

In [None]:
df_loan['Status'].mean()

Podemos analisar outras variáveis de interese também

In [None]:
df_loan['age'].value_counts()

In [None]:
df_loan.pivot_table(index='age', aggfunc='count', values='ID')

In [None]:
df_loan.pivot_table(index='age', aggfunc='count', values='ID').plot(kind='bar');

In [None]:
df_loan['credit_type'].value_counts()

Agora podemos verificar as relações das variáveis presentes no dataset com a nossa variável de interesse.

In [None]:
df_loan.pivot_table(index='credit_type', values='Status', aggfunc='mean')

In [None]:
df_loan.pivot_table(index='income', values='Status', aggfunc='mean')

In [None]:
def salarios(salario):
    if np.isnan(salario):
        return np.nan
    elif salario <= 1000:
        return "0-1000"
    elif salario <= 2000:
        return "1000-2000"
    elif salario <= 5000:
        return "2000-5000"
    else:
        return ">5000"

In [None]:
df_loan['faixa_salario'] = df_loan['income'].apply(salarios)
df_loan.pivot_table(index='faixa_salario', values='Status', aggfunc='mean')

In [None]:
df_loan.pivot_table(index='Region', values='Status', aggfunc='mean')

In [None]:
df_loan.pivot_table(index='age', values='Status', aggfunc='mean')

In [None]:
df_loan.corr()