# Etapas de um Modelo de Machine Learning

## Disciplina: Introdução à Ciência de Dados

## 1. Definição do Problema

### Descrição do Problema

- Qual é a descrição informal do problema?
- Qual é a descrição formal do problema?
- Que premissas ou hipóteses você tem sobre o problema?

### Dados Disponíveis

- Que restrições ou condições foram impostas para selecionar os dados?
- Defina cada um dos atributos conjunto de dados (dataset) disponibilizado.

## 2. Análise dos Dados

### Estatísticas descritivas

- Quantos atributos e instâncias existem?
- Quais são os tipos de dados dos atributos?
- Verifique as primeiras linhas do dataset. Algo chama a atenção?
- Há valores faltantes ou inconsistentes?
- Faça um resumo estatístico dos atributos com valor numérico (mínimo, máximo, mediana, moda, média, desvio padrão e número de valores ausentes). O que você percebe?

### Visualizações

- Verifique a distribuição de cada atributo (com histogramas). O que você
percebe?
 - Pode dar ideias sobre a necessidade de transformações na etapa de
preparação de dados (por exemplo, converter atributos de um tipo para
outro, realizar operações de discretização, normalização, padronização,
etc).
- Verifique a distribuição de frequência das classes. O que você percebe?
 - Pode indicar a possível necessidade de balanceamento de classes;
 - A distribuição de frequência do atributo de classe (ou média de uma
variável de saída de regressão) é útil porque você pode usá-lo para
definir a acurácia mínima de um modelo preditivo.
- Verifique a distribuição dos atributos separados por classe em histogramas. O
que você percebe?
- Verifique os atributos em pares, com scatter plots. O que você percebe?

## 3. Pré-Processamento de Dados

Verifique quais operações de pré-processamento podem ser interessantes para
o seu problema e salve visões diferentes do seu dataset. Por exemplo:
- Normalização
- Padronização
- Discretização
- One-hot-encoding
- Trate (removendo ou substituindo) os valores faltantes (se existentes)
- Avalie os subconjuntos de atributos que podem ser mais interessantes para os
modelos preditivos

## 4. Modelagem e Inferência

- Experimente diversos algoritmos de classificação (Exemplos: regressão
logística, Árvore de classificação, KNN, Naive Bayes e SVM) com a configuração
padrão. Além do dataset original, utilize diferentes visões do dataset
de acordo com as operações realizadas na etapa de pré-processamento de
dados (normalização, padronização, seleção de variáveis, etc). 
- Analise os resultados
- Experimente diferentes valores de parâmetros para os melhores algoritmos de
classificação da etapa anterior. Analise os resultados

## 5. Pós-Processamento

- Escolha qual será o modelo final e os valores dos seus parâmetros, decidindo se
irá utilizar dataset original ou uma das visões na etapa de pré-processamento.
- Separe 5 instâncias do dataset para serem usadas como dados novos, não
vistos pelo modelo (sugestão: fazer no excel de forma aleatória, observando a
proporção das classes).
- Treine o modelo escolhido com o dataset completo (excluindo as 5 linhas da
etapa anterior).
- Execute o modelo para os dados não vistos. Analise o resultado.

# Problema de Classificação: Credit

# Bibliotecas

Principais:

- Manipulação de Dados: Pandas e NumPy
- Visualização de Dados: Seaborn e Plotly
- Machine Learning: Scikit-Learn
    
Outras IDEs conhecidas (Todos vêm junto com a plataforma Anaconda - https://www.anaconda.com/):
- PyCharm
- Jupyter Notebook
- JupterLab
- Spyder

In [41]:
import pandas as pd
import plotly.express as px
import plotly.graph_objects as go

# Base de Dados

In [2]:
base = pd.read_csv("/home/thais/Documents/Python/Cap01/csv_result-credit-g-900-treino.csv")

In [8]:
print("Dataset contém {} linhas".format(len(base)))

Dataset contém 900 linhas


In [9]:
base.head(5)

Unnamed: 0,id,checking_status,duration,credit_history,purpose,credit_amount,savings_status,employment,installment_commitment,personal_status,...,property_magnitude,age,other_payment_plans,housing,existing_credits,job,num_dependents,own_telephone,foreign_worker,class
0,1,<0,12,existing paid,furniture/equipment,1657,<100,1<=X<4,2,male single,...,real estate,27,none,own,1,skilled,1,none,yes,good
1,2,<0,42,existing paid,furniture/equipment,7882,<100,4<=X<7,2,male single,...,life insurance,45,none,for free,1,skilled,2,none,yes,good
2,3,no checking,36,critical/other existing credit,business,6304,no known savings,>=7,4,male single,...,real estate,36,none,own,2,skilled,1,none,yes,good
3,4,<0,60,existing paid,business,7297,<100,>=7,4,male single,...,no known property,36,none,rent,1,skilled,1,none,yes,bad
4,5,no checking,36,critical/other existing credit,new car,3535,<100,4<=X<7,4,male single,...,car,37,none,own,2,skilled,1,yes,yes,good


In [10]:
base.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 900 entries, 0 to 899
Data columns (total 22 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   id                      900 non-null    int64 
 1   checking_status         900 non-null    object
 2   duration                900 non-null    int64 
 3   credit_history          900 non-null    object
 4   purpose                 900 non-null    object
 5   credit_amount           900 non-null    int64 
 6   savings_status          900 non-null    object
 7   employment              900 non-null    object
 8   installment_commitment  900 non-null    int64 
 9   personal_status         900 non-null    object
 10  other_parties           900 non-null    object
 11  residence_since         900 non-null    int64 
 12  property_magnitude      900 non-null    object
 13  age                     900 non-null    int64 
 14  other_payment_plans     900 non-null    object
 15  housin

In [66]:
base.describe()

Unnamed: 0,id,duration,credit_amount,installment_commitment,residence_since,age,existing_credits,num_dependents
count,900.0,900.0,900.0,900.0,900.0,900.0,900.0,900.0
mean,450.5,20.792222,3290.245556,2.968889,2.858889,35.757778,1.42,1.146667
std,259.951919,11.910406,2858.545993,1.117725,1.090498,11.460198,0.582694,0.35397
min,1.0,4.0,250.0,1.0,1.0,19.0,1.0,1.0
25%,225.75,12.0,1373.5,2.0,2.0,27.0,1.0,1.0
50%,450.5,18.0,2317.0,3.0,3.0,33.0,1.0,1.0
75%,675.25,24.0,3981.75,4.0,4.0,42.0,2.0,1.0
max,900.0,60.0,18424.0,4.0,4.0,75.0,4.0,2.0


# Análise Exploratória dos Dados

Características do Bom Pagador: 
- Tem o menor tempo de duração de um empréstimo, com média de 18 meses. Além disso, 75% dos clientes Bons solicitaram empréstimo menor que 24 meses.
- Tem idade média de 35 anos e com idade máxima de 65 anos
- O cliente bom pagador não possui conta corrente.

Características do Mau Pagador:
- Tem o maior tempo de duração de um empréstimo, com média de 24 meses. Além disso, 75% dos clientes Bons solicitaram empréstimo menor que 36 meses.
- Tem idade média de 31 anos e com idade máxima de 61 anos
- 50% dos clientes que estão negativados, são mau pagadores. Além disso, estão bem concentrados quando se tem ate $200. 
- Possui créditos existentes, pagos devidamente até agora

In [53]:
colunas = base.loc[:,['class',
                      'duration', 
                      'credit_amount', 
                      'installment_commitment', 
                      'residence_since', 
                      'age', 
                      'existing_credits', 
                      'num_dependents']]

In [54]:
fig = px.box(colunas, x="class", y="duration",color="class")
fig.update_layout(
    title={'text':"Classe Vs Duração do Empréstimo em Meses", 'y':.95,'x':.5, 'xanchor': 'center', 'yanchor': 'top'},
    xaxis_title="Bom/Mau Pagador",
    yaxis_title="Duração do Empréstimo em Meses")
fig.show()

In [59]:
fig = px.box(colunas, x="class", y="age",color="class")
fig.update_layout(
    title={'text':"Classe Vs Idade", 'y':.95,'x':.5, 'xanchor': 'center', 'yanchor': 'top'},
    xaxis_title="Bom/Mau Pagador",
    yaxis_title="Idade")
fig.show()

In [68]:
fig = px.histogram(base, x="checking_status", color="class")
fig.update_layout(
    title={
          'text':" Status da conta corrente existente",
        'y':.95,
        'x':.5,
        'xanchor': 'center',
        'yanchor': 'top'
    }  
)
fig.show()

In [71]:
fig = px.histogram(base, x="credit_history", color="class")
fig.update_layout(
    title={
          'text':" História de Crédito",
        'y':.95,
        'x':.5,
        'xanchor': 'center',
        'yanchor': 'top'
    }  
)
fig.show()

# Pré Processamento

In [72]:
def categoriza_razao(razao):
    if razao >= 40:
        return 'Grande'
    elif razao >= 15:
        return 'Média'
    else:
        return 'Pequena'