# Case de Treino IA - Machine Learning

Neste case você terá a oportunidade de praticar técnicas fundamentais para se capacitar na área de Machine Learning.

Sumário:
1. Tratamento de dados
2. Análise exploratória de dados (EDA)
3. Pré-Processamento
    -  Feature Engineering
4. Modelos de Classificação
    - K-Nearest Neighbors (KNN)
    - Regressão Logística
    - Naive Bayes
    - Métricas de Avaliação
5. Modelos de Regressão
    - Linear Regression
    - Ridge
    - Lasso
    - Métricas de Avaliação
6. Modelos de Arvore
7. Boosting models
8. Support Vector Machines
9. Otimização de Modelos
10. Aprendizado não supervisionado
    - Clustering
    - Redução de Dimensionalidade
    - Regras de Associação
11. Séries Temporais?

----
## Referências (mais referências ao longo do case):

- [Livro: Introduction to Machine Learning with Python](https://drive.google.com/drive/u/1/folders/10VdWCaR7qZ40K9rC5gWviKWMkMPzK8FB)
- [Supervised learning with scikit-learn](https://app.datacamp.com/learn/courses/machine-learning-with-scikit-learn)
- [Machine Learning codes and concepts](https://www.youtube.com/watch?v=CsHvAPWbt-Q&list=PL2GWo47BFyUNeLIH127rVovSqKFm1rk07)

## 0-) Importação dos dados

Na primeira parte do case de IA iremos utilizar a base de dados [Loan Aproval Classification Dataset](https://www.kaggle.com/datasets/taweilo/loan-approval-classification-data/data).

Está é uma base com a temática de risco de crédito. Ela contém informações detalhadas relacionadas a perfis financeiros e características pessoais e socio-econômicas de indivíduos, estruturadas de forma a facilitar a análise de risco de crédito e a predição da aprovação de empréstimos.

A base de dados está em um arquivo csv chamado "dataset_" na mesma pasta deste arquivo notebook.

### a-) Importe a base de dados

In [15]:
import pandas as pd
df = pd.read_csv('dataset_1.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45005 entries, 0 to 45004
Data columns (total 14 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   person_age                      45000 non-null  float64
 1   person_gender                   45000 non-null  object 
 2   person_education                45000 non-null  object 
 3   person_income                   45000 non-null  float64
 4   person_emp_exp                  45000 non-null  float64
 5   person_home_ownership           45000 non-null  object 
 6   loan_amnt                       45000 non-null  float64
 7   loan_intent                     45000 non-null  object 
 8   loan_int_rate                   45000 non-null  object 
 9   loan_percent_income             45000 non-null  object 
 10  cb_person_cred_hist_length      45000 non-null  float64
 11  credit_score                    45000 non-null  float64
 12  previous_loan_defaults_on_file  

### b-) Faça uma investigação inicial dos seus dados

A ideia aqui é ter uma primeira ideia da base que voce está trabalhando. Aqui voce deve pensar nas coisas mais simples acerca do dataset. Pense em responder perguntas iniciais como:

1. Quantas observações eu possuo na minha base? Quantas variáveis?
2. Quais tipos de variáveis eu possuo? São variáveis categoricas, númericas, booleanas, etc...?
3. Tenho algum valor faltante (NA)?
4. Qual a minha variável target? Quais são minhas features?

Pense nesta etapa como uma possibilidade de se introduzir na problemática do case.

## 1-) Tratamento dos dados

Feita uma observação inicial da sua base de dados, agora é a hora de fazer uma investigação mais profunda e adquirir um entendimento completo sobre os dados que você está trabalhando.

Nesta etapa você deve fazer toda a limpeza da base e identificar possíveis problemas de formatação ou valores estranhos. Além de deixar a base em uma formato agradável para o restante do case.

Algumas perguntas norteadoras são:

1. Meus dados estão nos formatos corretos?
2. O que fazer com valores faltantes?
3. Há algum valor que não faça sentido? Oque fazer com eles caso a resposta seja afirmativa?


**Não subestime a importancia da etapa de tratamento de dados**. Ela é uma das etapas mais importantes ao se trabalhar com um problema de Machine Learning!

## 2-) Análise exploratória de dados (EDA)

A Análise Exploratória de Dados (EDA - Exploratory Data Analysis) é o processo inicial de investigação de um conjunto de dados para entender sua estrutura, identificar padrões, detectar anomalias e verificar relações entre variáveis. Sua importância está em fornecer insights fundamentais para modelagens futuras, garantindo que os dados sejam limpos, compreensíveis e relevantes para a tomada de decisão, evitando erros e extraindo o máximo de informação possível.

Neste sentido, a Análise Exploratória de Dados é um passo que complementa o processo iniciado no tratamento dos dados. Uma boa EDA geralmente foca em criar gráficos e estatísticas descrítivas que tragam alguma informação relevante dos dados.

Referência: [What is Exploratory Data Analysis](https://medium.com/towards-data-science/exploratory-data-analysis-8fc1cb20fd15)

### a-) Plote um histograma para cada variável númerica

### b-) Plote um gráfico de barras para cada variável categórica

### c-) Plote um boxplot para as variáveis numéricas

### d-) Plote um heatmap de correlação entre as variáveis

### e-) Explore outros gráficos e abordagens!

Dedique um tempo para fazer uma boa Análise Exploratória dos seus dados. Uma boa EDA é fundamental para um bom case de Machine Learning!

Os gráficos solicitados nos itens anteriores são sugestões de gráficos comumente utilizados em EDAs, mas eles não são os únicos. Há diversos outros gráficos que podem oferecer informações valiosas dos dados como gráficos de pizza e scatter plots.

Além de gráficos, pense em outras formas de extrair informações dos dados. Nesta etapa (e em muitas outras) a estatística é sua grande aliada!

## 3-) Pré-Processamento

### Feature Engineering

Feature Engineering é o processo de criação, transformação e seleção de variáveis (features) para melhorar o desempenho de modelos de Machine Learning. Ele envolve técnicas como normalização, encoding de variáveis categóricas, extração de novas features e redução de dimensionalidade, permitindo que os algoritmos capturem padrões mais relevantes nos dados e aumentem a precisão das previsões.

A etapa de Feature Engineering é uma continuação da Análise Exploratória de Dados (EDA). Enquanto a EDA extrai informações valiosas dos dados, a Feature Engineering transforma essas informações em variáveis estruturadas e otimizadas para que o modelo de machine learning possa interpretá-las de forma mais eficiente.

Os modelos de Machine Learning requerem que os dados estejam em formatos específicos para que possam interpretá-los corretamente. Por isso, é essencial realizar uma boa Feature Engineering para transformar os dados de maneira adequada e otimizar o desempenho do modelo.

Referência:

[Feature Engineering for Machine learning with Python](https://www.datacamp.com/courses/feature-engineering-for-machine-learning-in-python)

### Encoding

Muitos algoritmos não só conseguem trabalhar com dados numéricos. Assim, um tratamento necessário é a transformação de variáveis categóricas em numéricas. 

São formas de encoding mais comuns:
- Dummy encoding
- One-hot encoding
- Label encoding

Dê uma pesquisada nesses métodos e veja qual a forma mais adequada para as variáveis categóricas

Referência:

[Categorical Data Encoding Techniques](https://medium.com/aiskunks/categorical-data-encoding-techniques-d6296697a40f)

### a-) Transforme a coluna de sexo em númerica (dummie). Faça com que valores female assumam valores igual a 1 e male seja igual a 0

### b-) Transforme a coluna de registro de calote anterior em dummie. Valores "Yes" devem ser iguais a 1 e valores "No" devem ser iguais a 0.

### c-) Aplique One-Hot Encoding nas colunas de nível educacional, tipo de moradia e intenção/destinação do empréstimo

Obs: Pense no problema de multicolineariedade