# ü§ñ Projeto de Machine Learning - Random Forest

## üìå Vis√£o Geral
Este notebook tem como objetivo desenvolver um **modelo de Machine Learning - Regress√£o Linear ** utilizando o dataset deste projeto sendo dados ficticios e gerados de maneira aleat√≥ria.  
O foco principal √© aplicar t√©cnicas de **pr√©-processamento, sele√ß√£o de vari√°veis e modelagem preditiva**, avaliando o desempenho do modelo por meio de m√©tricas adequadas.

---
## üìÇ Sobre o Dataset

O dataset cont√©m informa√ß√µes relacionadas a ** informa√ß√µes de clientes que ter√£o maiores impactos na descis√£o de limite de credio **.  
Os dados foram obtidos a partir do c√≥digo **[origem dos dados]**

Cada linha do dataset representa **um cliente**, enquanto as colunas representam **vari√°veis explicativas (features)** e a **vari√°vel alvo (limite_credito)** utilizada no treinamento do modelo.

---

## üéØ Objetivo do Projeto

O objetivo deste projeto √© **construir um modelo de Machine Learning utilizando modelo Random Forest capaz de prever**: 

> **Qual limite de cr√©dito do cliente.**

Com isso, busca-se identificar os principais fatores que influenciam a vari√°vel alvo


---

## üßæ Estrutura dos Dados

O dataset √© composto por vari√°veis do tipo:
- **Num√©ricas** (ex: idade, valor, renda, tempo de relacionamento, score de credito, limite de credito)

---

## üõ†Ô∏è Etapas do Projeto

As principais etapas deste projeto incluem:

1. Importa√ß√£o das bibliotecas
2. Leitura e entendimento do dataset
3. Tratamento de dados (valores nulos, outliers e inconsist√™ncias)
4. Engenharia de features
5. Separa√ß√£o entre vari√°veis independentes (X) e vari√°vel alvo (y)
6. Divis√£o dos dados em treino e teste
7. Treinamento de modelos de Machine Learning
8. Avalia√ß√£o do desempenho dos modelos
9. Interpreta√ß√£o dos resultados

---

## üìä M√©tricas de Avalia√ß√£o

As m√©tricas utilizadas para avaliar o modelo dependem do tipo de problema:

- **Classifica√ß√£o**: Accuracy, Precision, Recall, F1-score, ROC-AUC
- **Regress√£o**: RMSE, MAE, R¬≤

---

## üöÄ Pr√≥ximos Passos

Ao final do notebook, ser√£o apresentadas:
- As m√©tricas de desempenho dos modelos
- A import√¢ncia das vari√°veis
- Conclus√µes e poss√≠veis melhorias futuras

---


In [41]:
# Manipula√ß√£o e an√°lise de dados
import pandas as pd
import numpy as np

# criando dataframe com pandas do arquivo
df = pd.read_csv("dataset.csv")

# quantidade de linhas e colunas 
df.shape

(100000, 5)

In [32]:
# descri√ß√£o geral do dataset (m√©dia, desvio padr√£o...)
df.describe()


Unnamed: 0,renda_mensal,idade,score_credito,tempo_relacionamento,limite_credito
count,100000.0,100000.0,100000.0,100000.0,100000.0
mean,5034.433664,43.57875,74.49009,6.99295,5383.307058
std,1931.627766,14.992038,14.461486,4.316689,2525.657695
min,1500.0,18.0,50.0,0.0,-2860.89
25%,3651.0125,31.0,62.0,3.0,3462.6
50%,5005.3,44.0,74.0,7.0,5373.085
75%,6353.8325,57.0,87.0,11.0,7301.605
max,13958.17,69.0,99.0,14.0,13840.97


In [33]:
df.info()
# informa√ß√µes geral do dataset, 

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100000 entries, 0 to 99999
Data columns (total 5 columns):
 #   Column                Non-Null Count   Dtype  
---  ------                --------------   -----  
 0   renda_mensal          100000 non-null  float64
 1   idade                 100000 non-null  int64  
 2   score_credito         100000 non-null  int64  
 3   tempo_relacionamento  100000 non-null  int64  
 4   limite_credito        100000 non-null  float64
dtypes: float64(2), int64(3)
memory usage: 3.8 MB


In [40]:
# identificar correla√ß√£o entre as variaveis
df.corr()
# Quanto maior o tempo de relacionamento, maior tende a ser o limite de cr√©dito.

Unnamed: 0,renda_mensal,idade,score_credito,tempo_relacionamento,limite_credito
renda_mensal,1.0,-0.004349,-0.006424,0.002605,0.308342
idade,-0.004349,1.0,0.003633,-0.001555,-0.123824
score_credito,-0.006424,0.003633,1.0,-0.00213,0.051439
tempo_relacionamento,0.002605,-0.001555,-0.00213,1.0,0.855149
limite_credito,0.308342,-0.123824,0.051439,0.855149,1.0


### Conclus√µes da An√°lise Explorat√≥ria

- O dataset n√£o apresenta valores nulos
- As vari√°veis est√£o em escalas diferentes, indicando a necessidade de normaliza√ß√£o
- A vari√°vel `renda_mensal` apresenta forte correla√ß√£o positiva com o limite de cr√©dito
- O score de cr√©dito tamb√©m exerce influ√™ncia relevante na vari√°vel alvo
- A an√°lise confirma que o problema √© adequado para um modelo de regress√£o


In [43]:
# import bibliotica que separar os dados de treino e teste
from sklearn.model_selection import train_test_split

# dividindo os dados em treino e teste para avaliar a capacidade de generaliza√ß√£o do modelo


# Modelos de Machine Learning
from sklearn.linear_model import LinearRegression
