<a href="https://colab.research.google.com/github/VitorFRodrigues/PUCMinas_DataScience/blob/main/06-Machine_Learning/Tarefas/Modulo_A/notebook/aprovacao_credito.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Relatório Final: Análise de Aprovação de Cartão de Crédito

Instituição: Pontifícia Universidade Católica de Minas Gerais

Aluno:

1. Vitor Fernando de Souza Rodrigues

Disciplina: Machine Learning

Docente: Cristiano Rodrigues de Carvalho

# 1. Introdução

A cadeira de crédito é composta basicamente de quatro pilares: a prospecção, a concessão, a gestão de risco e a recuperação.

1. **Prospecção**: É o processo de buscar e atrair potenciais clientes ou empresas interessadas em adquirir crédito. Envolve a análise de mercado, identificação de perfis ideais e estratégias de marketing para captar novos clientes.

2. **Concessão**: Nesta fase, a instituição avalia a capacidade de pagamento do cliente, com base em informações financeiras e comportamentais, para decidir sobre a aprovação ou rejeição do crédito solicitado.

3. **Gestão de Risco**: Trata-se do monitoramento e controle dos riscos associados ao crédito concedido. Envolve o acompanhamento contínuo do comportamento de pagamento do cliente, ajustes no limite de crédito e a adoção de medidas preventivas.

4. **Recuperação**: Quando ocorre inadimplência, a instituição foca na recuperação do crédito, utilizando estratégias de cobrança, renegociação de dívidas e, em casos mais graves, ações jurídicas para minimizar perdas.

Este trabalho será basicamente focado em solucionar um problema de concessão de linha de crédito. Pois bem, o uso de crédito tem se tornado uma prática cada vez mais comum entre os brasileiros, impulsionado por diversos fatores econômicos e tecnológicos, dentre eles se destacam:

* **Acesso facilitado ao crédito**: Nos últimos anos, as instituições financeiras expandiram suas ofertas de crédito, com cartões de crédito, crédito consignado e financiamento de bens. Dados do Banco Central do Brasil mostram que o saldo total de crédito no país cresceu significativamente, atingindo níveis históricos.

* **Tecnologia financeira (Fintechs)**: O surgimento de *fintechs* no Brasil democratizou ainda mais o acesso ao crédito. Com aplicativos simplificados e a oferta de serviços online, essas empresas permitem que consumidores tenham acesso a crédito de forma rápida e com menos burocracia, muitas vezes oferecendo taxas mais competitivas que os bancos tradicionais.

* **Pandemia e digitalização**: A pandemia de COVID-19 acelerou o uso de meios digitais de pagamento, incluindo o crédito. Com o aumento das compras online e a necessidade de evitar transações em dinheiro físico, o cartão de crédito e outros mecanismos de crédito digital se tornaram alternativas práticas e seguras para os consumidores.

Esses fatores combinados mostram como o crédito vem se consolidando como uma ferramenta essencial no cotidiano financeiro do brasileiro, facilitando o consumo, mas também apresentando desafios relacionados ao endividamento.

# 2. Descrição do Problema e da Solução Proposta

Basicamente o pedido de crédito funciona a partir da solicitação do cliente a uma Instituição Financeira para pedir algum tipo de crédito, seja cartão, empréstimo consignado, financiamento imobiliário, etc.

A Instituição financeira aprova ou não o pedido do cliente dados alguns critérios específicos. No geral, o banco possui uma série de informações do cliente, deste as quantidades de transações financeiras até status matrimonial são utilizados para identificar um bom ou mal pagador.

Dada estas informações a Instituição aprova ou recusa o fornecimento de crédito para o cliente. Neste trabalho, será utilizado um conjunto de dados extraído do [Kaggle](https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction) em que receberemos diversas informações de clientes de um banco e seu histórico de transações, indicando se estes possuem um bom relacionamento bancário com pagamentos em dia.

Como solução para este problema, vamos explorar estes dados, criar uma regra para definir o bom e o mal pagador e, por fim, aplicar um modelo preditivo do tipo classificatório para indicar se o futuro solicitante terá seu crédito aprovado ou recusado.


# 3. Coleta de Dados

Conforme dito anteriormente conjunto de dados extraído do [Kaggle](https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction) e salvo no [github](https://github.com/VitorFRodrigues/PUCMinas_DataScience/tree/main/06-Machine_Learning/Tarefas/Modulo_A/dados) do autor. A estrutura é formada por tabelas na extensão ```.csv```

## 3.1 Importação de Bibliotecas utilizadas neste Notebook

Este tópico será utilizado para armazenar em uma única célula todas as importações necessárias para o trabalho.

In [None]:
import pandas as pd

## 3.2 Importação dos dados e descrição dos datasets

### 3.2.1 Dados dos clientes

In [None]:
URL_appRec = 'https://github.com/VitorFRodrigues/PUCMinas_DataScience/raw/refs/heads/main/06-Machine_Learning/Tarefas/Modulo_A/dados/application_record.csv'
dados_clientes = pd.read_csv(URL_appRec)
dados_clientes.head()

Unnamed: 0,ID,CODE_GENDER,FLAG_OWN_CAR,FLAG_OWN_REALTY,CNT_CHILDREN,AMT_INCOME_TOTAL,NAME_INCOME_TYPE,NAME_EDUCATION_TYPE,NAME_FAMILY_STATUS,NAME_HOUSING_TYPE,DAYS_BIRTH,DAYS_EMPLOYED,FLAG_MOBIL,FLAG_WORK_PHONE,FLAG_PHONE,FLAG_EMAIL,OCCUPATION_TYPE,CNT_FAM_MEMBERS
0,5008804,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
1,5008805,M,Y,Y,0,427500.0,Working,Higher education,Civil marriage,Rented apartment,-12005,-4542,1,1,0,0,,2.0
2,5008806,M,Y,Y,0,112500.0,Working,Secondary / secondary special,Married,House / apartment,-21474,-1134,1,0,0,0,Security staff,2.0
3,5008808,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0
4,5008809,F,N,Y,0,270000.0,Commercial associate,Secondary / secondary special,Single / not married,House / apartment,-19110,-3051,1,0,1,1,Sales staff,1.0


Conforme já foi dito, o dataset acima informa uma série de informações a respeito de vários clientes. Mais a frente analisaremos sua real quantidade, no momento vamos entender o que cada coluna representa:
* **Dados dos clientes**

| Coluna              | Explicação                                          | Observação                                                                                                       |
| ------------------- | --------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------- |
| ID                  | Número identificador do Cliente                     |                                                                                                                  |
| CODE_GENDER         | Gênero do cliente (Masculino/Feminino)              |                                                                                                                  |
| FLAG_OWN_CAR        | Se o cliente possui carro (Sim/Não)                 |                                                                                                                  |
| FLAG_OWN_REALTY     | Se o cliente possui imóvel (Sim/Não)                |                                                                                                                  |
| CNT_CHILDREN        | Quantidade de filhos que o cliente possui           |                                                                                                                  |
| AMT_INCOME_TOTAL    | Renda anual do cliente                              |                                                                                                                  |
| NAME_INCOME_TYPE    | Categoria de renda                                  |                                                                                                                  |
| NAME_EDUCATION_TYPE | Nível de Educação                                   |                                                                                                                  |
| NAME_FAMILY_STATUS  | Status matrimonial                                  |                                                                                                                  |
| NAME_HOUSING_TYPE   | Tipo de moradia do cliente                          |                                                                                                                  |
| DAYS_BIRTH          | Dia de nascimento                                   | Contagem regressiva a partir do dia atual (0), -1 significa ontem                                                |
| DAYS_EMPLOYED       | Dia de inicio empregatício                          | Contagem regressiva a partir do dia atual (0). Se positivo, significa que a pessoa está atualmente desempregada. |
| FLAG_MOBIL          | Se o cliente possui telefone celular (Sim/Não)      |                                                                                                                  |
| FLAG_WORK_PHONE     | Se o cliente possui telefone empresarial (Sim/Não)  |                                                                                                                  |
| FLAG_PHONE          | Se o cliente possui telefone fixo (Sim/Não)         |                                                                                                                  |
| FLAG_EMAIL          | Se o cliente possui e-mail (Sim/Não)                |                                                                                                                  |
| OCCUPATION_TYPE     | Profissão do cliente                                |                                                                                                                  |
| CNT_FAM_MEMBERS     | Tamanho da familia                                  |                                                                                                                  |

### 3.2.2 Histórico de crédito dos clientes

In [None]:
URL_cred = 'https://media.githubusercontent.com/media/VitorFRodrigues/PUCMinas_DataScience/refs/heads/main/06-Machine_Learning/Tarefas/Modulo_A/dados/credit_record.csv'
dados_credito = pd.read_csv(URL_cred)
dados_credito.head()

Unnamed: 0,ID,MONTHS_BALANCE,STATUS
0,5001711,0,X
1,5001711,-1,0
2,5001711,-2,0
3,5001711,-3,0
4,5001712,0,C


De modo análogo temos:

* **Histórico de crédito dos clientes**

| Coluna         | Explicação                      | Observação                 |
| -------------- | ------------------------------- | ----------------------------------------------------------------------------------------------------------- |
| ID             | Número identificador do Cliente |                                                                                                             |
| MONTHS_BALANCE | Mês do registro                 | O mês dos dados extraídos é o ponto de partida, sendo 0 o mês atual, -1 é o mês anterior e assim por diante |
| STATUS         | Status de pagamento do mês      | 0: 1-29 dias em atraso<br>1: 30-59 dias em atraso<br>2: 60-89 dias em atraso<br>3: 90-119 dias em atraso<br>4: 120-149 dias em atraso<br>5: Dívidas vencidas ou inadimplentes, baixas por mais de 150 dias<br>C: quitado naquele mês<br>X: Nenhum empréstimo no mês |


# 4. Processamento / Tratamento de Dados

# 5. Análise e Exploração dos dados