Trabalho: Simulação e Análise de Crédito para Aprovação de Empréstimos

Contexto:

Imagine que você faz parte da equipe de ciência de dados de uma instituição financeira que analisa pedidos de empréstimos. Para cada cliente, você coleta informações como idade, renda anual, histórico de crédito, histórico de inadimplência, valor do empréstimo solicitado e se o cliente é ou não aprovado para o crédito.

Seu trabalho será gerar um conjunto de dados aleatórios para simular os pedidos de empréstimo e então, através de uma análise estatística e um modelo preditivo, criar uma solução que ajude a prever se um cliente pode ter seu empréstimo aprovado ou não.



---

Objetivo do Trabalho:

1. Gerar um conjunto de dados aleatórios que represente o cenário de pedidos de empréstimos.


2. Realizar uma análise estatística básica sobre esses dados para entender as variáveis e suas relações.


3. Implementar um modelo de classificação para prever a aprovação do empréstimo com base nas variáveis geradas.


4. Focar em uma implementação detalhada e desafiante na parte de programação, criando funções reutilizáveis e estruturadas.



Variáveis do Dataset Simulado:

Você deve gerar um conjunto de dados aleatórios com as seguintes variáveis para cada cliente:

1. Idade: entre 18 e 70 anos.


2. Renda Anual: valores entre 20.000 e 200.000.


3. Histórico de Crédito: uma pontuação entre 300 e 850 (como o score de crédito).


4. Histórico de Inadimplência: uma contagem de quantas vezes o cliente deixou de pagar empréstimos no passado (entre 0 e 10).


5. Valor do Empréstimo Solicitado: valores entre 5.000 e 50.000.


6. Aprovação do Empréstimo: variável binária que indica se o cliente foi aprovado ou não (0 para não aprovado, 1 para aprovado).



Para simplificar, a aprovação do empréstimo pode ser simulada com uma regra:

A aprovação é mais provável para clientes com idade entre 25 e 60, renda anual acima de 40.000, histórico de crédito acima de 600, histórico de inadimplência baixo (menor que 3) e valor solicitado menor que 30% da renda anual.

Crie uma função para gerar essa variável de forma lógica com base nas demais.



---

Instruções:

Parte 1: Geração do Conjunto de Dados

1. Geração de Dados Aleatórios

Escreva uma função gerar_dados(n) que gere um conjunto de dados com n registros (clientes), criando as variáveis mencionadas acima com valores aleatórios e seguindo os intervalos definidos.



2. Regra para Aprovação do Empréstimo

Crie uma função definir_aprovacao(dados) que receba o DataFrame com os dados dos clientes e aplique uma regra para definir a aprovação ou não do empréstimo. Use as regras fornecidas e insira alguma aleatoriedade para dar uma variação natural nos dados.



3. Estruturação dos Dados

Combine todas as variáveis geradas em um DataFrame do Pandas e exiba uma amostra dos dados gerados.




Parte 2: Análise Estatística e Exploratória

1. Análise Estatística Básica

Calcule medidas descritivas (média, mediana, desvio-padrão) para cada variável e exiba um resumo.

Gere gráficos (histogramas e boxplots) para variáveis como idade, renda anual, e valor do empréstimo.



2. Correlação e Análise de Aprovação

Analise a correlação entre as variáveis e a variável de aprovação do empréstimo.

Crie gráficos de dispersão para observar relações entre idade e histórico de crédito, histórico de inadimplência e renda, e valor do empréstimo solicitado versus aprovação.



3. Classificação dos Grupos de Risco

Baseado nos valores médios e percentis das variáveis, crie uma classificação de "Baixo Risco", "Médio Risco" e "Alto Risco" para os clientes.

Crie uma função que atribui cada cliente a um desses grupos de risco.


---

Desafios Extra (Opcional):

1. Ajuste de Parâmetros

Experimente ajustar os parâmetros da função de geração de aprovação para testar diferentes cenários de aprovação/rejeição.



2. Visualização Avançada

Crie gráficos que mostrem a distribuição de clientes em cada grupo de risco, destacando o percentual de aprovação.





---

Critérios de Avaliação

1. Organização do Código: Estrutura e clareza.


2. Funções Reutilizáveis: Uso de funções bem definidas para cada etapa.


3. Análise Estatística: Correção das análises e insights.


4. Implementação do Modelo: Correção da implementação do modelo manual e comparação.


5. Conclusões: Qualidade das conclusões e apresentação dos resultados

In [1]:
# Importar blibiotecas

import pandas as pd
import random
import plotly.express as px
import plotly.graph_objects as go

In [2]:
# Definir variavél para quantidade de pessoas a serem analisadas

qnt = 500

In [3]:
"""1. Geração de Dados Aleatórios

Escreva uma função gerar_dados(n) que gere um conjunto de dados com n registros (clientes), criando as variáveis mencionadas acima com valores aleatórios e 
seguindo os intervalos definidos."""

# Geração e criação de valores aleatórios

df = pd.DataFrame()

df["Idade"] = [round(random.normalvariate(mu=44,sigma=10)) for x in range(qnt)]
df["Renda_Anual"] = [round(random.normalvariate(mu=110000,sigma=20000),2) for x in range(qnt)]
df["Hist_Inad"] = [random.randint(0,10) for x in range(qnt)]
df["Val_Emprestimo"] = round(df["Renda_Anual"] * random.normalvariate(mu= 0.25, sigma= 0.06),2) # mu = mediana e sigma = desvio-padrão


# Regras para o score

w1, w2, w3 = 0.5, 0.3, 0.2

score_renda = (df["Renda_Anual"] - 20000) / (200000 - 20000)
score_idade = 1 - abs(df["Idade"] - 44) / (70 - 18)
score_inadimplencia =  1 - df["Hist_Inad"] / 10

df["Score"] = round((w1 * score_renda + w2 * score_idade + w3 * score_inadimplencia) * 1000)

In [4]:
"""Para simplificar, a aprovação do empréstimo pode ser simulada com uma regra:

A aprovação é mais provável para clientes com idade entre 25 e 60, renda anual acima de 40.000, histórico de crédito acima de 600, 
histórico de inadimplência baixo (menor que 3) e valor solicitado menor que 30% da renda anual."""

# Sistema de aprovação de crédito

df["Aprovado"] = False
df.loc[ (df['Idade'] >= 25) & (df['Idade'] <= 60) & (df['Renda_Anual']> 40000) & (df['Score'] > 600) & (df['Hist_Inad'] < 3) & (df['Val_Emprestimo']< (0.3 * df['Renda_Anual'])) ,"Aprovado"] = True

In [5]:
# Contagem de contas aprovadas

df.loc[ df['Aprovado'] == True].count()

Idade             132
Renda_Anual       132
Hist_Inad         132
Val_Emprestimo    132
Score             132
Aprovado          132
dtype: int64

In [6]:
# Média, desvio-padrão, mediana, min, max...

df.describe()

Unnamed: 0,Idade,Renda_Anual,Hist_Inad,Val_Emprestimo,Score
count,500.0,500.0,500.0,500.0,500.0
mean,44.408,112125.42264,4.834,28180.48736,614.414
std,9.747593,19698.183681,3.142323,4950.745522,92.891443
min,17.0,56228.26,0.0,14131.85,357.0
25%,37.75,99087.8775,2.0,24903.7575,549.5
50%,44.0,111391.01,5.0,27995.905,613.0
75%,51.0,124714.8875,8.0,31344.6025,683.0
max,73.0,167515.47,10.0,42101.67,870.0


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500 entries, 0 to 499
Data columns (total 6 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Idade           500 non-null    int64  
 1   Renda_Anual     500 non-null    float64
 2   Hist_Inad       500 non-null    int64  
 3   Val_Emprestimo  500 non-null    float64
 4   Score           500 non-null    float64
 5   Aprovado        500 non-null    bool   
dtypes: bool(1), float64(3), int64(2)
memory usage: 20.1 KB


0-333 alto risco<br>
334-666 médio risco<br>
667-1000 baixo risco<br>

In [8]:
# Anélise do risco de clientes

df["Risco"] = "Alto risco"
df.loc[df["Score"] > 333, "Risco"] = "Médio Risco" 
df.loc[df["Score"] > 666, "Risco"] = "Baixo Risco" 

In [9]:
df

Unnamed: 0,Idade,Renda_Anual,Hist_Inad,Val_Emprestimo,Score,Aprovado,Risco
0,47,122744.11,3,30849.28,708.0,False,Baixo Risco
1,66,128962.66,2,32412.19,636.0,False,Médio Risco
2,60,110876.31,8,27866.55,500.0,False,Médio Risco
3,35,121757.87,6,30601.41,611.0,False,Médio Risco
4,36,92358.95,0,23212.58,655.0,True,Médio Risco
...,...,...,...,...,...,...,...
495,42,115194.89,8,28951.94,593.0,False,Médio Risco
496,41,107050.82,1,26905.09,705.0,True,Baixo Risco
497,50,108608.55,7,27296.59,572.0,False,Médio Risco
498,41,128825.65,5,32377.76,685.0,False,Baixo Risco


1. Análise Estatística Básica

Calcule medidas descritivas (média, mediana, desvio-padrão) para cada variável e exiba um resumo.

Gere gráficos (histogramas e boxplots) para variáveis como idade, renda anual, e valor do empréstimo.

In [10]:
df.describe()

Unnamed: 0,Idade,Renda_Anual,Hist_Inad,Val_Emprestimo,Score
count,500.0,500.0,500.0,500.0,500.0
mean,44.408,112125.42264,4.834,28180.48736,614.414
std,9.747593,19698.183681,3.142323,4950.745522,92.891443
min,17.0,56228.26,0.0,14131.85,357.0
25%,37.75,99087.8775,2.0,24903.7575,549.5
50%,44.0,111391.01,5.0,27995.905,613.0
75%,51.0,124714.8875,8.0,31344.6025,683.0
max,73.0,167515.47,10.0,42101.67,870.0


In [11]:
fig = px.box(df, x = 'Aprovado' , y = 'Renda_Anual',points="all", title=' Renda_Anual')
fig.show()

In [12]:
fig = px.box(df, x = 'Aprovado' , y = 'Idade',points="all", title='Idade')
fig.show()

In [13]:
fig = px.box(df, x = 'Aprovado' , y = 'Val_Emprestimo',points="all", title='Val_Emprestimo')
fig.show()

In [14]:
fig = px.box(df, x = 'Aprovado' , y = 'Hist_Inad',points="all", title='Hist_Inad')
fig.show()

In [None]:
# Criando os dados do histograma
fig = go.Figure()
espacos = 15
estudo = df['Val_Emprestimo']
titulo =  'Val_Emprestimo'

# Valores absolutos
fig.add_trace(
    go.Histogram(
        x = estudo,
        nbinsx = espacos,
        name = 'Frequência',  # Nome da legenda
        opacity = 0.7,
        marker = dict(color='blue')
    )
)

# Configurando eixos e layout
fig.update_layout(
    barmode='overlay',  # Sobrepõe os gráficos
    title= titulo,
    xaxis_title='Valores',
    yaxis_title='Frequência',
    yaxis2=dict(
        title='Percentual (%)',
        overlaying='y',  # Sobrepõe o eixo Y principal
        side='right',  # Coloca o eixo à direita
    ),
    legend=dict(title='Legenda'),
)

fig.show()

In [16]:
# Criando os dados do histograma
fig = go.Figure()
espacos = 15
estudo = df['Renda_Anual']
titulo =  'Renda_Anual'

# Valores absolutos
fig.add_trace(
    go.Histogram(
        x = estudo,
        nbinsx = espacos,
        name = 'Frequência',  # Nome da legenda
        opacity = 0.7,
        marker = dict(color='blue')
    )
)

# Valores percentuais


# Configurando eixos e layout
fig.update_layout(
    barmode='overlay',  # Sobrepõe os gráficos
    title= titulo,
    xaxis_title='Valores',
    yaxis_title='Frequência',
    yaxis2=dict(
        title='Percentual (%)',
        overlaying='y',  # Sobrepõe o eixo Y principal
        side='right',  # Coloca o eixo à direita
    ),
    legend=dict(title='Legenda'),
)

fig.show()

In [17]:
# Gráfico de Dispersão (Relação entre A renda anual e o valor do empréstimo dos clientes que tiveram o seu empréstimo aprovado)

df1 = df[df['Aprovado'] == True]

x = df1['Renda_Anual']
y = df1['Val_Emprestimo']

# Criando o gráfico de dispersão
fig = go.Figure(data=go.Scatter(x=x, y=y, mode='markers'))

# Personalizando o gráfico
fig.update_layout(
    title="Val_Emprestimo V.S Renda_Anual",
    xaxis_title="Renda Anual",
    yaxis_title="Valor Emprestimo"
)


In [18]:
# Gráfico de Dispersão (Relação entre A renda anual e a idade dos clientes que tiveram o seu empréstimo aprovado)

df1 = df[df['Aprovado'] == True]

x = df1['Idade']
y = df1['Val_Emprestimo']

# Criando o gráfico de dispersão
fig = go.Figure(data=go.Scatter(x=x, y=y, mode='markers'))

# Personalizando o gráfico
fig.update_layout(
    title="Idade V.S Val_Emprestimo",
    xaxis_title="Idade",
    yaxis_title="Renda Anual"
)

# Análise de Crédito para Aprovação de Empréstimos

## Principais Insights

### 1. Relação entre Renda Anual e Aprovação de Empréstimo
- Clientes com renda anual mais alta tendem a ter maior probabilidade de aprovação.
- Empréstimos que representam uma porcentagem menor da renda anual têm maior chance de aprovação.

### 2. Impacto do Histórico de Inadimplência
- Clientes com histórico de inadimplência têm menor probabilidade de aprovação.
- O número de inadimplências passadas é um fator crítico na decisão de crédito.

### 3. Idade dos Clientes
- Clientes entre 40 e 50 anos são os que mais solicitam empréstimos.
- Clientes mais jovens (30-40 anos) podem solicitar valores mais altos, possivelmente para financiar grandes despesas.

### 4. Valor do Empréstimo Solicitado
- Empréstimos com valores mais altos tendem a ter pré-requisitos mais rigorosos.
- Valores que representam uma porcentagem alta da renda anual têm menor chance de aprovação.

### 5. Distribuição de Solicitações
- A maioria das solicitações está concentrada em faixas de renda específicas (ex.: 60k).
- Clientes com renda mais baixa tendem a solicitar empréstimos que representam uma porcentagem maior de sua renda.

### 6. Frequência de Solicitações
- Há um pico de solicitações em faixas de renda específicas, indicando maior demanda por crédito.

---

## Ações Propostas

### 1. Ajuste nas Políticas de Crédito
- Estabelecer critérios de aprovação mais flexíveis para clientes com renda mais alta e histórico de crédito positivo.
- Limitar o valor do empréstimo em relação à renda anual para reduzir o risco de inadimplência.

### 2. Segmentação de Clientes
- Criar segmentos de clientes com base em idade, renda e histórico de crédito.
- Focar em campanhas de marketing para faixas etárias e de renda com maior demanda.

### 3. Análise de Risco
- Implementar modelos de análise de risco que considerem o histórico de inadimplência.
- Aumentar a rigidez na aprovação de empréstimos para clientes com múltiplas inadimplências.

### 4. Educação Financeira
- Oferecer programas de educação financeira para clientes mais jovens.
- Orientar clientes sobre como melhorar sua pontuação de crédito.

### 5. Monitoramento Contínuo
- Acompanhar tendências de solicitação de empréstimos por faixa etária e renda.
- Utilizar dados históricos para prever demandas futuras.

### 6. Melhoria na Coleta de Dados
- Garantir que todos os dados relevantes sejam coletados de forma precisa e completa.
- Implementar sistemas de análise de dados em tempo real.

### 7. Produtos de Crédito Personalizados
- Desenvolver produtos de crédito específicos para diferentes faixas etárias e de renda.
- Oferecer opções de empréstimo com prazos e valores ajustados às necessidades de cada segmento.

---

## Conclusão

A análise dos dados relacionados à aprovação de empréstimos revelou insights valiosos que podem orientar a instituição financeira na tomada de decisões mais estratégicas. A relação entre variáveis como **renda anual**, **idade**, **histórico de inadimplência** e **valor do empréstimo** mostrou-se fundamental para entender o perfil dos clientes e os fatores que influenciam a aprovação ou reprovação de crédito.

A segmentação dos clientes por faixa etária e renda, aliada à análise do histórico de crédito, permitirá à instituição oferecer produtos de crédito mais personalizados e adequados às necessidades de cada grupo. Além disso, a implementação de políticas de crédito mais flexíveis para clientes de baixo risco e a adoção de critérios mais rigorosos para aqueles com histórico de inadimplência ajudarão a reduzir os riscos de inadimplência e a aumentar a rentabilidade dos empréstimos concedidos.

As ações propostas, como o **monitoramento contínuo dos dados** e a **melhoria na coleta de informações**, são essenciais para garantir que a instituição financeira esteja sempre um passo à frente, adaptando-se às mudanças no comportamento dos clientes e no mercado.

Por fim, a utilização de modelos preditivos mais precisos e a segmentação de clientes não apenas otimizarão o processo de aprovação de empréstimos, mas também fortalecerão a relação com os clientes, oferecendo soluções de crédito que realmente atendam às suas necessidades. Com essas estratégias, a instituição financeira estará melhor posicionada para maximizar sua eficiência operacional, reduzir riscos e aumentar a satisfação dos clientes.