## Considere a base de dados **Customer Data and Bank Loans**
- https://www.kaggle.com/datasets/daniellopez01/credit-risk
- Formulário para envio da Atividade: https://forms.gle/5jCooRKSFvKDvtGG6

### Descrição do conjunto de dados
O conjunto de dados inclui 1.000 registros com informações sobre pedidos de empréstimo, incluindo variáveis relacionadas à situação financeira do solicitante, histórico de crédito e detalhes do empréstimo. O objetivo é analisar padrões de risco de crédito ou construir modelos para prever inadimplência de empréstimos.

### Inspiração
Este conjunto de dados pode ser usado para:

* Construção de modelos preditivos para inadimplência de empréstimos.
* Explorando relações entre variáveis financeiras e risco de crédito.
* Aprimorando sua compreensão da análise de risco de crédito.

### Exercícios:
---
1. **Agrupamento por `credit_history` com resumo estatístico:**  
   Agrupe os dados pela coluna `credit_history` e calcule:
   - A soma total dos valores da coluna `amount`;
   - A idade média (`age`) para cada grupo.
---

2. **Criação de uma coluna com média ajustada:**  
   Crie uma nova coluna chamada `amount_ratio`, que contém o valor de `amount` dividido pela média de `amount` em cada categoria de `purpose`.
---

3. **Classificação de idade:**  
   Crie uma nova coluna chamada `age_group` que classifica os valores de `age` em categorias:
   - "Under 30" se a idade for menor que 30;
   - "30-50" se a idade estiver entre 30 e 50;
   - "Over 50" se a idade for maior que 50.
---

4. **Análise de variabilidade por `employment_duration` e `housing`:**  
   Agrupe os dados pelas colunas `employment_duration` e `housing` e calcule:
   - A média e o desvio padrão (`std`) da coluna `amount`.
---

5. **Distribuição de idade mínima e máxima por `job`:**  
   Agrupe os dados pela coluna `job` e calcule:
   - A idade mínima (`age_min`) e a idade máxima (`age_max`) para cada categoria de emprego.
---

6. **Diferença entre o valor do empréstimo e a média por histórico de crédito (`transform`):**  
   Crie uma nova coluna chamada `amount_diff`, que contém a diferença entre o valor de `amount` e a média de `amount` dentro de cada grupo de `credit_history`.
---

7. **Quantidade de dependentes por tipo de conta bancária (`groupby` e `agg`):**  
   Agrupe os dados pela coluna `checking_balance` e calcule:
   - A soma total de `dependents`;
   - O número médio de dependentes por categoria de conta bancária.
---

In [None]:
# Questão 1: **Agrupamento por `credit_history` com resumo estatístico**  
#    Agrupe os dados pela coluna `credit_history` e calcule:
#    - A soma total dos valores da coluna `amount`;
#    - A idade média (`age`) para cada grupo.
import pandas as pd
import numpy as np

data = pd.read_csv("base_dados_atividade3.csv")

# Padronizando os nomes das colunas
data.columns = data.columns.str.lower().str.replace(" ", "_")

# Agrupar os dados pela coluna 'credit_history' e calcular as métricas
grouped_data = data.groupby('credit_history').agg(
    total_amount=('amount', 'sum'),
    average_age=('age', 'mean')
).reset_index()

# Arredondando a idade média
grouped_data['average_age'] = np.ceil(grouped_data['average_age']).astype(int)

# Exibe os resultados
print(grouped_data)

  credit_history  total_amount  average_age
0       critical        904795           39
1           good       1611708           34
2        perfect        212227           35
3           poor        378629           37
4      very good        163899           37


In [None]:
# 2. **Criação de uma coluna com média ajustada:**  
# Crie uma nova coluna chamada `amount_ratio`, que contém o valor de `amount` dividido pela média de `amount` em cada categoria de `purpose`.

import pandas as pd

data = pd.read_csv("base_dados_atividade3.csv")

# Padronizando o nome das colunas
data.columns = data.columns.str.lower().str.replace(" ", "_")

# Calcular a média de 'amount' para cada categoria de 'purpose'
purpose_mean_amount = data.groupby('purpose')['amount'].transform('mean')

# Criar a nova coluna 'amount_ratio' dividindo 'amount' pela média de 'amount' por categoria de 'purpose'
data['amount_ratio'] = data['amount'] / purpose_mean_amount

# Exibe as primeiras linhas do DataFrame atualizado
print(data.head())

  checking_balance  months_loan_duration credit_history               purpose  \
0           < 0 DM                     6       critical  furniture/appliances   
1       1 - 200 DM                    48           good  furniture/appliances   
2          unknown                    12       critical             education   
3           < 0 DM                    42           good  furniture/appliances   
4           < 0 DM                    24           poor                   car   

   amount savings_balance employment_duration  percent_of_income  \
0    1169         unknown           > 7 years                  4   
1    5951        < 100 DM         1 - 4 years                  2   
2    2096        < 100 DM         4 - 7 years                  2   
3    7882        < 100 DM         4 - 7 years                  2   
4    4870        < 100 DM         1 - 4 years                  3   

   years_at_residence  age other_credit housing  existing_loans_count  \
0                   4   67     

In [None]:
# 3. **Classificação de idade:**  
#    Crie uma nova coluna chamada `age_group` que classifica os valores de `age` em categorias:
#    - "Under 30" se a idade for menor que 30;
#    - "30-50" se a idade estiver entre 30 e 50;
#    - "Over 50" se a idade for maior que 50.
import pandas as pd

data = pd.read_csv("base_dados_atividade3.csv")

# Classificação de idade
def classify_age(age):
    if age < 30:
        return "Under 30"
    elif 30 <= age <= 50:
        return "30-50"
    else:
        return "Over 50"

data['age_group'] = data['age'].apply(classify_age)

# Exibir as primeiras linhas para verificar a nova coluna
data.head()

Unnamed: 0,checking_balance,months_loan_duration,credit_history,purpose,amount,savings_balance,employment_duration,percent_of_income,years_at_residence,age,other_credit,housing,existing_loans_count,job,dependents,phone,default,age_group
0,< 0 DM,6,critical,furniture/appliances,1169,unknown,> 7 years,4,4,67,none,own,2,skilled,1,yes,no,Over 50
1,1 - 200 DM,48,good,furniture/appliances,5951,< 100 DM,1 - 4 years,2,2,22,none,own,1,skilled,1,no,yes,Under 30
2,unknown,12,critical,education,2096,< 100 DM,4 - 7 years,2,3,49,none,own,1,unskilled,2,no,no,30-50
3,< 0 DM,42,good,furniture/appliances,7882,< 100 DM,4 - 7 years,2,4,45,none,other,1,skilled,2,no,no,30-50
4,< 0 DM,24,poor,car,4870,< 100 DM,1 - 4 years,3,4,53,none,other,2,skilled,2,no,yes,Over 50


In [4]:
# 4. **Análise de variabilidade por `employment_duration` e `housing`:**  
#    Agrupe os dados pelas colunas `employment_duration` e `housing` e calcule:
#    - A média e o desvio padrão (`std`) da coluna `amount`.

# Agrupando pelos valores de 'employment_duration' e 'housing' e calculando a média e o desvio padrão da coluna 'amount'
variabilidade = data.groupby(['employment_duration', 'housing'])['amount'].agg(['mean', 'std']).reset_index()

# Exibindo o resultado
print(variabilidade)

   employment_duration housing         mean          std
0          1 - 4 years   other  5112.961538  3554.197468
1          1 - 4 years     own  2999.162698  2590.607900
2          1 - 4 years    rent  2799.114754  2339.122571
3          4 - 7 years   other  4788.454545  3254.082770
4          4 - 7 years     own  3556.053435  3101.828623
5          4 - 7 years    rent  3380.593750  2601.450413
6             < 1 year   other  3451.000000  1701.995182
7             < 1 year     own  2848.445378  2355.647591
8             < 1 year    rent  3152.148936  2924.892900
9            > 7 years   other  4841.220000  3950.773540
10           > 7 years     own  2726.186047  2259.908705
11           > 7 years    rent  3382.741935  2424.099227
12          unemployed   other  5432.933333  3959.375699
13          unemployed     own  3921.769231  3576.914493
14          unemployed    rent  3374.500000  2437.238894


In [5]:
# 5. **Distribuição de idade mínima e máxima por `job`:**  
#    Agrupe os dados pela coluna `job` e calcule:
#    - A idade mínima (`age_min`) e a idade máxima (`age_max`) para cada categoria de emprego.

# Agrupando pelos valores de 'job' e calculando a idade mínima e máxima
distribuicao_idade = data.groupby('job')['age'].agg(age_min='min', age_max='max').reset_index()

print(distribuicao_idade)

          job  age_min  age_max
0  management       20       75
1     skilled       19       68
2  unemployed       23       74
3   unskilled       19       74


In [9]:
# 6. **Diferença entre o valor do empréstimo e a média por histórico de crédito (`transform`):**  
#    Crie uma nova coluna chamada `amount_diff`, que contém a diferença entre o valor de `amount` e a média de `amount` dentro de cada grupo de `credit_history`.

# Calculando a diferença entre o valor de 'amount' e a média de 'amount' por 'credit_history'
diff = data['amount_diff'] = data['amount'] - data.groupby('credit_history')['amount'].transform('mean')

# Exibindo as primeiras linhas do DataFrame para verificar a nova coluna
print(data[['credit_history', 'amount', 'amount_diff']].head())

  credit_history  amount  amount_diff
0       critical    1169 -1919.037543
1           good    5951  2910.041509
2       critical    2096  -992.037543
3           good    7882  4841.041509
4           poor    4870   567.397727


In [7]:
# 7. **Quantidade de dependentes por tipo de conta bancária (`groupby` e `agg`):**  
#    Agrupe os dados pela coluna `checking_balance` e calcule:
#    - A soma total de `dependents`;
#    - O número médio de dependentes por categoria de conta bancária.

# Calculando a soma total e a média de dependentes por categoria de 'checking_balance'
dependentes_por_conta = data.groupby('checking_balance')['dependents'].agg(['sum', 'mean']).reset_index()

# Renomeando as colunas para melhor clareza
dependentes_por_conta.columns = ['checking_balance', 'total_dependents', 'average_dependents']

dependentes_por_conta.head()


Unnamed: 0,checking_balance,total_dependents,average_dependents
0,1 - 200 DM,300,1.115242
1,< 0 DM,326,1.189781
2,> 200 DM,72,1.142857
3,unknown,457,1.159898
