## Considere a base de dados **Customer Data and Bank Loans**
- https://www.kaggle.com/datasets/daniellopez01/credit-risk
- Formulário para envio da Atividade: https://forms.gle/5jCooRKSFvKDvtGG6

### Descrição do conjunto de dados
O conjunto de dados inclui 1.000 registros com informações sobre pedidos de empréstimo, incluindo variáveis relacionadas à situação financeira do solicitante, histórico de crédito e detalhes do empréstimo. O objetivo é analisar padrões de risco de crédito ou construir modelos para prever inadimplência de empréstimos.

### Inspiração
Este conjunto de dados pode ser usado para:

* Construção de modelos preditivos para inadimplência de empréstimos.
* Explorando relações entre variáveis financeiras e risco de crédito.
* Aprimorando sua compreensão da análise de risco de crédito.

### Exercícios:
---
1. **Agrupamento por `credit_history` com resumo estatístico:**  
   Agrupe os dados pela coluna `credit_history` e calcule:
   - A soma total dos valores da coluna `amount`;
   - A idade média (`age`) para cada grupo.
---

2. **Criação de uma coluna com média ajustada:**  
   Crie uma nova coluna chamada `amount_ratio`, que contém o valor de `amount` dividido pela média de `amount` em cada categoria de `purpose`.
---

3. **Classificação de idade:**  
   Crie uma nova coluna chamada `age_group` que classifica os valores de `age` em categorias:
   - "Under 30" se a idade for menor que 30;
   - "30-50" se a idade estiver entre 30 e 50;
   - "Over 50" se a idade for maior que 50.
---

4. **Análise de variabilidade por `employment_duration` e `housing`:**  
   Agrupe os dados pelas colunas `employment_duration` e `housing` e calcule:
   - A média e o desvio padrão (`std`) da coluna `amount`.
---

5. **Distribuição de idade mínima e máxima por `job`:**  
   Agrupe os dados pela coluna `job` e calcule:
   - A idade mínima (`age_min`) e a idade máxima (`age_max`) para cada categoria de emprego.
---

6. **Diferença entre o valor do empréstimo e a média por histórico de crédito (`transform`):**  
   Crie uma nova coluna chamada `amount_diff`, que contém a diferença entre o valor de `amount` e a média de `amount` dentro de cada grupo de `credit_history`.
---

7. **Quantidade de dependentes por tipo de conta bancária (`groupby` e `agg`):**  
   Agrupe os dados pela coluna `checking_balance` e calcule:
   - A soma total de `dependents`;
   - O número médio de dependentes por categoria de conta bancária.
---

In [None]:
# Questão 1: **Agrupamento por `credit_history` com resumo estatístico**  
#    Agrupe os dados pela coluna `credit_history` e calcule:
#    - A soma total dos valores da coluna `amount`;
#    - A idade média (`age`) para cada grupo.
import pandas as pd
import numpy as np

data = pd.read_csv("base_dados_atividade3.csv")

# Padronizando os nomes das colunas
data.columns = data.columns.str.lower().str.replace(" ", "_")

# Agrupar os dados pela coluna 'credit_history' e calcular as métricas
grouped_data = data.groupby('credit_history').agg(
    total_amount=('amount', 'sum'),
    average_age=('age', 'mean')
).reset_index()

# Arredondando a idade média
grouped_data['average_age'] = np.ceil(grouped_data['average_age']).astype(int)

# Exibe os resultados
print(grouped_data)

  credit_history  total_amount  average_age
0       critical        904795           39
1           good       1611708           34
2        perfect        212227           35
3           poor        378629           37
4      very good        163899           37


In [None]:
# 2. **Criação de uma coluna com média ajustada:**  
# Crie uma nova coluna chamada `amount_ratio`, que contém o valor de `amount` dividido pela média de `amount` em cada categoria de `purpose`.

import pandas as pd

data = pd.read_csv("base_dados_atividade3.csv")

# Padronizando o nome das colunas
data.columns = data.columns.str.lower().str.replace(" ", "_")

# Calcular a média de 'amount' para cada categoria de 'purpose'
purpose_mean_amount = data.groupby('purpose')['amount'].transform('mean')

# Criar a nova coluna 'amount_ratio' dividindo 'amount' pela média de 'amount' por categoria de 'purpose'
data['amount_ratio'] = data['amount'] / purpose_mean_amount

# Exibe as primeiras linhas do DataFrame atualizado
print(data.head())

  checking_balance  months_loan_duration credit_history               purpose  \
0           < 0 DM                     6       critical  furniture/appliances   
1       1 - 200 DM                    48           good  furniture/appliances   
2          unknown                    12       critical             education   
3           < 0 DM                    42           good  furniture/appliances   
4           < 0 DM                    24           poor                   car   

   amount savings_balance employment_duration  percent_of_income  \
0    1169         unknown           > 7 years                  4   
1    5951        < 100 DM         1 - 4 years                  2   
2    2096        < 100 DM         4 - 7 years                  2   
3    7882        < 100 DM         4 - 7 years                  2   
4    4870        < 100 DM         1 - 4 years                  3   

   years_at_residence  age other_credit housing  existing_loans_count  \
0                   4   67     