# Exercício da Aula 4

O objetivo deste exercício é aplicar técnicas de Feature Engineering e análise de fairness em um cenário de análise de crédito. Os alunos trabalharão com um dataset realista de empréstimos bancários e serão desafiados a realizar as seguintes atividades:

- Análise Exploratória de Dados:
  - Distribuição das Variáveis Categóricas: Visualização da distribuição das variáveis categóricas, como gênero e status de emprego, usando gráficos de contagem.
  - Distribuição das Variáveis Numéricas: Análise das variáveis numéricas, como idade e renda, com histogramas e gráficos de densidade.
  - Boxplots: Criação de boxplots para variáveis numéricas para identificar outliers e entender a distribuição dos dados.
  - Matriz de Correlação: Visualização da correlação entre variáveis numéricas para entender as relações entre elas.
  - Análise da Variável de Destino: Análise da distribuição da variável de destino, que indica o status do empréstimo (Aprovado ou Rejeitado).

- Análise de Fairness:
  - Fairness por Gênero:
    - Distribuição por Gênero: Visualização da distribuição de empréstimos aprovados e rejeitados entre diferentes gêneros usando histogramas.
    - Cálculo do Disparate Impact Ratio (DIR) para Gênero: Cálculo da razão entre as taxas de aprovação de empréstimos para gêneros masculino e feminino para identificar possíveis vieses.
  - Fairness por Renda:
    - Distribuição por Renda: Análise da distribuição de empréstimos aprovados e rejeitados entre grupos de alta e baixa renda usando histogramas.
    - Cálculo do Disparate Impact Ratio (DIR) para Renda: Cálculo da razão entre as taxas de aprovação de empréstimos para clientes com renda alta e baixa para verificar possíveis disparidades.

- Pré-processamento e Seleção de Features:
  - Encoding das Variáveis Categóricas: Aplicação de técnicas de codificação, como Label Encoding, para variáveis categóricas.
  - Normalização: Aplicação de normalização nos dados para garantir que todas as variáveis numéricas estejam na mesma escala.
  - Seleção de Features: Utilização de métodos como Chi-Square para selecionar as variáveis mais relevantes para o modelo.

- Treinamento e Avaliação de Modelos:
  - Treinamento de Modelo: Treinamento de um modelo de regressão logística para prever o status de empréstimo com base nas features selecionadas.
  - Avaliação do Modelo: Avaliação do modelo usando métricas como acurácia, matriz de confusão e relatório de classificação para verificar o desempenho e a fairness do modelo.

- Documentação e Relatório:
  - Relatório: Documente todos os passos seguidos, as decisões tomadas e as descobertas realizadas. Inclua gráficos e tabelas relevantes para suportar suas conclusões. Discuta as implicações das análises de fairness e as transformações de features na análise final.

# Dataset "Empréstimos Bancários"

Este dataset contém informações detalhadas sobre clientes de um banco, incluindo dados demográficos, financeiros e de status de emprego. As informações fornecidas são ideais para a análise de crédito, perfis de clientes e podem ser utilizadas em diversas técnicas de feature engineering e análise exploratória.

- Principais Características do Dataset:
    - age: Idade do cliente (em anos).
    - gender: Gênero do cliente (Masculino ou Feminino).
    - income: Renda anual do cliente (em milhares de dólares).
    - education: Nível de escolaridade do cliente (Ensino Médio, Graduação, Mestrado, Doutorado).
    - marital_status: Estado civil do cliente (Solteiro, Casado, Divorciado, Viúvo).
    - credit_score: Pontuação de crédito do cliente (em uma escala de 300 a 850).
    - loan_amount: Valor do empréstimo solicitado (em milhares de dólares).
    - employment_status: Situação de emprego do cliente (Empregado, Desempregado, Autônomo, Aposentado).
    - dependents: Número de dependentes do cliente.
    - home_ownership: Situação de posse da casa (Própria, Alugada, Hipotecada).
    - loan_purpose: Propósito do empréstimo (Casa, Carro, Educação, Negócios, Pessoal).
    - loan_status: Status do empréstimo (Aprovado ou Rejeitado).

- Importância das Variáveis:
    - age: A idade pode influenciar a capacidade de pagamento e o perfil de risco do cliente. Clientes mais jovens podem ter menos histórico de crédito, enquanto clientes mais velhos podem ter maior estabilidade financeira.
    - gender: O gênero pode ser analisado para investigar potenciais vieses na concessão de crédito.
    - income: A renda anual é um fator determinante na análise de crédito, pois influencia diretamente a capacidade de pagamento do cliente.
    - education: O nível de escolaridade pode estar relacionado ao perfil financeiro e ao potencial de ganho do cliente, influenciando assim a análise de risco.
    - marital_status: O estado civil pode afetar a estabilidade financeira e a necessidade de empréstimos. Por exemplo, casais casados podem ter renda conjunta.
    - credit_score: A pontuação de crédito é uma métrica essencial para determinar o risco de inadimplência de um cliente.
    - loan_amount: O valor do empréstimo solicitado é crucial para avaliar o risco associado ao cliente e a viabilidade de pagamento.
    - employment_status: A situação de emprego pode impactar diretamente a estabilidade financeira do cliente e sua capacidade de honrar o empréstimo.
    - dependents: O número de dependentes pode influenciar a capacidade financeira do cliente, já que mais dependentes podem significar maiores despesas.
    - home_ownership: A posse de uma casa pode ser um indicador de estabilidade financeira e segurança no pagamento de empréstimos.
    - loan_purpose: O propósito do empréstimo ajuda a entender a necessidade do cliente e pode influenciar a decisão de aprovação.
    - loan_status: O status do empréstimo, se aprovado ou rejeitado, é a variável de destino que pode ser utilizada em modelos de classificação para prever a concessão de futuros empréstimos.