#Análise da Base de Dados

##Imports


| Pacote                   | Descrição                                                                                          | Principais usos                                                                                 |
|---------------------------|---------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------|
| **kagglehub**             | Biblioteca para acessar e baixar datasets diretamente do Kaggle.                                  | Buscar e fazer download de conjuntos de dados hospedados no Kaggle.                              |
| **pandas (pd)**            | Biblioteca para análise e manipulação de dados estruturados (tabelas, séries temporais etc.).      | Leitura e escrita de arquivos (CSV, Excel, SQL), limpeza e transformação de dados, criação de DataFrames. |
| **numpy (np)**              | Biblioteca para computação numérica eficiente com suporte a arrays multidimensionais.             | Operações matemáticas e estatísticas rápidas sobre arrays e matrizes, álgebra linear, geração de números aleatórios. |
| **seaborn (sns)**             | Biblioteca de visualização de dados baseada no Matplotlib, com foco em estatísticas.              | Criar gráficos estatísticos sofisticados e esteticamente agradáveis com pouco código.             |
| **plotly.express (px)**      | Módulo de alto nível da biblioteca Plotly para gráficos interativos.                              | Criar gráficos interativos (linhas, barras, mapas, dispersão etc.) de forma simples.              |
| **matplotlib.pyplot (plt)**  | Biblioteca base para visualizações gráficas em Python.                                           | Criar gráficos estáticos e personalizáveis (linhas, barras, histogramas, dispersão etc.).         |
| **fitter**                    | Biblioteca para ajustar distribuições estatísticas a dados empíricos.                             | Testar quais distribuições teóricas (normal, exponencial, etc.) melhor se ajustam a um conjunto de dados. |
| **scipy.stats**                | Submódulo do SciPy para estatística e probabilidade.                                              | Calcular estatísticas descritivas, testar hipóteses, gerar e ajustar distribuições de probabilidade. |


In [None]:
import kagglehub
import pandas as pd
import numpy as np
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt
from fitter import Fitter, get_common_distributions, get_distributions
from scipy import stats

#Base de Dados

https://www.kaggle.com/datasets/laotse/credit-risk-dataset

Descrição do Dataset – Credit Risk Dataset

O dataset Credit Risk Dataset contém informações simuladas sobre pessoas que solicitaram empréstimos. Ele é usado para analisar risco de crédito, ou seja, prever se alguém provavelmente pagará ou não o empréstimo.

Os dados incluem características das pessoas, como idade, renda, tipo de moradia, tempo de emprego, além de informações sobre o empréstimo, como valor, finalidade e taxa de juros. Também contém o histórico financeiro do solicitante, indicando se já teve problemas com crédito no passado.


| Coluna                         | O que representa                                                                 |
|--------------------------------|--------------------------------------------------------------------------------|
| person_age                     | Idade da pessoa que solicitou o crédito                                         |
| person_income                  | Renda mensal da pessoa                                                         |
| person_home_ownership          | Tipo de moradia da pessoa (alugada, própria, hipoteca, etc.)                   |
| person_emp_length              | Tempo de trabalho da pessoa                                                    |
| loan_intent                    | Finalidade do empréstimo                                                       |
| loan_grade                     | Classificação ou grau do empréstimo                                           |
| loan_amnt                      | Valor do empréstimo solicitado                                                |
| loan_int_rate                  | Taxa de juros do empréstimo                                                   |
| loan_percent_income            | Percentual que o valor do empréstimo representa da renda da pessoa            |
| cb_person_default_on_file      | Indica se a pessoa já teve problemas de crédito registrados anteriormente     |
| cb_person_cred_hist_length     | Tempo de histórico de crédito da pessoa                                       |
| loan_status                    | Situação do empréstimo (pago ou inadimplente) – é o campo que se tenta prever |


1: Faça o download do dataset



2: Abra no pandas e liste dos 10 primeiros registros

3: Faça a tradução das colunas

| Coluna original                 | Coluna traduzida                  |
|---------------------------------|----------------------------------|
| person_age                       | idade_pessoa                     |
| person_income                    | renda_pessoa                     |
| person_home_ownership            | tipo_residencia                  |
| person_emp_length                | tempo_emprego_anos               |
| loan_intent                      | finalidade_emprestimo            |
| loan_grade                       | classificacao_emprestimo         |
| loan_amnt                        | valor_emprestimo                 |
| loan_int_rate                    | taxa_juros_emprestimo            |
| loan_status                      | status_emprestimo                |
| loan_percent_income              | percentual_renda_comprometida    |
| cb_person_default_on_file        | historico_inadimplencia          |
| cb_person_cred_hist_length       | tempo_historico_credito_anos     |


4: Faça a tradução dos valores.
| Coluna                     | Valor original           | Valor traduzido            |
|-----------------------------|-------------------------|---------------------------|
| tipo_residencia             | RENT                    | Aluguel                   |
| tipo_residencia             | OWN                     | Própria                   |
| tipo_residencia             | MORTGAGE                | Hipoteca                  |
| tipo_residencia             | OTHER                   | Outro                     |
| finalidade_emprestimo       | PERSONAL                | Pessoal                   |
| finalidade_emprestimo       | EDUCATION               | Educação                  |
| finalidade_emprestimo       | MEDICAL                 | Médico                    |
| finalidade_emprestimo       | VENTURE                 | Empreendimento            |
| finalidade_emprestimo       | HOMEIMPROVEMENT         | Reforma Residencial       |
| finalidade_emprestimo       | DEBTCONSOLIDATION       | Consolidação de Dívidas   |
| historico_inadimplencia     | Y                       | Sim                       |
| historico_inadimplencia     | N                       | Não                       |


5: Lista os 10 primeiros registros


6: Faça uma análise rápida do dataset utilizando os comandos describe(), info(), isnull.sum()

7: Faça um tabela para mostrar a quantidade de devedores e qual esse percentual?

8: Imprima um gráfico de barras sobre o status do emprestimo (Devedores e não devedores) countplot do seaborn (sns).
```python
ax = sns.countplot(
      x='status_emprestimo',  #Eixo X
      hue='status_emprestimo', #Categorias
      data=df_traduzido,  #DataFrame
)

9: Faça o gráfico de devedores e não devedores por tipo de residência.

10: Faça um histograma da renda dos envolvidos e analise.

11: Retirada dos outlier

12: Verifique a qualidade dos campos idade, taxa de juros, tempo_emprego_anos	e taxa_juros_emprestimo.


13: Faça o gráfico de dispersão entre 'idade_pessoa', 'renda_pessoa', 'valor_emprestimo'.


14: Identifique e trate os valores nulos;
