# Previs√£o de Aprova√ß√£o de Cart√£o de Cr√©dito: Um Estudo de Machine Learning para Mitiga√ß√£o de Riscos Financeiros

<img src="https://raw.githubusercontent.com/enzoschitini/Data-Science-Portfolio/main/02%20Algoritmos%2C%20modelos%20e%20m%C3%A9tricas/Credit%20Card%20Approval%20Prediction/image/Capa.png" alt="capa">

---

# **Machine Learning** ‚Ä¢ Credit Card Approval Prediction

Bem-vindo(a)!!! Meu nome √© Enzo Schitini, sou cientista de dados e neste projeto de "Previs√£o de Aprova√ß√£o de Cart√£o de Cr√©dito", utilizamos t√©cnicas de machine learning para desenvolver um modelo capaz de prever a aprova√ß√£o ou rejei√ß√£o de solicita√ß√µes de cart√£o de cr√©dito. Analisamos dados hist√≥ricos de clientes, incluindo informa√ß√µes demogr√°ficas e financeiras, para identificar padr√µes que influenciam a decis√£o de aprova√ß√£o. 

Nosso objetivo √© fornecer √†s institui√ß√µes financeiras uma ferramenta precisa para minimizar riscos de cr√©dito e otimizar o processo de concess√£o, assegurando que apenas clientes qualificados sejam aprovados.

**Data Science** Portf√≥lio | *03 Agosto 2024*

[Enzo Schitini](https://www.linkedin.com/in/enzoschitini/) - Data Scientist ‚Ä¢ Expert Bubble.io ‚Ä¢ UX & UI @ Nugus creator

---

## O que voc√™ vai encontrar neste notebook? üëã

Vamos explorar os dados do *Sistema de Informa√ß√£o sobre Nascidos Vivos (SINASC)* relativos aos rec√©m-nascidos nascidos no estado de Rond√¥nia, Brasil, no ano de 2019. Assim que a an√°lise explorat√≥ria for conclu√≠da, prosseguiremos para `identificar insights` e avaliar a sa√∫de p√∫blica no estado. 

Usaremos `abordagens estat√≠sticas e anal√≠ticas para identificar correla√ß√µes`, padr√µes e associa√ß√µes entre vari√°veis, al√©m disso vamos criar um `Modelo de Machine Learning` para fazer infer√™ncias de dados faltantes. 

#### Os pilares da an√°lise:

- Descobrir os fatores que influenciam a sa√∫de dos beb√™s.
- Entender melhor as ra√ßas e o n√≠vel educacional das m√£es.
- Analisaremos as menores de idade, meninas que constroem fam√≠lia antes dos 18 anos.
- O que nos diz a escolha do parto entre cesariana ou parto vaginal?
- E finalmente melhor compreender a popula√ß√£o do estado de Rond√¥nia no Brasil em 2019 e construir a um pouco do que seria o 'Rosto da popula√ß√£o'.

*Al√©m disso, exploraremos o impacto das vari√°veis ‚Äã‚Äãsociorraciais nas condi√ß√µes de nascimento e nos indiv√≠duos*

#### - *Contexto dos Dados*

Com o aumento do uso de cart√µes de cr√©dito, √© essencial que as institui√ß√µes financeiras possam tomar decis√µes informadas sobre a concess√£o de cr√©dito. Uma decis√£o inadequada pode resultar em perdas financeiras significativas, seja pela concess√£o de cr√©dito a clientes com alta probabilidade de inadimpl√™ncia, ou pela rejei√ß√£o de clientes com bom potencial de cr√©dito. A utiliza√ß√£o de t√©cnicas de machine learning pode transformar a forma como essas decis√µes s√£o feitas, tornando o processo mais eficiente e preciso.

#### - *Origem dos Dados*

<img src="" alt="capa" width="310">

> Voc√™ pode acessar os dados pelo [kaggle](https://www.kaggle.com/datasets/rikdifos/credit-card-approval-prediction)

#### - *Metodologia*

A an√°lise ser√° conduzida utilizando t√©cnicas estat√≠sticas e de visualiza√ß√£o de dados para identificar padr√µes e anomalias. Ser√° empregado o Python como ferramentas de manipula√ß√£o e an√°lise dos dados, na limpeza e prepara√ß√£o dos dados para garantir a qualidade das an√°lises e do modelo de Machine Learning.

#### - *Import√¢ncia do Projeto*

# üî• Vamos come√ßar!!!

### **`T√≥picos`**

<ol type="1">
  <li>Prepara√ß√£o do ambiente de desenvolvimento</li>
  <li>Estrutura e tratamento dos dados e colunas</li>
  <li>Visualiza√ß√£o</li>
  <li>M√©tricas</li>
  <li>‚ú® Insights ‚ú®</li>
</ol>

---

# Prepara√ß√£o do ambiente de desenvolvimento

### Importando os pacotes

In [None]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import plotly.express as px
import seaborn as sns

from scipy.stats import chi2_contingency
import missingno as msno
pd.set_option('display.max_columns', None)

### C√≥digos em python

### Fun√ß√µes que vamos usar para gerar os gr√°ficos da an√°lise

In [None]:
def Heatmap_Default(contingency_table):
    # Converter a tabela de conting√™ncia em um formato adequado para o Plotly
    #heatmap_data = contingency_table.reset_index().melt(id_vars='CODE_GENDER', var_name='Default', value_name='Count')

    # Criar o heatmap
    fig = px.imshow(
        contingency_table,
        text_auto=True,
        aspect='auto',
        labels={'x': 'Default', 'y': 'CODE_GENDER', 'color': 'Count'},
        color_continuous_scale = ["red", "yellow", "green"],
        title='Heatmap entre Default e CODE_GENDER'
    )
    fig.update_layout(title = "<b> Vendas de boba </b>",
                        coloraxis_showscale = False)

    # Mostrar o gr√°fico
    fig.show()
    
    # Heatmap_Default(pd.crosstab(df['NAME_INCOME_TYPE'], df['Default']))

### Carregando os Datasets

In [None]:
df = pd.read_csv('Data/Credit Card Approval Prediction.csv').drop(columns=['Unnamed: 0', 'ID'])
df.head()

# An√°lise Explorat√≥ria

Na minha opini√£o, a an√°lise explorat√≥ria √© uma das fases mais importantes de qualquer projeto que lide com dados. Aqui o objetivo √© entender o contexto em que trabalharemos e como s√£o os dados que temos que explorar, para termos toda uma documenta√ß√£o que precisaremos para criar os pr√≥ximos algoritmos, mesmo os de Machine Learning. Acredito que mesmo nesta fase j√° podemos encontrar alguns Insights.

## Estrutura e tratamento dos dados e colunas

In [None]:
df.drop_duplicates(inplace=True)

In [None]:
def status_dataframe(dataframe:pd.DataFrame):
    df_columns_name = dataframe.columns.to_list()

    types_list = [str(type(dataframe[col][0])).split("'")[1] for col in dataframe.columns]
    lista_categorias = [dataframe[col].nunique() for col in dataframe.columns]

    elementos_nulos = elementos_nulos = dataframe.isnull().sum()
    elementos_nulos = elementos_nulos.to_list()

    percentagem_dados_nulos = round((dataframe.isnull().sum() / dataframe.shape[0]) * 100)
    percentagem_dados_nulos = percentagem_dados_nulos.to_list()

    print(f'Esse datafame cont√©m {dataframe.shape[1]} colunas e {dataframe.shape[0]} linhas')

    dados_status = pd.DataFrame({'Nome': df_columns_name, 
                            'Tipo': types_list, 
                            'qnt_categorias': lista_categorias,
                            'Dados nulos' : elementos_nulos,
                            'Dados nulos %' : percentagem_dados_nulos})
    return dados_status

display(status_dataframe(df))
display(df.head())

## **An√°lise das colunas do dataset:**

O dataset parece conter informa√ß√µes sobre clientes de um banco, com foco em dados demogr√°ficos, financeiros e de trabalho, al√©m de uma coluna que indica se o cliente teve ou n√£o um default (inadimpl√™ncia) em seus pagamentos. Vamos analisar cada coluna:

---

**1. Vari√°veis Demogr√°ficas:**

- **CODE_GENDER:** ¬†G√™nero do cliente (M - Masculino, F - Feminino)
- **FLAG*OWN*CAR:** Indica se o cliente possui carro (Y - Sim, N - N√£o)
- **FLAG*OWN*REALTY:** Indica se o cliente possui im√≥vel pr√≥prio (Y - Sim, N - N√£o)
- **CNT_CHILDREN:** N√∫mero de filhos do cliente
- **DAYS_BIRTH:** N√∫mero de dias desde o nascimento do cliente. (Valores negativos indicam que o cliente nasceu antes da data de refer√™ncia, provavelmente a data da coleta dos dados)
- **CNT*FAM*MEMBERS:** N√∫mero de membros da fam√≠lia do cliente

---

**2. Vari√°veis Financeiras:**

- **AMT*INCOME*TOTAL:** Renda total anual do cliente.

---

**3. Vari√°veis de Trabalho:**

- **NAME*INCOME*TYPE:** Tipo de renda do cliente (ex: Working, Commercial associate, Pensioner)
- **NAME*EDUCATION*TYPE:** N√≠vel de escolaridade do cliente (ex: Higher education, Secondary / secondary special)
- **NAME*FAMILY*STATUS:** Estado civil do cliente (ex: Married, Single / not married, Civil marriage)
- **NAME*HOUSING*TYPE:** Tipo de moradia do cliente (ex: House / apartment, Rented apartment, With parents)
- **DAYS_EMPLOYED:** N√∫mero de dias desde o in√≠cio do emprego atual do cliente. (Valores negativos indicam que o cliente est√° empregado antes da data de refer√™ncia, provavelmente a data da coleta dos dados)

---

**4. Vari√°veis de Comunica√ß√£o:**

- **FLAG_MOBIL:** Indica se o cliente possui telefone m√≥vel (1 - Sim, 0 - N√£o)
- **FLAG*WORK*PHONE:** Indica se o cliente possui telefone comercial (1 - Sim, 0 - N√£o)
- **FLAG_PHONE:** Indica se o cliente possui telefone fixo (1 - Sim, 0 - N√£o)
- **FLAG_EMAIL:** Indica se o cliente possui email (1 - Sim, 0 - N√£o)

---

**5. Vari√°vel de Ocupa√ß√£o:**

- **OCCUPATION_TYPE:** Tipo de ocupa√ß√£o do cliente (ex: Security staff, Sales staff, etc.)

---

**6. Vari√°vel Alvo:**

- ***Default:** ¬†Indica se o cliente teve* default* (inadimpl√™ncia) em seus pagamentos (1 - Sim, 0 - N√£o)

---

## Dados faltantes

In [None]:
msno.matrix(df)

---

**5. Vari√°vel de Ocupa√ß√£o:**

- **OCCUPATION_TYPE:** Tipo de ocupa√ß√£o do cliente (ex: Security staff, Sales staff, etc.)

| Nome                 | Tipo           | qnt_categorias | Dados nulos | Dados nulos % |
|----------------------|----------------|----------------|-------------|---------------|
| OCCUPATION_TYPE      | float          | 18             | 28967       | 30.0          |

Esta coluna cont√©m 30% dos dados nulos e eles est√£o bastante espalhados pelo conjunto de dados
---

### Se apagarmos essas coluna e linhas?

In [None]:
# Remover linhas com valores nulos:
df_linha_OCCUPATION_TYPE = df.dropna()
print(df_linha_OCCUPATION_TYPE.shape)

# Remover colunas com valores nulos:
df_coluna_OCCUPATION_TYPE = df.dropna(axis=1)
print(df_coluna_OCCUPATION_TYPE.shape)

### O que podemos fazer quanto aos dados nulos?

In [None]:
pd.DataFrame(round(df['OCCUPATION_TYPE'].value_counts(normalize=True) * 100))

## Engenharia de atributos
Com base nas colunas existentes, podemos criar novas colunas (atributos) para melhorar a qualidade dos dados e aprimorar o modelo de machine learning:

**1. Transformando Datas em Informa√ß√µes √öteis:**

- **AGE:** Criar uma coluna 'AGE' calculando a idade do cliente a partir de `DAYS_BIRTH` (dividindo por 365).
- **YEARS*EMPLOYED:** Criar uma coluna 'YEARS*EMPLOYED' calculando o tempo de emprego do cliente a partir de `DAYS_EMPLOYED` (dividindo por 365).
- **AGE*AT*EMPLOYMENT:** Criar uma coluna calculando a idade do cliente no momento em que ele come√ßou a trabalhar (AGE - YEARS_EMPLOYED).

In [None]:
df['AGE'] = round(abs(df['DAYS_BIRTH'] / 365))
df['AGE'] = df['AGE'].astype(int)

In [None]:
df['YEARS_EMPLOYED'] = round(abs(df['DAYS_EMPLOYED'] / 365))
df['YEARS_EMPLOYED'] = df['YEARS_EMPLOYED'].astype(int)

In [None]:
df['AGEATEMPLOYMENT'] = df['AGE'] - df['YEARS_EMPLOYED']

**2. Combinando Vari√°veis Categoricas:**

- **INCOME*TYPE*EDUCATION:** Criar uma coluna combinando `NAME[i]INCOME[/i]TYPE` e `NAME[i]EDUCATION[/i]TYPE`, para identificar grupos de clientes com caracter√≠sticas semelhantes.

**3. Criando Indicadores Financeiros:**

- **INCOME*PER*FAMILY*MEMBER:** Criar uma coluna calculando a renda per capita da fam√≠lia, dividindo* `AMT` INCOME[i]TOTAL *por* `CNT` FAM_MEMBERS
- **INCOME*RATIO*TO_CHILDREN:** Criar uma coluna calculando a raz√£o entre a renda total e o n√∫mero de filhos, para identificar o peso da renda familiar por filho.

In [None]:
df['INCOMEPERFAMILY_MEMBER'] = df['AMT_INCOME_TOTAL'] / df['CNT_FAM_MEMBERS']

In [None]:
df['INCOMERATIOTO_CHILDREN'] = df['AMT_INCOME_TOTAL'] / df['CNT_CHILDREN']

**4. Criando Indicadores de Perfil:**

- **HAS*EMAIL*AND_PHONE:** Criar uma coluna que indique se o cliente possui email e telefone, para identificar clientes com maior conectividade.

In [None]:
def HASEMAILAND_PHONE(valor1, valor2):
    if valor1 == 1 and valor2 == 1:
        return 1
    else:
        return 0

df['HASEMAILAND_PHONE'] = df.apply(lambda row: HASEMAILAND_PHONE(row['FLAG_EMAIL'], row['FLAG_PHONE']), axis=1)

**5. Criando Indicadores de Risco:**

- ***AGEATDEFAULT:** Criar uma coluna calculando a idade do cliente no momento do* default
- ***YEARSEMPLOYEDAT_DEFAULT:** Criar uma coluna calculando o tempo de emprego do cliente no momento do* default

### Ordenando as colunas

In [None]:
df = df[[
    # 1. Vari√°veis Demogr√°ficas:
    'CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'CNT_CHILDREN',
    'DAYS_BIRTH', 'CNT_FAM_MEMBERS', 'AGE', 'AGEATEMPLOYMENT',

    # 2. Vari√°veis Financeiras:
    'AMT_INCOME_TOTAL', 'INCOMEPERFAMILY_MEMBER', 'INCOMERATIOTO_CHILDREN',

    # 3. Vari√°veis de Trabalho:
    'NAME_INCOME_TYPE', 'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS', 
    'NAME_HOUSING_TYPE', 'DAYS_EMPLOYED', 'YEARS_EMPLOYED', 'OCCUPATION_TYPE',

    # 4. Vari√°veis de Comunica√ß√£o:
    'FLAG_MOBIL', 'FLAG_WORK_PHONE', 'FLAG_PHONE', 'FLAG_EMAIL', 'HASEMAILAND_PHONE',

    # 5. Vari√°vel de Ocupa√ß√£o:
    'Default'
    ]]

df.head()

## Reparando as colunas do data frame
Para cada coluna de nossos conjuntos de dados, transformaremos agora aquelas que s√£o do tipo str para category. Desta forma podemos economizar espa√ßo de mem√≥ria e ter melhor desempenho na execu√ß√£o do algoritmo

In [None]:
category_list = list(df.select_dtypes('object').columns)
pd.DataFrame(df.select_dtypes('object').columns)

In [None]:
for col in category_list:
    df[col] = df[col].astype('category')

In [None]:
pd.DataFrame(df.dtypes)

## **Boxplot:** para visualizar a distribui√ß√£o de cada vari√°vel num√©rica e identificar outliers

In [None]:
def boxploy_plotly(numeric_cols):
    # Selecione apenas as colunas num√©ricas fornecidas
    df_filtered = df[numeric_cols]

    # Crie um boxplot para cada coluna num√©rica
    fig = px.box(df_filtered, y=numeric_cols, title='Boxplot das Colunas Num√©ricas')

    # Ajuste o layout para fundo branco
    fig.update_layout(
        paper_bgcolor='white',  # Fundo da √°rea fora do gr√°fico
        plot_bgcolor='white'    # Fundo da √°rea onde os dados s√£o plotados
    )

    # Exiba o gr√°fico
    fig.show()

In [None]:
df.select_dtypes('number').head(5).T
boxploy_plotly(['AGEATEMPLOYMENT', 'CNT_FAM_MEMBERS', 'CNT_CHILDREN'])
boxploy_plotly(['AMT_INCOME_TOTAL', 'INCOMEPERFAMILY_MEMBER'])
boxploy_plotly(['AGE', 'YEARS_EMPLOYED'])

**AGEATEMPLOYMENT**

In [None]:
df[df['AGEATEMPLOYMENT'] > -932]['AGEATEMPLOYMENT'].mean()

In [None]:
df[df['AGEATEMPLOYMENT'] < -932].shape[0] / df.shape[0] * 100

**YEARS_EMPLOYED**

In [None]:
df[df['YEARS_EMPLOYED'] >= 1001]['YEARS_EMPLOYED'].mean()

In [None]:
df[df['YEARS_EMPLOYED'] >= 1001].shape[0] / df.shape[0] * 100

## M√©tricas e correla√ß√£o

**M√©tricas B√°sicas:**

- M√©dia, mediana, desvio padr√£o, m√≠nimo, m√°ximo, quartis para todas as vari√°veis num√©ricas.
- Frequ√™ncias absolutas e relativas para vari√°veis categ√≥ricas.
- Correla√ß√£o de Pearson (para vari√°veis num√©ricas) para identificar rela√ß√µes lineares.
- Coeficiente de Cramer (para vari√°veis categ√≥ricas) para identificar rela√ß√µes n√£o lineares.

### M√©dia, mediana, desvio padr√£o, m√≠nimo, m√°ximo, quartis

In [None]:
display(df.select_dtypes('number').describe().T)
display(df.select_dtypes('category').describe().T)

### Frequ√™ncias absolutas e relativas para vari√°veis categ√≥ricas

In [None]:
# Fun√ß√£o para calcular frequ√™ncias absolutas e relativas
def calc_frequencies(df, column):
    abs_freq = df[column].value_counts()
    rel_freq = df[column].value_counts(normalize=True) * 100  # Percentual
    freq_df = pd.DataFrame({
        'Frequ√™ncia Absoluta': abs_freq,
        'Frequ√™ncia Relativa (%)': rel_freq
    })
    return freq_df

# Aplicar a fun√ß√£o para todas as vari√°veis categ√≥ricas
categorical_columns = ['CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'NAME_INCOME_TYPE', 
                       'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS', 'NAME_HOUSING_TYPE', 'OCCUPATION_TYPE']

for col in categorical_columns:
    print(f"\nFrequ√™ncias para a vari√°vel '{col}':")
    print(calc_frequencies(df, col))

### Correla√ß√£o de Pearson (para vari√°veis num√©ricas) para identificar rela√ß√µes lineares

In [None]:
plt.rcParams['xtick.labelsize'] = 10
plt.rcParams['ytick.labelsize'] = 10
plt.rcParams['font.size'] = 10 
plt.rcParams['axes.titlesize'] = 20
plt.rcParams["figure.figsize"] = [15, 10]
plt.rcParams["figure.autolayout"] = True
sns.heatmap(df.select_dtypes('number').corr(), annot=True)
plt.show()

### Coeficiente de Cramer (para vari√°veis categ√≥ricas) para identificar rela√ß√µes n√£o lineares

In [None]:
# Fun√ß√£o para calcular o coeficiente de Cramer
def cramer_v(x, y):
    crosstab = pd.crosstab(x, y)
    chi2_stat = chi2_contingency(crosstab)[0]
    n = crosstab.sum().sum()
    k = min(crosstab.shape) - 1
    return np.sqrt(chi2_stat / (n * k))

# Calcular o coeficiente de Cramer para todas as combina√ß√µes de vari√°veis categ√≥ricas
categorical_columns = ['CODE_GENDER', 'FLAG_OWN_CAR', 'FLAG_OWN_REALTY', 'NAME_INCOME_TYPE', 
                       'NAME_EDUCATION_TYPE', 'NAME_FAMILY_STATUS', 'NAME_HOUSING_TYPE', 'OCCUPATION_TYPE']

# Criar uma matriz de coeficientes
cramer_matrix = pd.DataFrame(index=categorical_columns, columns=categorical_columns)

for i in range(len(categorical_columns)):
    for j in range(len(categorical_columns)):
        if i != j:
            var1 = categorical_columns[i]
            var2 = categorical_columns[j]
            cramer_matrix.iloc[i, j] = cramer_v(df[var1], df[var2])
        else:
            cramer_matrix.iloc[i, j] = np.nan  # Diagonal principal

# Converter os valores para float
cramer_matrix = cramer_matrix.astype(float)

# Plotar a matriz de correla√ß√£o de Cramer
plt.figure(figsize=(10, 8))
sns.heatmap(cramer_matrix, annot=True, cmap='coolwarm', center=0, vmin=0, vmax=1, fmt='.2f', 
            cbar_kws={'label': 'Coeficiente de Cramer'})
plt.title('Matriz de Coeficiente de Cramer')
plt.show()

### Explica√ß√£o:
1. **Fun√ß√£o `cramer_v`:** Calcula o coeficiente de Cramer para duas vari√°veis categ√≥ricas.
2. **Matriz de Coeficientes:** Calcula o coeficiente de Cramer para todas as combina√ß√µes de vari√°veis categ√≥ricas e armazena os resultados em uma matriz.
3. **Plotagem:** Usa `seaborn` para criar um heatmap da matriz de coeficientes de Cramer, com anota√ß√µes, uma barra de cor e uma escala de cores que vai de 0 a 1.

## Visualiza√ß√£o

**Gr√°ficos:**

- **Histograma:** para visualizar a distribui√ß√£o de cada vari√°vel num√©rica**.**
- **Boxplot:** para visualizar a distribui√ß√£o de cada vari√°vel num√©rica e identificar outliers.
- **Gr√°fico de Barras:** para visualizar a frequ√™ncia de cada categoria em vari√°veis categ√≥ricas.
- **Gr√°fico de Dispers√£o:** para visualizar a rela√ß√£o entre duas vari√°veis num√©ricas.
- **Matriz de Correla√ß√£o:** para visualizar a correla√ß√£o entre todas as vari√°veis num√©ricas.
- **Gr√°fico de Propor√ß√£o:** para visualizar a propor√ß√£o de inadimplentes (vari√°vel "Default") para cada categoria de vari√°veis categ√≥ricas.

### **Histograma:** para visualizar a distribui√ß√£o de cada vari√°vel num√©rica

In [None]:
def histplot(col):
    plt.figure(figsize=[10, 5])  # Corrigido para definir o tamanho da figura
    sns.histplot(df[col], bins=10, kde=True)
    
    plt.title(f'Histograma {col}')
    plt.xlabel('Valores')
    plt.ylabel('Frequ√™ncia')
    plt.show()

for col in df.select_dtypes('number'):
    histplot(col)

### **Boxplot:** para visualizar a distribui√ß√£o de cada vari√°vel num√©rica e identificar outliers

In [None]:
boxploy_plotly(['AGEATEMPLOYMENT', 'CNT_FAM_MEMBERS', 'CNT_CHILDREN'])
boxploy_plotly(['AMT_INCOME_TOTAL', 'INCOMEPERFAMILY_MEMBER'])
boxploy_plotly(['AGE', 'YEARS_EMPLOYED'])

### **Gr√°fico de Barras:** para visualizar a frequ√™ncia de cada categoria em vari√°veis categ√≥ricas

### **Gr√°fico de Dispers√£o:** para visualizar a rela√ß√£o entre duas vari√°veis num√©ricas

### **Gr√°fico de Propor√ß√£o:** para visualizar a propor√ß√£o de inadimplentes (vari√°vel "Default") para cada categoria de vari√°veis categ√≥ricas

# ‚ú® Insights ‚ú®

Agora compreendemos melhor os dados que temos √† nossa disposi√ß√£o para podermos realizar an√°lises mais precisas, levando em considera√ß√£o todas as nuances relativas aos dados, para obter os melhore Insights.

<img src="https://raw.githubusercontent.com/enzoschitini/Data-Science-Portfolio/main/02%20Algoritmos%2C%20modelos%20e%20m%C3%A9tricas/Credit%20Card%20Approval%20Prediction/image/Capa.png" alt="capa">

---

# **Machine Learning Insight** ‚Ä¢ Credit Card Approval Prediction

Finalmente, aqui estamos no auge da nossa an√°lise, o momento em que partimos para encontrar os insights que est√£o presos nos dados e traz√™-los √† tona. Al√©m disso, depois de encontr√°-los, temos que entend√™-los e conect√°-los ao contexto de onde se originam.

---

# Como a an√°lise ser√° realizada:

### **`Nossos objetivos`**

<ol type="1">
  <li>-----------</li>
</ol>

---

<img src="https://raw.githubusercontent.com/enzoschitini/Data-Science-Portfolio/main/01%20An%C3%A1lise%20explorat%C3%B3ria%20e%20limpeza%20de%20dados/Sinasc/image/1.jpg" alt="capa" width="100">

#### [Enzo Schitini](www.linkedin.com/in/enzoschitini)
#### Data Scientist ‚Ä¢ Expert Bubble.io ‚Ä¢ UX & UI @ Nugus creator

<img src="https://raw.githubusercontent.com/enzoschitini/Data-Science-Portfolio/main/01%20An%C3%A1lise%20explorat%C3%B3ria%20e%20limpeza%20de%20dados/Sinasc/image/Group%201321314401.png" alt="capa" width="55">

 Meu nome √© Enzo Schitini, tenho 19 anos. Sou cientista e analista de dados com Python, especialista no desenvolvimento de aplica√ß√µes Web/Mobile com Bubble, al√©m de planejar e criar interfaces UX & Ui.

Normalmente, para cada projeto que fa√ßo, tento usar essas tr√™s habilidades (Data Science, Bubble e UX & Ui) juntas, assim consigo por exemplo desenvolver:

- Storytelling com dados usando UX e UI
- Aplica√ß√µes Data Driven
- Sites, aplicativos e platafosmas web
- Modelos de Machine Learning (Classifica√ß√£o, Classifica√ß√£o e Clusteriza√ß√£o)
- Extrair insights dos dados e realizar an√°lises profundas (an√°lises descritivas, diagn√≥sticas, preditivas, e at√© prescritivas)
- Sistemas que oferecem visualiza√ß√£o e interfaces avan√ßadas
- Plataformas de gerenciamento de dados

E muito mais, combinando o melhor dos tr√™s mundos. 

Desde os 12 anos, quando estudei rob√≥tica, adoro desenvolver softwares. Sempre valorizei o aprendizado pr√°tico, com projetos que me ensinaram que depois de horas de dedica√ß√£o, comprometimento e muita paci√™ncia (coisas que fazem parte do processo) √© poss√≠vel alcan√ßar um objetivo.

Hoje, anos depois, muitas coisas mudaram, mas a vontade de desafiar a minha criatividade e ir cada vez mais longe continua viva. üî•