<img src="https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/main/media/logo/newebac_logo_black_half.png" alt="ebac-logo">

---

# **Módulo** | Python: Projeto Final
Caderno de **Aula**<br>
Professor [André Perez](https://www.linkedin.com/in/andremarcosperez/)

---

# **Tópicos**

<ol type="1">
  <li>Introdução ao Kaggle;</li>
  <li>Exploração de dados;</li>
  <li>Transformação e limpeza de dados;</li>
  <li>Visualização de dados;</li>
  <li>Storytelling.</li>
</ol>


---

# **Projeto Final do curso de Python**

## 1\. Descrição da proposta

Vamos explorar dados de crédito presentes neste neste link. Os dados estão no formato CSV e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de default, que indica se um cliente é adimplente(default = 0), ou inadimplente (default = 1), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.




> O atributo de interesse (`default`) é conhecido como **variável resposta** ou **variável dependente**, já os demais atributos que buscam explicá-la (`idade`, `salário`, etc.) são conhecidas como **variáveis explicatívas**, **variáveis independentes** ou até **variáveis preditoras**.



| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |



## 2\. Código de importação de Bibliotecas

In [None]:
# 1. Importando todas as bibliotecas que iremos utilizar

import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


## 3\. Etapa de exploração de Dados

In [None]:
# Importando a tabela onde os dados que iremos trabalhar estão
df = pd.read_csv('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv', na_values='na')

## 4\. Exploração de Dados


Os dados estão prontos, vamos criar diversas visualizações para correlacionar variáveis explicativas com a variável resposta para buscar entender qual fator leva um cliente a inadimplencia. E para isso, vamos sempre comparar a base com todos os clientes com a base de adimplentes e inadimplentes.

In [None]:
df.head(n=10)

In [None]:
qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

In [None]:
print(f"A proporcão clientes adimplentes é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")

 - Colunas e seus respectivos tipos de dados.

In [None]:
df.dtypes

## 5\. Transformação e limpeza de dados

Agora que conhecemos melhor a natureza do nosso conjunto de dados, vamos conduzir uma atividade conhecida como *data wrangling* que consiste na transformação e limpeza dos dados do conjunto para que possam ser melhor analisados. Em especial, vamos:

 - Corrigir o *schema* das nossas colunas;
 - Remover os dados faltantes.

### **5.1. Correção de schema**

Na etapa de exploração, notamos que as colunas **limite_credito** e **valor_transacoes_12m** estavam sendo interpretadas como colunas categóricas (`dtype = object`).

In [None]:
df[['limite_credito', 'valor_transacoes_12m']].dtypes

Vamos criar uma função `lambda` para limpar os dados. Mas antes, vamos testar sua aplicação através do método funcional `map`:

In [None]:
fn = lambda valor: float(valor.replace(".", "").replace(",", "."))

valores_originais = ['12.691,51', '8.256,96', '3.418,56', '3.313,03', '4.716,22']
valores_limpos = list(map(fn, valores_originais))

print(valores_originais)
print(valores_limpos)

Com a função `lambda` de limpeza pronta, basta aplica-la nas colunas de interesse.

In [None]:
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)

In [None]:
df.dtypes

 - Atributos **categóricos**.

In [None]:
df.select_dtypes('object').describe().transpose()

 - Atributos **numéricos**.

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

### **5.2. Remoção de dados faltantes**

Como o pandas está ciente do que é um dados faltante, a remoção das linhas problemáticas é trivial.

In [None]:
df.dropna(inplace=True)

Vamos analisar a estrutura dos dados novamente.

In [None]:
df.shape

In [None]:
df[df['default'] == 0].shape

In [None]:
df[df['default'] == 1].shape

In [None]:
qtd_total_novo, _ = df.shape
qtd_adimplentes_novo, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novo, _ = df[df['default'] == 1].shape

In [None]:
print(f"A proporcão adimplentes ativos é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes adimplentes é de {round(100 * qtd_adimplentes_novo / qtd_total_novo, 2)}%")
print("")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes inadimplentes é de {round(100 * qtd_inadimplentes_novo / qtd_total_novo, 2)}%")

## 6\. Análise e Visualização de dados

Os dados estão prontos, vamos criar diversas visualizações para correlacionar variáveis explicativas com a variável resposta para buscar entender qual fator leva um cliente a inadimplencia. E para isso, vamos sempre comparar a base com todos os clientes com a base de adimplentes e inadimplentes.

Começamos então importando os pacotes de visualização e separando os clientes adimplentes e inadimplentes

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_style("whitegrid")

In [None]:
df_adimplente = df[df['default'] == 0]

In [None]:
df_inadimplente = df[df['default'] == 1]

### **6.1. Visualizações categóricas**

Nesta seção, vamos visualizar a relação entre a variável resposta **default** com os atributos categóricos.

In [None]:
df.select_dtypes('object').head(n=5)

 - Escolaridade

In [None]:
coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1

figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.sort_values(by=[coluna], inplace=True)
  df_to_plot.sort_values(by=[coluna])

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

Como podemos ver nos gráficos

*   Na totalidade a escolaridade com maior representatividade são os clientes com mestrado.
*   A maior taxa de adimplência é dos clientes que possuem mestrado e ensino médio
*   E nos inadimplentes os que possuem mestrado também são a maioria





 - Salário Anual

In [None]:
coluna = 'salario_anual'
titulos = ['Salário Anual dos Clientes', 'Salário Anual dos Clientes Adimplentes', 'Salário Anual dos Clientes Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.reset_index(inplace=True, drop=True)
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)
  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))
  eixo += 1

figura.show()


*   De maneira absoluta a maior representatividade se dá nos clientes que ganham na faixa de até 40k.
*   Entre os os clientes adimplentes a maior parte está entre os que ganham até 40k.
*   Isso se mantém nos clientes inadimplentes




### **6.2. Visualizações numéricas**

Nesta seção, vamos visualizar a relação entre a variável resposta **default** com os atributos numéricos.

In [None]:
df.drop(['id', 'default'], axis=1).select_dtypes('number').head(n=5)

 - Quantidade de Transações nos Últimos 12 Meses

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()



Pode se observar pelo gráfico que as quantidades de movimentações se tornam maiores com os clientes adimplentes.

 - Valor das Transações nos Últimos 12 Meses

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

O mesmo pode-se inferir que os clientes adimplentes tem os maiores valores de transações conforme o gráfico.

 - Valor de Transações nos Últimos 12 Meses x Quantidade de Transações nos Últimos 12 Meses

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano',
    xlabel='Valor das Transações no Último Ano',
    ylabel='Quantidade das Transações no Último Ano'
  )

Já nesse último gráfico podemos confirmar que as transações maiores e com mais frequência se agrupam nos clientes adimplentes. Com os clientes inadimplentes possuindo poucas transações e com volume menor.

## 7\. Storytelling


Nossa história se passa em um cenário financeiro, onde exploraremos a relação entre a escolaridade dos clientes e seu status de adimplência. Além disso, vamos analisar a distribuição dos salários anuais e sua influência na inadimplência. Através desses dados, poderemos traçar um retrato dos padrões financeiros e educacionais presentes nessa população.

Nossos personagens são os clientes da instituição financeira que foram analisados neste estudo. Eles representam uma diversidade de formações educacionais e níveis de renda.

No início de nossa análise, descobrimos que a maioria dos clientes possui mestrado, o que indica um alto nível de escolaridade entre os usuários da instituição financeira. Isso sugere um perfil de clientes com maior conhecimento e experiência acadêmica.

Ao explorar a relação entre escolaridade e adimplência, constatamos que tanto entre os clientes adimplentes quanto entre os inadimplentes, a maior representatividade está entre aqueles com ensino médio e mestrado. Essa descoberta mostra que a inadimplência não está necessariamente relacionada ao nível de escolaridade, pois mesmo os clientes com mestrado podem enfrentar dificuldades financeiras.

Além disso, analisando os salários anuais, notamos que a maior representatividade está entre aqueles que recebem menos de 40k anuais. Essa faixa salarial parece ter uma influência significativa na inadimplência, sugerindo que clientes com menor renda podem enfrentar mais desafios para cumprir suas obrigações financeiras.

Ao observarmos o gráfico de quantidade de transações em relação à taxa de inadimplência, percebemos uma relação inversa: à medida que a taxa de inadimplência aumenta, a quantidade de transações decresce. Isso indica que a inadimplência pode ter um impacto direto no envolvimento dos clientes com a instituição financeira, possivelmente levando-os a realizar menos transações.

O mesmo padrão é observado em relação ao valor das transações, onde uma taxa de inadimplência mais alta está associada a transações de menor valor. Isso pode ser explicado pela necessidade dos clientes inadimplentes de controlar seus gastos e limitar suas transações financeiras.

Com base nas informações analisadas, concluímos que a escolaridade dos clientes não é um fator determinante para a inadimplência, uma vez que tanto clientes com ensino médio quanto com mestrado apresentam representatividade tanto entre os adimplentes quanto entre os inadimplentes. No entanto, identificamos que a faixa salarial de menos de 40k anuais possui a maior representatividade tanto entre os inadimplentes quanto entre os adimplentes, indicando uma relação entre renda e inadimplência.

Também observamos que a inadimplência afeta a quantidade e o valor das transações realizadas pelos clientes, sugerindo uma possível diminuição do engajamento com a instituição financeira por parte dos inadimplentes.

No geral, a proporção de clientes adimplentes é de 84,28%, enquanto a proporção de inadimplentes é de 15,72%.
