# **Curso de Python - Projeto Final**
# EAD EBAC

**Analise de crédito, carteira de empréstimos concedidos.**

A partir das informações de adimplência, renda e perfil dos clientes, poderemos obter a indicação favorável ou não para a concessão de novas linhas de crédito.


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

sns.set_style("whitegrid")
#df = pd.read_csv('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv', na_values='na')
# Usando arquivo local no Kaggle, tentei usar via web mas dá erro
# Fiz testes pelo Colab e via terminal no MacOS e funciona, por aqui não rolou https://...
df = pd.read_csv('../input/modulo-10-exercicio/credito.csv', na_values='na')

df.head(n=10)
df.shape # retorna uma tupla (qtd linhas, qtd colunas)

df[df['default'] == 0].shape
df[df['default'] == 1].shape
qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

df.head(n=5)
df.dtypes
df.select_dtypes('object').describe().transpose()
df.drop('id', axis=1).select_dtypes('number').describe().transpose()
df.head()
df.isna().any()
def stats_dados_faltantes(df: pd.DataFrame) -> None:

  stats_dados_faltantes = []
  for col in df.columns:
    if df[col].isna().any():
      qtd, _ = df[df[col].isna()].shape
      total, _ = df.shape
      dict_dados_faltantes = {col: {'quantidade': qtd, "porcentagem": round(100 * qtd/total, 2)}}
      stats_dados_faltantes.append(dict_dados_faltantes)

  for stat in stats_dados_faltantes:
    print(stat)

df[['limite_credito', 'valor_transacoes_12m']].dtypes
df[['limite_credito', 'valor_transacoes_12m']].head(n=5)
fn = lambda valor: float(valor.replace(".", "").replace(",", "."))


df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)
df.dtypes
df.select_dtypes('object').describe().transpose()
df.drop('id', axis=1).select_dtypes('number').describe().transpose()
df.dropna(inplace=True)
df.shape
df[df['default'] == 0].shape
df[df['default'] == 1].shape

qtd_total_novo, _ = df.shape
qtd_adimplentes_novo, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novo, _ = df[df['default'] == 1].shape

print(f"Base de dados original contem registros de {qtd_total} clientes.")
print(f"Os clientes adimplentes somam {round(100 * qtd_adimplentes / qtd_total, 2)}%, já os inadimplentes são {round(100 * qtd_inadimplentes / qtd_total, 2)}% deste total.")
print()
print(f"Após limpar registros inconsistentes ficamos com {qtd_total_novo} clientes.")
print(f"Os clientes adimplentes somam {round(100 * qtd_adimplentes_novo / qtd_total_novo, 2)}% agora, os inadimplentes passaram à {round(100 * qtd_inadimplentes_novo / qtd_total_novo, 2)}%.")
print(f"Uma base de dados {round(100 * (1- qtd_total_novo / qtd_total), 2)} % menor, porém consolidada e mantendo as proporções de adimplência.")
print()

In [None]:
df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]


coluna = 'escolaridade'
titulos = ['Escolaridade dos Clientes', 'Escolaridade dos Clientes Adimplentes', 'Escolaridade dos Clientes Inadimplentes']

eixo = 0
max_y = 0
max = df.select_dtypes('object').describe()[coluna]['freq'] * 1.1

figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  df_to_plot = dataframe[coluna].value_counts().to_frame()
  df_to_plot.rename(columns={coluna: 'frequencia_absoluta'}, inplace=True)
  df_to_plot[coluna] = df_to_plot.index
  df_to_plot.sort_values(by=[coluna], inplace=True)
  df_to_plot.sort_values(by=[coluna])

  f = sns.barplot(x=df_to_plot[coluna], y=df_to_plot['frequencia_absoluta'], ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

Ao contrário do que se poderia crer, o nível de escolaridade não impacta de forma significativa no grau de adimplência dos clientes.

**Quantidade de Transações nos Últimos 12 Meses**

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

**Valor das Transações nos Últimos 12 Meses**

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()


**Valor de Transações nos Últimos 12 Meses x Quantidade de Transações nos Últimos 12 Meses**

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano', 
    xlabel='Valor das Transações no Último Ano', 
    ylabel='Quantidade das Transações no Último Ano'
  )

O que mais chama atenção neste último gráfico é o fato dos cliêntes que movimentam maiores somas em smpréstimos com maiores frequencias, são justamente os mais adimplentes da carteira.