In [None]:
# Bibliotecas
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/andre-marcos-perez/ebac-course-utils/develop/dataset/credito.csv', na_values='na')

In [None]:
df.head(n=10)

# **Analise da estrutura**

In [None]:
# Verificando os número de linhas e colunas.

df.shape



In [None]:
# Verificando a coluna sexo 

df[df['sexo'] == 'M'].shape

In [None]:
# Verificando a coluna sexo

df[df['sexo'] == 'F'].shape

In [None]:
# Variavel Default

qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

In [None]:
print(f"A proporcão clientes adimplentes é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")

**Com uma base total de 10127 Clientes**
 * Temos um total de **8500** Clientes adimplentes - representando 83.93% de sua base total.

 *  Temos um total de **1627** Clientes inadimplentes - representando 16.07% de sua base total.

 Em total de inadimplente, vemos que é um ponto crucial onde com 16.07% de inadimplentes é muito alto. </br> Importante para a empresa baixar esse índice, onde o correto seria no máximo 10% do total da base.

In [None]:
# Verificando se os tipos de dados estão corretos
df.dtypes

In [None]:
df.select_dtypes('object').describe().transpose()

Os dados Acima mostra a base de dados com seu principais titulares.
* mais de **50%** da base utilizada, também mostra que mais de **25%** tem um nível de escolaridade muito bom possuindo mestrado.

# **Tratando os dados faltantes**

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

In [None]:
df.isna().any()


In [None]:
def stats_dados_faltantes(df: pd.DataFrame) -> None:

  stats_dados_faltantes = []
  for col in df.columns:
    if df[col].isna().any():
      qtd, _ = df[df[col].isna()].shape
      total, _ = df.shape
      dict_dados_faltantes = {col: {'quantidade': qtd, "porcentagem": round(100 * qtd/total, 2)}}
      stats_dados_faltantes.append(dict_dados_faltantes)

  for stat in stats_dados_faltantes:
    print(stat)

In [None]:
stats_dados_faltantes(df=df)

In [None]:
stats_dados_faltantes(df=df[df['default'] == 0])

In [None]:
stats_dados_faltantes(df=df[df['default'] == 1])

# **limpeza e transformação**

In [None]:
df[['limite_credito', 'valor_transacoes_12m']].dtypes


In [None]:
df[['limite_credito', 'valor_transacoes_12m']].head(n=5)


In [None]:
# função lambda para limpar os dados

fn = lambda valor: float(valor.replace(".", "").replace(",", "."))

valores_originais = ['12.691,51', '8.256,96', '3.418,56', '3.313,03', '4.716,22']
valores_limpos = list(map(fn, valores_originais))

print(valores_originais)
print(valores_limpos)

In [None]:
df['valor_transacoes_12m'] = df['valor_transacoes_12m'].apply(fn)
df['limite_credito'] = df['limite_credito'].apply(fn)

In [None]:
df.dtypes

Agora veremos que as colunas de limite_credito e valor_transacoes_12m agora sim convertidos para numéricos, no formato correto float.

In [None]:
#Descrição dos Numeros.

df.select_dtypes('object').describe().transpose()

In [None]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

# Tratando os dados faltantes

In [None]:
df.dropna(inplace=True)


In [None]:
# Reanalisando a estrutura dos dados.
df.shape

In [None]:
df[df['default'] == 0].shape

In [None]:
df[df['default'] == 1].shape

In [None]:
qtd_total_novo, _ = df.shape
qtd_adimplentes_novo, _ = df[df['default'] == 0].shape
qtd_inadimplentes_novo, _ = df[df['default'] == 1].shape

In [None]:
print(f"A proporcão adimplentes ativos é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes adimplentes é de {round(100 * qtd_adimplentes_novo / qtd_total_novo, 2)}%")
print("")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")
print(f"A nova proporcão de clientes inadimplentes é de {round(100 * qtd_inadimplentes_novo / qtd_total_novo, 2)}%")

* **Os padrões se mantem ao tratar os dados** 

A proporcão adimplentes ativos é de **83.93%**
A nova proporcão de clientes adimplentes é de **84.28%**

A proporcão clientes inadimplentes é de **16.07%**
A nova proporcão de clientes inadimplentes é de **15.72%**

# **Visualização de dados**

Agora com os dados devidamente tratados podemos obter um olhar diferente para nossos números. Com uma visualização mais clara, trabalharemos com a variável default. 

Vamos utilizar as variáveis qtd_transacoes_12m,valor_transacoes_12m,qtd_transacoes_12m e valor_transacoes_12m

In [None]:
sns.set_style("whitegrid")
df_adimplente = df[df['default'] == 0]
df_inadimplente = df[df['default'] == 1]

In [None]:
coluna = 'salario_anual'
titulos = ['Salário Anual dos Clientes', 'Salário Anual dos Clientes Adimplentes', 'Salário Anual dos Clientes Inadimplentes']

figura, eixos = plt.subplots(1, 3, figsize=(20, 5), sharex=True)
max_y = 0

for eixo, dataframe in enumerate([df, df_adimplente, df_inadimplente]):
  df_to_plot = dataframe[coluna].value_counts().reset_index()
  df_to_plot.columns = [coluna, 'frequencia_absoluta']
  df_to_plot.sort_values(by=[coluna], inplace=True)

  f = sns.barplot(data=df_to_plot, x=coluna, y='frequencia_absoluta', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')
  f.set_xticklabels(labels=f.get_xticklabels(), rotation=90)

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y

for eixo in eixos:
  eixo.set(ylim=(0, max_y))

plt.show()


1- Gráfico de salários mostra se conclusivo em que grande parte dos clientes tem uma renda a 40 mil

2- Também é o indicador de 40 mil que diz que são maioria dos Inadimplentes.

In [None]:
df.drop(['id', 'default'], axis=1).select_dtypes('number').head(n=5)

**Transações nos Últimos 12 Meses**

In [None]:
coluna = 'qtd_transacoes_12m'
titulos = ['Qtd. de Transações no Último Ano', 'Qtd. de Transações no Último Ano de Adimplentes', 'Qtd. de Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')


  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1
  
figura.show()

**Valor das Transações nos Últimos 12 Meses**

In [None]:
coluna = 'valor_transacoes_12m'
titulos = ['Valor das Transações no Último Ano', 'Valor das Transações no Último Ano de Adimplentes', 'Valor das Transações no Último Ano de Inadimplentes']

eixo = 0
max_y = 0
figura, eixos = plt.subplots(1,3, figsize=(20, 5), sharex=True)

for dataframe in [df, df_adimplente, df_inadimplente]:

  f = sns.histplot(x=coluna, data=dataframe, stat='count', ax=eixos[eixo])
  f.set(title=titulos[eixo], xlabel=coluna.capitalize(), ylabel='Frequência Absoluta')

  _, max_y_f = f.get_ylim()
  max_y = max_y_f if max_y_f > max_y else max_y
  f.set(ylim=(0, max_y))

  eixo += 1

figura.show()

**-Insights obtidos-**

1- A Primeira visualização percebemos que os valores transacionados está entre 1.500,00 a 5.000,00,com picos menores se concentram entre 7.500,00 a 9.000,00 e 13.500,00 a 15.000,00.

2- já os clientes inadimplentes tem tendencia de menores valores, com picos entre 1.500,00 a 2.500,00 porem com uma quantidade na faixa de 2.500,00 a R$ 10.000,00

Uma tendencia desse gráfico foi mostrar que os clientes que têm tendencia a ficar inadimplência na sua grande maioria tem pouca movimentação e valores são pequenos , não notáveis.

Valor de Transações nos Últimos 12 Meses x Quantidade de Transações nos Últimos 12 Meses

In [None]:
f = sns.relplot(x='valor_transacoes_12m', y='qtd_transacoes_12m', data=df, hue='default')
_ = f.set(
    title='Relação entre Valor e Quantidade de Transações no Último Ano', 
    xlabel='Valor das Transações no Último Ano', 
    ylabel='Quantidade das Transações no Último Ano'
  )

Cor azul = Cliente adimplente
Cor laranja = Cliente inadimplente

**-Conclusões Finais-**

Segundo as análises mostradas clientes que tem tendencia a ficar inadimplentes são clientes que transacionam menos, com valores baixos e poucas transações e inadimplentes ficam com a menor renda da base.

Sugerimos que a análise de concessão do cartão deve sofrer alterações e os padrões devem ser mais rigorosos, uma possível solução poderia ser um cartão com baixo limite para clientes que tem tendencia a ficar inadimplentes, com aumento do limite sendo gradual para os bons pagadores.