---

# Python: Projeto Final

Projeto final do curso de Python que compõe a formação "Cientista de Dados" da **EBAC** - Escola Britânica de Artes Criativas e Tecnologia.

---

---

## Objetivo

Este projeto tem como objetivo realizar uma analise de crédito, para identificar possíveis clientes inadimplentes.

Para o projeto, foi fornecido um conjunto de dados de crédito em um arquivo CSV, e serão feitas a exploração, manipulação, limpeza e visualização dos dados. Além de gerar os *insights* das analises realizadas. 

A coluna que indica adimplencia ou inadimplencia é a *default*, valores 0 e 1, respectivamente.

---


## Importações módulos/bibliotecas

In [1]:
#Todos os imports
import pandas as pd

## Exploração dos dados

Importação do CSV

In [2]:
df = pd.read_csv('/kaggle/input/ebac-basedados/Python_M10_support material.csv', na_values='na')

In [3]:
df.head(n=5)

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,768805383,0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,0,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,0,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,0,40,F,4,ensino medio,,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,0,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


In [4]:
df.tail(n=5)

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
10122,772366833,0,50,M,2,mestrado,solteiro,$40K - $60K,blue,40,3,3,2,"4.003,91","15.476,26",117
10123,710638233,1,41,M,2,,divorciado,$40K - $60K,blue,25,4,3,2,"4.277,04","8.764,88",69
10124,716506083,1,44,F,1,ensino medio,casado,menos que $40K,blue,36,5,4,3,"5.409,16","10.291,78",60
10125,717406983,1,30,M,2,mestrado,,$40K - $60K,blue,36,4,3,3,"5.281,84","8.395,62",62
10126,714337233,1,43,F,2,mestrado,casado,menos que $40K,silver,25,6,4,2,"10.388,80","10.294,96",61


In [5]:
tot_linhas, tot_colunas = df.shape
print(f'linhas={tot_linhas} colunas={tot_colunas}')

linhas=10127 colunas=16


In [6]:
df.dtypes

id                          int64
default                     int64
idade                       int64
sexo                       object
dependentes                 int64
escolaridade               object
estado_civil               object
salario_anual              object
tipo_cartao                object
meses_de_relacionamento     int64
qtd_produtos                int64
iteracoes_12m               int64
meses_inativo_12m           int64
limite_credito             object
valor_transacoes_12m       object
qtd_transacoes_12m          int64
dtype: object

### Colunas categóricas

In [7]:
df.describe(include="object")

Unnamed: 0,sexo,escolaridade,estado_civil,salario_anual,tipo_cartao,limite_credito,valor_transacoes_12m
count,10127,8608,9378,9015,10127,10127,10127
unique,2,5,3,5,4,9272,10035
top,F,mestrado,casado,menos que $40K,blue,"1.438,21","3.851,51"
freq,5358,3128,4687,3561,9436,11,3


Colunas com valores faltantes

In [8]:
df.select_dtypes("object").isna().any()

sexo                    False
escolaridade             True
estado_civil             True
salario_anual            True
tipo_cartao             False
limite_credito          False
valor_transacoes_12m    False
dtype: bool

### Colunas numéricas

In [9]:
df.drop('id', axis=1).describe(include="number")

Unnamed: 0,default,idade,dependentes,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,qtd_transacoes_12m
count,10127.0,10127.0,10127.0,10127.0,10127.0,10127.0,10127.0,10127.0
mean,0.16066,46.32596,2.346203,35.928409,3.81258,2.455317,2.341167,64.858695
std,0.367235,8.016814,1.298908,7.986416,1.554408,1.106225,1.010622,23.47257
min,0.0,26.0,0.0,13.0,1.0,0.0,0.0,10.0
25%,0.0,41.0,1.0,31.0,3.0,2.0,2.0,45.0
50%,0.0,46.0,2.0,36.0,4.0,2.0,2.0,67.0
75%,0.0,52.0,3.0,40.0,5.0,3.0,3.0,81.0
max,1.0,73.0,5.0,56.0,6.0,6.0,6.0,139.0


In [10]:
tot_adimplente = df[df['default']==0].shape[0]

print(f'total adimplentes = {tot_adimplente} /// {round(100*tot_adimplente/tot_linhas,2)}% do total')

total adimplentes = 8500 /// 83.93% do total


In [11]:
tot_inadimplente = df[df['default']==1].shape[0]

print(f'total inadimplentes = {tot_inadimplente} /// {round(100*tot_inadimplente/tot_linhas,2)}% do total')

total inadimplentes = 1627 /// 16.07% do total


Verificar se a proporção de dados faltantes é a mesma para os adimplentes e inadimplentes

## Transformação e limpeza dos dados

In [12]:
#Transformação e limpeza

## Visualização dos dados

In [13]:
#Visualização

## Storytelling