# Data Science Portfolio
Aqui você verá todos os meus projetos de Data Science divididos em grupos com as habilidades necessárias para obter os melhores Insights.

<img src="https://raw.githubusercontent.com/enzoschitini/Adige/main/image/Group.png" alt="capa">

---

# **Bem-Vindo(a)!** • Veja o que eu fiz de melhor com cientista de dados
**+ 18** Projetos 
#### [Enzo Schitini](https://www.linkedin.com/in/enzoschitini/) - Data Scientist • Expert Bubble.io • UX & UI @ Nugus creator

---

Vamos explorar dados de crédito e contém informações sobre clientes de uma instituição financeira. Em especial, estamos interessados em explicar a segunda coluna, chamada de **default**, que indica se um cliente é adimplente(`default = 0`), ou inadimplente (`default = 1`), ou seja, queremos entender o porque um cliente deixa de honrar com suas dívidas baseado no comportamento de outros atributos, como salário, escolaridade e movimentação financeira. Uma descrição completa dos atributos está abaixo.

#### **Análise Exploratória**

<ol type="1">
  <li>Carregamento dos dados e entendimento do contexto</li>
</ol>

- `Variáveis do Dataset`

| Coluna  | Descrição |
| ------- | --------- |
| id      | Número da conta |
| default | Indica se o cliente é adimplente (0) ou inadimplente (1) |
| idade   | --- |
| sexo    | --- |
| depedentes | --- |
| escolaridade | --- |
| estado_civil | --- |
| salario_anual | Faixa do salario mensal multiplicado por 12 |
| tipo_cartao | Categoria do cartao: blue, silver, gold e platinium |
| meses_de_relacionamento | Quantidade de meses desde a abertura da conta |
| qtd_produtos | Quantidade de produtos contratados |
| iteracoes_12m | Quantidade de iteracoes com o cliente no último ano |
| meses_inatico_12m | Quantidade de meses que o cliente ficou inativo no último ano |
| limite_credito | Valor do limite do cartão de crédito |
| valor_transacoes_12m | Soma total do valor das transações no cartão de crédito no último ano |
| qtd_transacoes_12m | Quantidade total de transações no cartão de crédito no último ano |

### Vamos começar a análise

In [15]:
# Importando os pacotes
import pandas as pd
import matplotlib as plt

- Carregando os dados

In [16]:
df = pd.read_csv('./data.csv')

### Estrutura dos dados

In [17]:
linhas, colunas = df.shape
print(f'Temos {linhas} linhas e {colunas} colunas.')

Temos 10127 linhas e 16 colunas.


In [18]:
df.duplicated()

0        False
1        False
2        False
3        False
4        False
         ...  
10122    False
10123    False
10124    False
10125    False
10126    False
Length: 10127, dtype: bool

In [19]:
df.head(n=5)

Unnamed: 0,id,default,idade,sexo,dependentes,escolaridade,estado_civil,salario_anual,tipo_cartao,meses_de_relacionamento,qtd_produtos,iteracoes_12m,meses_inativo_12m,limite_credito,valor_transacoes_12m,qtd_transacoes_12m
0,768805383,0,45,M,3,ensino medio,casado,$60K - $80K,blue,39,5,3,1,"12.691,51","1.144,90",42
1,818770008,0,49,F,5,mestrado,solteiro,menos que $40K,blue,44,6,2,1,"8.256,96","1.291,45",33
2,713982108,0,51,M,3,mestrado,casado,$80K - $120K,blue,36,4,0,1,"3.418,56","1.887,72",20
3,769911858,0,40,F,4,ensino medio,na,menos que $40K,blue,34,3,1,4,"3.313,03","1.171,56",20
4,709106358,0,40,M,3,sem educacao formal,casado,$60K - $80K,blue,21,5,0,1,"4.716,22",81608,28


In [20]:
qtd_total, _ = df.shape
qtd_adimplentes, _ = df[df['default'] == 0].shape
qtd_inadimplentes, _ = df[df['default'] == 1].shape

In [21]:
print(f"A proporcão clientes adimplentes é de {round(100 * qtd_adimplentes / qtd_total, 2)}%")
print(f"A proporcão clientes inadimplentes é de {round(100 * qtd_inadimplentes / qtd_total, 2)}%")

A proporcão clientes adimplentes é de 83.93%
A proporcão clientes inadimplentes é de 16.07%


### Schema

 - Colunas e seus respectivos tipos de dados.

In [22]:
df.dtypes

id                          int64
default                     int64
idade                       int64
sexo                       object
dependentes                 int64
escolaridade               object
estado_civil               object
salario_anual              object
tipo_cartao                object
meses_de_relacionamento     int64
qtd_produtos                int64
iteracoes_12m               int64
meses_inativo_12m           int64
limite_credito             object
valor_transacoes_12m       object
qtd_transacoes_12m          int64
dtype: object

 - Atributos **categóricos**.

In [23]:
df.select_dtypes('object').describe().transpose() # freq / count = %

Unnamed: 0,count,unique,top,freq
sexo,10127,2,F,5358
escolaridade,10127,6,mestrado,3128
estado_civil,10127,4,casado,4687
salario_anual,10127,6,menos que $40K,3561
tipo_cartao,10127,4,blue,9436
limite_credito,10127,9272,"1.438,21",11
valor_transacoes_12m,10127,10035,"3.851,51",3


In [44]:
lista_colunas_categoricas = df.select_dtypes('object').columns

for coluna in lista_colunas_categoricas:
    categorias = df[coluna].unique().tolist()
    
    if len(categorias) <= 15:
        print('----------------------------------------')
        print(f'{coluna} {(len(categorias))} categorias: {categorias}')

----------------------------------------
sexo 2 categorias: ['M', 'F']
----------------------------------------
escolaridade 6 categorias: ['ensino medio', 'mestrado', 'sem educacao formal', 'na', 'graduacao', 'doutorado']
----------------------------------------
estado_civil 4 categorias: ['casado', 'solteiro', 'na', 'divorciado']
----------------------------------------
salario_anual 6 categorias: ['$60K - $80K', 'menos que $40K', '$80K - $120K', '$40K - $60K', '$120K +', 'na']
----------------------------------------
tipo_cartao 4 categorias: ['blue', 'gold', 'silver', 'platinum']


 - Atributos **numéricos**.

In [24]:
df.drop('id', axis=1).select_dtypes('number').describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
default,10127.0,0.16066,0.367235,0.0,0.0,0.0,0.0,1.0
idade,10127.0,46.32596,8.016814,26.0,41.0,46.0,52.0,73.0
dependentes,10127.0,2.346203,1.298908,0.0,1.0,2.0,3.0,5.0
meses_de_relacionamento,10127.0,35.928409,7.986416,13.0,31.0,36.0,40.0,56.0
qtd_produtos,10127.0,3.81258,1.554408,1.0,3.0,4.0,5.0,6.0
iteracoes_12m,10127.0,2.455317,1.106225,0.0,2.0,2.0,3.0,6.0
meses_inativo_12m,10127.0,2.341167,1.010622,0.0,2.0,2.0,3.0,6.0
qtd_transacoes_12m,10127.0,64.858695,23.47257,10.0,45.0,67.0,81.0,139.0


### Tratamendo dos dados