# Exploração e limpeza de dados

### Diferentes tipos de problemas da ciência de dados

- problema de regressão

Por exemplo, prever o preço de uma casa. O esperado é que fique perto do preço real

- problema de classificação

Por exemplo, prever uma resposta sim ou não para uma pergunta. O esperado é a resposta correta.

Ambos problemas são chamados de **aprendizado supervisionado**, um tipo de problema que depende de dados rotulados

### DataFrame

DataFrame é uma classe básica do pandas. Funciona como um template para uma estrutura de dados.

Exemplo de um DataFarme:

|    | ID | Sex | Name |
|----|----|-----|------|
| 1  | 001|M    | Pedro|
| 2  | 002|F    | Ana  |

Tabela: *Exemplo de DataFrame do pandas com um ímdice de linha inteiro à esquerda e um índice de coluna na forma de strings*

In [2]:
# Carregando os dados do estudo de caso em um jupyter notebook

## importar pandas

import pandas as pd

In [10]:
# importando o dataset usando o método pd.read_excel

df = pd.read_excel('C:/Users/Renato/OneDrive/github/Data_science_for_architecture/projetos_de_ciencias_de_dados_com_python/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls')

In [11]:
# Use o método .shape para examinar o número de linhas e colunas

df.shape

(30000, 25)

In [12]:
# Use o método .info() para ver todas as colunas com os tipos de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          30000 non-null  object
 1   LIMIT_BAL                   30000 non-null  int64 
 2   SEX                         30000 non-null  int64 
 3   EDUCATION                   30000 non-null  int64 
 4   MARRIAGE                    30000 non-null  int64 
 5   AGE                         30000 non-null  int64 
 6   PAY_1                       30000 non-null  object
 7   PAY_2                       30000 non-null  int64 
 8   PAY_3                       30000 non-null  int64 
 9   PAY_4                       30000 non-null  int64 
 10  PAY_5                       30000 non-null  int64 
 11  PAY_6                       30000 non-null  int64 
 12  BILL_AMT1                   30000 non-null  int64 
 13  BILL_AMT2                   30000 non-null  in

In [14]:
# Use o método .columns para retornar uma lista de nomes de colunas como strings

df.columns


Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

In [15]:
# Use o método .head() para ver as primeiras linhas do DataFrame

df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


In [16]:
# Use o método .tail() para ver as últimas linhas do DataFrame

df.tail()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
29995,ecff42d0-bdc6,220000,1,3,1,39,0,0,0,0,...,88004,31237,15980,8500,20000,5003,3047,5000,1000,0
29996,99d1fa0e-222b,150000,1,3,2,43,-1,-1,-1,-1,...,8979,5190,0,1837,3526,8998,129,0,0,0
29997,95cdd3e7-4f24,30000,1,2,2,37,4,3,2,-1,...,20878,20582,19357,0,0,22000,4200,2000,3100,1
29998,00d03f02-04cd,80000,1,3,1,41,1,-1,0,0,...,52774,11855,48944,85900,3409,1178,1926,52964,1804,1
29999,15d69f9f-5ad3,50000,1,2,1,46,0,0,0,0,...,36535,32428,15313,2078,1800,1430,1000,1000,1000,1


### O problema da empresa

Cliente é uma empresa de cartão de crédito. O dataset inclui dados demográficos e financeiros recentes (6 últimos meses) de uma amostra de 30.000 titulares.

As linhas são rotuladas de acordo com se no mês seguinte ao período de dados histórico de seis meses um proprietário de conta ficou inadimplente, ou seja, não fez o pagamento mínimo.

### Objetivo

Desenvolver um modelo que preveja se uma conta ficará inadimplente no próximo mês.

# Etapa de exploração de dados

Algumas etapas úteis para a exploração de dados:  

- saber quantas colunas os dados contêm (características, resposta ou metadados);
- quantas linhas (amostras);
- que tipos de características existem (categóricas (sim/não/talvez) ou númericas);
- qual é a aparência dos dados segundo essas características;
- há dados faltando?
    

In [17]:
# Verificando a integridade básica dos dados

# Empregar o método .columns do DataFrame para examinar os nomes de todas as colunas.

df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

Resumo das informações do dataset que nos foi dado pela clinte:

- 'ID', 
- 'LIMIT_BAL', 
- 'SEX', 
- 'EDUCATION', 
- 'MARRIAGE', 
- 'AGE', 
- 'PAY_1',
- 'PAY_2', 
- 'PAY_3', 
- 'PAY_4', 
- 'PAY_5', 
- 'PAY_6', 
- 'BILL_AMT1', 
- 'BILL_AMT2',
- 'BILL_AMT3', 
- 'BILL_AMT4', 
- 'BILL_AMT5', 
- 'BILL_AMT6', 
- 'PAY_AMT1',
- 'PAY_AMT2', 
- 'PAY_AMT3', 
- 'PAY_AMT4', 
- 'PAY_AMT5', 
- 'PAY_AMT6',
- 'default payment next month'