# Notebook de introdução à exploração de dados

Serão utilizadas, inicialmente, 2 base de dados. A primeira é uma base de dados de crédito e a segunda é uma base de dados de um censo. Serão feitas análises exploratória e o pré-processamento desses dados.

- Fonte (adaptado): https://www.kaggle.com/laotse/credit-risk-dataset - base de dados de crédito.

- Fonte: https://archive.ics.uci.edu/ml/datasets/adult - base de dados do censo.

# Tipos de variáveis

### Quantitativas (numéricas)

* Discretas: Informações representadas por números inteiros. 
    
    Ex.: Número de filhos, Número de carros, Número de hospitais, etc. 

* Contínuas: Informações representadas por números reais .
    
    Ex.: Temperatura, Altura, Peso, etc.

### Qualitativas (categóricas)

* Nominal: Dados não mensuráveis.

    Ex.: Cor dos olhos, gênero, nome, etc.

* Ordinal: Dados categorizados sob ordenação.

    Ex.: Tamanhos (P, M, G), escolaridade, etc.

In [1]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px

In [9]:
# caminho da pasta onde está o arquivo 
caminho = 'C:/Users/User/OneDrive/Capacitação/Portifolio_GitHub/Data_Science/data/'
# importar a base de dados de crédito
base_credit = pd.read_csv(caminho + 'credit_data.csv')

# Exploração dos dados

In [10]:
base_credit

Unnamed: 0,i#clientid,income,age,loan,c#default
0,1,66155.925095,59.017015,8106.532131,0
1,2,34415.153966,48.117153,6564.745018,0
2,3,57317.170063,63.108049,8020.953296,0
3,4,42709.534201,45.751972,6103.642260,0
4,5,66952.688845,18.584336,8770.099235,1
...,...,...,...,...,...
1995,1996,59221.044874,48.518179,1926.729397,0
1996,1997,69516.127573,23.162104,3503.176156,0
1997,1998,44311.449262,28.017167,5522.786693,1
1998,1999,43756.056605,63.971796,1622.722598,0


- O atributo 'clientid' é uma variável qualitativa nominal, apesar de ser representada por números inteiros, os valores não representam quantidade e sim um identificador do cliente (o nome, cpf, entre outros, também são identificadores). Além disso, esse identificador não possui uma ordem (o cliente 5 não é mais importante do que o cliente 3, por exemplo).

- O atributo 'income' é uma variável de renda anual, ou sejá, é uma variável quantitativa contínua.

- O atributo 'age' é uma variável de idade que geralmente é quantitativa discreta, porém, nessa base de dados é apresentada como uma varável quantitativa contínua. 

- O atributo 'loan' é uma vareável da dívida que o cliente possui e é quantitativa contínua. 

- O atributo 'default' é uma variável que informa se a divida foi paga (0) ou não (1). 

In [12]:
base_credit.describe()

Unnamed: 0,i#clientid,income,age,loan,c#default
count,2000.0,2000.0,1997.0,2000.0,2000.0
mean,1000.5,45331.600018,40.807559,4444.369695,0.1415
std,577.494589,14326.327119,13.624469,3045.410024,0.348624
min,1.0,20014.48947,-52.42328,1.37763,0.0
25%,500.75,32796.459717,28.990415,1939.708847,0.0
50%,1000.5,45789.117313,41.317159,3974.719419,0.0
75%,1500.25,57791.281668,52.58704,6432.410625,0.0
max,2000.0,69995.685578,63.971796,13766.051239,1.0


Essa função ajuda a descrever os dados, de forma que é possível observar que o atributo 'age' possui 3 dados faltantes, além disso, a idade mínima é negativa, sendo um erro da base de dados que deve ser tratado. 

Além disso, é possível explorar as informações de alguns desses valores, como por exemplo, identificar todas as informações do cliente que possui o maior salário. 

In [14]:
# Informações do cliente com o maior salário
base_credit[base_credit['income'] >= 69995.685578]

Unnamed: 0,i#clientid,income,age,loan,c#default
422,423,69995.685578,52.719673,2084.370861,0


In [15]:
# Informações do cliente com a menor dívida
base_credit[base_credit['loan'] <= 1.377630]

Unnamed: 0,i#clientid,income,age,loan,c#default
865,866,28072.604355,54.142548,1.37763,0
