<a href="https://colab.research.google.com/github/askot19/Analise_de_dados/blob/main/Projetos%20de%20Ci%C3%AAncia%20de%20Dados%20com%20Python/Cap%C3%ADtulo%201/ex105-104.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

---
## **Data Scientist & Analyst**

*by [Paulo Henrique de Melo Ferreira](https://www.linkedin.com/in/paulo-henrique-ferreira-20151374/)*

---

<p style="text-align: justify;">

Este notebook visa aprofundar meus conhecimentos práticos em Ciência de Dados. Meu objetivo aqui é implementar o que já conheço da linguagem Python e desenvolver projetos completos acerca da área. Como bibliografia básica utlizarei o **Projetos de Ciência de Dados com Python - Stephen Klosterman**, que visa tratar dados desde o tipo de a análise mais simples (exploratória de dados) até aplicações envolvendo modelos preditivos e Machine Learning. As ferramentas que utilizarei serão principalmente o **Colaboratory do Google** e o **Jupyter Notebook - Anaconda**. O intuito aqui é consumir toda a literatura e me inserir do dia-a-dia de um profissional de dados, atuando tanto como Cientista quanto como Analista de Dados. Pretendo me tornar um profissional mais qualificado após estes desenvolvimentos.
</p>

---

# 1. Exploração e Limpeza de Dados

#### Objetivos

Neste primeiro capítulo serão dados os primeiros passos com Python para ciência de dados, após a conclusão dele serei capaz de lidar com dados tabulares em Python, realizar análise exploratória de dados, Garantir a qualidade dos dados que estou utilizando e realizar a limpeza dos dados.

## Características do Dataset

* `ID`: Código de identificação da conta
* `LIMIT_BAL`: Valor do Crédito fornecido (em novos dólares taiwaneses (NT)) inclusive o crédito do consumidor individual e familiar (complementar).
* `SEX`: Gênero (1 = masculino; 2 = feminino).
* `EDUCATION`: Instrução (1 = pós-graduação; 2 = universidade; 3 = ensino médio; 4 = outros).
* `MARRIAGE`: Estado civil (1 = casado; 2 = solteiro; 3 = outros).
* `AGE`: Idade (ano).
* `PAY_1-PAY_6`: Registro de pagamentos passados. Pagamentos mensais passados, registrados de setembro a abril. Ex.: PAY_1 representa o status de reembolso em setembro; PAY_2 representa o status de reembolso em agosto, e a assim por diante. Os registros são armazenados da seguinte maneira -1 = pagamento pontual; 1 = atraso de um mês de pagamento; 2 = atraso de dois meses de pagamento até chegar em 9 = atraso de nove meses ou mais no pagamento.
* `BILL_AMT1-BILL_AMT6`: Valor da fatura (em novos dólares taiwaneses). BILL_ATM1 representa o valor da fatura em setembro; BILL_AMT2 representa o valor da fatura em agosto; e assim por diante até BILL_AMT6, que representa o valor da fatura em abril.
* `PAY_AMT1-PAY_AMT6`: Valor de pagamentos anteriores (novos dólares taiwaneses). PAY_AMT1 representa o valor pago em setembro; PAY_AMT2 representa o valor pago em agosto; e assim por diante até PAY_AMT6, que representa o valor pago em abril.


In [1]:
# Carregando pacotes necessários para a análise de dados
import pandas as pd
import numpy as np

In [2]:
# Importando dados
df_clean_1 = pd.read_csv('https://raw.githubusercontent.com/askot19/Analise_de_dados/main/Projetos%20de%20Ci%C3%AAncia%20de%20Dados%20com%20Python/Cap%C3%ADtulo%201/df_clean_1.csv')
df_clean_1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 29685 entries, 0 to 29684
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          29685 non-null  object
 1   LIMIT_BAL                   29685 non-null  int64 
 2   SEX                         29685 non-null  int64 
 3   EDUCATION                   29685 non-null  int64 
 4   MARRIAGE                    29685 non-null  int64 
 5   AGE                         29685 non-null  int64 
 6   PAY_1                       29685 non-null  object
 7   PAY_2                       29685 non-null  int64 
 8   PAY_3                       29685 non-null  int64 
 9   PAY_4                       29685 non-null  int64 
 10  PAY_5                       29685 non-null  int64 
 11  PAY_6                       29685 non-null  int64 
 12  BILL_AMT1                   29685 non-null  int64 
 13  BILL_AMT2                   29685 non-null  in

Como podemos ver os dados são referentes a contas bancárias de clientes, contudo uma das colunas apresenta DataType divergente daquele que lhe é adequado. A coluna **`PAY_1`** apresenta seu valor como do tipo *string*, uma vez que a coluna representa um pagamento, o mais adequado seria ela possuir valor como int64 ou float. Desta forma, precisamos investigar o que está havendo com esta coluna:

In [4]:
df_clean_1['PAY_1'].head()

0     2
1    -1
2     0
3     0
4    -1
Name: PAY_1, dtype: object

A coluna a esquerda representa o índice do Dataset, não devemos tomar nenhuma providência quanto a esses valores. Os valores da coluna à direita são as informações relativas aos pagamentos, as quais podem assumir os seguintes valores -1, 1, 2, 3 e assim por diante. Não há qualquer descrição de característica com valores iguais a 0, de acordo com as características descritas no dicionário de dados do nosso projeto.

Vamos realizar um entendimento mais profundo utilizando value_counts nessa coluna:

In [8]:
df_clean_1['PAY_1'].value_counts()

0                13087
-1                5047
1                 3261
Not available     3021
-2                2476
2                 2378
3                  292
4                   63
5                   23
8                   17
6                   11
7                    9
Name: PAY_1, dtype: int64

Dos valores obtidos, dois deles não estão listados: 0 e -2, entretanto, eles são valores inteiros e não deveriam alterar a propriedade da característica. O valor que altera essa propriedade é o 'Not available', que faz com que a coluna seja lida como string e não um valor numérico.

In [9]:
valid_pay_1_mask = df_clean_1['PAY_1'] != 'Not available'
valid_pay_1_mask.head()

0    True
1    True
2    True
3    True
4    True
Name: PAY_1, dtype: bool

In [10]:
sum(valid_pay_1_mask)

26664

Como apresentado anteriormente, o número de linhas com **`PAY_1`** contendo o valor 'Not available' era de 3021, nesse sentido ao avaliarmos o número total de linhas e comparados com esse 29685 - 3021 = 26664, o que confere com os dados obtidos até então.

In [12]:
# Alocando os dados limpos em uma nova variável

df_clean_2 = df_clean_1[valid_pay_1_mask].copy()

In [13]:
df_clean_2.shape

(26664, 25)