# Exploração e limpeza de dados

### Diferentes tipos de problemas da ciência de dados

- problema de regressão

Por exemplo, prever o preço de uma casa. O esperado é que fique perto do preço real

- problema de classificação

Por exemplo, prever uma resposta sim ou não para uma pergunta. O esperado é a resposta correta.

Ambos problemas são chamados de **aprendizado supervisionado**, um tipo de problema que depende de dados rotulados

### DataFrame

DataFrame é uma classe básica do pandas. Funciona como um template para uma estrutura de dados.

Exemplo de um DataFarme:

|    | ID | Sex | Name |
|----|----|-----|------|
| 1  | 001|M    | Pedro|
| 2  | 002|F    | Ana  |

Tabela: *Exemplo de DataFrame do pandas com um ímdice de linha inteiro à esquerda e um índice de coluna na forma de strings*

In [1]:
# Carregando os dados do estudo de caso em um jupyter notebook

## importar pandas

import pandas as pd

In [2]:
# importando o dataset usando o método pd.read_excel

df = pd.read_excel('C:/Users/Renato/OneDrive/github/Data_science_for_architecture/projetos_de_ciencias_de_dados_com_python/Data/default_of_credit_card_clients__courseware_version_1_21_19.xls')

In [3]:
# testando a importação do dataset via pandas
# Use o método .info() para ver todas as colunas com os tipos de dados

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 30000 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          30000 non-null  object
 1   LIMIT_BAL                   30000 non-null  int64 
 2   SEX                         30000 non-null  int64 
 3   EDUCATION                   30000 non-null  int64 
 4   MARRIAGE                    30000 non-null  int64 
 5   AGE                         30000 non-null  int64 
 6   PAY_1                       30000 non-null  object
 7   PAY_2                       30000 non-null  int64 
 8   PAY_3                       30000 non-null  int64 
 9   PAY_4                       30000 non-null  int64 
 10  PAY_5                       30000 non-null  int64 
 11  PAY_6                       30000 non-null  int64 
 12  BILL_AMT1                   30000 non-null  int64 
 13  BILL_AMT2                   30000 non-null  in

### O problema da empresa

Cliente é uma empresa de cartão de crédito. O dataset inclui dados demográficos e financeiros recentes (6 últimos meses) de uma amostra de 30.000 titulares.

As linhas são rotuladas de acordo com se no mês seguinte ao período de dados histórico de seis meses um proprietário de conta ficou inadimplente, ou seja, não fez o pagamento mínimo.

### Objetivo

Desenvolver um modelo que preveja se uma conta ficará inadimplente no próximo mês.

# Etapa de exploração de dados

Algumas etapas úteis para a exploração de dados:  

- saber quantas colunas os dados contêm (características, resposta ou metadados);
- quantas linhas (amostras);
- que tipos de características existem (categóricas (sim/não/talvez) ou númericas);
- qual é a aparência dos dados segundo essas características;
- há dados faltando?
    

## Exercício 3: Verificando a integridade básica dos dados

In [4]:
# Verificando a integridade básica dos dados

# Empregar o método .columns do DataFrame para examinar os nomes de todas as colunas.

df.columns

Index(['ID', 'LIMIT_BAL', 'SEX', 'EDUCATION', 'MARRIAGE', 'AGE', 'PAY_1',
       'PAY_2', 'PAY_3', 'PAY_4', 'PAY_5', 'PAY_6', 'BILL_AMT1', 'BILL_AMT2',
       'BILL_AMT3', 'BILL_AMT4', 'BILL_AMT5', 'BILL_AMT6', 'PAY_AMT1',
       'PAY_AMT2', 'PAY_AMT3', 'PAY_AMT4', 'PAY_AMT5', 'PAY_AMT6',
       'default payment next month'],
      dtype='object')

Como podemos ver, os nomes de todas as colunas estão listadas na saída. A coluna IDs de contas chama-se ID. As outras colunas parecem ser as **características**, com a última coluna sendo a **variável de resposta**.

Resumo das informações do dataset que nos foi dado pela clinte:

- 'ID - coluna de IDs de contas'; 
- 'LIMIT_BAL' - valor do crédito fornecido inclusive o crédito do consumidor individual e familiar (complementar); 
- 'SEX' - gênero (1=masculino; 2=feminino); 
- 'EDUCATION' - instrução (1=pós-graduação; 2=universidade; 3=ensino médio; 4=outros); 
- 'MARRIAGE' - estado civil (1=casado; 2=solteiro; 3=outros), 
- 'AGE' - idade (ano); 
- 'PAY_1'-'PAY_6' - registro de pagamentos passados.  Pagamentos mensais passados, registrados de abril a setembro, são armazenados nessas colunas;
- 'PAY_1' - representa o status de reembolso em setembro;
- 'PAY_2', - status de reembolso em agosto;
- 'PAY_3', - status de reembolso em julho;
- 'PAY_4', - status de reembolso em junho;
- 'PAY_5', - status de reembolso em maio;
- 'PAY_6', - status de reembolso em abril;

A escala de medida do status de reembolso é a seguinte: -1 = pagamento pontual; 1 = atraso de um mês no pagamento; 2 = atraso de dois meses no pagamento; e assim por diante até 8 = atraso de oito meses no pagamento; 9 = atraso de nove meses ou mais no pagamento.

- 'BILL_AMT1'-'PAY_AMT6', - valorda fatura; 
- 'BILL_AMT1' - representa o valor da fatura em setembro;
- 'BILL_AMT2' - representa o valor da fatura em agosto;
- 'BILL_AMT3' - representa o valor da fatura em julho; 
- 'BILL_AMT4' - representa o valor da fatura em junho; 
- 'BILL_AMT5' - representa o valor da fatura em maio; 
- 'BILL_AMT6' - representa o valor da fatura em abril; 
- 'PAY_AMT1'-'PAY_AMT6' - valor de pagamentos anteriores;
- 'PAY_AMT1' - representa o valor pago em setembro;
- 'PAY_AMT2' - representa o valor pago em agosto; 
- 'PAY_AMT3' - representa o valor pago em julho; 
- 'PAY_AMT4' - representa o valor pago em junho; 
- 'PAY_AMT5' - representa o valor pago em maio; 
- 'PAY_AMT6' - representa o valor pago em abril;
- 'default payment next month'

Notas: 
- não usaremos os dados de gênero para tomar decisões de solvibilidade devido a cosiderações éticas;
- valores em novos dólares taiwaneses; 

In [5]:
# Use o método .head() para ver as primeiras linhas do DataFrame

df.head()

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
0,798fc410-45c1,20000,2,2,1,24,2,2,-1,-1,...,0,0,0,0,689,0,0,0,0,1
1,8a8c8f3b-8eb4,120000,2,2,2,26,-1,2,0,0,...,3272,3455,3261,0,1000,1000,1000,0,2000,1
2,85698822-43f5,90000,2,2,2,34,0,0,0,0,...,14331,14948,15549,1518,1500,1000,1000,1000,5000,0
3,0737c11b-be42,50000,2,2,1,37,0,0,0,0,...,28314,28959,29547,2000,2019,1200,1100,1069,1000,0
4,3b7f77cc-dbc0,50000,1,2,1,57,-1,0,-1,0,...,20940,19146,19131,2000,36681,10000,9000,689,679,0


A coluna ID parece conter identificadores exclusivos. Para verificar se isso ocorre realmente em todo o dataset, podemos contar o número de valores exclusivos usando o método **.nunique()** da **série** (ou seja, coluna) ID. Primeiro, selecionaremos a coluna usando colchetes.

In [6]:
# descobrindo um problema de qualidade de dados
# A função pandas .nunique() retorna o número de elementos únicos no objeto.

df['ID'].nunique()

29687

Agora, vamos executar o comando **.shape** para descobrir o número de linhas do dataset

In [7]:
# descobrindo o números de linhas do dataset

df.shape

(30000, 25)

Identificamos que o número de IDs exclusivos é menor do que o número de linhas. Isso significa que o **ID não é um identificador exclusivo** para as linhas de dados.

Sabemos então que há alguma duplicação de IDs. No entanto, em que quantidades? Um único ID está sendo duplicado várias vezes? Quantos IDs estão sendo duplicados?

Podemos usar o método **.value_counts()** na série ID para começar a responder a essas perguntas. Ele é semelhante a um procedimento **group by/count** em SQL e listará os IDs exclusivos e a frequência com que ocorrem. Executaremos essa operação na próxima etapa e armazenaremos as contagens de valores em uma variável **id_counts**.

In [8]:
# armazene as contagens de valores em uma variável definida como id_counts e exiba os valores armazenados usando o método .head()

id_counts = df['ID'].value_counts()

In [9]:
id_counts.head()

f12b9d9e-ada0    2
a51dbaae-d88b    2
183f18d5-0b44    2
a9ce8636-9a88    2
93b2c5f7-acea    2
Name: ID, dtype: int64

Observe que o **.head()** retorna, por padrão, as cinco primeiras linhas. Podemos especificar o número de itens a serem exibidos passando o número desejado nos parênteses, ().

In [10]:
id_counts.head(15)

f12b9d9e-ada0    2
a51dbaae-d88b    2
183f18d5-0b44    2
a9ce8636-9a88    2
93b2c5f7-acea    2
d50ebd87-8b6d    2
28866128-6286    2
45cceda0-6fb7    2
ff6e1bd3-4e91    2
87dec940-75b7    2
310d5326-56c7    2
3d61e71b-f65e    2
998fa9b2-b341    2
adeed333-dbfd    2
5edb4d2b-067c    2
Name: ID, dtype: int64

In [11]:
# exiba o número de entradas duplicadas agrupadas executando outra contagem de valores

id_counts.value_counts()

1    29374
2      313
Name: ID, dtype: int64

Na saída acima podemos ver que a maioria dos IDs ocorre exatamente uma única vez, como esperado. No entanto, 313 IDs ocorrem duas vezes. Logo, nenhum ID ocorre mais do que duas vezes.

De posse dessas informações, estamos prontos para começar a examinar mais detalhadamente esse problema de qualidade de dados e corrigi-lo. Criaremos máscaras booleanas para limpar melhor os dados.

# Máscaras booleanas

Para ajudar a limpar os dados do estudo de caso, usaremos o conceito de **máscara lógica**, também conhecido como **máscara booleana**.

Uma máscara lógica é uma maneira de filtrar um array, ou série (ou seja, coluna), obedecendo alguma condição. Por exemplo, podemos usar o operador "==; <; >; <=; >=" para encontrar todos os locais de um array que contêm um valor específico.

A saída dessa comparação é um array com uma série de valores  True/False, também conhecidos como valores **booleanos**. Cada elemento da saída corresponderá a um elemento da entrada, com o resultado **True** se a condição for atendida, e **False**, caso não seja.


Para ilustrar como isso funciona, usaremos **dados sintéticos** (dados criados para a exploração ou ilustração de um conceito). primeiro importaremos o pacote NumPy, para gerar números aleatórios.

In [12]:
# importando a biblioteca NumPy

import numpy as np

In [13]:
# usamos seed (semente) no gerador de números aleatórios

np.random.seed(seed=24)

Se definirmos um **seed**, teremos os mesmos resultados enre as execuções do gerador. Caso contrário, isso não é garantido. 

Essa pode ser uma opção útil se você usa números aleatórios em seu trabalho e quer ter resultados consistentes sempre que executar um notebook

In [14]:
# geração de 100 inteiros aleatórios, selecinodos entre 1 e 5 (inclusive)

random_integers = np.random.randint(low=1, high=5, size=100)

In [15]:
random_integers

array([3, 4, 1, 4, 2, 2, 2, 1, 4, 4, 1, 4, 4, 3, 4, 4, 4, 4, 4, 4, 2, 3,
       4, 4, 2, 4, 2, 4, 1, 1, 3, 1, 4, 2, 2, 1, 4, 3, 2, 2, 3, 3, 2, 3,
       4, 2, 3, 4, 1, 3, 4, 2, 2, 4, 1, 2, 3, 3, 2, 1, 2, 4, 2, 1, 4, 3,
       1, 2, 1, 3, 4, 2, 3, 4, 1, 3, 2, 1, 1, 3, 3, 4, 3, 2, 4, 1, 4, 4,
       4, 4, 1, 4, 3, 2, 4, 4, 3, 3, 2, 4])

In [16]:
# obtendo os cinco primeiros números

random_integers[:5]

array([3, 4, 1, 4, 2])

Suponhamos que quiséssemos conhecer os locais de todos os elementos de **random_integer igual a 3**. Poderíamos criar uma máscara booleana para fazer isso.

In [17]:
# criando máscara booleana para condições iguais a 3

is_equal_to_3 = random_integers == 3

In [18]:
# obtendo os cinco primeiros resutados

is_equal_to_3[:5]

array([ True, False, False, False, False])

In [19]:
# somando o resultados da máscara booleana

sum(is_equal_to_3)

22

O resultado igual a 22 faz sentido, com uma criação aleátoria igualmente provável de 5 valores possíveis, o esperado é que cada valor apareça 20 % das vezes

In [20]:
# selecionando os elementos do array original que atendem a essa condição

random_integers[is_equal_to_3]

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

Esses são os aspectos básicos dos arrays booleanos, que são úteis em muitas situações. Especificamente, você pode usar o método **.loc** de DataFrames para indexar suas linhas por uma máscara booleana e as colunas por rótulo. 

## Exercício 4 - Continuando a verificação da integridade dos dados

Com o conhecimento dos arrays booleanos, examinaremos alguns dos IDs duplicados que descobrimos.

Já verificamos que nenhum ID aparece mais de duas vezes. Podemos usar essa informação para localizar os IDs duplicados e examiná-los. Em seguida, tomaremos medidas para remover linhas de qualidade duvidosa do dataset.

In [21]:
# criando máscara booleana para condições iguais a 3

dupe_mask = id_counts == 2

In [22]:
# obtendo os cinco primeiros resutados

dupe_mask[:5]

f12b9d9e-ada0    True
a51dbaae-d88b    True
183f18d5-0b44    True
a9ce8636-9a88    True
93b2c5f7-acea    True
Name: ID, dtype: bool

Aqui, **dupe_mask** é a máscara lógica que criamos para armazenar os valores booleanos.

In [23]:
# acessando o índice de id_count e exibindo as cinco primeiras linhas como contexto usando o comando a seguir

id_counts.index[:5]

Index(['f12b9d9e-ada0', 'a51dbaae-d88b', '183f18d5-0b44', 'a9ce8636-9a88',
       '93b2c5f7-acea'],
      dtype='object')

In [24]:
# selecionando e armazenando os IDs duplicados em uma nova variável chamada dupe_ids 

dupe_ids = id_counts.index[dupe_mask]

In [25]:
#exibindo os 15 primeiros ids armazenados

dupe_ids[:15]

Index(['f12b9d9e-ada0', 'a51dbaae-d88b', '183f18d5-0b44', 'a9ce8636-9a88',
       '93b2c5f7-acea', 'd50ebd87-8b6d', '28866128-6286', '45cceda0-6fb7',
       'ff6e1bd3-4e91', '87dec940-75b7', '310d5326-56c7', '3d61e71b-f65e',
       '998fa9b2-b341', 'adeed333-dbfd', '5edb4d2b-067c'],
      dtype='object')

In [26]:
# convertendo dupe_ids em uma lista e obtendo seu tamanho

dupe_ids = list(dupe_ids)
len(dupe_ids)

313

Alteramos a variável **dupe_ids** para uma **lista**, já que precisamos dela nessa forma em etapas futuras. A lista tem um tamanho igual a 313, como pode ser visto na saída acima, que coincide com o número de IDs duplicados que obtivemos na contagem de valores algumas linhas acima.

In [27]:
# verificando os dados de dupe_ids exibindo as cinco primeiras entradas

dupe_ids[:5]

['f12b9d9e-ada0',
 'a51dbaae-d88b',
 '183f18d5-0b44',
 'a9ce8636-9a88',
 '93b2c5f7-acea']

Agora estamos prontos para examinar os dados dos IDs de nossa lista de duplicatas. Especificamente, queremos examinar os valores das características para ver se há algode diferente entre essas entradas.

Para isso, usaremos os métodos **.isin** e **.loc**.

Usando os três primeiros IDs de nossa lista de duplicatas, **dupe_ids[:3]**, primeiro queremos encontrar as linhas que contêm esses IDs. Se passarmos essa lista de IDs para o método **.isin** da série ID, ele criará outra máscara lógica que poderemos usar no DataFrame maior para exibir as linhas que contêm os IDs.

O método **.isin** ficará aninhado em uma instrução **.loc** de indexação do DataFrame para a seleção do local de todas as linhas que contêm 'True' na máscara booleana.

O segundo argumento da instrução de indexação **.loc** é :, que implica que todas as colunas serão selecionadas. Ao executar as próximas etapas, estaremos basicamente filtrando o DataFrame para visualizar todas as colunas dos três primeiros IDs duplicados.

In [28]:
# executando o comando formulado anteriormente

df.loc[df['ID'].isin(dupe_ids[:3]),:].head(10)

Unnamed: 0,ID,LIMIT_BAL,SEX,EDUCATION,MARRIAGE,AGE,PAY_1,PAY_2,PAY_3,PAY_4,...,BILL_AMT4,BILL_AMT5,BILL_AMT6,PAY_AMT1,PAY_AMT2,PAY_AMT3,PAY_AMT4,PAY_AMT5,PAY_AMT6,default payment next month
15650,a51dbaae-d88b,100000,2,2,1,36,-1,0,-1,-1,...,6930,5958,1448,1600,14562,6969,5958,1448,101434,0
15687,183f18d5-0b44,10000,1,2,2,29,0,0,0,-1,...,6390,6682,7271,1000,0,6400,400,700,500,0
15750,a51dbaae-d88b,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
15787,183f18d5-0b44,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
29470,f12b9d9e-ada0,240000,1,2,2,31,1,-1,-1,-1,...,390,780,0,780,0,390,780,0,390,0
29570,f12b9d9e-ada0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


O que podemos ver aqui é que cada ID duplicado para ter uma linha de dados válidos e outra somente com zeros. Fica claro que devemos excluir as linhas somentes com zeros, já que não faz sentido alguém ter 0 anos, limite de crédito igual a 0 e assim por diante.

Uma abordagem para lidarmos com esse problema seria encontrar as linhas que só tem zeros, exceto na primeira coluna, que tem os IDs. Esses dados seriam inválidos e, se excluíssemos, também resolveríamos nosso problema de IDs duplicados.


In [29]:
# criando uma máscara booleana feature_zero_mask

df_zero_mask = df == 0

Usaremos **df_zero_mask**, que é outro DataFrame, contendo valores booleanos. O objetivo é criarmos uma série booleana, **feature_zero_mask**, que identifique cada linha em que todos os elementos a partir da segunda coluna (as características e a resposta, mas não o IDs) sejam 0.

Para isso, primeiro temos que indexar **df_zero_mask** usando o método de indexação de inteiros (.loc). Nesse método, passaremos (:) para examinar todas as linhas e (1:) para examinar todas as colunas a partir da segunda (ídice 1). Para concluir, aplicaremos o método **all()** ao longo do eixo da coluna (axis=1) e ele retornará **True** somente se todas as colunas dessa linha forem iguais a **True**. 

In [30]:
# criando a série booleana feature_zero_mask

feature_zero_mask = df_zero_mask.iloc[:,1:].all(axis=1)

In [31]:
# calculando a soma da série booleana

sum(feature_zero_mask)

315

Esse número é maior do que o número de IDs duplicados, logo, se excluirmos todas as "linhas de zeros", podemos nos livrar do problema dos IDs duplicados

In [32]:
# impando o DataFrame eliminando as linhas só com zeros, exceto pelo ID

df_clean_1 = df.loc[~feature_zero_mask,:].copy() # operador lógico not (~) para selecionar linhas sem 0 e (:) para selecionar todas as colunas

Agora, temos um novo DataFrame chamado **df_clean_1**.

Observe que usamos o método **.copy()** após a operação de indexação **.loc** para criar uma cópia dessa saída, em vez de visualizarmos o DataFrame original. Podemos considerar essa ação como a criação de um novo DataFrame em vez de referenciarmos o original.

In [33]:
# verificando o número de linhas e colunas do novo DataFrame

df_clean_1.shape

(29685, 25)

In [34]:
# Obtendo o número de IDs exclusivos executando este código

df_clean_1['ID'].nunique()  # A função pandas .nunique() retorna o número de elementos únicos no objeto.

29685

## Exercício 5 - Explorando e limpando os dados

Até agora, identificamos um problema de qualidade de dados relacionados aos metadados: fomos informados de que cada amostra de nosso dataset corresponderia a um ID de conta exclusivo, o que não ocorreu.

Conseguimos usar a indexação lógica e o pandas para resolver o problema. Estamos pronto para começar a examinar os valores das características e da resposta, os dados que usaremos para desenvolver nosso modelo preditivo. 

In [35]:
# obtendo o tipo de dado das colunas do dataset usando o método .info()

df_clean_1.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 29685 entries, 0 to 29999
Data columns (total 25 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   ID                          29685 non-null  object
 1   LIMIT_BAL                   29685 non-null  int64 
 2   SEX                         29685 non-null  int64 
 3   EDUCATION                   29685 non-null  int64 
 4   MARRIAGE                    29685 non-null  int64 
 5   AGE                         29685 non-null  int64 
 6   PAY_1                       29685 non-null  object
 7   PAY_2                       29685 non-null  int64 
 8   PAY_3                       29685 non-null  int64 
 9   PAY_4                       29685 non-null  int64 
 10  PAY_5                       29685 non-null  int64 
 11  PAY_6                       29685 non-null  int64 
 12  BILL_AMT1                   29685 non-null  int64 
 13  BILL_AMT2                   29685 non-null  in

Podemos ver que há 25 colunas. Cada linha tem 29.685 valores **não nulos**. Isso indicaria que não há dados ausentes, já que cada célula contém algum valor.

No entanto, se houver um valor de preenchimento para representar dados ausentes, ele não ficaria evidente aqui.

Também vemos que a maioria das colunas são tipo **int64** (dado integer), as exceções são **ID** e **PAY_1**. **ID** já sabemos que contém string. E **PAY_1**??

In [36]:
# use método .head(n) do pandas para visualzar as n linhas superiores da série PAY_1

df_clean_1['PAY_1'].head(15)

0      2
1     -1
2      0
3      0
4     -1
5      0
6      0
7      0
8      0
9     -2
10     0
11    -1
12    -1
13     1
14     0
Name: PAY_1, dtype: object

Os inteiros a esquerda são os índices. Os dados da coluna **PAY_1** (à direita) são o status de pagamento da fatura mensal mais recente, usando os valores -1,1,2,3 e assim por diante.

De acordo com o dicionário de dados, "A escala de medida do status de reembolso é: -1 = pagamento pontual; 1 = atraso de um mês no pagamento; 2 = atraso de dois meses; ...; 9 = atraso de 9 meses ou mais no pagamento". Então, o que é o 0 (zero)?

In [37]:
# Fazendo um exame mais detalhado na coluna PAY_1

# Obtendo as contagens de valores da coluna PAY_1 usando o método .value_counts()

df_clean_1['PAY_1'].value_counts()

0                13087
-1                5047
1                 3261
Not available     3021
-2                2476
2                 2378
3                  292
4                   63
5                   23
8                   17
6                   11
7                    9
Name: PAY_1, dtype: int64

A saída acima revela a presença de dois valores não documentados, 0 e -2, e também a razão de essa coluna ter sido importada pelo pandas como um tipo de dado **object** em vez de **int64**. Há uma string **Not Available** presente na coluna, simbolizando dados ausentes. Posteriormente, retornaremos aselas quando considerarmos como lidar com dados ausentes. Por enquanto, removeremos as linhas do dataset nas quais a característica tem um valor ausente.

In [38]:
# usando máscara lógica (!=) para encontrar todas as linhas que não têm dados ausentes para PAY_1

valid_pay_1_mask = df_clean_1['PAY_1'] != 'Not available'

In [39]:
valid_pay_1_mask[:5]

0    True
1    True
2    True
3    True
4    True
Name: PAY_1, dtype: bool

In [40]:
# verificando quantas linhas não têm dados ausentes usando a soma da máscara

sum(valid_pay_1_mask)

26664

In [41]:
# limpando os dados eliminando as linhas de PAY_1 com valores ausentes

df_clean_2 = df_clean_1.loc[valid_pay_1_mask,:].copy()

In [42]:
# obtendo a dimensão dos dados limpos

df_clean_2.shape

(26664, 25)

Por fim, para que o tipo de dado dessa coluna seja consistente com os outros, vamos convertê-lo do tipo genérico **object** para **int64** usando o método **.astype**.

O método DataFrame.astype() é usado para lançar um objeto pandas para um dtype especificado. astype()A função também fornece a capacidade de converter qualquer coluna existente adequada em tipo categórico. Veja documentação [aqui](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.astype.html)

In [43]:
# convertendo tipo de dado de PAY_1 de object para int64

df_clean_2['PAY_1'] = df_clean_2['PAY_1'].astype('int64')

In [44]:
# exibindo metadados das colunas PAY_1 e PAY_2

df_clean_2[['PAY_1', 'PAY_2']].info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26664 entries, 0 to 29999
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype
---  ------  --------------  -----
 0   PAY_1   26664 non-null  int64
 1   PAY_2   26664 non-null  int64
dtypes: int64(2)
memory usage: 624.9 KB


In [45]:
## página 43