In [None]:
# Importa a biblioteca pandas com o apelido de pd
import pandas as pd

In [None]:
# Caso não tenha o pandas instalado na máquina, execute esta célula para instalar
!pip install pandas

# Geralmente o numpy já vem instalado, mas caso não esteja instalado,
# basta realizar o mesmo comando com o numpy no lugar do pandas

# Relembrando
Vizualizar os dados

In [None]:
# Leitura da base de dados

# Repare que chamamos o pandas por meio do pd
# em seguida utilizamos a função read_csv para 
# especificar qual o arquivo desejamos que seja lido pelo pandas
df = pd.read_csv('banco.csv')

In [None]:
# Exibir as 5 primeiras e 5 últimas linhas
df

In [None]:
# Exibir as primeiras 5 linhas
df.head()

In [None]:
# Exibir as primeiras 2 linhas
df.head(2)

In [None]:
# Exibir as últimas 5 linhas
df.tail()

In [None]:
# Exibir as 2 últimas Linhas
df.tail(2)

### Primeiras Informações da base de dados

In [None]:
# Exibe informações das colunas numéricas
df.describe()

In [None]:
# Exibe uma descrição das colunas do tipo object
df.describe(include = "O")
# A primeira descrição 'count' é a quantidade de valores não nulos
# A segunda descrição 'unique' informa quantos valores únicos existem nas colunas
# A terceira descrição 'top' informa qual o valor que mais aparece na coluna
# A quarta descrição 'freq' é em relação à frequência (quantidade de vezes) que o valor top aparece na coluna

In [None]:
df.info()
# Repare que existem algumas linhas com valores nulos

In [None]:
# Quantidade de valores nulos por coluna
df.isnull().sum() 

Verificar quantos valores nulos cada coluna possui é interessante, mas talvez verificar a porcentagem de valores nulos por coluna seja melhor para entender os valores nulos

In [None]:
# Porcentagem de valores nulos por coluna
# Abaixo é realizada uma regra de 3 onde 
# a quantidade de valores nulos é dividida pela
# quantidade de linhas do dataframe e multiplicado por 100
# Resultando na porcentagem de valores nulos por coluna
# Após a regra de 3, é utilizado a função round para exibir
# 4 casas decimais
round(df.isnull().sum() / len(df) * 100, 4)

## Valores únicos

Os valores únicos fazem referência à quantidade de valores que apresentam em uma mesma coluna e existem algumas funções para avaliar estes valores 

In [None]:
# Para verificar a quantidade de valores únicos na coluna emprego
df.emprego.nunique()

In [None]:
# Para verificar a os valores únicos na coluna emprego
df.estado_civil.unique()
# No python, quando um valor é nulo é representado por 
# NaN (Abreviação de Not a Number)

In [None]:
# Para verificar a os valores únicos na coluna emprego e a quantidade de aparições de cada valor
df.estado_civil.value_counts()

Importante ressaltar que os 3 métodos acima só podem ser utilizados com apenas uma coluna

In [None]:
# Verificar o tamanho do dataframe (Tabela)
df.shape

In [None]:
# quantidade de colunas
df.shape[1]

In [None]:
# quantidade de linhas
df.shape[0]

In [None]:
# Existe outro método de verificar a quantidade de linhas do dataframe
# é o mesmo método para verificar o tamanho de uma lista
len(df)

In [None]:
# Listar as colunas do dataframe
df.columns

# Selecionar Colunas

In [None]:
# Para selecionar apenas uma coluna
df.idade

In [None]:
# para selecionar uma ou mais colunas
df[['idade','emprego','estado_civil']]

# Index
Cada linha da tabela possuí um index único (identificador único), ou seja, não existem index repetidos

O index não chega a ser uma coluna, mas se comporta como uma, sendo ele a primeira "coluna à esquerda da tabela"

Com o index nós podemos selecionar linhas específicas, ou conjunto de linha, semelhante ao que aprendemos em listas

In [None]:
# Exibe informações a respeito do index da tabela
# Semelhante ao que aprendemos no loop for, temos o valor de início, fim e o passo do index
df.index

In [None]:
# Para exibir o index podemos utilizar a função que o transforma em lista
list(df.index)

# Função iloc
com esta função, define-se qual index deseja exibir, ou qual faixa de index deseja

In [None]:
# Exibir as 5 primeiras linhas da tabela
df.head()

In [None]:
# Selecionando apenas um index, as informações serão exibidas em formato de lista

# Seleciona as informações da tabela onde o index é 0
df.iloc[0]

In [None]:
# Selecionando apenas um index, as informações serão exibidas em formato de lista

# Seleciona as informações da dabela onde o index é 1
df.iloc[1]

In [None]:
# Para selecionar mais de um index, utiliza-se a notação [index_inicial:index_final]
# O index final não será exibido (semelhante com o que aprendemos em listas)
df.iloc[0:1]

In [None]:
# Selecionando os valores de 0 até 5, serão exibidos os index de 0 até 4
df.iloc[0:5]

In [None]:
# Outra forma de selecionar index é passando uma lista de index para a função iloc
df.iloc[[0,2,4]]

Isto que estamos fazendo é conhecido como slice (fatiar), pois estamos selecionando somente uma fatia dos dados

Em muitos casos não é necessaŕio utilizar toda a base de dados, para isto, podemos criar uma nova variável para receber este slice (fatia)

In [None]:
# Cria a variável fatia que irá receber os valores com índice de 2 à 4
fatia = df.iloc[2:5]

# Exibe a variável fatia
fatia 

In [None]:
# Cria a variável fatia_2 que irá receber os valores com índice de 241 à 246
fatia_2 = df.iloc[241:247]

# Exibe a variável fatia_2
fatia_2 

# Selecionar linhas com o loc

Assim como o iloc, nós podemos selecionar linhas com o loc, mas seu funcionamento não se da pelo index. No Loc, nós definimos para selecionar todos os registros que estejam de acordo com um determinado valor, em uma determinada coluna, ou seja, por exemplo, podemos selecionar todos os registros que possuemque possuem idade igual a 37

Para usar o loc, utilizamos a seguinte sintaxe:
* `df.loc[df['nome_da_coluna'] == valor_desejado]` 

In [None]:
# Selecionar todos os registros com iade igual a 37
df.loc[df['idade'] == 38]

Assim como vimos anteriormente, podemos usar a função .shape[0] para receber quantos registros existem para o determinado filtro

In [None]:
# Selecionar a quantidade de registros com iade igual a 37
df.loc[df['idade'] == 37].shape[0]

Também podemos usar a função loc com os valores textuais

In [None]:
# Selecionar todos os registros com o estado civil divorciado
df.loc[df['estado_civil'] == 'divorced']

In [None]:
# Selecionar a quantidade de registros com o estado civil divorciado
df.loc[df['estado_civil'] == 'divorced'].shape[0]

In [None]:
# Para tirar a prova real, usamos a função value_counts 
# para contar a quantidade de vezes que cada
# valor aparece na coluna estado_civil
df.estado_civil.value_counts()

# Outra funcionalidade da função loc

Com o loc, podemos passar mais alguns parâmetros, permitindo mudar valores nas linhas em que o filtro selecionou. Veja o exemplo para ficar mais claro para `Alterar os valores da coluna estado_civil`

In [None]:
# Primeiro, vamos verificar quais são os valores únicos da coluna emprego
df.emprego.unique()

In [None]:
# Seleciona todos os registros com o valor retired em emprego
df.loc[df['emprego'] == 'retired']

In [None]:
# após realizar o filtro selecionando os registros que possuem o valor 'married'
# Colocamos uma vírgula e selecionamos qual coluna desejamos realizar a alteração
# Neste caso selecionamos a própria coluna estado_civil, mas poderia ser qualquer 
# outra coluna.
# Após definir a coluna, fechamos o colchetes e, com o sinal de igual, definimos
# Qual será o novo valor para a coluna estado_civil onde os registros eram 'married'
df.loc[df['emprego'] == 'retired','emprego'] = 'Aposentado'

In [None]:
# Verificando novamente os valores presentes na coluna estado_civil
# Repare que não existe mais o valor married, pois todos os registros 
# Que possuiam este valor foram alterados para 'Casado'
df.emprego.unique()

# Valores nulos
Voltando a falar de valores nulos, nas colunas em que existem valores nulos, existem algumas observações a serem feitas:
* Qual o tipo de dados da coluna
* O que a coluna representa
* Qual a porcentagem de dados nulos

In [None]:
# Porcentagem de valores nulos por coluna
round(df.isnull().sum() / len(df) * 100, 4)

Na base de dados, existem 4 colunas com alguns valores nulos.
Destas, as colunas com valores numéricos são:
* idade;
* duracão;
* qtd_contato.

E a coluna estado_civil é do tipo textual

Nas colunas com tipo de dados numéricos, podemos utilizar 3 abordagens:
* 1 - Se forem poucos dados nulos, apagar os registros com estes dados;
* 2 - Se for uma quantidade considerável de dados podemos:
    * 2.1 - Substituir os valores nulos pela média da coluna;
    * 2.1 - Substituir os valores nulos pela mediana da coluna;
    * 2.1 - Substituir os valores nulos pela moda da coluna.
* 3 - Se forem muitos dados nulos, apagar a coluna.

Nas colunas com tipo de dados textual, podemos utilizar 3 abordagens:
* 1 - Se forem poucos dados nulos, apagar os registros com estes dados;
* 2 - Se for uma quantidade considerável de dados podemos substituir os valores nulos pela moda da coluna;
* 3 - Se forem muitos dados nulos, apagar a coluna.

O que é média, mediana e moda:
* Média - é a soma de todos os valores, dividido pela quantidade de valores somados
* Mediana - considerando a lista de valores em ordem crescente, é o valor central da lista
* Moda - é o valor que mais aparece na coluna

Para fazer as alterações nos valores nulos podemos usar a função loc, se for alterar os valores, ou drop se for apagar a coluna.
No caso da função loc, não utilizamos um sinal de igualdade para verificar os valores nulos e sim, usamos o .isnull()


### Coluna numérica abordagem 1 - Apagar as linhas.
Como na coluna idade não temos nem 0,2% de registros nulos, é aceitável que se exclua tais registros (Poderíamos utilizar os outros métodos também)

In [None]:
# Exibe todos os registros com valores nulos na coluna idade
df.loc[df['idade'].isnull()]

In [None]:
# Retornamos uma lista com o index de todos os
# registros onde a idade é nula 
df.loc[df['idade'].isnull()].index

In [None]:
# Ao executar o código abaixo foram removidos todos os registros 
# Que possuiam a idade nula
df.drop(df.loc[df['idade'].isnull()].index, inplace=True)

In [None]:
# Exibe todos os registros com valores nulos na coluna idade
df.loc[df['idade'].isnull()]

In [None]:
# Porcentagem de valores nulos por coluna
round(df.isnull().sum() / len(df) * 100, 4)

### Coluna numérica abordagem 2 - substituir valores nulos por média, mediana ou moda

In [None]:
df.duracao.mean()

Importante notar que, a média, geralmente será um valor com casas decimais e, a depender da coluna, devemos remover as casas decimais com a função round.

Por exemplo, a coluna duracao representa quantos dias o cliente tem conta no banco, então não podemos ter que o cliente possui conta há 400.64843 dias...

In [None]:
df.duracao.median()

In [None]:
# Ao exibir a moda, talvez sejam exibidos alguns valores 
# com a mesma quantidade de ocorrência
df.duracao.mode()

Analisando o resultado a cima, averiguamos que os valores 119, 158 e 161 aparecem na base de dados a exata mesma quantidade de vezes, mara verificar isto podemos utilizar a função value_counts(), que retorna em ordem decrescente, os valores que mais aparecem

In [None]:
df.duracao.value_counts()
# Aqui verificamos que os 3 valores aparecem 37 vezes.

Fica a critério do desenvolvedor, caso vá usar a moda, selecionar qual dos 3 valores irá utilizar para substituir os valores nulos

### Coluna numérica abordagem 2.1 - substituir valores nulos por média

In [None]:
# Retorna a média da coluna
df['duracao'].mean()

In [None]:
# Retorna a média arredondada sem casas decimais da coluna
round(df['duracao'].mean())

In [None]:
# Exibe todos os registros com valores nulos na coluna duracao
df.loc[df['duracao'].isnull()]

In [None]:
# Altera todos os registros com valores núlos da coluna duração para a média arredondada da coluna
df.loc[df['duracao'].isnull(), 'duracao'] = round(df['duracao'].mean())

In [None]:
# Exibe todos os registros com valores nulos na coluna duracao
df.loc[df['duracao'].isnull()]

In [None]:
# Porcentagem de valores nulos por coluna
round(df.isnull().sum() / len(df) * 100, 4)

### Coluna numérica abordagem 2.3 - substituir valores nulos pela moda
Analisando a porcentagem de valores núlos por coluna, ainda temos a coluna numérica qtd_contato

In [None]:
# Neste caso só existe uma moda, que é o valor 1
df.qtd_contato.mode()

para retornar o valor propriamente dito com a função mode, usamos algum método para selecionar o valor, como, por exemplo, pegar o index do valor (sempre será zero), pegar o maior valor com a função max() ou o menor com a função min() 

In [None]:
df.qtd_contato.mode()[0]

In [None]:
df.qtd_contato.mode().max()

In [None]:
df.qtd_contato.mode().min()

In [None]:
# Exibe todos os registros com valores nulos na coluna qtd_contato
df.loc[df['qtd_contato'].isnull()]

In [None]:
# Altera todos os registros com valores núlos da coluna duração para a moda da coluna
df.loc[df['qtd_contato'].isnull(), 'qtd_contato'] = df.qtd_contato.mode()[0]

In [None]:
# Exibe todos os registros com valores nulos na coluna qtd_contato
df.loc[df['qtd_contato'].isnull()]

In [None]:
# Porcentagem de valores nulos por coluna
round(df.isnull().sum() / len(df) * 100, 4)

### Coluna de valores textuais 
Na coluna estado_civil temos quase 90% de dados nulos, o melhor que podemos fazer é apagar a coluna, mas, se fossem poucos dados núlos, poderíamos excluir somente as linhas com valores nulos nesta coluna e, ou usar a moda para atribuir o valor que mais aparece na coluna aos valores nulos

In [None]:
# Apenas para exibir a moda da coluna textual, 
# mas não iremos utilizá-la
df.estado_civil.mode()

In [None]:
df.estado_civil.mode()[0]

In [None]:
# Desta forma apenas exibimos a tabela sem a coluna estado_civil
# Devido ao parâmetro inplace ser False
df.drop('estado_civil', inplace=False, axis=1)

In [None]:
# Desta forma apagamos definitivamente a coluna estado_civil
df.drop('estado_civil', inplace=True, axis=1)

In [None]:
# Porcentagem de valores nulos por coluna
# Repare que não temos mais a coluna estado_civil
# E também temos todas as colunas sem valores nulos
round(df.isnull().sum() / len(df) * 100, 4)

# Salvar alterações

Diferente de uma planilha excel que nós abrimos o arquivo, editamos e salvamos o mesmo arquivo, no python toda alteração realizada na tabela não será salva até que utilize o comando para salvar as alterações.

Para o comando que salva as alterações, é necessário definir um nome para o arquivo. Podemos definir o nome igual ao do arquivo original, o que acarretaria em substituir o arquivo original pelo arquivo alterado, então, por padrão, definimos um nome diferente do original e intuitivo.

Outro ponto importante, por padrão, ao salvar a DataFrame alterado, será criada uma coluna com o index dos registros. Para evitar que isto aconteça, é necessário que chame o parâmetro `index e selecione False`.

In [None]:
df.to_csv('banco_alterado_sem_dados_nulos.csv', index = False)

# Exercício

Quem finalizar o exercício e me explicar o que foi feito em cada coluna ganhará ponto extra

1 - importe a biblioteca pandas com apelido pd

2 - Crie uma variável para receber o banco de dados 'banco_exercicio.csv'

3 - Faça uma análise inicial a respeito da base de dados

4 - Analise o tipo de dados das colunas que possuem valores nulos

5 - Realize o tratamento da base de dados para que nenhuma coluna possua valores nulos

6 - Salve a base de dados com o nome 'banco_exercicios_tratado.csv' e sem o index


Obs: utilize os blocos de código abaixo para realizar isto. Caso necessário, pode criar mais blocos de código