# Tratando dados nulos com Python - Pandas

Normalmente nas análises de bancos de dados, temos que algumas linhas não são totalmente preenchidas, fazendo com que a análise seja mais dificultosa e ainda tenhamos que preencher essas linhas corretamente. Para isso utilizaremos a biblioteca Pandas que se trata de uma biblioteca feita em python e que possibilita o tratamento e a análise de grandes quantidades de dados.
    
   - Instalando a Biblioteca Pandas:
        - Com o python instalado no computador, temos o gerenciador de dependências incluso - o pip;
        - Basta abrir o cmd/powerShell e digitar # pip install pandas

Criando a Base de Dados

In [2]:
import pandas as pd

dataBase = pd.DataFrame(columns=["Nome", "Altura", "Peso", "Qtd.Vitorias", "Qtd.Derrotas"], index=[0])
# Temos no código acima que a variável "dataBase" receba uma tabela com as colunas listadas no array
# O index=[0] faz com que os indíces das linhas começem no 0
display(dataBase)

Unnamed: 0,Nome,Altura,Peso,Qtd.Vitorias,Qtd.Derrotas
0,,,,,


Adicionando valores ao dataBase (Não fique assutado e nem precisa entender a maneira de adicionar dados as colunas. É um processo simples porém, normalmente você irá trabalhar com uma base de dados já pronta).

In [3]:
import random as rm
# Importamos uma biblioteca nativa do python, que contém métodos de seleção e criação de números aleatórios

nomes = ["João", "Gabriel", "Rodolfo", "Igor", "Matheus", "Ricardo", "Pedro", "Otávio", "Vitor", "Lucas", "Breno"]
# Listamos os nomes que vão preencher a dataBase

indice = 0
# É atribuido um índice para rodar até o 10 (numero de itens do array nomes) no lopping abaixo

for indice in range(11):
    dataBase.loc[indice] = [nomes[indice]] + [round(rm.uniform(1.60, 2.00), 2)] + [round(rm.uniform(60, 100), 2)] + [round(rm.randint(10, 60), 2)] + [round(rm.randint(10, 60), 2)]
    indice = indice + 1
    
    # O método pandas-loc(índice) busca uma linha com base no índice da linha
    # O método random-round() arredonda números ao seu críterio de casas decimais
    # O método random-uniform() forma um número aleatório decimal com base nos parâmetros passados(valorInicial, valorFinal)
    # O método random-randint() forma um número aleatório inteiro com base nos parâmetros passados(valorIncial, valorFinal)

display(dataBase)

Unnamed: 0,Nome,Altura,Peso,Qtd.Vitorias,Qtd.Derrotas
0,João,1.99,84.56,56,37
1,Gabriel,1.76,87.7,22,14
2,Rodolfo,1.99,81.84,34,46
3,Igor,2.0,98.31,56,19
4,Matheus,1.62,64.85,30,48
5,Ricardo,1.99,96.92,29,58
6,Pedro,1.83,73.19,31,32
7,Otávio,1.8,73.33,24,35
8,Vitor,1.95,65.34,21,28
9,Lucas,1.78,79.19,23,25


Adicionando linhas sem alguns valores

In [4]:
dataBase.loc[10] = ["Kleber"] + [None] + [80] + [56] + [38]
dataBase.loc[11] = ["Gilberto"] + [round(rm.uniform(1.60, 2.00), 2)] + [None] + [56] + [38]
dataBase.loc[12] = ["Ray"] + [round(rm.uniform(1.60, 2.00), 2)] + [None] + [56] + [38]

display(dataBase)

Unnamed: 0,Nome,Altura,Peso,Qtd.Vitorias,Qtd.Derrotas
0,João,1.99,84.56,56,37
1,Gabriel,1.76,87.7,22,14
2,Rodolfo,1.99,81.84,34,46
3,Igor,2.0,98.31,56,19
4,Matheus,1.62,64.85,30,48
5,Ricardo,1.99,96.92,29,58
6,Pedro,1.83,73.19,31,32
7,Otávio,1.8,73.33,24,35
8,Vitor,1.95,65.34,21,28
9,Lucas,1.78,79.19,23,25


Agora, vamos ver quantas linhas estão má preenchidas:

In [6]:
print(dataBase.isna().sum())
# dataBase.isna() é um método de visualizar os dados não preenchidos nas colunas
# o método sum() nesse contexto faz com que some todos os dados não preenchidos nas colunas

Nome            0
Altura          1
Peso            2
Qtd.Vitorias    0
Qtd.Derrotas    0
dtype: int64


Por essa linha de código, temos que:
   - Na coluna "Nome" não temos nenhum preenchimento nulo;
   - Na coluna "Altura" temos 1 preenchimento nulo;
   - Na coluna "Peso" temos 2 preenchimentos nulos;
   - Na coluna "Qtd.Vitorias" e "Qtd.Derrotas" não temos preenchimentos nulos.

Com esses dados em mãos temos que análisar se excluindo esses dados o resultado final irá mudar. Por exemplo, Imagine uma base de dados com 30000 linhas, excluir 1000 não fará tanta diferença no resultado final, porém, nossa base de dados de exemplo tem poucas linhas, então exluir irá fazer falta nas análises.
    Portanto, temos que preencher essas dados de maneira com que melhor se encaixe no banco. Nesse caso, vamos preencher com a média das colunas, ou seja, na linha que falta os dados na coluna de "Altura", iremos preencher com a média da altura.

In [106]:
# Preenchendo valores vazios na coluna "Altura"
media_altura = dataBase.Altura.median()
# O método median() traz a média de valores da coluna "Altura"

dataBase.Altura.fillna(media_altura, inplace=True) # Adiciona o valor em todas as linhas da coluna de altura que estão vazias

# O método fillna() preenche os dados nulos com valores pré-definidos, no caso, com o valor da média da coluna "Altura"
# O parâmetro inplace=True, faz com que os índices sejam automáticamente alterados se necessário:
    # Vamos supor que iremos excluir a linha de índice 5, a tabela irá ficar com índices de 0 a 4 e de 6 a 12.
    # Com o "inplace=True" os índices são reformulados e gerados de maneira contínua, ficando de 0 a 11.

print(dataBase.Altura.isna().sum()) # retorna 0 -> valor de linhas vazias na coluna "Altura"

# Preenchendo valores vazios na coluna "Peso"
media_peso = dataBase.Peso.median()
dataBase.Peso.fillna(media_peso, inplace=True)
print(dataBase.Peso.isna().sum()) # retorna 0 -> valor de linhas vazias na coluna "Peso"

display(dataBase)

0
0


Unnamed: 0,Nome,Altura,Peso,Qtd.Vitorias,Qtd.Derrotas
0,João,1.86,75.03,17,16
1,Gabriel,1.7,94.66,35,44
2,Rodolfo,1.66,97.95,47,13
3,Igor,1.99,98.75,57,19
4,Matheus,1.89,81.36,55,18
5,Ricardo,1.8,99.32,33,58
6,Pedro,1.85,72.71,50,16
7,Otávio,1.87,92.16,11,46
8,Vitor,1.79,64.12,34,29
9,Lucas,1.67,69.78,54,21


    Vamos supor que compense mais excluir as linhas má preenchidas, desta maneira, vamos utiliar o dropna() -> método do pandas para exluir linhas com valores NaN ou nulos.

In [109]:
#Adicionando valroes nulos
dataBase.loc[13] = ["Rodrigo"] + [None] + [80] + [56] + [38]
dataBase.loc[14] = ["Flavio"] + [round(rm.uniform(1.60, 2.00), 2)] + [None] + [56] + [38]
dataBase.loc[15] = ["Alberto"] + [round(rm.uniform(1.60, 2.00), 2)] + [None] + [56] + [38]
display(dataBase)

dataBase.dropna(inplace=True) #Exclui linhas vazias e muda o indice das linhas
display(dataBase)

Unnamed: 0,Nome,Altura,Peso,Qtd.Vitorias,Qtd.Derrotas
0,João,1.86,75.03,17,16
1,Gabriel,1.7,94.66,35,44
2,Rodolfo,1.66,97.95,47,13
3,Igor,1.99,98.75,57,19
4,Matheus,1.89,81.36,55,18
5,Ricardo,1.8,99.32,33,58
6,Pedro,1.85,72.71,50,16
7,Otávio,1.87,92.16,11,46
8,Vitor,1.79,64.12,34,29
9,Lucas,1.67,69.78,54,21


Unnamed: 0,Nome,Altura,Peso,Qtd.Vitorias,Qtd.Derrotas
0,João,1.86,75.03,17,16
1,Gabriel,1.7,94.66,35,44
2,Rodolfo,1.66,97.95,47,13
3,Igor,1.99,98.75,57,19
4,Matheus,1.89,81.36,55,18
5,Ricardo,1.8,99.32,33,58
6,Pedro,1.85,72.71,50,16
7,Otávio,1.87,92.16,11,46
8,Vitor,1.79,64.12,34,29
9,Lucas,1.67,69.78,54,21
