O objetivo dessa aula é mostrar como devemos preencher linhas sem valores,
ou seja, linhas nulas

In [2]:
# Biblioteca que possibilita acessar o dataset e manipular os seus valores
import pandas as pd

# Bibloteca que possibilita a realização de calculos e manipukações com
# arrays
import numpy as np

Acessando o dataset com o pandas

In [None]:
# Em alguns casos, é necessário especificar o tipo de delimitador que separa
# os valores do dataset. Para isso basta atribuir ao argumento 'delimiter'
# o tipo de delimitador do dataset
base_de_dados = pd.read_csv('Dados/svbr.csv', delimiter=';')

Acessando apenas os valores do dataset

In [None]:
# Antes de acessar os valores, é necessário passar no intervalo todas as
# colunas do dataset (se não pegarmos o intervalo, o fit que usaremos depois
# não funcionará, pois, ele necessita da existências das colunas)
valores_dataset = base_de_dados.iloc[:,:].values

print(valores_dataset)

[['Site Arqueologia Egípcia' 13438.0 406590.0]
 ['Terra Negra' 35241.0 868235.0]
 ['Frank Jaava' 31680.0 2856508.0]
 ['Dispersciência' 25100.0 150000.0]
 ['Olá Ciência' 32788.0 1575456.0]
 ['A matemaníaca por Julia Jaccoud' 65453.0 1667892.0]
 ['Delta T - Os super lentos' 12000.0 171361.0]
 ['Bláblálogia' 161951.0 11027386.0]
 ['Efarsas' 78876.0 6226235.0]
 ['Minuto da Terra' 274196.0 30166457.0]
 ['Canal Cura Quântica' 13148.0 250020.0]
 ['Mensageiro Sideral' 72425.0 7551491.0]
 ['Universo Racionalista' 7858.0 43662.0]
 ['Xadrez Verbal' 110549.0 4151548.0]
 ['Reinaldo José Lopes' 11188.0 541832.0]
 ["Bio's Fera" 5299.0 44312.0]
 ['QuerQueDesenhe' 56006.0 1329268.0]
 ['Prof André Azevedo da Fonseca' 45756.0 1825724.0]
 ['Matemática Rio com Prof Rafael Procópio' 1423056.0 93036517.0]
 ['Ponto em Comum' 129466.0 5027880.0]
 ['Canal do Slow' 137409.0 5363423.0]
 ['Boteco Behaviorista' 18404.0 1427977.0]
 ['Papo de Primata' 42063.0 1111334.0]
 ['Minutos Psíquicos' 648892.0 22555134.0]
 ['A

In [None]:
# Esta linha importa a classe SimpleImputer do módulo sklearn.impute. 
# O scikit-learn(geralmente abreviado como sklearn) é uma biblioteca
# super popular em python para Machine Learning, e o SimpleImputer é
# uma ferramenta especifica para preencher valores ausentes
from sklearn.impute import SimpleImputer

# Aqui, estamos criando uma instância (um objeto) do SimpleImputer.

# Missing_values=np.nan: Isso informa ao imputer qual valor ele deve
# considerar como "ausente". Neste caso, estamos dizendo para ele procurar
# por np.nan.

# strategy = mean: Esta é a estratégia que o imputer usará para preencher
# os valores ausentes. A estratégia 'mean' significa que ele substituira cada
# valor ausente pela média dos valores não ausentes daquela coluna. Existem
# outras estratégias, como median (mediana) ou  most_frequent (valor mais frequente), mas a média é uma escolha comum para dados numéricos
imputer = SimpleImputer(missing_values=np.nan, strategy='mean')

# O método fit serve para "ensinar" o imputer sobre os dados. Quando chamamos
# fit(): O imputer ira calcular a média (método escolhido na strategy 
# da instancia do simpleimputer) de cada coluna. Note que estamos passando
# valores_dataset[:,1:3]. Isso significa que o imputer vai aprender as médias
# apenas das colunas de indice 1 e 2 do seu valores_dataset(lembre-se que em
# python), a indexação começa em 0, e 1:3 inclui o indice 1 e 2, mas não o 3).
# Ou seja, ele vai ignorar a primeira coluna (indice 0) para o cálculo da média
# e preenchimento.
imputer = imputer.fit(valores_dataset[:,1:3])

# Agora que o imputer aprendeu as médias, usamos o método .transform para
# realmente preencher os valores ausentes.
# imputer.transform(valores_dataset[:,1:3]): Ele pega as colunas 1 e 2
# do valores-dataset e substitui todos os valores np.nan que encontrar
# pelas médias calculadas na etapa anterior.
# Após preencher os valores, esta parte converte todos os dados dessa coluna
# para o tipo string.  
valores_dataset = imputer.transform(valores_dataset[:,1:3]).astype(str)

# Nesta linha, estamos usando np.insert(do numpy) para reinserir a primeira
# coluna original de volta no seu valores dataset.
# Valores dataset: conjunto de dados que ira receber a inserção da coluna
# 0: Posição que os valores serão inseridos
# base_de_dados.iloc.values: Ira pegar todos os valores da primeira coluna
# do dataset original.
valores_dataset = np.insert(valores_dataset, 0, base_de_dados.iloc[:,0].values, axis=1)

# Ira mostrar na tela todos os valores
print(valores_dataset)

[['Site Arqueologia Egípcia' '13438.0' '406590.0']
 ['Terra Negra' '35241.0' '868235.0']
 ['Frank Jaava' '31680.0' '2856508.0']
 ['Dispersciência' '25100.0' '150000.0']
 ['Olá Ciência' '32788.0' '1575456.0']
 ['A matemaníaca por Julia Jaccoud' '65453.0' '1667892.0']
 ['Delta T - Os super lentos' '12000.0' '171361.0']
 ['Bláblálogia' '161951.0' '11027386.0']
 ['Efarsas' '78876.0' '6226235.0']
 ['Minuto da Terra' '274196.0' '30166457.0']
 ['Canal Cura Quântica' '13148.0' '250020.0']
 ['Mensageiro Sideral' '72425.0' '7551491.0']
 ['Universo Racionalista' '7858.0' '43662.0']
 ['Xadrez Verbal' '110549.0' '4151548.0']
 ['Reinaldo José Lopes' '11188.0' '541832.0']
 ["Bio's Fera" '5299.0' '44312.0']
 ['QuerQueDesenhe' '56006.0' '1329268.0']
 ['Prof André Azevedo da Fonseca' '45756.0' '1825724.0']
 ['Matemática Rio com Prof Rafael P' '1423056.0' '93036517.0']
 ['Ponto em Comum' '129466.0' '5027880.0']
 ['Canal do Slow' '137409.0' '5363423.0']
 ['Boteco Behaviorista' '18404.0' '1427977.0']
 ['Pa