#Pandas

Panda é umas das nossas ferramentas mais interessantes quando para se trabalhar com dados. Esse repositório contêm diversas ferramentas para fazer a análisa mais rápida e limpa. Que também usa ferramentas númericas de análisa, como SciPy e  NumPy. E algumas bibliotecas com ferramentas para vizualização, como scikit-learn, matplotlib. Adotando parte da semantica do Numpy na computação dos dados em forma de arrays. A diferença é que pandas é melhor para trabalhar com dados tabulados não homogeneos, enquanto numpy é melhor para se trabalhar com dados numéricos. 

In [None]:
import pandas as pd
from pandas import Series, DataFrame

##Introdução a estrutura de dados do pandas

Para começar com panda, vc precisa se sentir confiante com esses dois principais módulos chamados no comando acima (Series, DataFrame)

### Series
Uma série é o objeto de um array unidimensional contendo uma sequencia de valores de tipos similares e um array associado como indice.

In [None]:
list = [4, 7, -5, 3]
obj = pd.Series(list)
obj
 #Perceba que podemos atribuir valores, ou caracteristicas para os indices. 
 # e com o comando value conseguimos imprimir apenas os valores da coluna

0    4
1    7
2   -5
3    3
dtype: int64

In [None]:
obj.values

array([ 4,  7, -5,  3])

In [None]:
#E podemos definir seus indices para melhor identificar os valores e do que eles se tratam
ind = ['Marco','Fio','Nadia','Trevor']
obj.index #Se rodar esse método irá retornar a organização do dos indices neste array

RangeIndex(start=0, stop=4, step=1)

In [None]:
#Também é desejavel criar os indices assim quando a Série é criada, veja:
obj2 = pd.Series(list, index = ind)
obj2

Marco     4
Fio       7
Nadia    -5
Trevor    3
dtype: int64

In [None]:
#Perceba que é possivel usar os indices para selecionar apenas um valor, ou um conjunto deles
print(obj2['Marco'])
print(obj2['Trevor'])

obj2[['Fio', 'Nadia']]

4
3


Fio      7
Nadia   -5
dtype: int64

In [None]:
#Por fim é importante ressaltar que operações matemáticas e booleanos tambem se aplica aos indices, preservando o valor inicial
obj2 > 3

Marco      True
Fio        True
Nadia     False
Trevor    False
dtype: bool

In [None]:
obj2**3

Marco      64
Fio       343
Nadia    -125
Trevor     27
dtype: int64

In [None]:
#Também é possivel verificar se o dado existe nessa série com:
'Fio' in obj2

True

In [None]:
#Um tipo de dado importante de falar é que: Quando preenchendo uma série, mas que não há quantidade de valores igual ao de indices, ou que tenha um dado vazio
#O panda utiliza de um valor que representa a mesma coisa que o 'None' mas é um tipo diferente de dados. Vamos tirar a prova logo a frente, primeiro
#vamos criar uma série

grades = [1, 2, None]
pd.Series(grades)

0    1.0
1    2.0
2    NaN
dtype: float64

In [None]:
#Perceba que os valores se tornaram float, mesmo com todos os valores inteiros. Agora veremos se NaN é a mesma coisa que None. Pra isso vamos usar a bibioloteca
#numpy
import numpy as np

np.nan == None

False

In [None]:
#Mas se fizermos
np.nan == np.nan

False

In [None]:
#também resulta em falso, quando estamos trabalhando com 'Not a Number' values, é importante usar as funções do numpy como:
print(np.isnan(np.nan))
#Importante ressaltar que isso é possivel sem usar a biblioteca, usando a o comando. E que esse método se expande para séries. Veremos em um exemplo a frente
print(pd.isnull(np.nan))
#Então perceba quando trabalhar com NaN que tem o significado similar ao None, mas o valor é tratado de maneira diferente por diversos motivos de eficacia

True
True


In [None]:
#Lista é uma boa estrutura para criar séries, mas elas podem ser criadas por qualquer estrutura indexivavel, como dicionários (os dicts ainda são mais semelhantes)
#pois carregam a "Key words".
#Veremos:

students_grades = {'Alice' : 'Physics', 'Jack' : 'Chemistry', 'Molly' : 'English'}
s = pd.Series(students_grades)
s

Alice      Physics
Jack     Chemistry
Molly      English
dtype: object

In [None]:
s.index

Index(['Alice', 'Jack', 'Molly'], dtype='object')

In [None]:
#Semelhante da maneira que fizemos com a lista, podemos passar os indices antes de criar a Série, se nao for passada, As chaves serâo organizadas alfabéticamente
ind2 = ['Molly', 'Jack', 'Alice']
s1 = pd.Series(students_grades, index = ind2)
s1

Molly      English
Jack     Chemistry
Alice      Physics
dtype: object

In [None]:
#Assim como também podemos fazer operações entre dicionários, veja:
s3 = pd.Series(students_grades, index = ind)
s3

Marco     NaN
Fio       NaN
Nadia     NaN
Trevor    NaN
dtype: object

In [None]:
s4 = s1 + s3
s4
#Se fos se valores do tipo int ou float, a operação entre os indices iguais seria de soma

Alice     NaN
Fio       NaN
Jack      NaN
Marco     NaN
Molly     NaN
Nadia     NaN
Trevor    NaN
dtype: object

In [None]:
#Só queria ressaltar que: há uma importancia para o dtype ser objetos, e que tem muita coisa útil para se trablhar com o indice nesse formato.
#Agora, algo interessante, o dtype do objeto não é apenas para strings, mas para formatos mais complexos, como listas de tuplas. Mantendo o formato como Objeto
students = [('Alice', 'Brown'),('Jack', 'White'),('Molly','Green')]
obj3 = pd.Series(students)
obj3

0    (Alice, Brown)
1     (Jack, White)
2    (Molly, Green)
dtype: object

In [None]:
#E o indice de uma série pode ser alterada por atribuição
obj3.index = ['Chemistry', 'Physica', 'English']
obj3

Chemistry    (Alice, Brown)
Physica       (Jack, White)
English      (Molly, Green)
dtype: object

In [None]:
#E por fim, acho que já deve ter dado pra perceber, mas o panda automaticamente preenche valores vazios como NaN ou None, Veja
list = {'Alice' : 'Quimica', 'Diego':'história', 'Thiago': 'Sociologia'}
obj4 = pd.Series(list, index = ['Diego', 'Alice', 'Marquinho'])
obj4

Diego        história
Alice         Quimica
Marquinho         NaN
dtype: object

In [None]:
#Usando a função dita anterior para verificar se tem algum dado tipo NaN
pd.isnull(obj4)

Diego        False
Alice        False
Marquinho     True
dtype: bool

####"Questionando" uma Série

In [None]:
#Uma série do panda pode ser 'interrogada' pela posição do indice ou o 'Rotulo' do indice. Como vimos atrás, se uma série não foi atribuida o indice
#o indice é simplesmente a posição. Para questionar pela posição numerica (começando no 0), usa o atributo/função 'iloc'. Para procurar pelo rotulo do indice. 
#Usa o atributo 'loc'.

#Vamos usar a série criada lá trás s1
s1

Molly      English
Jack     Chemistry
Alice      Physics
dtype: object

In [None]:
#Então para essa série, vamos olhar para terceira entrada
s1.iloc[2]

'Physics'

In [None]:
#Se quisermos ver que aula terá Jack:
s1.loc['Jack']

'Chemistry'

In [None]:
#Ressaltando que loc e iloc são atributos e não métodos, portanto não se usa parenteses, mas sim as chaves. Que é chamado de operador de indices.
#Panda tenta transformar o código mais legivel e permite usar uma sintaxe mais comum e semelhante ao que usamos com listas/dicts/tuplas.
#Neste caso, o operador vai se comportar como o atributo iloc.
s1[2]

'Physics'

In [None]:
#Se for passado o objeto, ele vai reconhecer que você quer buscar pelo atribulo loc
s1['Molly']

'English'

In [None]:
#Porem cuidado ao usar esse tipo de chamada, pois se você tiver uma série onde o indice é uma lista de inteiros diferente de zero.
class_ = {99 : 'Fisica', 100 : 'Quimica', 101: 'Português', 102 : 'Geografia'}
s = pd.Series(class_)
s[0]

KeyError: ignored

In [None]:
#Ao invés disso, temos que chamar diretamente pela função iloc
s.iloc[0]

In [None]:
#Agora que sabemos como enxergar o dado, vamos aprender a opera-los. Resumir, tirar conclusoes, ou transformar os dados, veremos.

grades = pd.Series([90, 80, 70, 60])

total = 0
for grade in grades:
  total += grade

print(total/len(grades))

In [None]:
#isso pode ser feito mais rapidamente pelo numpy, veja:
total = np.sum(grades)
print(total/len(grades))
#Ou apenas
print(np.mean(grades))

In [None]:
#Agora, esses métodos funcionam, mas qual é o mais rápido?

#Vamos criar uma série aleatória e pedir ajuda do colab.
numbers = pd.Series(np.random.randint(0, 1000, 10000))

#Agora vamos olhar os primeiros itens
numbers.head()

In [None]:
#Vamos conferir o tamanho da série
len(numbers)

In [None]:
#Okay, agora que estamos confiante que temos uma série grande, vamos usar uma função mágica do jupyter/colab. 
#Aqui vamos usar uma função magica da celula chama 'timeit'. Ela vai rodar em alguns loops e determinar o tempo médio que leva a execução.

#Vamos usar o timeit na nossa série. Você pode definir quantos loops vc quer que a função avalie. por padrão é 1000 loops. mas vamos obervar apenas 100.
#Não se esqueça que para usar as funções especiais, elas devem ser invocadas no inicio da célula.

In [None]:
%%timeit -n 100
total = 0
for number in numbers:
  total+=number
total/len(numbers)

In [None]:
#Não muito ruim, mas vamos ver em um algoritmo melhor vetorizado.

In [None]:
%%timeit -n 100
total = np.sum(numbers)
total/len(numbers)

In [None]:
#Veja que aqui já obtemos tempos melhores. Vamos ver por fim o tempo de um código mais enxuto

In [None]:
%%timeit -n 100
total = np.mean(numbers)

In [None]:
#Isso é uma introdução a analise de algoritmo e o inicio para se pensar na otimização do seu código. Placas de videos e melhores processadores são
#São capazes de processar diversas informações simultaneamente e sendo mais rápidos.

In [None]:
#podemos querer realizar algumas operações com nossos valores, e que podem ser passadas diretamente incocando a série. veja:
numbers.head()

In [None]:
numbers+=2
numbers.head()

In [None]:
#Agora, a forma mais trabalhosa de fazer isso seria.
#Usando a iteritems() que retorna um rotulo e valor
for label, value in numbers.iteritems():
  #Agora, para cada item que é retornado na iteração
  numbers.at[label,value+2]
  

In [None]:
#Okay, ali em cima deu errado e depois tem que pesquisar como colocar.
#Para finalizar as operações acessando pelos indices. O atributo .loc permite não apenas modificar o dado no local, como também adicionar dado, caso 
#seja passado um dado que não existe.

test  =pd.Series([1,2,3])

test.loc['criação'] = 666
test

In [None]:
#Até agora mostramos séries que possuem com valores de indices unicos.
#Vamos encerrar essa sessão mostrando como panda atua quando os indices não são unicos e que é conceitualmente um pouco diferente do que vimos
#Vamos novamete criar uma série de alunos
students_classes = pd.Series({'Alice': 'Fisica', 'Jean' : 'Quimica', 'Carlos' : 'História', 'Samuel' : 'Inglês'})
students_classes

In [None]:
#Agora vamos criar uma série para um aluno com suas matérias

kelly = pd.Series(['Filosofia', 'Artes', 'Matemática'], index = ['Kelly', 'Kelly', 'Kelly'])
kelly

In [None]:
#Finalmente, podemos alocar todo esses dados em uma nova série, usando a função '.append()'.
class_ = students_classes.append(kelly)
class_

In [None]:
#Algumas ressalvas importantes do que foi visto agora usando o append. Primeiro, pandas vai tentar manter o tipo dos dados de maneira mais consistente possivel
#Nesse caso, são todos strings, então sem problemas. Seguundo, o método append não sobreescreve os dados, mas retorna uma nova série. mantentdo as originais antes
#do método, veja:

students_classes

In [None]:
#E finalmente, quando questionarmos pelo rotulo 'kelly', não teremos um simples valor, mas será retornado uma série.
class_.loc['Kelly']

### DataFrame


A estrutura do DataFrame é o coração do pandas, é o principal objeto no qual será trabalhado na análise dos dados e em sua limpeza.

O DataFrame é conceitualmente um objeto bidimensional de séries, onde contém um indice e diversas colunas. Cada coluna tem um rótulo, e a distinção entre as linhas e asa colunas é uma questão conceitual.  Ou basicamente um array bidimensional, uma tabela.

####Estrutura do DataFrame

In [None]:
#Vamos começar com um exemplo, vamos criar, novamente usando estudantes.

record1 = pd.Series({'Nome':'Alice','Classe':'Fisica','Nota': 8.5})
record2 = pd.Series({'Nome': 'Jaqueline','Classe':'Quimica', 'Nota':8.2})
record3 = pd.Series({'Nome':'Helena','Classe':'Biologia','Nota': 9.0})

In [None]:
#Como em séries, o DataFrame é indexavel. Aqui vamos usar um grupo de séries individuais e cada série representa uma linha de dao. Como na função séries.
#podemos passar os itens individuais em um arranjo e podemos passar nossos valores de indices como segundo argumento.

df = pd.DataFrame([record1,record2,record3], index=['Escola 1','Escola 2', 'Escola 3'])
df.head()

Unnamed: 0,Nome,Classe,Nota
Escola 1,Alice,Fisica,8.5
Escola 2,Jaqueline,Quimica,8.2
Escola 3,Helena,Biologia,9.0


In [None]:
#Uma forma alternativa e basicamente bem semelhante, é passar uma lista de dicionários como argumento. como:

alunos = [{'Nome': 'Jaqueline','Classe':'Quimica', 'Nota':8.2},{'Nome':'Helena','Classe':'Biologia','Nota': 9.0},{'Nome':'Alice','Classe':'Fisica','Nota': 8.5}]
#E então criar o dataFrame

df = pd.DataFrame(alunos, index = ['Escola 1','Escola 2','Escola 3'])
df

Unnamed: 0,Nome,Classe,Nota
Escola 1,Jaqueline,Quimica,8.2
Escola 2,Helena,Biologia,9.0
Escola 3,Alice,Fisica,8.5


In [None]:
#igual as séries, nós podemos extrair o dado usando .iloc e .loc atributos. Como o dataframe é bidimensional, passando um unico valor para o indice.
#Será retornada a série se tiver apenas uma linha para retornar.

#por exemplo. Se quisermos selecionar os dados relacionados a escola 2
df.loc['Escola 2']

Nome        Helena
Classe    Biologia
Nota             9
Name: Escola 2, dtype: object

In [None]:
df.iloc[1]

Nome        Helena
Classe    Biologia
Nota             9
Name: Escola 2, dtype: object

In [None]:
type(df.loc['Escola 2'])

pandas.core.series.Series

In [None]:
#É importante lembrar que os indices e os nomes das colunas ao longo dos eixos verticais e horizontais, podem não ser únicos. Por exemplo
#Por exemplo.
df.loc['Escola 1']

Nome      Jaqueline
Classe      Quimica
Nota            8.2
Name: Escola 1, dtype: object

In [None]:
#Uma ferramenta poderosa dos Dataframes do pandas é que é possivel selecionar rapidamente os dados baseados em multiplos eixos. 
#Por exemplo, se você quiser apenas listar os alunos pelos nomes , podemos apenas fornecer dois parametros para o .loc, primeiro para o indice da linha
#E o segundo para coluna, veja:

df.loc['Escola 1', 'Nome']

'Jaqueline'

In [None]:
#Lembre, que assim como nas séries. Os desenvolvedores do pandas tem implementado isso usando operações de indices e não parametros de funções.

#O que poderiiamos fazer se quisermos apenas selecionar uma simples coluna? Bem, tem alguns mecanismos. Primeiramente, podemos transpor a matriz;
#Os pivôs de todas as linhas se tornam colunas e vice versa, isso pode ser feito pelo atributo 'T'

df.T

Unnamed: 0,Escola 1,Escola 2,Escola 3
Nome,Jaqueline,Helena,Alice
Classe,Quimica,Biologia,Fisica
Nota,8.2,9,8.5


In [None]:
#Então podemos chamar a função .loc na transposta para pegar apenas o nome dos estudantes
df.T.loc['Nome']

Escola 1    Jaqueline
Escola 2       Helena
Escola 3        Alice
Name: Nome, dtype: object

In [None]:
#Contudo, desde que loc e iloc são usados para seleção de linhas. Panda reserva o operador de indice diretamente no dataframe para seleção de colunas
#Nos dataframes colunas sempre são nomeadas e a essa altura o léxico a seguir não nos é estranho

df['Nome']

Escola 1    Jaqueline
Escola 2       Helena
Escola 3        Alice
Name: Nome, dtype: object

In [None]:
#Mas isso já nos sobe um erro se tentarmos usar loc no nome de uma coluna
df.loc['Nome']

KeyError: ignored

In [None]:
#Desde que o resultado usando um indice pode ser ou um dataframe ou uma série, você pode encadear operações juntas. por exemplo, nós podemos selecionar todas
# as linhas relacionadas a escola usando .loc, e em seguinda projetar o nome da colinas de apenas essas linhas
df.loc['Escola 1']['Nome']

'Jaqueline'

In [None]:
#Encadear pelo indice. Como nós vimos pode vir com alguns custus que pode ser melhor evita-los, se usar outra abordagem. Em geral, encadeamentos fazer o panda
#retornar uma cópia do dataset ao invés de uma visão do dataset.

#Aqui tem outra abordahem, como vimos, .loc faz a seleção de linhas, e pode levar dois parametros, o indice da linha e a lista dos nomes das colunas.

#Se você quiser selecionar todas as linhas, podemos usar as colunas para indiciar um slicing inteiro. Como se tivessemos fazendo com caracteres numa lista do pyhton.
#Onde podemos cololcar o nome da coluna como segundo parametro da string. Se você quiser incluir multiplas colunas, podemos fazer semelhante as listas

#por exemplo

df.loc[:,['Nome','Nota']] #Nesta notação temos que, queremos todas as linhas e apenas os dados das colunas de nome e notas

Unnamed: 0,Nome,Nota
Escola 1,Jaqueline,8.2
Escola 2,Helena,9.0
Escola 3,Alice,8.5


In [None]:
#vamos falar agora da remoção de dados. É fácil remover dados em séries e dataframes, podemos usar a função 'drop'. Essa função pega um simples parametro
#que é o indice ou o nome da linha e remove. Esse truque, semelhante ao que vimos, não remove o dado do dataframe, mas retorna uma cópia do dataframe com o 
#Dados removido, veja:
df.drop('Escola 1')

Unnamed: 0,Nome,Classe,Nota
Escola 2,Helena,Biologia,9.0
Escola 3,Alice,Fisica,8.5


In [None]:
#Agora vamos ver nosso dataframe inicial
df

Unnamed: 0,Nome,Classe,Nota
Escola 1,Jaqueline,Quimica,8.2
Escola 2,Helena,Biologia,9.0
Escola 3,Alice,Fisica,8.5


In [None]:
#A função drop tem dois parametros opcionais interessantes. O primeiro é chamado de inplace, e se for True, o dataframe vai ser atualizado no lugar,
#Ao invés de retornar uma cópia. O segundo parametro é o eixo, que queremos remover. por padrão o valor 0, indica o eixo das linhas, enquanto 1 representa as colunas

#Por exemplo, vamos fazer uma copia do dataframe

df_copy = df.copy()

#Agora vamos remover a coluna dos nomes

df_copy.drop('Nome', inplace = True, axis=1)
df_copy

Unnamed: 0,Classe,Nota
Escola 1,Quimica,8.2
Escola 2,Biologia,9.0
Escola 3,Fisica,8.5


In [None]:
#Uma segunda forma de retirar a coluna, de uma forma mais direta, é usando o indice do operador e a função 'del'. Esse método tem efeito instantaneo no dataframe

del df_copy['Classe']
df_copy

Unnamed: 0,Nota
Escola 1,8.2
Escola 2,9.0
Escola 3,8.5


In [None]:
#Finalmente para adicionar uma nova coluna, é simples usando as operações de indices. por exemplo, se quisermos adicionar uma coluna com valores padrões.
#Nós podemos fazer usando atribuição, que irá automaticamente criar uma nova coluna

df['Qualificação'] = None
df

Unnamed: 0,Nome,Classe,Nota,Qualificação
Escola 1,Jaqueline,Quimica,8.2,
Escola 2,Helena,Biologia,9.0,
Escola 3,Alice,Fisica,8.5,


#### Indexando e carregando o DataFrame

Agora, que aprendemos sobre vizualizar e manipular o dataframe, vamos aprender a carregar o dataframe a partir de arquivos CSV (Comma Separated values). E então, Limpar e manipular o dataframe.


In [None]:
#Por debaixo de Ipythons (Colab/Jupyter), existem comandos operando em segundo plano, que facilita a não apenas a vizualização de dados(Como as tabelas dos Dataframes)
#Como alguns comandos especiais, Na 'Shell' do Iphyton temos o comando que iremos usar chamado 'cat', de 'concatenate", que apenas retorna o conteudo de um
#arquivo. Aqui veremos o dataset para predição de alunos que serão admitidos numa universidade.
!cat Admission_Predict.csv

Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR ,CGPA,Research,Chance of Admit 
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4,4.5,8.87,1,0.76
3,316,104,3,3,3.5,8,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2,3,8.21,0,0.65
6,330,115,5,4.5,3,9.34,1,0.9
7,321,109,3,3,4,8.2,1,0.75
8,308,101,2,3,4,7.9,0,0.68
9,302,102,1,2,1.5,8,0,0.5
10,323,108,3,3.5,3,8.6,0,0.45
11,325,106,3,3.5,4,8.4,1,0.52
12,327,111,4,4,4.5,9,1,0.84
13,328,112,4,4,4.5,9.1,1,0.78
14,307,109,3,4,3,8,1,0.62
15,311,104,3,3.5,2,8.2,1,0.61
16,314,105,3,3.5,2.5,8.3,0,0.54
17,317,107,3,4,3,8.7,0,0.66
18,319,106,3,4,3,8,1,0.65
19,318,110,3,4,3,8.8,0,0.63
20,303,102,3,3.5,3,8.5,0,0.62
21,312,107,3,3,2,7.9,1,0.64
22,325,114,4,3,2,8.4,0,0.7
23,328,116,5,5,5,9.5,1,0.94
24,334,119,5,5,4.5,9.7,1,0.95
25,336,119,5,4,3.5,9.8,1,0.97
26,340,120,5,4.5,4.5,9.6,1,0.94
27,322,109,5,4.5,3.5,8.8,0,0.76
28,298,98,2,1.5,2.5,7.5,1,0.44
29,295,93,1,2,2,7.2,0,0.46
30,310,99,2,1.5,2,7.3,0,0.54
31,300,97

In [None]:
#Okay, de inicio podemos perceber as colunas e que os alunos estão organuzados em linha pelo seu nº.
#Agora vamos importar o pandas de novo ssó pra não reiniciar o client caso necessário.
import pandas as pd

#pandas facilita transformar o arquivo CSV em um Dataframe, com a função 'read_csv()'
df = pd.read_csv('Admission_Predict.csv')

df.head()

Unnamed: 0,Serial No.,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
0,1,337,118,4,4.5,4.5,9.65,1,0.92
1,2,324,107,4,4.0,4.5,8.87,1,0.76
2,3,316,104,3,3.0,3.5,8.0,1,0.72
3,4,322,110,3,3.5,2.5,8.67,1,0.8
4,5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Veja que o indice começa no zero enquanto o serial no 1, portanto parece que o panda criou o indice, podemos passar a coluna do serial como indice do no nosso
#dataframe
df = pd.read_csv('Admission_Predict.csv', index_col = 0)
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Veja que temos duas colunas 'SOP' e 'LOR', provavelmente nem todo mundo sabe o que significa, nem eu, então vamos melhorar isso
#Com pandas podemos mudar o nome das colunas com a função rename(). Isso leva dois parametros chamados, um para indicar que queremos renomear as colunas
#E outro contendo um dicionario onde, o rotulo é o nome atual da coluna, e o valor é o nome que queremos por no lugar.

new_df = df.rename(columns={'GRE Score' : 'GRE Score','TOEFL Score' : 'TOEFL Score','University Rating' : "University Rating", 'SOP': 'Statement of Purpose', "LOR":'Letter of Recommendation', 'CGPA' : 'CGPA', "Research" : "Research", 'Chance of Admit':'Chance of Admit'})

new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Se olharmos, não mudou os dois valores que colocamos, se percebermos é pq tem um espaço depois de LOR, vamos consertar isso então né

#Não é necessario passar todos os nomes de novo

new_df = new_df.rename(columns={'LOR ': 'Letter of Recommendation'})
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Mas agora com esse problema vemos a fragilidade desse método, e se for dois espaços? um tab? outra maneira é criar um função que faz essa limpeza pra gente
#Python tem uma função bem útil para remover espaços em brancos chamada 'strip()'. Quando passamos isso dentro da função rename, passamos como um parametro
#mapper, e então indicamos que eixo queremos, colunas ou indices(linhas)

new_df = new_df.rename(mapper = str.strip, axis ='columns')
new_df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,Statement of Purpose,Letter of Recommendation,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Agora que fizemos um pouco de manipulação vamos vizualizar as colunas dos dois dataframes que criamos
df.columns
#Perceba que tem alguns espaços ainda. pois o panda cria uma copia do dataframe

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'SOP', 'LOR ', 'CGPA',
       'Research', 'Chance of Admit '],
      dtype='object')

In [None]:
new_df.columns

Index(['GRE Score', 'TOEFL Score', 'University Rating', 'Statement of Purpose',
       'Letter of Recommendation', 'CGPA', 'Research', 'Chance of Admit'],
      dtype='object')

In [None]:
#Nós podemos também uasr o atribudo df.columns por atribuilo a uma lista de nomes de colunas que vão diretamente renomear as colunas, no dataframe original.
#Isso é bem eficiente quando se trabalha com grandes dataframes e permite renomear colunas individualmente. Essa tequinica não é afetada por erros
#dos rotulos das colunas. Com uma liusta, podemos usar o indice da lista para mudar certos valores ou usar a compreensao de lista para mudar todos os valores

#Como exemplo, vamos mudar todas as letras para minusculas. Mas primeiro, precisamos de nossa lista
cols = df.columns
#Um pouco de compreensão de lista mudar a letra
cols = [x.lower().strip() for x in cols]
#E então apenas sobreescrevemos 
df.columns = cols
df.head()

Unnamed: 0_level_0,gre score,toefl score,university rating,sop,lor,cgpa,research,chance of admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


####"Questionando" um DataFrame


Agora, para entender melhor o que as informações que o dataframe nos diz. O primeiro passo é entender as mascaras booleanas. Uma máscara booleana é um array uni ou bi dimensional, onde cada valor é True ou False. Esse array vai ser sobreposto nossos dados, e as colunas que combinarem com Verdadeiro, vão ser admitidas no resultado final, ao contrário daquelas que derem False.


In [None]:
#Vamos fazer um exemplo. E importar tudo de novo, pois já to cansado de reiniciar o kernel todo e todos os comandos

import pandas as pd
#E carrefar novamente nosso arquivo
df = pd.read_csv('Admission_Predict.csv', index_col = 0)

df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Agora vamos por a mascara procurando pelos alunos com taxa de aprovação de 70%

mask = df['Chance of Admit '] > 0.70
mask

Serial No.
1       True
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398     True
399    False
400     True
Name: Chance of Admit , Length: 400, dtype: bool

In [None]:
#O resultado da comparação é uma mascara booleana, onde o pandas está fazendo a comparação que foi definida com cada indice. O resultado é uma série 
#Com apenas operadores booleanos relacionados aos respectivos indices do dataframe

#Então, agora vamos usar essa mascara, para selecionar os dados de nosso interesse, vamos fazer isso usando a função '.where()'
df.where(mask).head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
5,,,,,,,,


In [None]:
#Veja que os valores NaN ainda estão mantidos, então podemos remove-los usando a função '.dropna()'
df.where(mask).dropna().head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337.0,118.0,4.0,4.5,4.5,9.65,1.0,0.92
2,324.0,107.0,4.0,4.0,4.5,8.87,1.0,0.76
3,316.0,104.0,3.0,3.0,3.5,8.0,1.0,0.72
4,322.0,110.0,3.0,3.5,2.5,8.67,1.0,0.8
6,330.0,115.0,5.0,4.5,3.0,9.34,1.0,0.9


In [None]:
#O dataframe agora descartou os valores NaN, e veja que os indices dos valores removidos criou espaços entre os valores, que antes eram continuos
#Apesar de funcionar, where não é o metodo mais simples de fazer isso.  Ao invés, o comando pode ser encurtado, essa sintaxe já combina o '.where()' com '.dropna()'

df[df['Chance of Admit '] > 0.70].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9


In [None]:
#Apenas relembrando que podemos usar a chamada do dataframe pelas chaves de duas formas:
#Pode ser usado pra vizualizar uma coluna
df['GRE Score'].head()

Serial No.
1    337
2    324
3    316
4    322
5    314
Name: GRE Score, dtype: int64

In [None]:
#Ou um conjunto de colunas, passando como parametro uma lista com o nome das colunas
df[['GRE Score','TOEFL Score']].head()

Unnamed: 0_level_0,GRE Score,TOEFL Score
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1
1,337,118
2,324,107
3,316,104
4,322,110
5,314,103


In [None]:
#Ou podemos passar como parametro uma mascara booleana
df[df['GRE Score'] > 320].head()
#Onde já estamos usando em uma linha as funcionalidaes do '.loc()', '.where()' e '.dropna()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
4,322,110,3,3.5,2.5,8.67,1,0.8
6,330,115,5,4.5,3.0,9.34,1,0.9
7,321,109,3,3.0,4.0,8.2,1,0.75


In [None]:
#Algo que pode ser bem util, mas que no momento resulta em um erro, é combinar mascaras booleanas e selecionar os dados com base em diversos critérios. 
#Dessa forma, apenas os dados que corresponderem True em todos os critérios são selecionados (De acordo com o operador usado 'and' ou 'or')

#Vamos tentar
(df['Chance of Admit '] > 0.7) and (df['Chance of Admit '] < 0.9)

ValueError: ignored

In [None]:
#Isso nos retorna um erro pois ambos o resultado de ambas comparações são do tipo objeto, e o python não sabe operar com essas estrututas
#Em contrapartida, temos um operador adaptado do numpy/pandas que realiza esse tipo de operação

#Não se esqueça de separar os termos individuais por parenteses para evitar erro.

(df['Chance of Admit '] > 0.7) & (df['Chance of Admit '] <0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398    False
399    False
400    False
Name: Chance of Admit , Length: 400, dtype: bool

In [None]:
#Outra maneira de fazer isso, é se livrar do operador de comparação completamente e usar algumas funções já imbuidas que mimetizam essa abordagem, veja:

df['Chance of Admit '].gt(0.7) & df['Chance of Admit '].lt(0.9)

Serial No.
1      False
2       True
3       True
4       True
5      False
       ...  
396     True
397     True
398    False
399    False
400    False
Name: Chance of Admit , Length: 400, dtype: bool

In [None]:
#Ou de forma mais simplificada

# Obs: gt = 'greater than'  lt = 'less than'
df['Chance of Admit '].gt(0.7).lt(0.9)

Serial No.
1      False
2      False
3      False
4      False
5       True
       ...  
396    False
397    False
398    False
399     True
400    False
Name: Chance of Admit , Length: 400, dtype: bool

####Indexando DataFrame

Até agora temos visto que série e dataframes são operados por um indice, que é basicamente as linhas da tabela. E que no pandas, as linhas correspondem ao eixo 0. Os indices podem ser auto gerados ou definidos por nós, na hora de montar o a série/dataframe, ou na hora de inserir uma nova categoria ou dado. Outra opção é usar a função '`set_index()`'. Essa função pega uma lista de colunas e promove essa lista para indices.

In [None]:
#Vamos apenas importar tudo de novo
import pandas as pd
df = pd.read_csv('Admission_Predict.csv', index_col = 0)
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Chance of Admit
Serial No.,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,337,118,4,4.5,4.5,9.65,1,0.92
2,324,107,4,4.0,4.5,8.87,1,0.76
3,316,104,3,3.0,3.5,8.0,1,0.72
4,322,110,3,3.5,2.5,8.67,1,0.8
5,314,103,2,2.0,3.0,8.21,0,0.65


In [None]:
#Vamos supor que não queremos que o Serial seja o indice, mas sim a chance de ser admitido. Então vamos guardar a coluna do sérial em uma nova coluna,
# e então nós podemos usar o 'set_index' para colocar um indice.

#Vamos primeiro fazer a copia
df['Serial Number'] = df.index
#E então marcamos o indice como outra coluna
df = df.set_index('Chance of Admit ')
df.head()

Unnamed: 0_level_0,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Serial Number
Chance of Admit,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0.92,337,118,4,4.5,4.5,9.65,1,1
0.76,324,107,4,4.0,4.5,8.87,1,2
0.72,316,104,3,3.0,3.5,8.0,1,3
0.8,322,110,3,3.5,2.5,8.67,1,4
0.65,314,103,2,2.0,3.0,8.21,0,5


In [None]:
s1 = pd.Series({1: 'Alice', 2:'Jack', 3:'Molly'})
s2 = pd.Series({'Alice' : 1, 'Jack': 2, 'Molly':3})

s2.iteritems()

<zip at 0x7f75e8b01208>

In [None]:
#Você verá que quando criar um novo indice de uma coluna existente, o indice tem o nome que era daquela coluna original

#Nós podemos descartar o indice completamente chamando a função reset_index(). Isso promove o indice para uma nova coluna, e cria os indices por valores padrões
df = df.reset_index()
df.head()

Unnamed: 0,Chance of Admit,GRE Score,TOEFL Score,University Rating,SOP,LOR,CGPA,Research,Serial Number
0,0.92,337,118,4,4.5,4.5,9.65,1,1
1,0.76,324,107,4,4.0,4.5,8.87,1,2
2,0.72,316,104,3,3.0,3.5,8.0,1,3
3,0.8,322,110,3,3.5,2.5,8.67,1,4
4,0.65,314,103,2,2.0,3.0,8.21,0,5


In [None]:
#Uma caracteristica interessante do panda é iondexação em multi nivel. Isso e similar as chaves compostas em sistemas de base de dados.
#Para criar um indice de multinivel, nós simplesmeente chama 'set_index()' e da a ele uma lista de colunas, que nós e de interesse em promover a indice

#Panda irá procurar ordenadamente,encontrando os dados distintos e formando então indices compostos.
#Um bom exemplo disso é encontrado quando trabralhando com dados geograficos que é ordenado por regiões ou demografias.

#Vamos mudar o dataset para olhar em alguns dados de censo. Isso está armazenado no arquivo 'census.csv'

In [None]:
df = pd.read_csv('census.csv')
df.head()

FileNotFoundError: ignored

In [None]:
#In this dataset temos dois leveis resumidos, um contem o os dados resumidos de todo pais. E um desses contem o dado
#resumido pra cada estado. Eu quero ver a lista de todos os valoes unicos em dada coluna. Nesse Dataframe, veremos 
#Que valores são possivel para "SUMLEV" usando a função '.unique()',.

df['SUMLEV'].unique()

In [None]:
#Logo vemos que é possivel apenas dois valores distintos 

#Vamos tirar todas linhas que sintetisam o level do estado, e manter o dado do pais

df = df[df['SUMLEV'] == 50]
df.head()

In [None]:
#Vamos reduzir um pouco os dados para melhor vizualizar e escolher algo que seja do nosso interesse
#Então vamos manter os nascimentos, para isso, basta passar uma lista com as colunas do dataframe que queremos vizualizar

colunas = ['STNAME', 'CTYNAME', 'BIRTHS2010', 'BIRTHS2011', 'BIRTHS2013','BIRTHS2015', 'POPESTIMATE2010', 'POPESTIMATE2011', 'POPESTIMATE2012', 'POPESTIMATE2013', 'POPESTIMATE2014', 'POPESTIMATE2015']

df = df[colunas]
df.head()

In [None]:
#Agora, para criar uma indexação multinivel, vamos criar uma lista com as colunas que queremos como indice, e usar
#a função '.set_index()' como fizemos anteriormente

df = df.set_index(['STNAME', 'CTYNAME'])
df.head()

In [None]:
#Uma pergunta que imediatamente surge é: Como indagar o dataframe (query), vimos que o atributo loc
#pode levar multiplos argumentos, A que podemos query tanto as linhas quanto colunas. Quando usamos multindex, devemos
#fornecer argumentos em ordem que queremos consultar. Dentro do indice, cada coluna é chamada um level e a coluna mais extrema
# é 0.

#Se quisermos ver o resultado das populações de Washtenaw County e o estado de Michigan
df.loc['Michigan', 'Washtenaw County']

In [None]:
#Se tivermos interessados em comparar as duas contagens, por exemplo, Washtenaw e Wayne, podemos passar uma lista de tuplas
#descrevendo os indices que queremos procurar. Desde que temos um multiindex de dois valores, o estado e a contagem, necessitamos
#prover dois valores a cada elemento da nossa lista de filtragem. Cada tupla deve ter dois elementos, o primeiro sendo o primeiro indice
#e o segundo o segundo indice.

#Portanto, nesse caso, vamos ter uma lista de duas duplas, onde cada dupla, o primeiro elemento é michigan e o segundo a contagem

df.loc[[('Michigan','Washtenaw County'),('Michigan', 'Wayne County')]]

####Valores Ausentes

Vimos anteriormente como manipular dados do tipo None, que no Numpy é NaN. E existem outras classificações como N/A, NULL, e as vezes a rotulação dos dados faltando não é muito clara. E os dados podem ser nulos por diversos motivos quando está fazendo uma pesquisa. As vezes pode ser uma omissão em participar, esse tipo de dado é chamado de **Missing at random**, e se tiver outras variaveis, as vezes é possivel predizer esse valor (Como genero e etica). Se não há relação, então chamamos de **missing completely at random (MCAR)** 

Apenas alguns exemplos de dados e existem outros tipos de valores ausentes. Mas no geral o dado está ausente por que não foi coletado por diversos motivos durante a pesquisa.


In [None]:
import pandas as pd

In [None]:
#Pandas tem um parametro muito bom para se trablhar com dados ausentes chamada "na_values" e para especificarmos
#que tipo de rotulo está sendo usando para dados ausentes(lembre-se que pode ter diversas classificações), permitindo
#passemos strings, listas ou dicts de valores.

df = pd.read_csv('class-grades.csv', error_bad_lines = False) #Por algum motivo estava dando erro.
                                                              #E com esse comando o erro parou
df.head(10)

b'Skipping line 22: expected 6 fields, saw 7\nSkipping line 40: expected 6 fields, saw 7\nSkipping line 62: expected 6 fields, saw 7\n'


Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,30.0,63.15,48.89
3,7,81.22,96.06,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
7,7,72.85,86.85,60.0,,56.11
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61


In [None]:
#Agora podemos usar a função 'isnull()' para aplicar uma mascara boolena sobre todo o dataframe
mask = df.isnull()
mask.head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,True,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [None]:
#Isso pode ser util para processar linhas baseadas em certas colunas de dados. Outra operação útil é poder descartar todas
#Essas linhas que tem dados faltando. Isso pode ser feito usando a função .'dropna()'
df.dropna().head(10)

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,30.0,63.15,48.89
3,7,81.22,96.06,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61
10,7,80.44,90.2,75.0,91.48,39.72


In [None]:
#Uma função que pode vir a calhar quando trabalhar com dados ausentes, é a função prencher, ou melhor '.fillna()'.
#Essa função substitui os valores NaN por outro valor do seu interesse, por exemplo, 0. 

df.fillna(0, inplace= True) #Lembre que as operações com data frame retornam uma copia do dataframe
df.head(10)                  #Então se quisermos modificar o dataframe original, usamos o parametro 'inplace'.

Unnamed: 0,Prefix,Assignment,Tutorial,Midterm,TakeHome,Final
0,5,57.14,34.09,64.38,51.48,52.5
1,8,95.05,105.49,67.5,99.07,68.33
2,8,83.7,83.17,30.0,63.15,48.89
3,7,81.22,96.06,49.38,105.93,80.56
4,8,91.32,93.64,95.0,107.41,73.89
5,7,95.0,92.58,93.12,97.78,68.06
6,8,95.05,102.99,56.25,99.07,50.0
7,7,72.85,86.85,60.0,0.0,56.11
8,8,84.26,93.1,47.5,18.52,50.83
9,7,90.1,97.55,51.25,88.89,63.61


In [None]:
# Podemos também usar o 'na_filter' para desligar o filtro dos espaços, caso os espaços em branco sejam o dado de interesse


#Em contrapartida ao que vimos até agora, de como controlar como os dados nulos serão carregados. Podemos considerar
#as vezes que os valores nulos possuem alguma informação útil. 

df = pd.read_csv('log.csv')
df.head(20)

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [None]:
#Na primeira coluna o tempo está no formato Unix, a proxima o usuario seguido pela pagina que ele estáva acessando.
# e o video que ele estava tocando, perceba que cada linha do dataframe tem uma posição de reprodução e que ela aumenta
#em 1 a cada 30 seg. Menos pro bob, parece que ele pausou o video, pois conforme o tempo passou a reprodução permaneceu
# Veja como foi dificil conseguir interpretar isso atraves desses dados, pois eles não estão muito legiveis.
#Primeiro que não ta organizado pelo tempo, como esperavamos. E isso é muito comum em sistemas que tem alto grau de paralelismo.
#Segundo que tem um montante de valores para volume e som faltando. Não é eficiente enviar informação através do sistema
#Se o estado não mudou, então esse sistema em particular apenas preenche os espaços com valores nulos, até que ocorra
#Alguma alteração.

#Vamos usar o método '.parameter()'. Os dois valores para preencher são 'ffill' and 'bfill'. ffill é 'forward filling'
# e isso atualiza um valor nulo de uma celula especifica com o valor da linha anterior. bfill é 'backward filling' e
#que é exatamente o oposto. perceba que precisamos que nossos dados estejam em ordem para isso ter o efeito que queremos.
# Dados que vem de base de dados tradicionais não possuem ordem garantida, como esse.

#No pandas a gente pode tanto ordenar pelo index, quanto pelos valores, por enquanto vamos promover o tempo para indice
#E então ordena -lo

df = df.set_index('time')
df = df.sort_index()
df.head(20)

Unnamed: 0_level_0,user,video,playback position,paused,volume
time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [None]:
# Se olharmos com cuidado vamos percever que o indice não é realmente unico, pois mais de uma pessoa pode usar o 
#sistema ao mesmo tempo. Aqui pra gente pode ser interessante usar um index em multinivel

df = df.reset_index()
df = df.set_index(['time','user'])
df.head(20)

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,,
1469974454,sue,advanced.html,24,,
1469974484,cheryl,intro.html,7,,
1469974514,cheryl,intro.html,8,,
1469974524,sue,advanced.html,25,,
1469974544,cheryl,intro.html,9,,
1469974554,sue,advanced.html,26,,
1469974574,cheryl,intro.html,10,,


In [None]:
#Agora que os dados estão organizados, podemos preecher os dados ausentes usando 'ffill'. Podemos lidar com colunas 
# ou conjunto de colunas de uma vez as projetando, então não precisaremos corsertar todos os valores ausentes em um comando

df = df.fillna(method='ffill')
df.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,video,playback position,paused,volume
time,user,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1469974424,cheryl,intro.html,5,False,10.0
1469974424,sue,advanced.html,23,False,10.0
1469974454,cheryl,intro.html,6,False,10.0
1469974454,sue,advanced.html,24,False,10.0
1469974484,cheryl,intro.html,7,False,10.0


In [None]:
#Nós podemos também customizar o preencher para realocar valores com a função '.replace()'. Isso permite repor valores
#com diferentes abordagens (Valor por valor, listas, dicts, regex). Por exemplo

df = pd.DataFrame({'A' : [1, 1, 2, 3, 4],
                   'B' : [3, 6, 3, 8, 9],
                   'C' : ['a', 'b', 'c', 'd', 'e']})
df

Unnamed: 0,A,B,C
0,1,3,a
1,1,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [None]:
#podemos mudar os valores '1' por '100', vamos tentar uma abordagem valor por valor
df.replace(1,100)

Unnamed: 0,A,B,C
0,100,3,a
1,100,6,b
2,2,3,c
3,3,8,d
4,4,9,e


In [None]:
#Agora por listas
df.replace([1, 3], [100, 300])

Unnamed: 0,A,B,C
0,100,300,a
1,100,6,b
2,2,300,c
3,300,8,d
4,4,9,e


In [None]:
#é legal como pandas também funciona o replace com regex, vamos trazer de volta nossoo dataset

df = pd.read_csv('log.csv')
df

Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,intro.html,5,False,10.0
1,1469974454,cheryl,intro.html,6,,
2,1469974544,cheryl,intro.html,9,,
3,1469974574,cheryl,intro.html,10,,
4,1469977514,bob,intro.html,1,,
5,1469977544,bob,intro.html,1,,
6,1469977574,bob,intro.html,1,,
7,1469977604,bob,intro.html,1,,
8,1469974604,cheryl,intro.html,11,,
9,1469974694,cheryl,intro.html,14,,


In [None]:
#Para repor usando regex, nós usamos o primeiro parametro 'to_replace', seguido do padrão do regex que queremos encontrar.
#O segundo parametro é o valor que queremos emitir, quando ouver uma combinação.
#E o terceiro parametro 'regex = True'.

#Suponhamos que queremos detectar todas as paginas, onde os videos estao sendo reproduzidos, e basicamente eles
#Eles acabam em HTML, e apenas queremos sobrescrever com a chave "webpage"
df.replace(to_replace='.*.html$', value = 'webpage', regex = True)


Unnamed: 0,time,user,video,playback position,paused,volume
0,1469974424,cheryl,webpage,5,False,10.0
1,1469974454,cheryl,webpage,6,,
2,1469974544,cheryl,webpage,9,,
3,1469974574,cheryl,webpage,10,,
4,1469977514,bob,webpage,1,,
5,1469977544,bob,webpage,1,,
6,1469977574,bob,webpage,1,,
7,1469977604,bob,webpage,1,,
8,1469974604,cheryl,webpage,11,,
9,1469974694,cheryl,webpage,14,,
