# Aula 8 - pandas

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Introdução ao Pandas
- 2) Conceitos de Dataframe e Series
- 3) Axis e slicing: uso de loc/iloc
- 4) Criação e manipulação de DF e SS a partir de dicionário, listas e arrays
- 5) Filtragem de dados e parâmetro inplace
- 6) Leitura de dados (read_csv, read_excel, read_clipboard)
_______

### Objetivos

Apresentar o pandas, frisando sua importância para o processamento de dados e em data science. Apresentar seus principais conceitos (Series, DataFrame) e funcionalidades (leitura de arquivo, filtros, seleção, apply, escrita de arquivos, etc.)

### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Conhecer o pandas, suas vantagens e principais usos;
- Saber como ler um arquivo com o pandas (csv, excel, etc.), criando DataFrames;
- Entender o conceito de Series e como elas são construídas;
- Entender o conceito de DataFrame em termos das Series;
- Saber como trabalhar com DataFrames para o processamento de dados:
    - Seleções: uso de loc/iloc;
    - Filtros;
    - Criação de novas colunas.
- Saber como ler e escrever de/em um arquivo com o pandas (csv, excel, etc.).

____
____
____

## 1) Pandas

O pandas é uma das bibliotecas mais usadas em data science.

Seu objetivo é a **leitura, processamento e manipulação de dados** na forma de tabelas chamadas de **"DataFrame"**

<img src="pandas-data-structure.svg"  style="width: 700px" >

Antes de conhecer o Pandas, vamos ler o arquivo "alunos.csv", da forma como aprendemos na aula de arquivos

In [3]:
import csv

f = open("alunos.csv", "r", encoding="utf-8")

leitor = csv.reader(f, delimiter=';', lineterminator='\n')

print(list(leitor))

planilha = []

for linha in leitor:
    planilha.append(linha)
    
f.close()

print(planilha)

[['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'], ['110201', 'Antonio Carlos', '20', '6.5', '8.5', '7', '6'], ['110212', 'Ana Beatriz', '20', '7', '7', '7', '8'], ['110218', 'Carlos Vernes', '17', '7', '7', '7', '7'], ['110307', 'Francisco Cunha', '20', '9', '8.5', '8.5', '10'], ['110275', 'Sandra Rosa', '15', '6.5', '7.5', '7', '7'], ['110281', 'Juliana Arruda', '18', '7.5', '7', '7.5', '8'], ['110301', 'Joao Galo', '20', '5', '6.5', '7', '5'], ['110263', 'José Valente', '20', '10', '10', '10', '10'], ['110271', 'Maria Ferreira', '19', '9.5', '8', '7', '10'], ['110236', 'Adriana Tavares', '20', '8', '8', '8', '8']]


Como fizemos na aula, uma vez lido o arquivo, é possível processá-lo de diversas maneiras.

Por exemplo, para obter **a primeira coluna**, isto é, os nomes, fazemos:

In [226]:
[item[1] for item in planilha if item[1]!='Nome']

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Agora, vamos usar o Pandas e aprender uma forma muito mais fácil de processar dados!

Existem diversas formas de instalar o pandas. A mais simples é instalar o pacote Anaconda (https://www.anaconda.com/distribution/) que já vem com o Python e diversas bibliotecas científicas e ciência de dados instaladas.

Outra forma, caso você já tenha o python instalado mas não o pandas, é o utilizar o gerenciador e pacotes pip, através do comando no seu **terminal**:

`$ pip install pandas`

ou dentro do jupyter

`!pip install pandas`

In [1]:
# importando a biblioteca
import pandas as pd

# lendo o arquivo
tabela = pd.read_csv("alunos.csv", sep=';') 
#chuncksize é p quando vc quer ler uma tabela de pedaços em pedaços (tbm consegue salvar de pedaços em pedaços)
#dtype vc teria que passar o tipo que vc quer q ele leia cada coluna
#infer_datetime_format é p se o seu dado vier com data, vc já consegue falar p ele "encontre a coluna que tem data"
#na_filter e na_values
#nrows p/ quantidade de linhas que vc quer ler
#usecols p/ selecionar quais colunas vc quer dentro do seu dataframe

tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [64]:
tabela.shape #Não conta o header nem os índices

(10, 7)

### Acessando elementos

Podemos **acessar os valores nas colunas** pelo nome delas:

In [65]:
tabela.Nome

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [62]:
tabela["Nome"]

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

Sempre que tiver colunas com espaços no nome, troque pq pode dar problema!

In [66]:
nome_da_coluna = "Nome"

tabela[[nome_da_coluna]] #Retorna como dataframe
tabela[nome_da_coluna] #Retorna como series

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

Dá pra **selecionar apenas algumas colunas** do dataframe (ou seja, criando um sub-dataframe):

In [233]:
tabela[["Nome", "Prova_1"]] #+ de 1 coluna é obrigatório passar como lista, diferente de quando é só uma coluna
#Obs.: Quando queremos acessar linhas especicificas surge a necessidade do loc ou iloc, pq só for só com colunas específicas faz assim

Unnamed: 0,Nome,Prova_1
0,Antonio Carlos,6.5
1,Ana Beatriz,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5
6,Joao Galo,5.0
7,José Valente,10.0
8,Maria Ferreira,9.5
9,Adriana Tavares,8.0


Se quisermos obter uma lista propriamente com os valores na coluna, usamos o método `tolist()`:

In [232]:
tabela["Nome"].tolist()

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

In [11]:
tabela.tail(3) #Pega o final do dataframe, por padrão 5 linhas

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [50]:
#Head pega o começo do dataframe, por padrão 5 linhas
#Melhor fazer slice do que usar o head
tabela2 = tabela.head(3).copy()
tabela2

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [51]:
tabela2 = tabela2.set_index('Nome') #O índice passa a ser a coluna Nome
tabela2

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Antonio Carlos,110201,20,6.5,8.5,7.0,6
Ana Beatriz,110212,20,7.0,7.0,7.0,8
Carlos Vernes,110218,17,7.0,7.0,7.0,7


In [52]:
tabela2.reset_index(inplace=True) #Tira o index e transforma isso p/ coluna
tabela2

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7


In [53]:
tabela2.set_index([['a', 'a', 'c']], inplace=True) #inplace=True modifica o próprio dataframe
#Quando vc quer escrever novos índices é obrigatório passar uma lista de lista com os índices (com a quantidade certa)
#Pode começar a escrever e dar um tab p/ ver se o método aceita
tabela2

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,Antonio Carlos,110201,20,6.5,8.5,7.0,6
a,Ana Beatriz,110212,20,7.0,7.0,7.0,8
c,Carlos Vernes,110218,17,7.0,7.0,7.0,7


In [121]:
tabela2.index

Index(['a', 'a', 'c'], dtype='object')

In [67]:
tabela2.loc['a']

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,Antonio Carlos,110201,20,6.5,8.5,7.0,6
a,Ana Beatriz,110212,20,7.0,7.0,7.0,8


In [70]:
tabela2.loc['a', 'Nome']= 'Ana Beatriz' #Fazendo o slice e redefinindo
#Nesse caso, vem duas linhas mesmo passando só um índice pq tem duas linhas com índice a

In [71]:
tabela2.loc['a'].query("Nome=='Ana Beatriz'") #Filtra onde a coluna Nome é igual a Ana Beatriz

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,Ana Beatriz,110201,20,6.5,8.5,7.0,6
a,Ana Beatriz,110212,20,7.0,7.0,7.0,8


In [72]:
tabela2.loc[tabela2['Nome']=='Ana Beatriz', 'Prova_4'] #"Quero as linhas que a coluna Nome é Ana Beatriz"

a    6
a    8
Name: Prova_4, dtype: int64

### Acessando elementos

Podemos utilizar o `.loc[indice_linhas, nome_colunas]` para acessar determinas colunas e as linhas através dos índices e nomes das colunas.

Se os índices passarem a ser nomes por ex., não vai funcionar 0, 1, ...

In [74]:
tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [5]:
tabela[1:5] #Só funciona p linhas

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


In [78]:
tabela2.loc['a']

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,Ana Beatriz,110201,20,6.5,8.5,7.0,6
a,Ana Beatriz,110212,20,7.0,7.0,7.0,8


In [79]:
tabela.loc[:, ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
0,Antonio Carlos,6.5
1,Ana Beatriz,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5
6,Joao Galo,5.0
7,José Valente,10.0
8,Maria Ferreira,9.5
9,Adriana Tavares,8.0


In [80]:
tabela.loc[3:5, ["Nome", "Prova_2"]]
#5 incluso (não é uma questão de índice padrão que nem na lista, vc tá especificando exatamente os que vc quer, pensa que funcionaria com nomes)

Unnamed: 0,Nome,Prova_2
3,Francisco Cunha,8.5
4,Sandra Rosa,7.5
5,Juliana Arruda,7.0


In [82]:
tabela.loc[[3,5,9], ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
5,Juliana Arruda,7.5
9,Adriana Tavares,8.0


In [83]:
tabela.loc[:, 'Prova_1':'Prova_4']

Unnamed: 0,Prova_1,Prova_2,Prova_3,Prova_4
0,6.5,8.5,7.0,6
1,7.0,7.0,7.0,8
2,7.0,7.0,7.0,7
3,9.0,8.5,8.5,10
4,6.5,7.5,7.0,7
5,7.5,7.0,7.5,8
6,5.0,6.5,7.0,5
7,10.0,10.0,10.0,10
8,9.5,8.0,7.0,10
9,8.0,8.0,8.0,8


selecionar apenas uma linha de uma coluna

In [84]:
tabela.loc[9, "Nome"]

'Adriana Tavares'

É possível **alterar valores** da tabela. Para isso, primeiro localizamos o valor a ser alterado com o **.loc**, passando a linha e coluna correspondente, e depois atribuímos o novo valor

In [252]:
tabela.loc[9, "Nome"] = "Joãozinho"
tabela.loc[9, "Frequencia"] = 100

In [253]:
tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Joãozinho,100,8.0,8.0,8.0,8


In [85]:
tabela = tabela.set_index('Nome')
tabela

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Antonio Carlos,110201,20,6.5,8.5,7.0,6
Ana Beatriz,110212,20,7.0,7.0,7.0,8
Carlos Vernes,110218,17,7.0,7.0,7.0,7
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7
Juliana Arruda,110281,18,7.5,7.0,7.5,8
Joao Galo,110301,20,5.0,6.5,7.0,5
José Valente,110263,20,10.0,10.0,10.0,10
Maria Ferreira,110271,19,9.5,8.0,7.0,10
Adriana Tavares,110236,20,8.0,8.0,8.0,8


Vamos tentar selecionar as linhas 3 à 5 das colunas ['Prova_1','Prova_2'] como fizemos anteriormente

O que aconteceu? <br>
O `.loc` faz o slice considerando o index da matriz e agora o index é o nome dos alunos. 

In [89]:
tabela.loc['Francisco Cunha':'Juliana Arruda', ['Prova_1','Prova_2']]

Unnamed: 0_level_0,Prova_1,Prova_2
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Francisco Cunha,9.0,8.5
Sandra Rosa,6.5,7.5
Juliana Arruda,7.5,7.0


Para resetar o index e voltarmos a ter os valores originais:

In [90]:
tabela.reset_index(inplace=True)
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8
6,Joao Galo,110301,20,5.0,6.5,7.0,5
7,José Valente,110263,20,10.0,10.0,10.0,10
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8


Repare que quando utilizamos o `inplace=True` como um argumento do método nós não precisamos referenciar o dataframe. <br>
Nós podemos utilizar o `inplace=True` em vários métodos do pandas.

### Seleção através das posições das linhas e colunas
Outra forma de acessarmos dados é através do `.iloc[número_linhas, número_colunas]` utilizando as posições das linhas e colunas

O slice do iloc considera o final como excluso!

In [94]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8
6,Joao Galo,110301,20,5.0,6.5,7.0,5
7,José Valente,110263,20,10.0,10.0,10.0,10
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8


In [95]:
tabela.iloc[9, 1]

110236

In [104]:
tabela.iloc[9, :] #ou simplesmente tabela.iloc[9]

Nome          Adriana Tavares
RA                     110236
Frequencia                 20
Prova_1                     8
Prova_2                     8
Prova_3                     8
Prova_4                     8
Name: 9, dtype: object

In [105]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas sequenciais
tabela.iloc[3:5, 1:5]

Unnamed: 0,RA,Frequencia,Prova_1,Prova_2
3,110307,20,9.0,8.5
4,110275,15,6.5,7.5


In [106]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas não sequenciais
tabela.iloc[3:5, [1,5]]

Unnamed: 0,RA,Prova_3
3,110307,8.5
4,110275,7.0


In [108]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8
6,Joao Galo,110301,20,5.0,6.5,7.0,5
7,José Valente,110263,20,10.0,10.0,10.0,10
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8


In [107]:
tabela.iloc[[3,4],[1,3,4]]

Unnamed: 0,RA,Prova_1,Prova_2
3,110307,9.0,8.5
4,110275,6.5,7.5


In [109]:
tabela.loc[[2,4],'Nome']='bbb' #Para alterar valores, localize-os e depois atribua um novo valor

In [110]:
tabela[0]=0 #Como não existia uma coluna com o nome 0, ele vai criar, colocando ela inteira como 0

In [111]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
2,bbb,110218,17,7.0,7.0,7.0,7,0
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
4,bbb,110275,15,6.5,7.5,7.0,7,0
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0
7,José Valente,110263,20,10.0,10.0,10.0,10,0
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8,0


In [112]:
tabela.dtypes

Nome           object
RA              int64
Frequencia      int64
Prova_1       float64
Prova_2       float64
Prova_3       float64
Prova_4         int64
0               int64
dtype: object

### Diferença entre .loc e .iloc
O .loc irá trazer o dado utilizando o índice, não importando se o índice não está ordenado. Já o .iloc irá respeitar a ordem atual dos dados

In [113]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
2,bbb,110218,17,7.0,7.0,7.0,7,0
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
4,bbb,110275,15,6.5,7.5,7.0,7,0
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0
7,José Valente,110263,20,10.0,10.0,10.0,10,0
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8,0


In [6]:
tabela_copy = tabela.copy()

In [7]:
tabela_copy

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [11]:
tabela_copy.index.values

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64)

In [119]:
# vamos bagunçar o índice do df chamado tabela
tabela_copy.index = sorted(tabela.index.values, reverse=True) #Outro jeito de mudar o index
tabela_copy.head(10)

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
9,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
8,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
7,bbb,110218,17,7.0,7.0,7.0,7,0
6,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
5,bbb,110275,15,6.5,7.5,7.0,7,0
4,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
3,Joao Galo,110301,20,5.0,6.5,7.0,5,0
2,José Valente,110263,20,10.0,10.0,10.0,10,0
1,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
0,Adriana Tavares,110236,20,8.0,8.0,8.0,8,0


In [122]:
# traz o índice
tabela_copy.loc[[3,6],:]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
3,Joao Galo,110301,20,5.0,6.5,7.0,5,0
6,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0


In [123]:
# iloc traz a linha
tabela_copy.iloc[[3,6],:]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
6,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
3,Joao Galo,110301,20,5.0,6.5,7.0,5,0


### Criar novas colunas

**Criando uma coluna nova**, com todas as linhas preenchidas com o mesmo valor

In [276]:
# cria coluna com valores 1
tabela["cheia_de_um"] = 1
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0,1
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0,1
2,bbb,110218,17,7.0,7.0,7.0,7,0,1
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0,1
4,bbb,110275,15,6.5,7.5,7.0,7,0,1
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0,1
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0,1
7,José Valente,110263,20,10.0,10.0,10.0,10,0,1
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0,1
9,Joãozinho,110236,100,8.0,8.0,8.0,8,0,1


In [126]:
# cria coluna com string
tabela["aaaa"] = "a"

In [278]:
tabela[0]=1234

In [279]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,1234,1,a
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,1234,1,a
2,bbb,110218,17,7.0,7.0,7.0,7,1234,1,a
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,1234,1,a
4,bbb,110275,15,6.5,7.5,7.0,7,1234,1,a
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,1234,1,a
6,Joao Galo,110301,20,5.0,6.5,7.0,5,1234,1,a
7,José Valente,110263,20,10.0,10.0,10.0,10,1234,1,a
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,1234,1,a
9,Joãozinho,110236,100,8.0,8.0,8.0,8,1234,1,a


In [280]:
# cria coluna vazia
tabela["vazio"] = ""

In [281]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,1234,1,a,
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,1234,1,a,
2,bbb,110218,17,7.0,7.0,7.0,7,1234,1,a,
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,1234,1,a,
4,bbb,110275,15,6.5,7.5,7.0,7,1234,1,a,
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,1234,1,a,
6,Joao Galo,110301,20,5.0,6.5,7.0,5,1234,1,a,
7,José Valente,110263,20,10.0,10.0,10.0,10,1234,1,a,
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,1234,1,a,
9,Joãozinho,110236,100,8.0,8.0,8.0,8,1234,1,a,


In [130]:
import numpy as np

In [131]:
tabela['np_nan'] = None

In [284]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,1234,1,a,,
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,1234,1,a,,
2,bbb,110218,17,7.0,7.0,7.0,7,1234,1,a,,
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,1234,1,a,,
4,bbb,110275,15,6.5,7.5,7.0,7,1234,1,a,,
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,1234,1,a,,
6,Joao Galo,110301,20,5.0,6.5,7.0,5,1234,1,a,,
7,José Valente,110263,20,10.0,10.0,10.0,10,1234,1,a,,
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,1234,1,a,,
9,Joãozinho,110236,100,8.0,8.0,8.0,8,1234,1,a,,


Também é possível **criar uma linha nova** atribuindo valores para todas as colunas:

In [132]:
tabela.loc[10, :] = [1245245, "Joãozinho", 100, 10, 4, 6, 7, "bbb", 2, 'b', "cheio", np.nan]

tabela

#Melhor trabalhar com o none do numpy do que com o none normal pq pode dar alguns problemas

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,media_em_coluna,aaaa,soma_strings,np_nan
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,0,,a,Antonio Carlosa,
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,0,,a,Ana Beatriza,
2,bbb,110218,17.0,7.0,7.0,7.0,7.0,0,,a,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,0,,a,Francisco Cunhaa,
4,bbb,110275,15.0,6.5,7.5,7.0,7.0,0,,a,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,0,,a,Juliana Arrudaa,
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,0,,a,Joao Galoa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,0,,a,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,0,,a,Maria Ferreiraa,
9,Adriana Tavares,110236,20.0,8.0,8.0,8.0,8.0,0,,a,Adriana Tavaresa,


In [133]:
tabela.loc["oi", :] = [1245245, "Joãozinho", 100, 10, 4, 6, 7, "bbb", 2, 'b', "cheio", np.nan]

In [134]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,media_em_coluna,aaaa,soma_strings,np_nan
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,0,,a,Antonio Carlosa,
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,0,,a,Ana Beatriza,
2,bbb,110218,17.0,7.0,7.0,7.0,7.0,0,,a,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,0,,a,Francisco Cunhaa,
4,bbb,110275,15.0,6.5,7.5,7.0,7.0,0,,a,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,0,,a,Juliana Arrudaa,
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,0,,a,Joao Galoa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,0,,a,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,0,,a,Maria Ferreiraa,
9,Adriana Tavares,110236,20.0,8.0,8.0,8.0,8.0,0,,a,Adriana Tavaresa,


In [286]:
tabela.dtypes

Nome            object
RA              object
Frequencia     float64
Prova_1        float64
Prova_2        float64
Prova_3        float64
Prova_4        float64
0               object
cheia_de_um    float64
aaaa            object
vazio           object
np_nan          object
dtype: object

Se você usar o index de uma linha que já existe irá substituí-la.

Podemos fazer **operações entre os valores das colunas**, e criar com isso novas colunas!

In [14]:
# calculando a média usando as colunas Prova_1, Prova_2, Prova_3 e Prova_4
tabela["média"] = (tabela["Prova_1"] + tabela["Prova_2"] + 
                   tabela["Prova_3"] + tabela["Prova_4"])/4
tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,média
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
6,110301,Joao Galo,20,5.0,6.5,7.0,5,5.875
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


Também há alguns métodos prontos que facilitam a utilização:

In [288]:
# calculando a media com o método .mean(axis=1)
tabela["media_2"] = tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].mean(axis=1)

tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,1234,1.0,a,,,7.0,7.0
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,1234,1.0,a,,,7.25,7.25
2,bbb,110218,17.0,7.0,7.0,7.0,7.0,1234,1.0,a,,,7.0,7.0
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,1234,1.0,a,,,9.0,9.0
4,bbb,110275,15.0,6.5,7.5,7.0,7.0,1234,1.0,a,,,7.0,7.0
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,1234,1.0,a,,,7.5,7.5
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,1234,1.0,a,,,5.875,5.875
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,1234,1.0,a,,,10.0,10.0
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,1234,1.0,a,,,8.625,8.625
9,Joãozinho,110236,100.0,8.0,8.0,8.0,8.0,1234,1.0,a,,,8.0,8.0


In [127]:
tabela['soma_strings'] = tabela['Nome'].astype(str) + tabela['aaaa']
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,media_em_coluna,aaaa,soma_strings
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0,,a,Antonio Carlosa
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0,,a,Ana Beatriza
2,bbb,110218,17,7.0,7.0,7.0,7,0,,a,bbba
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0,,a,Francisco Cunhaa
4,bbb,110275,15,6.5,7.5,7.0,7,0,,a,bbba
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0,,a,Juliana Arrudaa
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0,,a,Joao Galoa
7,José Valente,110263,20,10.0,10.0,10.0,10,0,,a,José Valentea
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0,,a,Maria Ferreiraa
9,Adriana Tavares,110236,20,8.0,8.0,8.0,8,0,,a,Adriana Tavaresa


In [137]:
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].mean() #Média em cada uma das colunas (cada uma das provas)
#Mesma coisa de passar axis=0

Prova_1    8.000000
Prova_2    7.166667
Prova_3    7.333333
Prova_4    7.750000
dtype: float64

In [136]:
tabela['media_em_coluna'] = tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].mean()
tabela #Acaba colocando tudo como NaN pq a quantidade não foi suficiente

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,media_em_coluna,aaaa,soma_strings,np_nan
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,0,,a,Antonio Carlosa,
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,0,,a,Ana Beatriza,
2,bbb,110218,17.0,7.0,7.0,7.0,7.0,0,,a,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,0,,a,Francisco Cunhaa,
4,bbb,110275,15.0,6.5,7.5,7.0,7.0,0,,a,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,0,,a,Juliana Arrudaa,
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,0,,a,Joao Galoa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,0,,a,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,0,,a,Maria Ferreiraa,
9,Adriana Tavares,110236,20.0,8.0,8.0,8.0,8.0,0,,a,Adriana Tavaresa,


Naturalmente, o resultado é o mesmo!

In [291]:
tabela2.loc[tabela2['Nome']=='Ana Beatriz', 'Prova_4']

a    6
a    8
Name: Prova_4, dtype: int64

In [292]:
tabela.loc[tabela['Nome']=='bbb', 'RA'] = 1
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,1234,1.0,a,,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,1234,1.0,a,,,7.25,7.25,Ana Beatriza,
2,bbb,1,17.0,7.0,7.0,7.0,7.0,1234,1.0,a,,,7.0,7.0,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,1234,1.0,a,,,9.0,9.0,Francisco Cunhaa,
4,bbb,1,15.0,6.5,7.5,7.0,7.0,1234,1.0,a,,,7.0,7.0,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,1234,1.0,a,,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,1234,1.0,a,,,5.875,5.875,Joao Galoa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,1234,1.0,a,,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,1234,1.0,a,,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236,100.0,8.0,8.0,8.0,8.0,1234,1.0,a,,,8.0,8.0,Joãozinhoa,


### Métodos:

O Pandas possui diversos métodos que podem ser utilizados nessa estrutura.
Abaixo estão alguns métodos que essa estrutura de dados possui e facilitam alguns cálculos e análises:
 

| Método      | Descrição     |
| ----------- | -----------   |
| sum         | soma          |
| mean        | média         |
| std         | desvio padrão |
| mode        | moda          |
| max         | valor máximo  |
| min         | valor mínimo  |
| idxmax      | primeiro índice com valor máximo |
| idxmin      | primeiro índice com valor mínimo |
| value_counts | contagem de valores |
| describe    | estatísticas básicas |


Na próxima aula veremos mais alguns.


In [139]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,media_em_coluna,aaaa,soma_strings,np_nan
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,0,,a,Antonio Carlosa,
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,0,,a,Ana Beatriza,
2,bbb,110218,17.0,7.0,7.0,7.0,7.0,0,,a,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,0,,a,Francisco Cunhaa,
4,bbb,110275,15.0,6.5,7.5,7.0,7.0,0,,a,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,0,,a,Juliana Arrudaa,
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,0,,a,Joao Galoa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,0,,a,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,0,,a,Maria Ferreiraa,
9,Adriana Tavares,110236,20.0,8.0,8.0,8.0,8.0,0,,a,Adriana Tavaresa,


In [140]:
# calculando o valor máx de cada aluno
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].max(axis=1)

0      8.5
1      8.0
2      7.0
3     10.0
4      7.5
5      8.0
6      7.0
7     10.0
8     10.0
9      8.0
10    10.0
oi    10.0
dtype: float64

In [138]:
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].idxmax(axis=1)

0     Prova_2
1     Prova_4
2     Prova_1
3     Prova_4
4     Prova_2
5     Prova_4
6     Prova_3
7     Prova_1
8     Prova_4
9     Prova_1
10    Prova_1
oi    Prova_1
dtype: object

In [141]:
# calculando o valor máx de cada prova
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].max(axis=0)

Prova_1    10.0
Prova_2    10.0
Prova_3    10.0
Prova_4    10.0
dtype: float64

In [142]:
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].idxmax(axis=0)

Prova_1    7
Prova_2    7
Prova_3    7
Prova_4    3
dtype: int64

### Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [5]:
tabela.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,média
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,7.0
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7,7.0
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,7.0


In [18]:
tabela["média"] > 7

0    False
1     True
2    False
3     True
4    False
5     True
6    False
7     True
8     True
9     True
Name: média, dtype: bool

In [19]:
# retorna o sub-dataframe que contém valores maiores que 7 na coluna "média"
# ou seja, é um filtro que utiliza a coluna "média"!

tabela[tabela["média"] > 7]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,média
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,9.0
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,7.5
7,110263,José Valente,20,10.0,10.0,10.0,10,10.0
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,8.625
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,8.0


Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [299]:
# filtar tabela para média > 7 e frequencia >= 20
tabela[(tabela["média"] > 7) & (tabela["Frequencia"] >= 20)]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,1234,1.0,a,,,7.25,7.25,Ana Beatriza,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,1234,1.0,a,,,9.0,9.0,Francisco Cunhaa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,1234,1.0,a,,,10.0,10.0,José Valentea,
9,Joãozinho,110236,100.0,8.0,8.0,8.0,8.0,1234,1.0,a,,,8.0,8.0,Joãozinhoa,


In [9]:
# filtar tabela para média > 7 e frequencia >= 20
tabela[(tabela["média"] > 7) | (tabela["Frequencia"] >= 20)][['Prova_4']].max()
#Pegando a parte do df q satisfaz as condições
#Depois pegando só a coluna da Prova 4 disso
#Depois aplicando o max

Prova_4    10
dtype: int64

In [8]:
# pegando somente a coluna "média" dos alunos que tiveram nota igual na prova 1 e na prova 4
tabela[tabela["Prova_4"] == tabela["Prova_1"]]["média"]

2     7.000
6     5.875
7    10.000
9     8.000
Name: média, dtype: float64

In [308]:
# calculando a média de todos os alunos que tiveram nota igual na prova 1 e na prova 4
tabela[tabela["Prova_4"] == tabela["Prova_1"]]["média"].mean()

7.71875

In [309]:
# Podemos criar um novo df diretamento do filtro
prova_4 = tabela[tabela['Prova_4']>=7]
prova_4

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,1234,1.0,a,,,7.25,7.25,Ana Beatriza,
2,bbb,1,17.0,7.0,7.0,7.0,7.0,1234,1.0,a,,,7.0,7.0,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,1234,1.0,a,,,9.0,9.0,Francisco Cunhaa,
4,bbb,1,15.0,6.5,7.5,7.0,7.0,1234,1.0,a,,,7.0,7.0,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,1234,1.0,a,,,7.5,7.5,Juliana Arrudaa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,1234,1.0,a,,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,1234,1.0,a,,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236,100.0,8.0,8.0,8.0,8.0,1234,1.0,a,,,8.0,8.0,Joãozinhoa,
10,1245245,Joãozinho,100.0,10.0,4.0,6.0,7.0,bbb,2.0,b,cheio,,6.75,6.75,1245245b,


E também é bem fácil salvar um dataframe de volta pra CSV ou pro Excel. 

In [11]:
# salvando dados em csv com o método .to_csv()
tabela.to_csv("tabela_processada2.csv", sep=";")

Para salvar esses dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>


In [10]:
!pip install openpyxl



In [12]:
# salvando dados em excel com o método .to_excel()
tabela.to_excel("tabela_processada.xlsx")

Agora que entendemos na prática como usar o Pandas, vamos nos aprofundar um pouco mais em sua estrutura!

### Outra forma de filtrar: `.query()`

In [20]:
prova_4 = tabela.query('{} >= 7 and Prova_3 >= 7 and Nome=="{}"'.format('Prova_4', 'Ana Beatriz'))
prova_4

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,média
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,7.25


## Series
O objeto fundamental do Pandas são as **Series**.

As Series são as **colunas das tabelas**, que são originadas de um array unidimensional capaz de guardar qualquer tipo de dado (integers, strings, floating point numbers, Python objects, etc.). E como as listas, as series podem conter dados de vários tipo.

In [316]:
tabela

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201,20.0,6.5,8.5,7.0,6.0,1234,1.0,a,,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212,20.0,7.0,7.0,7.0,8.0,1234,1.0,a,,,7.25,7.25,Ana Beatriza,
2,bbb,1,17.0,7.0,7.0,7.0,7.0,1234,1.0,a,,,7.0,7.0,bbba,
3,Francisco Cunha,110307,20.0,9.0,8.5,8.5,10.0,1234,1.0,a,,,9.0,9.0,Francisco Cunhaa,
4,bbb,1,15.0,6.5,7.5,7.0,7.0,1234,1.0,a,,,7.0,7.0,bbba,
5,Juliana Arruda,110281,18.0,7.5,7.0,7.5,8.0,1234,1.0,a,,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301,20.0,5.0,6.5,7.0,5.0,1234,1.0,a,,,5.875,5.875,Joao Galoa,
7,José Valente,110263,20.0,10.0,10.0,10.0,10.0,1234,1.0,a,,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271,19.0,9.5,8.0,7.0,10.0,1234,1.0,a,,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236,100.0,8.0,8.0,8.0,8.0,1234,1.0,a,,,8.0,8.0,Joãozinhoa,


Visual de uma series:

In [317]:
tabela.cheia_de_um

0     1.0
1     1.0
2     1.0
3     1.0
4     1.0
5     1.0
6     1.0
7     1.0
8     1.0
9     1.0
10    2.0
Name: cheia_de_um, dtype: float64

Tipo de uma series

In [318]:
type(tabela.cheia_de_um)

pandas.core.series.Series

Como pudemos observar a series pode ter elementos de diferentes tipos. Na primeira posição temos um float enquanto na última temos uma string.

In [319]:
type(tabela.cheia_de_um[0])

numpy.float64

In [320]:
type(tabela.cheia_de_um[10])

numpy.float64

A diferença é que a series possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário. Para entender mais sobre como trabalhar como séries, temos um conteúdo anexado no final desse notebook que você pode olhar.

Agora que entendemos a componente fundamental do Pandas, as Séries, vamos falar um pouco mais sobre o **DataFrame**

### Estrutura do df
O DataFrame é uma estrutura que se assemelha a uma tabela/planilha, como vimos acima.

Por debaixo dos panos, o dataframe é representado por um dicionário em que a **chave** é o **nome da coluna** e os **valores** são as **Series** (todas com mesmo índice).

### Criação de df a partir de dicionários

Assim, podemos **criar um dataframe a partir de um dicionario**, usando a função `pd.DataFrame()` 

In [321]:
cadastro = {"nomes" : ["André", "Mariazinha"],
                "idade" : [22, 25],
                "cidade" : ["Mauá", "Santo André"],
                "filhos": [0, 0],
                "altura" : [1.80, 1.65]}

cadastro

{'nomes': ['André', 'Mariazinha'],
 'idade': [22, 25],
 'cidade': ['Mauá', 'Santo André'],
 'filhos': [0, 0],
 'altura': [1.8, 1.65]}

In [322]:
# criando um dataframe a partir de um dicionario
df = pd.DataFrame(cadastro)
df

Unnamed: 0,nomes,idade,cidade,filhos,altura
0,André,22,Mauá,0,1.8
1,Mariazinha,25,Santo André,0,1.65


## Outros conteúdos

### Criar Series a partir de listas

Podemos criar uma series **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [21]:
# definindo uma série com valores e indices
indices = ["a", "b", "c", "d"]
lista = [10, 20, 30, 40]

serie = pd.Series(data = lista, index = indices)

serie

a    10
b    20
c    30
d    40
dtype: int64

Podemos acessar o elemento 30, que está associado ao índice c:

In [22]:
serie['c']

30

Para retornar todos os índices podemos utilizar o método `series.index`

In [23]:
serie.index

Index(['a', 'b', 'c', 'd'], dtype='object')

E para acessar os valores podemos utilizar o atributo `series.values`


In [24]:
serie.values

array([10, 20, 30, 40], dtype=int64)

### Utilizando filtros em Series
Podemos aplicar filtros para selecionar apenas os elementos que satisfaçam determinada condição.
No exemplo abaixo, iremos selecionar apenas os elementos que sejam maiores que 15:


In [25]:
serie[serie > 15] 

b    20
c    30
d    40
dtype: int64

Note que `serie > 15` nos retorna uma series com elementos `True` e `False`, caso os elementos da serie satisfaçam a condição. Ao utilizar esse comando dentro dos colchetes, `serie[serie > 15]`, estamos selecionado apenas os elementos que satisfazem a condição.


### Criar Series a partir de dicionários
Também podemos **criar uma série a partir de um dicionário**, e os índices e valores são automaticamente capturados:

In [26]:
# criando uma série a partir de um dicionario
dic2 = {"nome": "André", 
        "idade" : 23}

pd.Series(dic2)

nome     André
idade       23
dtype: object

### Criar dicionários a partir de Series
O inverso também é possível:

In [27]:
dicionario = dict(serie)

dicionario

{'a': 10, 'b': 20, 'c': 30, 'd': 40}

### Criar dataframe a partir de listas

In [29]:
# Considere a seguinte lista
age = [['Artur', 95.5, "M"], ['Vera', 79.7, "F"],
       ['Mônica', 85.1, "F"], ['Toni', 75.4, "M"]]
  
# Cria um pandas dataframe passando a lista e, se quiser, o nome das colunas
pd.DataFrame(age, columns=['Nome', 'Pontos', 'Sexo'])

Unnamed: 0,Nome,Pontos,Sexo
0,Artur,95.5,M
1,Vera,79.7,F
2,Mônica,85.1,F
3,Toni,75.4,M


### Criar dataframe a partir de array

In [36]:
import numpy as np

# Considere o seguinte array:
my_array = np.random.randint(1, 10, 18)
print(my_array)
print(my_array.reshape(-1,3))
# Cria um pandas dataframe passando o array e, se quiser, o nome das colunas
pd.DataFrame(my_array.reshape(-1,3), columns=['col_1','col_2','col_3'])


[8 2 6 2 4 9 5 4 4 7 6 3 1 1 1 2 3 5]
[[8 2 6]
 [2 4 9]
 [5 4 4]
 [7 6 3]
 [1 1 1]
 [2 3 5]]


Unnamed: 0,col_1,col_2,col_3
0,8,2,6
1,2,4,9
2,5,4,4
3,7,6,3
4,1,1,1
5,2,3,5


## Exercícios

1 - Realize os passos seguintes utilizando o mesmo dataset do íris da aula anterior ('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data').

a. Use o pandas para ler o arquivo como um dataframe. Obs: precisa ler o dataframe sem que a primeira linha corresponda ao nome das colunas.

In [185]:
import pandas as pd

tabela = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', sep=",", header=None)

tabela

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


b. Sabendo que as colunas correspondem, nessa ordem, a: 
    1. sepal length (cm)
    2. sepal width (cm)
    3. petal length (cm)
    4. petal width (cm)
    5. class: <br>
        - Iris Setosa <br>
        - Iris Versicolor <br>
        - Iris Virginica <br>
leia novamente o arquivo passando o nome das colunas como argumento.

In [25]:
tabela = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', sep=",", header=None, names = ["sepalLength", "sepalWidth", "petalLength","petalWidth", "Class"])

tabela

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,Class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


c. Calcule a média de cada coluna numérica para cada um dos tipos de íris indicados na coluna "class" sem utilizar métodos que não foram ensinados na aula de hoje. Utilize o loop for para reduzir quantidade de linhas. <br>
Existe diferença entre elas?

In [187]:
tabela.columns

Index(['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth', 'Class'], dtype='object')

In [191]:
tabela['Class'].unique()

array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)

In [201]:
for j in ['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth']:
    for i in ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']:
        print(f'{i}: {j}', tabela[tabela['Class']==i][j].mean())
        print()

Iris-setosa: sepalLength 5.006

Iris-versicolor: sepalLength 5.936

Iris-virginica: sepalLength 6.587999999999998

Iris-setosa: sepalWidth 3.418

Iris-versicolor: sepalWidth 2.7700000000000005

Iris-virginica: sepalWidth 2.974

Iris-setosa: petalLength 1.464

Iris-versicolor: petalLength 4.26

Iris-virginica: petalLength 5.5520000000000005

Iris-setosa: petalWidth 0.244

Iris-versicolor: petalWidth 1.3259999999999998

Iris-virginica: petalWidth 2.0260000000000002



In [203]:
iris_setosa = tabela[tabela['Class']=='Iris-setosa'].copy()
iris_versicolor = tabela[tabela['Class']=='Iris-versicolor'].copy()
iris_virginica = tabela[tabela['Class']=='Iris-virginica'].copy()

print(iris_setosa.drop(['Class'], axis=1).mean(axis=0, numeric_only=True)) #?
print(iris_versicolor.mean(axis=0, numeric_only=True))
print(iris_virginica.mean(axis=0, numeric_only=True))

sepalLength    5.006
sepalWidth     3.418
petalLength    1.464
petalWidth     0.244
dtype: float64
sepalLength    5.936
sepalWidth     2.770
petalLength    4.260
petalWidth     1.326
dtype: float64
sepalLength    6.588
sepalWidth     2.974
petalLength    5.552
petalWidth     2.026
dtype: float64


In [16]:
classes = ["Iris-setosa", "Iris-versicolor", "Iris-virginica"]
medias = pd.DataFrame() #Inicializando um df vazio

for item in classes:
    media = tabela[tabela["Class"] == item].iloc[:, 0:4].mean(axis=0)
    print(media)
    print()
    medias[item] = media
    
medias

sepalLength    5.006
sepalWidth     3.418
petalLength    1.464
petalWidth     0.244
dtype: float64

sepalLength    5.936
sepalWidth     2.770
petalLength    4.260
petalWidth     1.326
dtype: float64

sepalLength    6.588
sepalWidth     2.974
petalLength    5.552
petalWidth     2.026
dtype: float64



Unnamed: 0,Iris-setosa,Iris-versicolor,Iris-virginica
sepalLength,5.006,5.936,6.588
sepalWidth,3.418,2.77,2.974
petalLength,1.464,4.26,5.552
petalWidth,0.244,1.326,2.026


In [21]:
from sklearn import datasets

#iris = datasets.load_iris()
iris = pd. DataFrame(iris.data)
print(iris)

       0    1    2    3
0    5.1  3.5  1.4  0.2
1    4.9  3.0  1.4  0.2
2    4.7  3.2  1.3  0.2
3    4.6  3.1  1.5  0.2
4    5.0  3.6  1.4  0.2
..   ...  ...  ...  ...
145  6.7  3.0  5.2  2.3
146  6.3  2.5  5.0  1.9
147  6.5  3.0  5.2  2.0
148  6.2  3.4  5.4  2.3
149  5.9  3.0  5.1  1.8

[150 rows x 4 columns]


d. Adicione uma única coluna com a média de 'sepal length' para cada um dos tipos de íris indicados na coluna "class". Utilize o loop for e faça isso sem utilizar métodos que não foram ensinados na aula de hoje.

In [211]:
tabela.columns

Index(['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth', 'Class',
       'mean_sepal_length'],
      dtype='object')

In [213]:
tabela.loc[tabela ['Class'] == 'Iris-setosa', 'sepalLength'].mean()

5.006

In [26]:
tabela['mean_sepal_length2'] = 0
for i in classes:
    tabela.loc[tabela ['Class'] == i, 'mean_sepal_length2'] = tabela.loc[tabela ['Class'] == i, 'sepalLength'].mean()
tabela

Unnamed: 0,sepalLength,sepalWidth,petalLength,petalWidth,Class,mean_sepal_length2
0,5.1,3.5,1.4,0.2,Iris-setosa,5.006
1,4.9,3.0,1.4,0.2,Iris-setosa,5.006
2,4.7,3.2,1.3,0.2,Iris-setosa,5.006
3,4.6,3.1,1.5,0.2,Iris-setosa,5.006
4,5.0,3.6,1.4,0.2,Iris-setosa,5.006
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,6.588
146,6.3,2.5,5.0,1.9,Iris-virginica,6.588
147,6.5,3.0,5.2,2.0,Iris-virginica,6.588
148,6.2,3.4,5.4,2.3,Iris-virginica,6.588


e. Crie uma coluna de volume sabendo que o volume representa (pi x petallength x sepal_length^2)/3

In [27]:
iris_setosa = tabela[tabela["Class"] == "Iris-setosa"]
iris_virginica = tabela[tabela["Class"] == "Iris-virginica"]
iris_versicolor = tabela[tabela["Class"] == "Iris-versicolor"]

#print(iris_setosa)
for columns in tabela.columns:
    print(tabela[columns])
    print()

0      5.1
1      4.9
2      4.7
3      4.6
4      5.0
      ... 
145    6.7
146    6.3
147    6.5
148    6.2
149    5.9
Name: sepalLength, Length: 150, dtype: float64

0      3.5
1      3.0
2      3.2
3      3.1
4      3.6
      ... 
145    3.0
146    2.5
147    3.0
148    3.4
149    3.0
Name: sepalWidth, Length: 150, dtype: float64

0      1.4
1      1.4
2      1.3
3      1.5
4      1.4
      ... 
145    5.2
146    5.0
147    5.2
148    5.4
149    5.1
Name: petalLength, Length: 150, dtype: float64

0      0.2
1      0.2
2      0.2
3      0.2
4      0.2
      ... 
145    2.3
146    1.9
147    2.0
148    2.3
149    1.8
Name: petalWidth, Length: 150, dtype: float64

0         Iris-setosa
1         Iris-setosa
2         Iris-setosa
3         Iris-setosa
4         Iris-setosa
            ...      
145    Iris-virginica
146    Iris-virginica
147    Iris-virginica
148    Iris-virginica
149    Iris-virginica
Name: Class, Length: 150, dtype: object

0      5.006
1      5.006
2      5.006
3   

In [10]:
iris_setosa = tabela[tabela["Class"] == "Iris-setosa"]
iris_virginica = tabela[tabela["Class"] == "Iris-virginica"]
iris_versicolor = tabela[tabela["Class"] == "Iris-versicolor"]

print(iris_setosa.mean())
print()
print(iris_virginica.mean())
print()
print(iris_versicolor.mean())

sepalLength    5.006
sepalWidth     3.418
petalLength    1.464
petalWidth     0.244
dtype: float64

sepalLength    6.588
sepalWidth     2.974
petalLength    5.552
petalWidth     2.026
dtype: float64

sepalLength    5.936
sepalWidth     2.770
petalLength    4.260
petalWidth     1.326
dtype: float64


f. Salve apenas o valor da classe, da média do sepal length e do volume desse dataset em um arquivo csv sem a coluna de index.

In [221]:
tabela.columns

Index(['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth', 'Class',
       'mean_sepal_length', 'mean_sepal_length2'],
      dtype='object')

In [223]:
tabela[['Class','sepalLength']].to_csv('saida_iris.csv', sep=';', index=False)