# Aula 8 - pandas

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Introdução ao Pandas
- 2) Conceitos de Dataframe e Series
- 3) Axis, valores e missing
- 4) Criação e manipulação de DF e SS: uso de loc/iloc, parâmetro inplace
- 5) Filtragem de dados
- 6) Leitura de dados (read_csv, read_excel, read_clipboard)
_______

### Objetivos

Apresentar o pandas, frisando sua importância para o processamento de dados e em data science. Apresentar seus principais conceitos (Series, DataFrame) e funcionalidades (leitura de arquivo, filtros, seleção, apply, escrita de arquivos, etc.)

### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Conhecer o pandas, suas vantagens e principais usos;
- Saber como ler um arquivo com o pandas (csv, excel, etc.), criando DataFrames;
- Entender o conceito de Series e como elas são construídas;
- Entender o conceito de DataFrame em termos das Series;
- Saber como trabalhar com DataFrames para o processamento de dados:
    - Seleções: uso de loc/iloc;
    - Filtros;
    - Criação de novas colunas.
- Saber como ler e escrever de/em um arquivo com o pandas (csv, excel, etc.).

____
____
____

## 1) Pandas

O pandas é uma das bibliotecas mais usadas em data science.

Seu objetivo é a **leitura, processamento e manipulação de dados** na forma de tabelas chamadas de **"DataFrame"**

Antes de conhecer o Pandas, vamos ler o arquivo "alunos.csv" da lista 7, da forma como aprendemos na aula de arquivos

In [2]:
import csv

'''
csv.reader(csvfile, dialect='excel', *fmtparams)
Return a reader object which will iterate over lines in the given csvfile.

csv.writer(csvfile, dialect='excel', *fmtparams)
'''

f = open("alunos.csv", "r", encoding="utf-8")

leitor = csv.reader(f, delimiter=';', lineterminator='\n')

planilha = []

for linha in leitor:
    planilha.append(linha)
    
f.close()

planilha

[['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'],
 ['110201', 'Antonio Carlos', '20', '6.5', '8.5', '7', '6'],
 ['110212', 'Ana Beatriz', '20', '7', '7', '7', '8'],
 ['110218', 'Carlos Vernes', '17', '7', '7', '7', '7'],
 ['110307', 'Francisco Cunha', '20', '9', '8.5', '8.5', '10'],
 ['110275', 'Sandra Rosa', '15', '6.5', '7.5', '7', '7'],
 ['110281', 'Juliana Arruda', '18', '7.5', '7', '7.5', '8'],
 ['110301', 'Joao Galo', '20', '5', '6.5', '7', '5'],
 ['110263', 'José Valente', '20', '10', '10', '10', '10'],
 ['110271', 'Maria Ferreira', '19', '9.5', '8', '7', '10'],
 ['110236', 'Adriana Tavares', '20', '8', '8', '8', '8']]

Como fizemos na aula, uma vez lido o arquivo, é possível processá-lo de diversas maneiras.

Por exemplo, para obter **a primeira coluna**, isto é, os nomes, fazemos:

In [3]:
[item[1] for item in planilha if item[1]!='Nome']

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Agora, vamos usar o Pandas e aprender uma forma muito mais fácil de processar dados!

In [139]:
# importando a biblioteca
import pandas as pd

# lendo o arquivo
tabela = pd.read_csv("alunos.csv", sep=";")

tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


### Acessando elementos

Podemos **acessar os valores nas colunas** pelo nome delas:

In [140]:
# acessar coluna "Nome" diretamente
tabela["Nome"]
tabela.Nome

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [141]:
# acessar coluna "Nome" através de uma variável
nome_da_coluna = "Nome"

tabela[nome_da_coluna]

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

Se quisermos obter uma lista propriamente com os valores na coluna, usamos o método `tolist()`:

In [142]:
tabela["Nome"].tolist()

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Dá pra **selecionar apenas algumas colunas** do dataframe (ou seja, criando um sub-dataframe):

In [143]:
# pegando apenas a coluna "Nome" e resultado da "Prova_1"
tabela[["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
0,Antonio Carlos,6.5
1,Ana Beatriz,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5
6,Joao Galo,5.0
7,José Valente,10.0
8,Maria Ferreira,9.5
9,Adriana Tavares,8.0


### Acessando elementos

Podemos utilizar o `.loc[indice_linhas, nome_colunas]` para acessar determinas colunas e as linhas através dos índices e nomes das colunas.

In [144]:
# selecionar todas as linhas das colunas ['Nome','Prova_1']
tabela.loc[:, ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
5,Juliana Arruda,7.5
9,Adriana Tavares,8.0


In [175]:
# selecionar linhas 3 à 5 das colunas ['Nome','Prova_1']
tabela.loc[3:5, ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5


In [174]:
# selecionar linhas 3,5,9 das colunas ['Nome','Prova_1']
tabela.loc[[3,5,9], ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
5,Juliana Arruda,7.5
9,Adriana Tavares,8.0


In [173]:
# selecionar as linhas das colunas Prova_1 até Prova_4
tabela.loc[:, 'Prova_1':'Prova_4'

Unnamed: 0,Prova_1,Prova_2,Prova_3,Prova_4
0,6.5,8.5,7.0,6.0
1,7.0,7.0,7.0,8.0
2,7.0,7.0,7.0,7.0
3,9.0,8.5,8.5,10.0
4,6.5,7.5,7.0,7.0
5,7.5,7.0,7.5,8.0
6,5.0,6.5,7.0,5.0
7,10.0,10.0,10.0,10.0
8,9.5,8.0,7.0,10.0
9,8.0,8.0,8.0,8.0


selecionar apenas uma linha de uma coluna

In [145]:
tabela.loc[9, "Nome"]

'Adriana Tavares'

É possível **alterar valores** da tabela. Para isso, primeiro localizamos o valor a ser alterado com o **.loc**, passando a linha e coluna correspondente, e depois atribuímos o novo valor

In [146]:
tabela.loc[10, "Nome"] = "Joãozinho"
tabela.loc[10, "Frequencia"] = 100

In [147]:
tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0
2,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0


**Criando uma coluna nova**, com todas as linhas preenchidas com o mesmo valor

In [148]:
# cria coluna com valores 1
tabela["cheia_de_um"] = 1

In [149]:
# cria coluna com string
tabela["aaaa"] = "a"

In [150]:
# cria coluna vazia
tabela["vazio"] = ""

In [151]:
tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,1,a,
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,
2,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0,1,a,
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1,a,
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,


Também é possível **criar uma linha nova** atribuindo valores para todas as colunas:

In [152]:
tabela.loc[10, :] = [1245245, "Joãozinho", 100, 10, 4, 6, 7, "bbb", 2, "cheio"]

tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,1,a,
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,
2,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0,1,a,
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1,a,
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,


### Seleção através das posições das linhas e colunas
Outra forma de acessarmos dados é através do `.iloc[número_linhas, número_colunas]` utilizando as posições das linhas e colunas

In [159]:
# seleciona uma linha de uma coluna
tabela.iloc[10, 1]

'Joãozinho'

In [157]:
# seleciona todas as colunas de uma linha
tabela.iloc[10, :]

RA             1.24524e+06
Nome             Joãozinho
Frequencia             100
Prova_1                 10
Prova_2                  4
Prova_3                  6
Prova_4                  7
cheia_de_um            bbb
aaaa                     2
vazio                cheio
Name: 10, dtype: object

In [170]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas sequenciais
tabela.iloc[3:5, 1:5]

Unnamed: 0,Nome,Frequencia,Prova_1,Prova_2
3,Francisco Cunha,20.0,9.0,8.5
4,Sandra Rosa,15.0,6.5,7.5


In [171]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas não sequenciais
tabela.iloc[3:5, [1,5]]

Unnamed: 0,Nome,Prova_3
3,Francisco Cunha,8.5
4,Sandra Rosa,7.0


In [176]:
tabela[0] = 0

### Diferença entre .loc e .iloc
O .loc irá trazer o dado utilizando o índice, não importando se o índice não está ordenado. Já o .iloc irá respeitar a ordem atual dos dados

In [132]:
tabela_copy = tabela.copy()

In [133]:
# vamos bagunçar o índice do df chamado tabela
tabela_copy.index = sorted(tabela.index.values,reverse=True)
tabela_copy.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
10,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,1,a,,7.0,7.0
9,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,7.25,7.25
8,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0,1,a,,7.0,7.0
7,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,9.0,9.0
6,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,,7.0,7.0


In [134]:
# traz o índice
tabela_copy.loc[[3,6],:]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
3,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,10.0,10.0
6,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,,7.0,7.0


In [135]:
# iloc traz a linha
tabela_copy.iloc[[3,6],:]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
7,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,9.0,9.0
4,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1,a,,5.875,5.875


### Criar novas colunas

Podemos fazer operações entre os valores das colunas, e criar com isso novas colunas!

In [18]:
# calculando a média usando as colunas Prova_1, Prova_2, Prova_3 e Prova_4
tabela["média"] = (tabela["Prova_1"] + tabela["Prova_2"] + 
                   tabela["Prova_3"] + tabela["Prova_4"])/4

Também há alguns métodos prontos que facilitam a utilização:

In [19]:
# calculando a media com o método .mean(axis=1)
tabela["media_2"] = tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].mean(axis=1)

tabela

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,1,a,,7.0,7.0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,7.25,7.25
2,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0,1,a,,7.0,7.0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,9.0,9.0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,,7.0,7.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,,7.5,7.5
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1,a,,5.875,5.875
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,10.0,10.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,,8.625,8.625
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,,8.0,8.0


Naturalmente, o resultado é o mesmo!

### Métodos:

O Pandas possui diversos métodos que podem ser utilizados nessa estrutura.
Abaixo estão alguns métodos que essa estrutura de dados possui e facilitam alguns cálculos e análises:
 

| Método      | Descrição     |
| ----------- | -----------   |
| sum         | soma          |
| mean        | média         |
| std         | desvio padrão |
| mode        | moda          |
| max         | valor máximo  |
| min         | valor mínimo  |
| idxmax      | primeiro índice com valor máximo |
| idxmin      | primeiro índice com valor mínimo |
| value_counts | contagem de valores |
| describe    | estatísticas básicas |


Na próxima aula veremos mais alguns.


In [89]:
# calculando o valor máx de cada aluno
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].max(axis=1)

0      8.5
1      8.0
2      7.0
3     10.0
4      7.5
5      8.0
6      7.0
7     10.0
8     10.0
9      8.0
10    10.0
dtype: float64

In [91]:
# calculando o valor máx de cada prova
tabela[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].max(axis=0)

Prova_1    10.0
Prova_2    10.0
Prova_3    10.0
Prova_4    10.0
dtype: float64

In [182]:
# Exemplo do método describe com include='all'
tabela.describe(include='all')

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,0
count,11.0,11,11.0,11.0,11.0,11.0,11.0,11.0,11,11.0,11.0
unique,,11,,,,,,2.0,2,2.0,
top,,Adriana Tavares,,,,,,1.0,a,,
freq,,1,,,,,,10.0,10,10.0,
mean,213437.3,,26.272727,7.818182,7.454545,7.454545,7.818182,,,,0.0
std,342211.9,,24.507513,1.632065,1.507557,1.059588,1.662419,,,,0.0
min,110201.0,,15.0,5.0,4.0,6.0,5.0,,,,0.0
25%,110227.0,,18.5,6.75,7.0,7.0,7.0,,,,0.0
50%,110271.0,,20.0,7.5,7.5,7.0,8.0,,,,0.0
75%,110291.0,,20.0,9.25,8.25,7.75,9.0,,,,0.0


### Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [20]:
# retorna o sub-dataframe que contém valores maiores que 7 na coluna "média"
# ou seja, é um filtro que utiliza a coluna "média"!

tabela[tabela["média"] > 7]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,7.25,7.25
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,9.0,9.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,,7.5,7.5
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,10.0,10.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,,8.625,8.625
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,,8.0,8.0


Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [21]:
# filtar tabela para média > 7 e frequencia >= 20
tabela[(tabela["média"] > 7) & (tabela["Frequencia"] >= 20)]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,7.25,7.25
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,9.0,9.0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,10.0,10.0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,,8.0,8.0


In [22]:
# filtar tabela para média > 7 e frequencia >= 20
tabela[(tabela["média"] > 7) | (tabela["Frequencia"] >= 20)]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,média,media_2
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,1,a,,7.0,7.0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,7.25,7.25
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,9.0,9.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,,7.5,7.5
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1,a,,5.875,5.875
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,10.0,10.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,,8.625,8.625
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,,8.0,8.0
10,1245245.0,Joãozinho,100.0,10.0,4.0,6.0,7.0,bbb,2,cheio,6.75,6.75


In [23]:
# pegando somente a coluna "média" dos alunos que tiveram nota igual na prova 1 e na prova 4
tabela[tabela["Prova_4"] == tabela["Prova_1"]]["média"]

2     7.000
6     5.875
7    10.000
9     8.000
Name: média, dtype: float64

In [24]:
# calculando a média de todos os alunos que tiveram nota igual na prova 1 e na prova 4
tabela[tabela["Prova_4"] == tabela["Prova_1"]]["média"].mean()

7.71875

In [184]:
# Podemos criar um novo df diretamento do filtro
prova_4 = tabela[tabela['Prova_4']>=7]
prova_4

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,0
2,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0,1,a,,0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,,0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,,0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,,0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,,0
10,1245245.0,Joãozinho,100.0,10.0,4.0,6.0,7.0,bbb,2,cheio,0


E também é bem fácil salvar um dataframe de volta pra CSV ou pro Excel. 

In [None]:
# salvando dados em csv com o método .to_csv()
tabela.to_csv("tabela_processada2.csv", sep=";")

Para salvar esses dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>


In [32]:
# salvando dados em excel com o método .to_excel()
tabela.to_excel("tabela_processada.xlsx")

Agora que entendemos na prática como usar o Pandas, vamos nos aprofundar um pouco mais em sua estrutura!

### Outra forma de filtrar: `.query()`

In [186]:
prova_4 = tabela.query('Prova_4 >= 7 and Prova_3 >= 7')
prova_4

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,cheia_de_um,aaaa,vazio,0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,1,a,,0
2,110218.0,Carlos Vernes,17.0,7.0,7.0,7.0,7.0,1,a,,0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,1,a,,0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,1,a,,0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,1,a,,0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,1,a,,0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,1,a,,0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,1,a,,0


## Series
O objeto fundamental do Pandas são as **Series**.

As Series são as **colunas das tabelas**, que são originadas de um array unidimensional capaz de guardar qualquer tipo de dado (integers, strings, floating point numbers, Python objects, etc.). ################E ao contrário de listas, as series só podem conter dados do mesmos tipo.

In [33]:
type(tabela.Nome)

pandas.core.series.Series

In [34]:
tabela.Nome

0      Antonio Carlos
1         Ana Beatriz
2       Carlos Vernes
3     Francisco Cunha
4         Sandra Rosa
5      Juliana Arruda
6           Joao Galo
7        José Valente
8      Maria Ferreira
9     Adriana Tavares
10          Joãozinho
Name: Nome, dtype: object

In [35]:
type(tabela.loc[1,:])

pandas.core.series.Series

A diferença é que a series possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

### Series a partir de listas

Podemos criar uma series **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [75]:
# definindo uma série com valores e indices
indices = ["a", "b", "c", "d"]
lista = [10, 20, 30, 40]

serie = pd.Series(data = lista, index = indices)

serie

a    10
b    20
c    30
d    40
dtype: int64

Podemos acessar o elemento 30, que está associado ao índice c:

In [76]:
serie['c']

30

Para retornar todos os índices podemos utilizar o método `series.index`

In [77]:
serie.index

Index(['a', 'b', 'c', 'd'], dtype='object')

E para acessar os valores podemos utilizar o atributo `series.values`


In [78]:
serie.values

array([10, 20, 30, 40])

### Utilizando filtros
Podemos aplicar filtros para selecionar apenas os elementos que satisfaçam determinada condição.
No exemplo abaixo, iremos selecionar apenas os elementos que sejam maiores que 15:


In [79]:
serie[serie > 15] 

b    20
c    30
d    40
dtype: int64

Note que `serie > 15` nos retorna uma series com elementos `True` e `False`, caso os elementos da serie satisfaçam a condição. Ao utilizar esse comando dentro dos colchetes, `serie[serie > 15]`, estamos selecionado apenas os elementos que satisfazem a condição.


### Series a partir de dicionários
Também podemos **criar uma série a partir de um dicionário**, e os índices e valores são automaticamente capturados:

In [38]:
# criando uma série a partir de um dicionario
dic2 = {"nome": "André", 
        "idade" : 23}

pd.Series(dic2)

nome     André
idade       23
dtype: object

### Dicionários a partir de Series
O inverso também é possível:

In [83]:
dicionario = dict(serie)

dicionario

{'a': 10, 'b': 20, 'c': 30, 'd': 40}

Agora que entendemos a componente fundamental do Pandas, as Séries, vamos falar um pouco mais sobre o **DataFrame**

### Estrutura do df
O DataFrame é uma estrutura que se assemelha a uma tabela/planilha, como vimos acima.

Por debaixo dos panos, o dataframe é representado por um dicionário em que a **chave** é o **nome da coluna** e os **valores** são as **Series** (todas com mesmo índice).

### Criação de df a partir de dicionários

Assim, podemos **criar um dataframe a partir de um dicionario**, usando a função `pd.DataFrame()` 

In [39]:
cadastro = {"nomes" : ["André", "Mariazinha"],
                "idade" : [22, 25],
                "cidade" : ["Mauá", "Santo André"],
                "filhos": [0, 0],
                "altura" : [1.80, 1.65]}

cadastro

{'nomes': ['André', 'Mariazinha'],
 'idade': [22, 25],
 'cidade': ['Mauá', 'Santo André'],
 'filhos': [0, 0],
 'altura': [1.8, 1.65]}

In [40]:
# criando um dataframe a partir de um dicionario
df = pd.DataFrame(cadastro)
df

Unnamed: 0,nomes,idade,cidade,filhos,altura
0,André,22,Mauá,0,1.8
1,Mariazinha,25,Santo André,0,1.65
