# Aula 11 - fundamentos de Pandas

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Fundamentos de Pandas

_____________

### Problema gerador: processando notas de alunos.

Aprenderemos na aula de hoje como trabalhar com **dados tabulares** em Python de maneira muito eficiente e intuitiva: utilizando o famoso Pandas!

____
____
____

## 1) Pandas

O pandas é uma das bibliotecas mais usadas em data science.

Seu objetivo é a **leitura, processamento e manipulação de dados** na forma de tabelas chamdas de **"DataFrame"**

Antes de conhecer o Pandas, vamos ler o arquivo csv `alunos.csv`, da forma como aprendemos na aula de arquivos

In [1]:
import csv

f = open("alunos.csv", "r", encoding="utf-8")

leitor = csv.reader(f, delimiter=';', lineterminator='\n')

planilha = []

for linha in leitor:
    
    planilha.append(linha)
    
f.close()

planilha

FileNotFoundError: [Errno 2] No such file or directory: 'alunos.csv'

In [2]:
with open("alunos.csv", "r", encoding="utf-8") as f:

    planilha = [linha for linha in csv.reader(f, delimiter=';', lineterminator='\n')]

planilha

[['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'],
 ['110201', 'Antonio Carlos', '20', '6.5', '8.5', '7', '6'],
 ['110212', 'Ana Beatriz', '20', '7', '7', '7', '8'],
 ['110218', 'Carlos Vernes', '17', '7', '7', '7', '7'],
 ['110307', 'Francisco Cunha', '20', '9', '8.5', '8.5', '10'],
 ['110275', 'Sandra Rosa', '15', '6.5', '7.5', '7', '7'],
 ['110281', 'Juliana Arruda', '18', '7.5', '7', '7.5', '8'],
 ['110301', 'Joao Galo', '20', '5', '6.5', '7', '5'],
 ['110263', 'José Valente', '20', '10', '10', '10', '10'],
 ['110271', 'Maria Ferreira', '19', '9.5', '8', '7', '10'],
 ['110236', 'Adriana Tavares', '20', '8', '8', '8', '8']]

Como fizemos na aula, uma vez lido o arquivo, é possível processá-lo de diversas maneiras.

Por exemplo, para obter **a primeira coluna**, isto é, os nomes, fazemos:

In [3]:
[item[1] for item in planilha]

['Nome',
 'Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Agora, vamos usar o Pandas e aprender uma forma muito mais natural de processar dados!

In [4]:
!pip install pandas



In [5]:
import pandas as pd

In [6]:
df = pd.read_csv("alunos.csv", sep=";")

In [7]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


Podemos **acessar os valores nas colunas** pelo nome delas:

In [8]:
df["Nome"]

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [9]:
df.columns

Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'], dtype='object')

In [10]:
df["Frequencia"]

0    20
1    20
2    17
3    20
4    15
5    18
6    20
7    20
8    19
9    20
Name: Frequencia, dtype: int64

In [11]:
df["Prova_4"]

0     6
1     8
2     7
3    10
4     7
5     8
6     5
7    10
8    10
9     8
Name: Prova_4, dtype: int64

Se quisermos obter uma lista propriamente com os valores na coluna, usamos o método `tolist()`:

In [12]:
type(df)

pandas.core.frame.DataFrame

In [13]:
type(df["Nome"])

pandas.core.series.Series

In [14]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [15]:
df["Nome"]

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [16]:
df["Nome"].tolist()

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Dá pra **selecionar apenas algumas colunas** do dataframe (ou seja, criando um sub-dataframe):

In [17]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [18]:
df2 = df[["Nome", "Frequencia"]]

In [19]:
df2

Unnamed: 0,Nome,Frequencia
0,Antonio Carlos,20
1,Ana Beatriz,20
2,Carlos Vernes,17
3,Francisco Cunha,20
4,Sandra Rosa,15
5,Juliana Arruda,18
6,Joao Galo,20
7,José Valente,20
8,Maria Ferreira,19
9,Adriana Tavares,20


In [20]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


É possível **alterar valores** da tabela. Para isso, primeiro localizamos o valor a ser alterado com o **.loc**, passando a linha e coluna correspondente, e depois atribuímos o novo valor

In [21]:
df.loc[2]

RA                   110218
Nome          Carlos Vernes
Frequencia               17
Prova_1                 7.0
Prova_2                 7.0
Prova_3                 7.0
Prova_4                   7
Name: 2, dtype: object

In [22]:
df.loc[2, "Prova_3"] = 8.5

In [23]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,8.5,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


**Criando uma coluna nova**, com todas as linhas preenchidas com o mesmo valor

In [24]:
df["qqr_coisa"] = "ADA"

In [25]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,qqr_coisa
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,ADA
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,ADA
2,110218,Carlos Vernes,17,7.0,7.0,8.5,7,ADA
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,ADA
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,ADA
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,ADA
6,110301,Joao Galo,20,5.0,6.5,7.0,5,ADA
7,110263,José Valente,20,10.0,10.0,10.0,10,ADA
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,ADA
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,ADA


In [26]:
import random

In [27]:
df.columns

Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4',
       'qqr_coisa'],
      dtype='object')

In [28]:
df.shape[0]

10

In [29]:
df["Prova_5"] = [random.randint(0, 10) for _ in range(df.shape[0])]

In [30]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,qqr_coisa,Prova_5
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6,ADA,10
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8,ADA,9
2,110218,Carlos Vernes,17,7.0,7.0,8.5,7,ADA,5
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10,ADA,3
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7,ADA,8
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8,ADA,9
6,110301,Joao Galo,20,5.0,6.5,7.0,5,ADA,1
7,110263,José Valente,20,10.0,10.0,10.0,10,ADA,9
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10,ADA,9
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8,ADA,4


Também é possível **criar uma linha nova**:

In [31]:
df.loc[10, "RA"] = 110237
df.loc[10, "Nome"] = "Han Solo"
df.loc[10, "Frequencia"] = 75
df.loc[10, "Prova_1"] = 10

In [32]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,qqr_coisa,Prova_5
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,ADA,10.0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,ADA,9.0
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,ADA,5.0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,ADA,3.0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,ADA,8.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,ADA,9.0
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,ADA,1.0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,ADA,9.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,ADA,9.0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,ADA,4.0


In [33]:
df = df.drop(columns=["qqr_coisa"])

# df.drop(columns=["qqr_coisa"], inplace=True)

In [34]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0


In [35]:
df = df.drop(index=[10])

In [36]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0


Podemos fazer operações entre os valores das colunas, e criar com isso novas colunas!

In [37]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   RA          10 non-null     float64
 1   Nome        10 non-null     object 
 2   Frequencia  10 non-null     float64
 3   Prova_1     10 non-null     float64
 4   Prova_2     10 non-null     float64
 5   Prova_3     10 non-null     float64
 6   Prova_4     10 non-null     float64
 7   Prova_5     10 non-null     float64
dtypes: float64(7), object(1)
memory usage: 768.0+ bytes


In [50]:
df["média"] = (df["Prova_1"] + df["Prova_2"] + df["Prova_3"] + df["Prova_4"] + df["Prova_5"])/5

In [40]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0,8.4
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0,7.8
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0,6.5
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0,6.4
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.4
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,8.0
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0,4.1
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.6
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.5
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0,6.4


Também há algumas funções prontas:

In [41]:
df.columns

Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4',
       'Prova_5', 'média'],
      dtype='object')

In [43]:
df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4', 'Prova_5']]

Unnamed: 0,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5
0,6.5,8.5,7.0,6.0,10.0
1,7.0,7.0,7.0,8.0,9.0
2,7.0,7.0,8.5,7.0,5.0
3,9.0,8.5,8.5,10.0,3.0
4,6.5,7.5,7.0,7.0,8.0
5,7.5,7.0,7.5,8.0,9.0
6,5.0,6.5,7.0,5.0,1.0
7,10.0,10.0,10.0,10.0,9.0
8,9.5,8.0,7.0,10.0,9.0
9,8.0,8.0,8.0,8.0,4.0


In [45]:
df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4', 'Prova_5']].mean(axis=0)

Prova_1    7.60
Prova_2    7.80
Prova_3    7.75
Prova_4    7.90
Prova_5    6.70
dtype: float64

In [53]:
df["média"] = (df["Prova_1"] + df["Prova_2"] + df["Prova_3"] + df["Prova_4"] + df["Prova_5"])/5

In [59]:
df.columns

Index(['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4',
       'Prova_5', 'média', 'média2'],
      dtype='object')

In [61]:
[col for col in df.columns if "Prova_" in col]

['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4', 'Prova_5']

In [64]:
df["média2"] = df[['Prova_1', 'Prova_2', 'Prova_3', 'Prova_4', 'Prova_5']].mean(axis=1)

df["média3"] = df[[col for col in df.columns if "Prova_" in col]].mean(axis=1)

In [65]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0,7.6,7.6,7.6
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0,7.6,7.6,7.6
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0,6.9,6.9,6.9
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0,7.8,7.8,7.8
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0,4.9,4.9,4.9
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0,7.2,7.2,7.2


Naturalmente, o resultado é o mesmo!

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [69]:
mascara = df["média"] > 8

In [70]:
df[mascara]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7


In [71]:
df[df["média"]>8]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7


Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [75]:
(df["média"]>7)

0     True
1     True
2    False
3     True
4     True
5     True
6    False
7     True
8     True
9     True
Name: média, dtype: bool

In [76]:
(df["Frequencia"]<20)

0    False
1    False
2     True
3    False
4     True
5     True
6    False
7    False
8     True
9    False
Name: Frequencia, dtype: bool

In [77]:
df[(df["média"]>7) & (df["Frequencia"]<20)]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7


In [78]:
df[~((df["média"]>7) & (df["Frequencia"]<20))]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0,7.6,7.6,7.6
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0,7.6,7.6,7.6
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0,6.9,6.9,6.9
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0,7.8,7.8,7.8
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0,4.9,4.9,4.9
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0,7.2,7.2,7.2


In [79]:
df[(df["média"]>7) | (df["Frequencia"]<20)]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0,7.6,7.6,7.6
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0,7.6,7.6,7.6
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0,6.9,6.9,6.9
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0,7.8,7.8,7.8
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0,7.2,7.2,7.2


Uma outra forma bem simples de fazer filtros e com o método `query()`, que permite que passemos uma expressão lógica na forma de uma string:

In [80]:
df[(df["média"]>7) & (df["Frequencia"]<20)]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7


In [83]:
df.query("média > 7 and Frequencia < 20")

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7


________

E também é bem fácil salvar um dataframe de volta pra CSV ou pro Excel:

In [86]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0,7.6,7.6,7.6
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0,7.6,7.6,7.6
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0,6.9,6.9,6.9
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0,7.8,7.8,7.8
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0,4.9,4.9,4.9
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0,7.2,7.2,7.2


In [87]:
df.to_csv("notas_processadas.csv", sep=";", index=False)

In [90]:
df_filtrado = df.query("média > 7 and Frequencia < 20")

df_filtrado.to_csv("notas_filtrado.csv", sep=";", index=False)

In [91]:
df_filtrado.to_excel("notas_filtrado.xlsx")

Agora que entendemos na prática como usar o Pandas, vamos nos aprofundar um pouco mais em sua estrutura!

O DataFrame é a estrutura que se assemelha a uma tabela/planilha, como vimos acima.

Ao ler um arquivo, um dataframe é criado automaticamente pelo pandas!

Por debaixo dos panos, o dataframe é representado por um dicionário em que a **chave** é o **nome da coluna** e os **valores** são as **Series** (todas com mesmo índice).

Assim, podemos **criar um dataframe a partir de um dicionario**, usando a função `pd.DataFrame()` 

In [93]:
cadastro = {"nomes" : ["Joãozinho", "Mariazinha"],
            "idade" : [22, 25],
            "cidade" : ["São Paulo", "Santo André"],
            "n_filhos": [0, 0],
            "altura" : [1.80, 1.65]}

cadastro

{'nomes': ['Joãozinho', 'Mariazinha'],
 'idade': [22, 25],
 'cidade': ['São Paulo', 'Santo André'],
 'n_filhos': [0, 0],
 'altura': [1.8, 1.65]}

In [94]:
pd.DataFrame(cadastro)

Unnamed: 0,nomes,idade,cidade,n_filhos,altura
0,Joãozinho,22,São Paulo,0,1.8
1,Mariazinha,25,Santo André,0,1.65


In [96]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Prova_5,média,média2,média3
0,110201.0,Antonio Carlos,20.0,6.5,8.5,7.0,6.0,10.0,7.6,7.6,7.6
1,110212.0,Ana Beatriz,20.0,7.0,7.0,7.0,8.0,9.0,7.6,7.6,7.6
2,110218.0,Carlos Vernes,17.0,7.0,7.0,8.5,7.0,5.0,6.9,6.9,6.9
3,110307.0,Francisco Cunha,20.0,9.0,8.5,8.5,10.0,3.0,7.8,7.8,7.8
4,110275.0,Sandra Rosa,15.0,6.5,7.5,7.0,7.0,8.0,7.2,7.2,7.2
5,110281.0,Juliana Arruda,18.0,7.5,7.0,7.5,8.0,9.0,7.8,7.8,7.8
6,110301.0,Joao Galo,20.0,5.0,6.5,7.0,5.0,1.0,4.9,4.9,4.9
7,110263.0,José Valente,20.0,10.0,10.0,10.0,10.0,9.0,9.8,9.8,9.8
8,110271.0,Maria Ferreira,19.0,9.5,8.0,7.0,10.0,9.0,8.7,8.7,8.7
9,110236.0,Adriana Tavares,20.0,8.0,8.0,8.0,8.0,4.0,7.2,7.2,7.2


In [97]:
df.to_dict()

{'RA': {0: 110201.0,
  1: 110212.0,
  2: 110218.0,
  3: 110307.0,
  4: 110275.0,
  5: 110281.0,
  6: 110301.0,
  7: 110263.0,
  8: 110271.0,
  9: 110236.0},
 'Nome': {0: 'Antonio Carlos',
  1: 'Ana Beatriz',
  2: 'Carlos Vernes',
  3: 'Francisco Cunha',
  4: 'Sandra Rosa',
  5: 'Juliana Arruda',
  6: 'Joao Galo',
  7: 'José Valente',
  8: 'Maria Ferreira',
  9: 'Adriana Tavares'},
 'Frequencia': {0: 20.0,
  1: 20.0,
  2: 17.0,
  3: 20.0,
  4: 15.0,
  5: 18.0,
  6: 20.0,
  7: 20.0,
  8: 19.0,
  9: 20.0},
 'Prova_1': {0: 6.5,
  1: 7.0,
  2: 7.0,
  3: 9.0,
  4: 6.5,
  5: 7.5,
  6: 5.0,
  7: 10.0,
  8: 9.5,
  9: 8.0},
 'Prova_2': {0: 8.5,
  1: 7.0,
  2: 7.0,
  3: 8.5,
  4: 7.5,
  5: 7.0,
  6: 6.5,
  7: 10.0,
  8: 8.0,
  9: 8.0},
 'Prova_3': {0: 7.0,
  1: 7.0,
  2: 8.5,
  3: 8.5,
  4: 7.0,
  5: 7.5,
  6: 7.0,
  7: 10.0,
  8: 7.0,
  9: 8.0},
 'Prova_4': {0: 6.0,
  1: 8.0,
  2: 7.0,
  3: 10.0,
  4: 7.0,
  5: 8.0,
  6: 5.0,
  7: 10.0,
  8: 10.0,
  9: 8.0},
 'Prova_5': {0: 10.0,
  1: 9.0,
  2: 

Mas, como vimos, podemos também ler um dataframe a partir de um arquivo, que é a forma mais comum de trabalharmos com o pandas!