# Aula 3 - Pandas -- Uyanê

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 1) Introdução ao Pandas
- 2) Conceitos de Dataframe e Series
- 3) Axis e slicing: uso de loc/iloc
- 4) Criação e manipulação de DF e SS a partir de dicionário, listas e arrays
- 5) Filtragem de dados e parâmetro inplace
- 6) Leitura de dados (read_csv, read_excel, read_clipboard)
_______

### Objetivos

Apresentar o pandas, frisando sua importância para o processamento de dados e em data science. Apresentar seus principais conceitos (Series, DataFrame) e funcionalidades (leitura de arquivo, filtros, seleção, apply, escrita de arquivos, etc.)

### Habilidades a serem desenvolvidas nessa aula

Ao final da aula o aluno deve:

- Conhecer o pandas, suas vantagens e principais usos;
- Saber como ler um arquivo com o pandas (csv, excel, etc.), criando DataFrames;
- Entender o conceito de Series e como elas são construídas;
- Entender o conceito de DataFrame em termos das Series;
- Saber como trabalhar com DataFrames para o processamento de dados:
    - Seleções: uso de loc/iloc;
    - Filtros;
    - Criação de novas colunas.
- Saber como ler e escrever de/em um arquivo com o pandas (csv, excel, etc.).

____
____
____

## 1) Pandas

O pandas é uma das bibliotecas mais usadas em data science.

Seu objetivo é a **leitura, processamento e manipulação de dados** na forma de tabelas chamadas de **"DataFrame"**

<img src="pandas-data-structure.svg"  style="width: 700px" >

Antes de conhecer o Pandas, vamos ler o arquivo "alunos.csv", da forma como aprendemos na aula de arquivos

In [1]:
#Importando o arquivo e salvando numa variável seus dados:

import csv

arquivo = open("alunos.csv", "r", encoding="utf-8")
leitor = csv.reader(arquivo, delimiter=';', lineterminator='\n')
planilha = []

for linha in leitor:
    planilha.append(linha)
    
arquivo.close()

planilha

[['RA', 'Nome', 'Frequencia', 'Prova_1', 'Prova_2', 'Prova_3', 'Prova_4'],
 ['110201', 'Antonio Carlos', '20', '6.5', '8.5', '7', '6'],
 ['110212', 'Ana Beatriz', '20', '7', '7', '7', '8'],
 ['110218', 'Carlos Vernes', '17', '7', '7', '7', '7'],
 ['110307', 'Francisco Cunha', '20', '9', '8.5', '8.5', '10'],
 ['110275', 'Sandra Rosa', '15', '6.5', '7.5', '7', '7'],
 ['110281', 'Juliana Arruda', '18', '7.5', '7', '7.5', '8'],
 ['110301', 'Joao Galo', '20', '5', '6.5', '7', '5'],
 ['110263', 'José Valente', '20', '10', '10', '10', '10'],
 ['110271', 'Maria Ferreira', '19', '9.5', '8', '7', '10'],
 ['110236', 'Adriana Tavares', '20', '8', '8', '8', '8']]

Como fizemos na aula, uma vez lido o arquivo, é possível processá-lo de diversas maneiras.

Por exemplo, para obter **a primeira coluna**, isto é, os nomes, fazemos:

In [2]:
#Pegando dados da segunda coluna ("Nome"), sem o cabeçalho:
[item[1] for item in planilha if item[1]!='Nome']

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Agora, vamos usar o Pandas e aprender uma forma muito mais fácil de processar dados!

Existem diversas formas de instalar o pandas. A mais simples é instalar o pacote Anaconda (https://www.anaconda.com/distribution/) que já vem com o Python e diversas bibliotecas científicas e ciência de dados instaladas.

Outra forma, caso você já tenha o python instalado mas não o pandas, é o utilizar o gerenciador e pacotes pip, através do comando no seu **terminal**:

`$ pip install pandas`

ou dentro do jupyter

`!pip install pandas`

In [3]:
# importando a biblioteca
import pandas as pd

# lendo o arquivo
df = pd.read_csv("alunos.csv", sep=';')

#Mostrando a tabela como DataFrame
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [4]:
#Mostrando o formato do data frame: (linhas e colunas)
df.shape

(10, 7)

### Acessando elementos

Podemos **acessar os valores nas colunas** pelo nome delas:

In [5]:
#Outra forma de chama a coluna de Nomes:
df.Nome

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [6]:
# acessar coluna "Nome" diretamente
df["Nome"]


0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [7]:
#Se colocar a coluna dentro de uma lista, ele mostra o cabeçalho:

print(df[["Nome"]])

              Nome
0   Antonio Carlos
1      Ana Beatriz
2    Carlos Vernes
3  Francisco Cunha
4      Sandra Rosa
5   Juliana Arruda
6        Joao Galo
7     José Valente
8   Maria Ferreira
9  Adriana Tavares


In [8]:
#Se colocar a coluna dentro de uma lista, ele mostra o cabeçalho:

print(df[["Nome", "RA"]])

              Nome      RA
0   Antonio Carlos  110201
1      Ana Beatriz  110212
2    Carlos Vernes  110218
3  Francisco Cunha  110307
4      Sandra Rosa  110275
5   Juliana Arruda  110281
6        Joao Galo  110301
7     José Valente  110263
8   Maria Ferreira  110271
9  Adriana Tavares  110236


Se quisermos obter uma lista propriamente com os valores na coluna, usamos o método `tolist()`:

In [9]:
#Colocando os dados dentro de uma lista:
df["Nome"].tolist()

['Antonio Carlos',
 'Ana Beatriz',
 'Carlos Vernes',
 'Francisco Cunha',
 'Sandra Rosa',
 'Juliana Arruda',
 'Joao Galo',
 'José Valente',
 'Maria Ferreira',
 'Adriana Tavares']

Dá pra **selecionar apenas algumas colunas** do dataframe (ou seja, criando um sub-dataframe):

In [10]:
# pegando apenas a coluna "Nome" e resultado da "Prova_1"
print(df[["Nome", "Prova_1"]])

              Nome  Prova_1
0   Antonio Carlos      6.5
1      Ana Beatriz      7.0
2    Carlos Vernes      7.0
3  Francisco Cunha      9.0
4      Sandra Rosa      6.5
5   Juliana Arruda      7.5
6        Joao Galo      5.0
7     José Valente     10.0
8   Maria Ferreira      9.5
9  Adriana Tavares      8.0


In [11]:
# pegando apenas a coluna "Nome" e resultado da "Prova_1"
# Sem o print fica com visual mais bonito:
df[["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
0,Antonio Carlos,6.5
1,Ana Beatriz,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5
6,Joao Galo,5.0
7,José Valente,10.0
8,Maria Ferreira,9.5
9,Adriana Tavares,8.0


In [12]:
#Pega o cabeçalho e as cinco primeiras linhas:
df.head()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


In [13]:
#Pega o cabeçalho e as cinco últimas linhas:
df.tail()

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [14]:
#Uma cópia do cabeçalho e das 3 primeiras linhas:
df_mini = df.head(3).copy()
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [15]:
#Mostrando novamente a lista de nomes do DataFrame:
df.Nome

0     Antonio Carlos
1        Ana Beatriz
2      Carlos Vernes
3    Francisco Cunha
4        Sandra Rosa
5     Juliana Arruda
6          Joao Galo
7       José Valente
8     Maria Ferreira
9    Adriana Tavares
Name: Nome, dtype: object

In [16]:
#Mostrando o mini DataFrame:
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [17]:
#Colocando a coluna do Nome na frente
df_mini.set_index(['Nome']).reset_index()

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7


In [18]:
#Renomeando os index do mini DataFrame:
#inplcade True serve para mudar no próprio DataFrame, deixar essa alteração salva. 
df_mini.set_index([['a', 'a', 'c']], inplace=True)
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,110201,Antonio Carlos,20,6.5,8.5,7.0,6
a,110212,Ana Beatriz,20,7.0,7.0,7.0,8
c,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [19]:
#Loc serve para procurar elementos com o index informado:
df_mini.loc['a']

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,110201,Antonio Carlos,20,6.5,8.5,7.0,6
a,110212,Ana Beatriz,20,7.0,7.0,7.0,8


In [20]:
#Alterando todos os nomes dos index "a" para "Ana Beatriz"
df_mini.loc['a', 'Nome']= 'Ana Beatriz'
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,110201,Ana Beatriz,20,6.5,8.5,7.0,6
a,110212,Ana Beatriz,20,7.0,7.0,7.0,8
c,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [21]:
#Procura os dados que estiverem no index "a" com a condição que satisfaça o query()
df_mini.loc['a'].query("Nome=='Ana Beatriz'")

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,110201,Ana Beatriz,20,6.5,8.5,7.0,6
a,110212,Ana Beatriz,20,7.0,7.0,7.0,8


In [22]:
#Procura os dados que estiverem no index "a" com a condição que satisfaça o query()
df_mini.loc['a'].query("Prova_1 == 7.0")

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,110212,Ana Beatriz,20,7.0,7.0,7.0,8


In [23]:
#Procurando no mini DataFrame os elementos que tenham nome == "Ana Beatriz" e mostra a "Prova_4" desses elementos:
df_mini.loc[df_mini['Nome']=='Ana Beatriz', 'Prova_4']

a    6
a    8
Name: Prova_4, dtype: int64

In [24]:
#Mostrando mini DataFrame:
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
a,110201,Ana Beatriz,20,6.5,8.5,7.0,6
a,110212,Ana Beatriz,20,7.0,7.0,7.0,8
c,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [25]:
#Tentando voltar o nome do primeiro index "a" para "Antonio Carlos"
df_mini. set_index([[1,2,3]], inplace=True)
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
1,110201,Ana Beatriz,20,6.5,8.5,7.0,6
2,110212,Ana Beatriz,20,7.0,7.0,7.0,8
3,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [26]:
#Substituindo o Nome no index 1:
df_mini.loc[1,"Nome"]="Antonio Carlos"

In [27]:
#Mostrando DataFrame:
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
1,110201,Antonio Carlos,20,6.5,8.5,7.0,6
2,110212,Ana Beatriz,20,7.0,7.0,7.0,8
3,110218,Carlos Vernes,17,7.0,7.0,7.0,7


### Acessando elementos

Podemos utilizar o `.loc[indice_linhas, nome_colunas]` para acessar determinas colunas e as linhas através dos índices e nomes das colunas.

In [28]:
#Mostrando das linhas 1 até a 4 no DataFrame:
df[1:5]

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7


In [29]:
#Procurando todos os elementos dentro do mini DataFrame que satisfazem a condição informada na query:
df_mini.loc[:].query("Nome == 'Ana Beatriz'")

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
2,110212,Ana Beatriz,20,7.0,7.0,7.0,8


In [30]:
# selecionar todas as linhas das colunas ['Nome','Prova_1']
df.loc[:, ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
0,Antonio Carlos,6.5
1,Ana Beatriz,7.0
2,Carlos Vernes,7.0
3,Francisco Cunha,9.0
4,Sandra Rosa,6.5
5,Juliana Arruda,7.5
6,Joao Galo,5.0
7,José Valente,10.0
8,Maria Ferreira,9.5
9,Adriana Tavares,8.0


In [31]:
# selecionar linhas 3 à 5 das colunas ['Nome','Prova_1']
df.loc[3:5, ["Nome", "Prova_2"]]

Unnamed: 0,Nome,Prova_2
3,Francisco Cunha,8.5
4,Sandra Rosa,7.5
5,Juliana Arruda,7.0


In [32]:
# selecionar linhas 3,5,9 das colunas ['Nome','Prova_1']
df.loc[[3,5,9], ["Nome", "Prova_1"]]

Unnamed: 0,Nome,Prova_1
3,Francisco Cunha,9.0
5,Juliana Arruda,7.5
9,Adriana Tavares,8.0


In [33]:
# selecionar as linhas das colunas Prova_1 até Prova_4
df.loc[:, 'Prova_1':'Prova_4']

Unnamed: 0,Prova_1,Prova_2,Prova_3,Prova_4
0,6.5,8.5,7.0,6
1,7.0,7.0,7.0,8
2,7.0,7.0,7.0,7
3,9.0,8.5,8.5,10
4,6.5,7.5,7.0,7
5,7.5,7.0,7.5,8
6,5.0,6.5,7.0,5
7,10.0,10.0,10.0,10
8,9.5,8.0,7.0,10
9,8.0,8.0,8.0,8


selecionar apenas uma linha de uma coluna

In [34]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Adriana Tavares,20,8.0,8.0,8.0,8


In [35]:
#Trazendo o nome do elemento do ínidce 9:
df.loc[9, "Nome"]

'Adriana Tavares'

É possível **alterar valores** da tabela. Para isso, primeiro localizamos o valor a ser alterado com o **.loc**, passando a linha e coluna correspondente, e depois atribuímos o novo valor

In [36]:
df.loc[9, "Nome"] = "Joãozinho"
df.loc[9, "Frequencia"] = 100

In [38]:
df

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,110201,Antonio Carlos,20,6.5,8.5,7.0,6
1,110212,Ana Beatriz,20,7.0,7.0,7.0,8
2,110218,Carlos Vernes,17,7.0,7.0,7.0,7
3,110307,Francisco Cunha,20,9.0,8.5,8.5,10
4,110275,Sandra Rosa,15,6.5,7.5,7.0,7
5,110281,Juliana Arruda,18,7.5,7.0,7.5,8
6,110301,Joao Galo,20,5.0,6.5,7.0,5
7,110263,José Valente,20,10.0,10.0,10.0,10
8,110271,Maria Ferreira,19,9.5,8.0,7.0,10
9,110236,Joãozinho,100,8.0,8.0,8.0,8


In [39]:
#Colocando o nome como índice:
df = df.set_index('Nome')
df

Unnamed: 0_level_0,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Antonio Carlos,110201,20,6.5,8.5,7.0,6
Ana Beatriz,110212,20,7.0,7.0,7.0,8
Carlos Vernes,110218,17,7.0,7.0,7.0,7
Francisco Cunha,110307,20,9.0,8.5,8.5,10
Sandra Rosa,110275,15,6.5,7.5,7.0,7
Juliana Arruda,110281,18,7.5,7.0,7.5,8
Joao Galo,110301,20,5.0,6.5,7.0,5
José Valente,110263,20,10.0,10.0,10.0,10
Maria Ferreira,110271,19,9.5,8.0,7.0,10
Joãozinho,110236,100,8.0,8.0,8.0,8


Vamos tentar selecionar as linhas 3 à 5 das colunas ['Prova_1','Prova_2'] como fizemos anteriormente

O que aconteceu? <br>
O `.loc` faz o slice considerando o index da matriz e agora o index é o nome dos alunos. 

In [40]:
#Mostrando dados de Francisco Cunha até a Juliana Arruda (inclusivo) das provas 1 e 2
#Só é válido se os nomes forem os indices
df.loc['Francisco Cunha':'Juliana Arruda', ['Prova_1','Prova_2']]

Unnamed: 0_level_0,Prova_1,Prova_2
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
Francisco Cunha,9.0,8.5
Sandra Rosa,6.5,7.5
Juliana Arruda,7.5,7.0


Para resetar o index e voltarmos a ter os valores originais:

In [41]:
#Resetando os índices originais do DataFrame:
df.reset_index(inplace=True)
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8
6,Joao Galo,110301,20,5.0,6.5,7.0,5
7,José Valente,110263,20,10.0,10.0,10.0,10
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10
9,Joãozinho,110236,100,8.0,8.0,8.0,8


Repare que quando utilizamos o `inplace=True` como um argumento do método nós não precisamos referenciar o dataframe. <br>
Nós podemos utilizar o `inplace=True` em vários métodos do pandas.

### Seleção através das posições das linhas e colunas
Outra forma de acessarmos dados é através do `.iloc[número_linhas, número_colunas]` utilizando as posições das linhas e colunas

In [42]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8
6,Joao Galo,110301,20,5.0,6.5,7.0,5
7,José Valente,110263,20,10.0,10.0,10.0,10
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10
9,Joãozinho,110236,100,8.0,8.0,8.0,8


In [43]:
# seleciona index 9 e coluna 1 (RA)
df.iloc[9, 1]

110236

In [44]:
# seleciona todas as colunas de uma linha
df.iloc[9, :]

Nome          Joãozinho
RA               110236
Frequencia          100
Prova_1             8.0
Prova_2             8.0
Prova_3             8.0
Prova_4               8
Name: 9, dtype: object

In [45]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas sequenciais
df.iloc[3:5, 1:5]

Unnamed: 0,RA,Frequencia,Prova_1,Prova_2
3,110307,20,9.0,8.5
4,110275,15,6.5,7.5


In [46]:
# seleciona um conjunto de linhas sequenciais de um conjunto de colunas não sequenciais
df.iloc[3:5, [1,5]]

Unnamed: 0,RA,Prova_3
3,110307,8.5
4,110275,7.0


In [47]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8
2,Carlos Vernes,110218,17,7.0,7.0,7.0,7
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10
4,Sandra Rosa,110275,15,6.5,7.5,7.0,7
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8
6,Joao Galo,110301,20,5.0,6.5,7.0,5
7,José Valente,110263,20,10.0,10.0,10.0,10
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10
9,Joãozinho,110236,100,8.0,8.0,8.0,8


In [48]:
df.iloc[[3,4],[1,3,4]]

Unnamed: 0,RA,Prova_1,Prova_2
3,110307,9.0,8.5
4,110275,6.5,7.5


In [49]:
#Mudando o nome dos indices 2 e 4 para "Uyanê"
df.loc[[2,4],'Nome']='Uyanê'

In [50]:
#Criando uma coluna 0 com o valor 0:
df[0]=0

In [51]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
2,Uyanê,110218,17,7.0,7.0,7.0,7,0
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
4,Uyanê,110275,15,6.5,7.5,7.0,7,0
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0
7,José Valente,110263,20,10.0,10.0,10.0,10,0
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
9,Joãozinho,110236,100,8.0,8.0,8.0,8,0


In [52]:
#Mostrando os tipos dos valores que estão salvos no DataFrame:
df.dtypes

Nome           object
RA              int64
Frequencia      int64
Prova_1       float64
Prova_2       float64
Prova_3       float64
Prova_4         int64
0               int64
dtype: object

### Diferença entre .loc e .iloc
O .loc irá trazer o dado utilizando o índice, não importando se o índice não está ordenado. Já o .iloc irá respeitar a ordem atual dos dados

In [53]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
2,Uyanê,110218,17,7.0,7.0,7.0,7,0
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
4,Uyanê,110275,15,6.5,7.5,7.0,7,0
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0
7,José Valente,110263,20,10.0,10.0,10.0,10,0
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
9,Joãozinho,110236,100,8.0,8.0,8.0,8,0


In [54]:
#Criando uma cópia do DataFrame:
df_copy = df.copy()
df_copy

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
2,Uyanê,110218,17,7.0,7.0,7.0,7,0
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
4,Uyanê,110275,15,6.5,7.5,7.0,7,0
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0
7,José Valente,110263,20,10.0,10.0,10.0,10,0
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
9,Joãozinho,110236,100,8.0,8.0,8.0,8,0


In [55]:
# vamos bagunçar o índice do DataFrame:
# Os ínidices da cópia do DataFrame serão a ordem inversa:

df_copy.index = sorted(df.index.values, reverse=True)
df_copy

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
9,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
8,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
7,Uyanê,110218,17,7.0,7.0,7.0,7,0
6,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
5,Uyanê,110275,15,6.5,7.5,7.0,7,0
4,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
3,Joao Galo,110301,20,5.0,6.5,7.0,5,0
2,José Valente,110263,20,10.0,10.0,10.0,10,0
1,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
0,Joãozinho,110236,100,8.0,8.0,8.0,8,0


In [56]:
df.index.values

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9], dtype=int64)

In [57]:
from random import shuffle

#Bagunçando a ordem dos valores:
ordem = df.index.values.tolist()
shuffle(ordem)

#Colocando a nova ordem nos indices:
df_copy.index = ordem
df_copy

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
7,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0
0,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0
6,Uyanê,110218,17,7.0,7.0,7.0,7,0
8,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
1,Uyanê,110275,15,6.5,7.5,7.0,7,0
3,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
2,Joao Galo,110301,20,5.0,6.5,7.0,5,0
5,José Valente,110263,20,10.0,10.0,10.0,10,0
4,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0
9,Joãozinho,110236,100,8.0,8.0,8.0,8,0


In [58]:
# LOC trás o índice informado na posição que ele estiver:
df_copy.loc[[3,6],:]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
3,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0
6,Uyanê,110218,17,7.0,7.0,7.0,7,0


In [59]:
# ILOC traz a linha, independente do indice que estiver naquela linha:
df_copy.iloc[[3,6],:]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0
8,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0
2,Joao Galo,110301,20,5.0,6.5,7.0,5,0


### Criar novas colunas

**Criando uma coluna nova**, com todas as linhas preenchidas com o mesmo valor

In [60]:
# cria coluna com valores 1
df["cheia_de_um"] = 1
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,0,1
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,0,1
2,Uyanê,110218,17,7.0,7.0,7.0,7,0,1
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,0,1
4,Uyanê,110275,15,6.5,7.5,7.0,7,0,1
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,0,1
6,Joao Galo,110301,20,5.0,6.5,7.0,5,0,1
7,José Valente,110263,20,10.0,10.0,10.0,10,0,1
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,0,1
9,Joãozinho,110236,100,8.0,8.0,8.0,8,0,1


In [61]:
# cria coluna com string
df["aaaa"] = "a"

In [62]:
df[0]=1234

In [63]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,1234,1,a
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,1234,1,a
2,Uyanê,110218,17,7.0,7.0,7.0,7,1234,1,a
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,1234,1,a
4,Uyanê,110275,15,6.5,7.5,7.0,7,1234,1,a
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,1234,1,a
6,Joao Galo,110301,20,5.0,6.5,7.0,5,1234,1,a
7,José Valente,110263,20,10.0,10.0,10.0,10,1234,1,a
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,1234,1,a
9,Joãozinho,110236,100,8.0,8.0,8.0,8,1234,1,a


In [64]:
# cria coluna vazia
df["vazio"] = ""

In [65]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,1234,1,a,
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,1234,1,a,
2,Uyanê,110218,17,7.0,7.0,7.0,7,1234,1,a,
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,1234,1,a,
4,Uyanê,110275,15,6.5,7.5,7.0,7,1234,1,a,
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,1234,1,a,
6,Joao Galo,110301,20,5.0,6.5,7.0,5,1234,1,a,
7,José Valente,110263,20,10.0,10.0,10.0,10,1234,1,a,
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,1234,1,a,
9,Joãozinho,110236,100,8.0,8.0,8.0,8,1234,1,a,


In [66]:
#Impostando NumPy
import numpy as np

In [67]:
#Criando coluna chamada 'np_nan' com valores None
df['np_nan'] = None

In [68]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan
0,Antonio Carlos,110201,20,6.5,8.5,7.0,6,1234,1,a,,
1,Ana Beatriz,110212,20,7.0,7.0,7.0,8,1234,1,a,,
2,Uyanê,110218,17,7.0,7.0,7.0,7,1234,1,a,,
3,Francisco Cunha,110307,20,9.0,8.5,8.5,10,1234,1,a,,
4,Uyanê,110275,15,6.5,7.5,7.0,7,1234,1,a,,
5,Juliana Arruda,110281,18,7.5,7.0,7.5,8,1234,1,a,,
6,Joao Galo,110301,20,5.0,6.5,7.0,5,1234,1,a,,
7,José Valente,110263,20,10.0,10.0,10.0,10,1234,1,a,,
8,Maria Ferreira,110271,19,9.5,8.0,7.0,10,1234,1,a,,
9,Joãozinho,110236,100,8.0,8.0,8.0,8,1234,1,a,,


Também é possível **criar uma linha nova** atribuindo valores para todas as colunas:

In [69]:
df.loc[11, :] = [1245245, "Joãozinho", 100, 10, 4, 6, 7, "bbb", 2, 'b', "cheio", np.nan]

df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,
2,Uyanê,110218.0,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,
4,Uyanê,110275.0,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,


In [70]:
df.dtypes

Nome            object
RA              object
Frequencia     float64
Prova_1        float64
Prova_2        float64
Prova_3        float64
Prova_4        float64
0               object
cheia_de_um    float64
aaaa            object
vazio           object
np_nan          object
dtype: object

Se você usar o index de uma linha que já existe irá substituí-la.

Podemos fazer **operações entre os valores das colunas**, e criar com isso novas colunas!

In [71]:
# calculando a média usando as colunas Prova_1, Prova_2, Prova_3 e Prova_4
df["média"] = (df["Prova_1"] + df["Prova_2"] + 
                   df["Prova_3"] + df["Prova_4"])/4
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,,7.0
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,,7.25
2,Uyanê,110218.0,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,,7.0
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,,9.0
4,Uyanê,110275.0,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,,7.0
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,,7.5
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,,5.875
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,,10.0
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,,8.625
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,,8.0


Também há alguns métodos prontos que facilitam a utilização:

In [72]:
# calculando a media com o método .mean(axis=1)
df["media_2"] = df[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].mean(axis=1)

df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,,7.0,7.0
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,,7.25,7.25
2,Uyanê,110218.0,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,,7.0,7.0
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,,9.0,9.0
4,Uyanê,110275.0,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,,7.0,7.0
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,,7.5,7.5
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,,5.875,5.875
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,,10.0,10.0
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,,8.625,8.625
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,,8.0,8.0


In [73]:
#Juntando duas strings (concatenando)
df['soma_strings'] = df['Nome'].astype(str) + df['aaaa']
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,,7.0,7.0,Antonio Carlosa
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,,7.25,7.25,Ana Beatriza
2,Uyanê,110218.0,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,,9.0,9.0,Francisco Cunhaa
4,Uyanê,110275.0,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,,7.5,7.5,Juliana Arrudaa
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,,5.875,5.875,Joao Galoa
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,,10.0,10.0,José Valentea
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,,8.625,8.625,Maria Ferreiraa
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,,8.0,8.0,Joãozinhoa


In [74]:
#Não entendi essa média em coluna
df['media_em_coluna'] = df[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].mean()
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,,7.25,7.25,Ana Beatriza,
2,Uyanê,110218.0,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,110275.0,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,,8.0,8.0,Joãozinhoa,


Naturalmente, o resultado é o mesmo!

In [75]:
#Relembrando como era o mini DataFrame:
df_mini

Unnamed: 0,RA,Nome,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4
1,110201,Antonio Carlos,20,6.5,8.5,7.0,6
2,110212,Ana Beatriz,20,7.0,7.0,7.0,8
3,110218,Carlos Vernes,17,7.0,7.0,7.0,7


In [76]:
#Irá retornar o valor da Prova 4 de quem possuir o Nome = "Ana Beatriz":
df_mini.loc[df_mini['Nome']=='Ana Beatriz', 'Prova_4']

2    8
Name: Prova_4, dtype: int64

In [77]:
# Irá colocar 1 no RA quem possuir o nome = "Uyanê":
df.loc[df['Nome']=="Uyanê", 'RA'] = 1
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,,7.25,7.25,Ana Beatriza,
2,Uyanê,1,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,,8.0,8.0,Joãozinhoa,


### Métodos:

O Pandas possui diversos métodos que podem ser utilizados nessa estrutura.
Abaixo estão alguns métodos que essa estrutura de dados possui e facilitam alguns cálculos e análises:
 

| Método      | Descrição     |
| ----------- | -----------   |
| sum         | soma          |
| mean        | média         |
| std         | desvio padrão |
| mode        | moda          |
| max         | valor máximo  |
| min         | valor mínimo  |
| idxmax      | primeiro índice com valor máximo |
| idxmin      | primeiro índice com valor mínimo |
| value_counts | contagem de valores |
| describe    | estatísticas básicas |


Na próxima aula veremos mais alguns.


In [78]:
# calculando o valor máx de cada aluno
df[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].max(axis=1)

0      8.5
1      8.0
2      7.0
3     10.0
4      7.5
5      8.0
6      7.0
7     10.0
8     10.0
9      8.0
11    10.0
dtype: float64

In [79]:
# calculando o valor máx de cada prova
df[["Prova_1", "Prova_2", "Prova_3", "Prova_4"]].max(axis=0)

Prova_1    10.0
Prova_2    10.0
Prova_3    10.0
Prova_4    10.0
dtype: float64

### Limpando o DataFrame

In [80]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,0,cheia_de_um,aaaa,vazio,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,1234.0,1.0,a,,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,1234.0,1.0,a,,,7.25,7.25,Ana Beatriza,
2,Uyanê,1,17.0,7.0,7.0,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,1234.0,1.0,a,,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1,15.0,6.5,7.5,7.0,7.0,1234.0,1.0,a,,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,1234.0,1.0,a,,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,1234.0,1.0,a,,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,1234.0,1.0,a,,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,1234.0,1.0,a,,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,1234.0,1.0,a,,,8.0,8.0,Joãozinhoa,


In [81]:
#Escolhendo colunas que serão excluídas do DataFrame:
df = df.drop(columns=["cheia_de_um","vazio",0])

In [82]:
#Eliminando a linha 11 do DataFrame:
df = df.drop(11)

In [83]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,a,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,a,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,a,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,a,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,a,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,a,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


### Filtros

Podemos **fazer filtros** muito facilmente

Basta explicitarmos **condições sobre os valores das colunas**, e utilizar isso como indexador do dataframe!

In [84]:
#Mostra as 5 primeiras linhas:
df.head()

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,a,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,a,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,a,,7.0,7.0,Uyanêa,


In [85]:
#Retorna True ou False para a condição informada:
df["média"] > 7

0    False
1     True
2    False
3     True
4    False
5     True
6    False
7     True
8     True
9     True
Name: média, dtype: bool

In [86]:
# retorna o sub-dataframe que contém valores maiores que 7 na coluna "média"
# ou seja, é um filtro que utiliza a coluna "média"!

df[df["média"] > 7]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,a,,7.5,7.5,Juliana Arrudaa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,a,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


Se quisermos fazer filtros mais complexos (filtros compostos, em mais de uma coluna), podemos fazer **conjunções entre filtros**, utilizando os **operadores lógicos de conjunção**.

Obs.: temos os seguintes operadores lógicos:

- &     - corresponde ao "and"
- |     - corresponde ao "or"
- ~     - corresponde ao "not"

In [87]:
# filtar tabela para média > 7 e frequencia >= 20
df[(df["média"] > 7) & (df["Frequencia"] >= 20)]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


In [88]:
# filtar tabela para média > 7 ou frequencia >= 20
df[(df["média"] > 7) | (df["Frequencia"] >= 20)]

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,a,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,a,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,a,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,a,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


In [89]:
#Pegando o maior valor da Prova 4 das pessoas que estão com média > 7 ou frequêncua >=20
df[(df["média"] > 7) | (df["Frequencia"] >= 20)][['Prova_4']].max()

Prova_4    10.0
dtype: float64

In [90]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,a,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,a,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,a,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,a,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,a,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,a,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


In [91]:
# pegando somente a coluna "média" dos alunos que tiveram nota igual na prova 1 e na prova 4
df[df["Prova_4"] == df["Prova_1"]]["média"]

2     7.000
6     5.875
7    10.000
9     8.000
Name: média, dtype: float64

In [92]:
# calculando a média (das médias) de todos os alunos que tiveram nota igual na prova 1 e na prova 4
df[df["Prova_4"] == df["Prova_1"]]["média"].mean()

7.71875

In [93]:
# Podemos criar um novo df diretamento do filtro
prova_4 = df[df['Prova_4']>=7]
prova_4

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,a,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,a,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,a,,7.5,7.5,Juliana Arrudaa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,a,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


E também é bem fácil salvar um dataframe de volta pra CSV ou pro Excel. 

In [94]:
# salvando dados em csv com o método .to_csv()
df.to_csv("alunos_dadosTratados.csv", sep=";")

Para salvar esses dados em excel é preciso instalar mais uma biblioteca: a `openpyxl`. Caso você não a tenha escreva o comando seguinte em uma célula de código: <br>
` !pip install openpyxl `
<br>


In [96]:
# salvando dados em excel com o método .to_excel()
df.to_excel("alunos_dadosTratados.xlsx")

Agora que entendemos na prática como usar o Pandas, vamos nos aprofundar um pouco mais em sua estrutura!

### Outra forma de filtrar: `.query()`

In [97]:
#Filtrando por query (usando format)
prova_4 = df.query('{} >= 7 and Prova_3 >= 7 and Nome=="{}"'.format('Prova_4', 'Ana Beatriz'))
prova_4

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,


In [98]:
#Filtrando por query (sem format)
prova_4_novo = df.query('Prova_4 >= 7 and Prova_3 >= 7 and Nome=="Ana Beatriz"')
prova_4_novo

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,


### Tentando alterar colunas:


In [99]:
#Mostrando DataFrame:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,aaaa,np_nan,média,media_2,soma_strings,media_em_coluna
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,a,,7.0,7.0,Antonio Carlosa,
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,a,,7.25,7.25,Ana Beatriza,
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,a,,7.0,7.0,Uyanêa,
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,a,,9.0,9.0,Francisco Cunhaa,
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,a,,7.0,7.0,Uyanêa,
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,a,,7.5,7.5,Juliana Arrudaa,
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,a,,5.875,5.875,Joao Galoa,
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,a,,10.0,10.0,José Valentea,
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,a,,8.625,8.625,Maria Ferreiraa,
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,a,,8.0,8.0,Joãozinhoa,


In [100]:
#Colocando o sobrenome na coluna de "aaaa":
df["aaaa"]= ["Silva", "Souza","Oliveira", "Mendes", "Monteiro", "Lourenço", "Boldrini", "Leves", "Veloso", "Guedes"]

In [101]:
#Renomeando a coluna e apagando colunas indezejadas:
df.rename(columns={"aaaa": "Sobrenome"}, inplace=True)
df.drop(columns=["np_nan","soma_strings","media_em_coluna"], inplace=True)

#Mostrando o DataFrame
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Sobrenome,média,media_2
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,Silva,7.0,7.0
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,Souza,7.25,7.25
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,Oliveira,7.0,7.0
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,Mendes,9.0,9.0
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,Monteiro,7.0,7.0
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,Lourenço,7.5,7.5
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,Boldrini,5.875,5.875
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,Leves,10.0,10.0
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,Veloso,8.625,8.625
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,Guedes,8.0,8.0


In [104]:
#Criando a coluna do Nome_Completo e mostrando o DataFrame:
df["Nome_Completo"]=df["Nome"]+" "+df["Sobrenome"]
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Sobrenome,média,media_2,Nome_Completo
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,Silva,7.0,7.0,Antonio Carlos Silva
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,Souza,7.25,7.25,Ana Beatriz Souza
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,Oliveira,7.0,7.0,Uyanê Oliveira
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,Mendes,9.0,9.0,Francisco Cunha Mendes
4,Uyanê,1.0,15.0,6.5,7.5,7.0,7.0,Monteiro,7.0,7.0,Uyanê Monteiro
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,Lourenço,7.5,7.5,Juliana Arruda Lourenço
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,Boldrini,5.875,5.875,Joao Galo Boldrini
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,Leves,10.0,10.0,José Valente Leves
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,Veloso,8.625,8.625,Maria Ferreira Veloso
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,Guedes,8.0,8.0,Joãozinho Guedes


In [113]:
#Mudando algumas informações do index 4:
df.loc[4, "Nome"]="Luana"
df.loc[4,"RA"]=110302
df.loc[4, "Nome_Completo"]="Luana Monteiro"

In [114]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Sobrenome,média,media_2,Nome_Completo
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,Silva,7.0,7.0,Antonio Carlos Silva
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,Souza,7.25,7.25,Ana Beatriz Souza
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,Oliveira,7.0,7.0,Uyanê Oliveira
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,Mendes,9.0,9.0,Francisco Cunha Mendes
4,Luana,110302.0,15.0,6.5,7.5,7.0,7.0,Monteiro,7.0,7.0,Luana Monteiro
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,Lourenço,7.5,7.5,Juliana Arruda Lourenço
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,Boldrini,5.875,5.875,Joao Galo Boldrini
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,Leves,10.0,10.0,José Valente Leves
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,Veloso,8.625,8.625,Maria Ferreira Veloso
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,Guedes,8.0,8.0,Joãozinho Guedes


In [115]:
#Salvando as informações em um excel:
df.to_excel("alunos_atualizacoes.xlsx")

## Series
O objeto fundamental do Pandas são as **Series**.

As Series são as **colunas das tabelas**, que são originadas de um array unidimensional capaz de guardar qualquer tipo de dado (integers, strings, floating point numbers, Python objects, etc.). E como as listas, as series podem conter dados de vários tipo.

In [116]:
df

Unnamed: 0,Nome,RA,Frequencia,Prova_1,Prova_2,Prova_3,Prova_4,Sobrenome,média,media_2,Nome_Completo
0,Antonio Carlos,110201.0,20.0,6.5,8.5,7.0,6.0,Silva,7.0,7.0,Antonio Carlos Silva
1,Ana Beatriz,110212.0,20.0,7.0,7.0,7.0,8.0,Souza,7.25,7.25,Ana Beatriz Souza
2,Uyanê,1.0,17.0,7.0,7.0,7.0,7.0,Oliveira,7.0,7.0,Uyanê Oliveira
3,Francisco Cunha,110307.0,20.0,9.0,8.5,8.5,10.0,Mendes,9.0,9.0,Francisco Cunha Mendes
4,Luana,110302.0,15.0,6.5,7.5,7.0,7.0,Monteiro,7.0,7.0,Luana Monteiro
5,Juliana Arruda,110281.0,18.0,7.5,7.0,7.5,8.0,Lourenço,7.5,7.5,Juliana Arruda Lourenço
6,Joao Galo,110301.0,20.0,5.0,6.5,7.0,5.0,Boldrini,5.875,5.875,Joao Galo Boldrini
7,José Valente,110263.0,20.0,10.0,10.0,10.0,10.0,Leves,10.0,10.0,José Valente Leves
8,Maria Ferreira,110271.0,19.0,9.5,8.0,7.0,10.0,Veloso,8.625,8.625,Maria Ferreira Veloso
9,Joãozinho,110236.0,100.0,8.0,8.0,8.0,8.0,Guedes,8.0,8.0,Joãozinho Guedes


Visual de uma series:

In [118]:
df.Nome_Completo

0       Antonio Carlos Silva
1          Ana Beatriz Souza
2             Uyanê Oliveira
3     Francisco Cunha Mendes
4             Luana Monteiro
5    Juliana Arruda Lourenço
6         Joao Galo Boldrini
7         José Valente Leves
8      Maria Ferreira Veloso
9           Joãozinho Guedes
Name: Nome_Completo, dtype: object

Tipo de uma series

In [119]:
type(df.Nome_Completo)

pandas.core.series.Series

Como pudemos observar a series pode ter elementos de diferentes tipos. Na primeira posição temos um float enquanto na última temos uma string.

In [120]:
type(df.Nome_Completo[0])

str

In [122]:
type(df.Prova_3[8])

numpy.float64

A diferença é que a series possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário. Para entender mais sobre como trabalhar como séries, temos um conteúdo anexado no final desse notebook que você pode olhar.

Agora que entendemos a componente fundamental do Pandas, as Séries, vamos falar um pouco mais sobre o **DataFrame**

### Estrutura do df
O DataFrame é uma estrutura que se assemelha a uma tabela/planilha, como vimos acima.

Por debaixo dos panos, o dataframe é representado por um dicionário em que a **chave** é o **nome da coluna** e os **valores** são as **Series** (todas com mesmo índice).

### Criação de df a partir de dicionários

Assim, podemos **criar um dataframe a partir de um dicionario**, usando a função `pd.DataFrame()` 

In [123]:
cadastro = {"nomes" : ["André", "Mariazinha"],
                "idade" : [22, 25],
                "cidade" : ["Mauá", "Santo André"],
                "filhos": [0, 0],
                "altura" : [1.80, 1.65]}

cadastro

{'nomes': ['André', 'Mariazinha'],
 'idade': [22, 25],
 'cidade': ['Mauá', 'Santo André'],
 'filhos': [0, 0],
 'altura': [1.8, 1.65]}

In [124]:
# criando um dataframe a partir de um dicionario
df = pd.DataFrame(cadastro)
df

Unnamed: 0,nomes,idade,cidade,filhos,altura
0,André,22,Mauá,0,1.8
1,Mariazinha,25,Santo André,0,1.65


## Outros conteúdos

### Criar Series a partir de listas

Podemos criar uma series **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [125]:
# definindo uma série com valores e indices
indices = ["a", "b", "c", "d"]
lista = [10, 20, 30, 40]

serie = pd.Series(data = lista, index = indices)

serie

a    10
b    20
c    30
d    40
dtype: int64

Podemos acessar o elemento 30, que está associado ao índice c:

In [126]:
#Retorna o valor com o indice "c":
serie['c']

30

Para retornar todos os índices podemos utilizar o método `series.index`

In [127]:
#Retorna os indices:
serie.index

Index(['a', 'b', 'c', 'd'], dtype='object')

E para acessar os valores podemos utilizar o atributo `series.values`


In [128]:
#Retorna os valores dos dados:
serie.values

array([10, 20, 30, 40], dtype=int64)

### Utilizando filtros em Series
Podemos aplicar filtros para selecionar apenas os elementos que satisfaçam determinada condição.
No exemplo abaixo, iremos selecionar apenas os elementos que sejam maiores que 15:


In [129]:
serie[serie > 15] 

b    20
c    30
d    40
dtype: int64

Note que `serie > 15` nos retorna uma series com elementos `True` e `False`, caso os elementos da serie satisfaçam a condição. Ao utilizar esse comando dentro dos colchetes, `serie[serie > 15]`, estamos selecionado apenas os elementos que satisfazem a condição.


### Criar Series a partir de dicionários
Também podemos **criar uma série a partir de um dicionário**, e os índices e valores são automaticamente capturados:

In [130]:
# criando uma série a partir de um dicionario
dic2 = {"nome": "André", 
        "idade" : 23}

pd.Series(dic2)

nome     André
idade       23
dtype: object

### Criar dicionários a partir de Series
O inverso também é possível:

In [131]:
dicionario = dict(serie)

dicionario

{'a': 10, 'b': 20, 'c': 30, 'd': 40}

### Criar dataframe a partir de listas

In [132]:
# Considere a seguinte lista
age = [['Artur', 95.5, "M"], ['Vera', 79.7, "F"],
       ['Mônica', 85.1, "F"], ['Toni', 75.4, "M"]]
  
# Cria um pandas dataframe passando a lista e, se quiser, o nome das colunas
pd.DataFrame(age, columns=['Nome', 'Pontos', 'Sexo'])

Unnamed: 0,Nome,Pontos,Sexo
0,Artur,95.5,M
1,Vera,79.7,F
2,Mônica,85.1,F
3,Toni,75.4,M


### Criar dataframe a partir de array

In [133]:
import numpy as np

# Considere o seguinte array:
my_array = np.random.randint(1, 10, 18)

# Cria um pandas dataframe passando o array e, se quiser, o nome das colunas
pd.DataFrame(my_array.reshape(-1,3), columns=['col_1','col_2','col_3'])


Unnamed: 0,col_1,col_2,col_3
0,2,9,2
1,2,7,2
2,2,6,1
3,9,9,7
4,9,9,2
5,4,2,6


## Exercícios

1 - Realize os passos seguintes utilizando o mesmo dataset do íris da aula anterior ('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data').

a. Use o pandas para ler o arquivo como um dataframe. Obs: precisa ler o dataframe sem que a primeira linha corresponda ao nome das colunas.

In [142]:
#Minha forma de fazer:

import pandas as pd

#Salvando o arquivo em uma variável e colocando em um DataFrame:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
arquivo = pd.read_csv(url, header=None)
df = pd.DataFrame(arquivo)

#Mostrando o arquivo importado:
df


Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [None]:
#Forma que Paty fez:
import pandas as pd

tabela = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', sep=",", header=None)

tabela

b. Sabendo que as colunas correspondem, nessa ordem, a: 
    1. sepal length (cm)
    2. sepal width (cm)
    3. petal length (cm)
    4. petal width (cm)
    5. class: <br>
        - Iris Setosa <br>
        - Iris Versicolor <br>
        - Iris Virginica <br>
leia novamente o arquivo passando o nome das colunas como argumento.

In [151]:
#Minha forma de fazer:

import pandas as pd

#Salvando o arquivo em uma variável e colocando em um DataFrame:
url = "https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data"
arquivo = pd.read_csv(url, header=None, names=["sepallength","sepalwidth","petallength","petalwidth","class"])
df = pd.DataFrame(arquivo)

#Mostrando o arquivo importado:
df


Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [None]:
#Forma que Paty fez:
tabela = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data', sep=",", header=None, names = ["sepalLength", "sepalWidth", "petalLength","petalWidth", "Class"])

tabela

c. Calcule a média de cada coluna numérica para cada um dos tipos de íris indicados na coluna "class" sem utilizar métodos que não foram ensinados na aula de hoje. Utilize o loop for para reduzir quantidade de linhas. <br>
Existe diferença entre elas?

In [173]:
#Minha forma de fazer (Peguei como inspiração o de alguma equipe):
classes = {"Iris-setosa":0,"Iris-versicolor":0,"Iris-virginica":0}
medias = pd.DataFrame()

for classe in classes:
    medias[classe]=df[df["class"]==classe].mean()

medias    

Unnamed: 0,Iris-setosa,Iris-versicolor,Iris-virginica
sepallength,5.006,5.936,6.588
sepalwidth,3.418,2.77,2.974
petallength,1.464,4.26,5.552
petalwidth,0.244,1.326,2.026


In [None]:
#Forma que a Paty fez:
tabela.columns

In [None]:
tabela['Class'].unique()

In [None]:
for j in ['sepalLength', 'sepalWidth', 'petalLength', 'petalWidth']:
    for i in ['Iris-setosa', 'Iris-versicolor', 'Iris-virginica']:
        print(f'{i}: {j}', tabela[tabela['Class']==i][j].mean())
        print()

In [None]:
iris_setosa = tabela[tabela['Class']=='Iris-setosa'].copy()
iris_versicolor = tabela[tabela['Class']=='Iris-versicolor'].copy()
iris_virginica = tabela[tabela['Class']=='Iris-virginica'].copy()

print(iris_setosa.drop(['Class'], axis=1).mean(axis=0, numeric_only=True))
print(iris_versicolor.mean(axis=0, numeric_only=True))
print(iris_virginica.mean(axis=0, numeric_only=True))

In [194]:
#Resolução de uma outra equipe:
classes = ["Iris-setosa", "Iris-versicolor", "Iris-virginica"]
medias = pd.DataFrame()

for item in classes:
    media = df[df["class"] == item].iloc[:, 0:4].mean(axis=0)
    medias[item] = media
    
dic = dict(medias)
print(dic)

{'Iris-setosa': sepallength    5.006
sepalwidth     3.418
petallength    1.464
petalwidth     0.244
Name: Iris-setosa, dtype: float64, 'Iris-versicolor': sepallength    5.936
sepalwidth     2.770
petallength    4.260
petalwidth     1.326
Name: Iris-versicolor, dtype: float64, 'Iris-virginica': sepallength    6.588
sepalwidth     2.974
petallength    5.552
petalwidth     2.026
Name: Iris-virginica, dtype: float64}


d. Adicione uma única coluna com a média de 'sepal length' para cada um dos tipos de íris indicados na coluna "class". Utilize o loop for e faça isso sem utilizar métodos que não foram ensinados na aula de hoje.

In [209]:
#Minha forma de fazer:

#Criando uma coluna com zeros:
df["mediasepallength"]=0

#Para cada classe disponível adicionar a media que foi calculada lá atrás do sepallength:
for classe in classes:
    df.loc[df["class"]==classe, "mediasepallength"]=medias[classe]["sepallength"]
    
#Mostrando o novo DataFrame (com a nova coluna)
df



Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class,mediasepallength
0,5.1,3.5,1.4,0.2,Iris-setosa,5.006
1,4.9,3.0,1.4,0.2,Iris-setosa,5.006
2,4.7,3.2,1.3,0.2,Iris-setosa,5.006
3,4.6,3.1,1.5,0.2,Iris-setosa,5.006
4,5.0,3.6,1.4,0.2,Iris-setosa,5.006
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,6.588
146,6.3,2.5,5.0,1.9,Iris-virginica,6.588
147,6.5,3.0,5.2,2.0,Iris-virginica,6.588
148,6.2,3.4,5.4,2.3,Iris-virginica,6.588


In [175]:
#Forma da Paty fazer:
df.columns

Index(['sepallength', 'sepalwidth', 'petallength', 'petalwidth', 'class'], dtype='object')

In [178]:
df.loc[df ['class'] == 'Iris-setosa', 'sepallength'].mean()


5.005999999999999

In [179]:
df

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica
146,6.3,2.5,5.0,1.9,Iris-virginica
147,6.5,3.0,5.2,2.0,Iris-virginica
148,6.2,3.4,5.4,2.3,Iris-virginica


In [182]:
df['mean_sepal_length'] = 0
for i in classes:
    df.loc[df ['class'] == i, 'mean_sepal_length'] = df.loc[df ['class'] == i, 'sepallength'].mean()


In [183]:
df

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class,mean_sepal_length
0,5.1,3.5,1.4,0.2,Iris-setosa,5.006
1,4.9,3.0,1.4,0.2,Iris-setosa,5.006
2,4.7,3.2,1.3,0.2,Iris-setosa,5.006
3,4.6,3.1,1.5,0.2,Iris-setosa,5.006
4,5.0,3.6,1.4,0.2,Iris-setosa,5.006
...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,6.588
146,6.3,2.5,5.0,1.9,Iris-virginica,6.588
147,6.5,3.0,5.2,2.0,Iris-virginica,6.588
148,6.2,3.4,5.4,2.3,Iris-virginica,6.588


e. Crie uma coluna de volume sabendo que o volume representa (pi x petallength x sepal_length^2)/3

In [210]:
#Minha maneira de fazer:
import numpy as np

df["volume"]=(np.pi*df["petallength"]*df["sepallength"]**2)/3
df

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class,mediasepallength,volume
0,5.1,3.5,1.4,0.2,Iris-setosa,5.006,38.132652
1,4.9,3.0,1.4,0.2,Iris-setosa,5.006,35.200498
2,4.7,3.2,1.3,0.2,Iris-setosa,5.006,30.072372
3,4.6,3.1,1.5,0.2,Iris-setosa,5.006,33.238050
4,5.0,3.6,1.4,0.2,Iris-setosa,5.006,36.651914
...,...,...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,Iris-virginica,6.588,244.445230
146,6.3,2.5,5.0,1.9,Iris-virginica,6.588,207.816354
147,6.5,3.0,5.2,2.0,Iris-virginica,6.588,230.069302
148,6.2,3.4,5.4,2.3,Iris-virginica,6.588,217.373079


f. Salve apenas o valor da classe, da média do sepal length e do volume desse dataset em um arquivo csv sem a coluna de index.

In [220]:
#Minha forma de fazer:
novodf = df.loc[:, ["class","mediasepallength","volume"]].copy()
novodf

Unnamed: 0,class,mediasepallength,volume
0,Iris-setosa,5.006,38.132652
1,Iris-setosa,5.006,35.200498
2,Iris-setosa,5.006,30.072372
3,Iris-setosa,5.006,33.238050
4,Iris-setosa,5.006,36.651914
...,...,...,...
145,Iris-virginica,6.588,244.445230
146,Iris-virginica,6.588,207.816354
147,Iris-virginica,6.588,230.069302
148,Iris-virginica,6.588,217.373079


In [223]:
#Ainda no meu modo de fazer - Salvando o arquivo:
novodf.to_csv("Aula3_AtividadeF.csv", sep=";", index=False)

In [None]:
#Modo que a Paty fez:
tabela.columns

In [None]:
tabela[['Class','sepalLength']].to_csv('saida_iris.csv', sep=';', index=False)