# Notebook comentado

In [38]:
# Sempre importante lembrar de importar as bibliotecas
import pandas as pd
import numpy as np

In [40]:
victor = pd.Series(["Victor", 3, 2, 7.0])
carol = pd.Series(["Carol", 1, 10, 8.7])
# Para criar um dataframe podemos passar uma lista de series. Cada Serie é uma linha do Dataframe
pd.DataFrame([victor, carol])

Unnamed: 0,0,1,2,3
0,Victor,3,2,7.0
1,Carol,1,10,8.7


In [42]:
colunas = ["Aluno", "Faltas", "Provas", "Seminarios"]
victor = pd.Series(["Victor", 3, 2, 7.0], index=colunas)
carol = pd.Series(["Carol", 1, 10, 8.7], index=colunas)
# Quando queremos dar nome as colunas, precisamos que as series sejam indexadas com os nomes das colunas
# Todas as Series que compoem o dataframe devem ter o mesmo index
pd.DataFrame([victor, carol])

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,7.0
1,Carol,1,10,8.7


In [46]:
# Podemos criar o dataframe por colunas, passando um dicionario (dict) por parametro
# O dicionario possui um conjunto de chave-valor. A chave é o nome da coluna e o valor é a lista dos dados
dicionario = {
    'Aluno' : pd.Series(["Victor", "Joyce", "Felipe", "Carol", "Maria"]),
    'Faltas' : pd.Series([3,5,2,1,1]),
    'Provas' : pd.Series([2,3,7,10,6]),
    'Seminarios' : pd.Series([7.0,8.5, 9.0, 8.7, 5.0])
}
tabela = pd.DataFrame(dicionario)
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,7.0
1,Joyce,5,3,8.5
2,Felipe,2,7,9.0
3,Carol,1,10,8.7
4,Maria,1,6,5.0


In [47]:
# se passarmos listas em vez de series o panda cria as series sozinho por debaixo dos panos
dicionario = {
    'Aluno' : ["Victor", "Joyce", "Felipe", "Carol", "Maria"],
    'Faltas' : [3,5,2,1,1],
    'Provas' : [2,3,7,10,6],
    'Seminarios' : [7.0,8.5, 9.0, 8.7, 5.0]
}
tabela = pd.DataFrame(dicionario)
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,7.0
1,Joyce,5,3,8.5
2,Felipe,2,7,9.0
3,Carol,1,10,8.7
4,Maria,1,6,5.0


In [48]:
# A forma mais comum de criar um dataframe é criando o dicionario junto com o dataframe
tabela = pd.DataFrame({
    'Aluno' : ["Victor", "Joyce", "Felipe", "Carol", "Maria"],
    'Faltas' : [3,5,2,1,1],
    'Provas' : [2,3,7,10,6],
    'Seminarios' : [7.0,8.5, 9.0, 8.7, 5.0]
})
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,7.0
1,Joyce,5,3,8.5
2,Felipe,2,7,9.0
3,Carol,1,10,8.7
4,Maria,1,6,5.0


In [49]:
# Voce consegue acessar as colunas da tabela com esse comando
tabela.columns

Index(['Aluno', 'Faltas', 'Provas', 'Seminarios'], dtype='object')

In [50]:
# E os tipos de cada coluna
tabela.dtypes

Aluno          object
Faltas          int64
Provas          int64
Seminarios    float64
dtype: object

In [51]:
# Passando o nome da coluna dentro de corchetes você pode obter a coluna completa de um dataframe
tabela["Aluno"]

0    Victor
1     Joyce
2    Felipe
3     Carol
4     Maria
Name: Aluno, dtype: object

In [52]:
# Usando loc, voce pode passar o nome do indice de uma linha para obte-la
tabela.loc[0]

Aluno         Victor
Faltas             3
Provas             2
Seminarios       7.0
Name: 0, dtype: object

In [54]:
# Com o nome do indice da linha e da cooluna obtemos um valor especifico da tabela
tabela.loc[0, "Aluno"]

'Victor'

In [55]:
# Também podemos usar loc e iloc para obter um elemento especifico da tabela
tabela.iloc[0, 0]

'Victor'

In [56]:
# o dataframe pode ser convertido para numpy, e assim seus dados podem ser acessados como uma matriz
array = tabela.to_numpy()
array[0,0]

'Victor'

In [57]:
# Após a transformação perdemos os nomes das colunas e o indice das linhas
array

array([['Victor', 3, 2, 7.0],
       ['Joyce', 5, 3, 8.5],
       ['Felipe', 2, 7, 9.0],
       ['Carol', 1, 10, 8.7],
       ['Maria', 1, 6, 5.0]], dtype=object)

In [59]:
# Podemos modificar o indice de um dataframe igual a como modificamos o indice de uma serie
tabela.index = np.arange(1,6)
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
1,Victor,3,2,7.0
2,Joyce,5,3,8.5
3,Felipe,2,7,9.0
4,Carol,1,10,8.7
5,Maria,1,6,5.0


In [62]:
# Lembrando sempre que o nome do indice deve ser usado na função loc para obter linhas
tabela.loc[1]

Aluno         Victor
Faltas             3
Provas             2
Seminarios       7.0
Name: 1, dtype: object

In [63]:
# Mas podemos usar a função iloc se quisermos usar a ordem original das linhas (começando por 0)
tabela.iloc[0]

Aluno         Victor
Faltas             3
Provas             2
Seminarios       7.0
Name: 1, dtype: object

### Como damos um ponto de participação a todos esses alunos?


In [78]:
# A forma mais comum de criar um dataframe é criando o dicionario junto com o dataframe
tabela = pd.DataFrame({
    'Aluno' : ["Victor", "Joyce", "Felipe", "Carol", "Maria"],
    'Faltas' : [3,5,2,1,1],
    'Provas' : [2,3,7,10,6],
    'Seminarios' : [7.0,8.5, 9.0, 8.7, 5.0]
})
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,7.0
1,Joyce,5,3,8.5
2,Felipe,2,7,9.0
3,Carol,1,10,8.7
4,Maria,1,6,5.0


In [79]:
# Se eu somar um a coluna de seminarios mas não salvar essa informação, ela se perde
tabela["Seminarios"] + 1

0     8.0
1     9.5
2    10.0
3     9.7
4     6.0
Name: Seminarios, dtype: float64

In [80]:
# A tabela continua sem o resultado
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,7.0
1,Joyce,5,3,8.5
2,Felipe,2,7,9.0
3,Carol,1,10,8.7
4,Maria,1,6,5.0


In [81]:
# Se eu quero alterar a informação devo colocar que a tabela de seminarios vai receber uma nova serie, que vai ser
# igual a anterior + 1 em todos os elementos
tabela["Seminarios"] = tabela["Seminarios"] + 1
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,8.0
1,Joyce,5,3,9.5
2,Felipe,2,7,10.0
3,Carol,1,10,9.7
4,Maria,1,6,6.0


In [82]:
# Posso fazer operações com as colunas, pois cada coluna é uma serie
medias = (tabela["Provas"] + tabela["Seminarios"] )/2
medias?

In [70]:
# Para adicionar novas colunas no dataframe eu posso chamar uma coluna que ainda não existe
# E atribuir uma serie naquela coluna. Contanto que o indice da serie seja igual ao indice do dataframe
# A coluna será adicionada
tabela["Medias"] = medias
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminarios,Medias
1,Victor,3,2,8.0,5.0
2,Joyce,5,3,9.5,6.25
3,Felipe,2,7,10.0,8.5
4,Carol,1,10,9.7,9.85
5,Maria,1,6,6.0,6.0


In [83]:
# Como cada coluna é uma serie podemos chamar as funcoes de serie nas colunas para obter informações como a media de uma
# coluna
media_faltas = tabela["Faltas"].mean()
media_faltas

2.4

In [84]:
# O data frame também possui essas funcoes. Elas sao aplicadas a cada coluna e o resultado é uma Serie
tabela.max()

Aluno         Victor
Faltas             5
Provas            10
Seminarios      10.0
dtype: object

In [85]:
tabela.min()

Aluno         Carol
Faltas            1
Provas            2
Seminarios      6.0
dtype: object

In [86]:
tabela.mean()

Faltas        2.40
Provas        5.60
Seminarios    8.64
dtype: float64

In [87]:
# Interessante notar que sempre são aplicados as colunas.
# Caso deseje aplicar para as linhas digite axis=1 dentro do metodo
tabela.mean(axis=1)
# axis 0 == media das colunas, 1 == das linhas. O padrão é 0

0    4.333333
1    5.833333
2    6.333333
3    6.900000
4    4.333333
dtype: float64

In [88]:
filtro = pd.Series([True, True, False, False, False])
# Podemos passar dentro dos corchetes uma serie de verdadeiros e falsos, que representa um filtro
# Se essa serie tiver o mesmo indice do dataframe, cada linha verdadeira será impressa como resultado
tabela[filtro]

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,8.0
1,Joyce,5,3,9.5


In [90]:
# Sendo assim podemos fazer consultas ao dataframe dessa forma.
# tabela["Faltas"] > media_faltas vai me retornar uma serie de verdadeiros e falsos, passando isso dentro do df[]
# obterei as linhas que possuem seu numero de faltas superior a media_faltas
tabela[tabela["Faltas"] > media_faltas]

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,8.0
1,Joyce,5,3,9.5


In [92]:
# And é representado por &
# Or é representado por |
# Not é representado por ~

# Podemos usar múltiplas condições:
tabela[ (tabela["Faltas"] > media_faltas) | (tabela["Provas"] == 10)]

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
0,Victor,3,2,8.0
1,Joyce,5,3,9.5
3,Carol,1,10,9.7


In [93]:
tabela[ (tabela["Provas"] == 10) & (tabela["Seminarios"] >= 7 )]

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
3,Carol,1,10,9.7


In [94]:
tabela[ (tabela["Provas"] >= 7) & (tabela["Provas"] != 10) ]

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
2,Felipe,2,7,10.0


In [95]:
tabela[ (tabela["Provas"] >= 7) & (tabela["Provas"] == 10) ]

Unnamed: 0,Aluno,Faltas,Provas,Seminarios
3,Carol,1,10,9.7


### E se somarmos Dataframes?


In [None]:






turma1.index = turma1["Aluno"]
# Se os indices forem diferentes, não vai funcionar
# NaN == Not a Number; É um 'placeholder' para dados faltantes
# Ele vai tentar somar o elemento que tem alguma coisa com NaN, resultando em NaN
turma1 + turma2

turma1 = pd.DataFrame({
    'Aluno' : ["Victor", "Joyce", "Felipe", "Carol", "Maria"],
    'Faltas' : [3,5,2,1,1],
    'Provas' : [2,3,7,10,6],
    'Seminarios' : [7.0,8.5, 9.0, 8.7, 5.0]
})
turma2 = pd.DataFrame({
    'Aluno' : ["Geysa", "Anderson", "Fred", "Raize", "Pedro"],
    'Faltas' : [0,1,2,1,1],
    'Provas' : [2,3,7,10,6],
    'Seminarios' : [7.0,8.5, 9.0, 8.7, 5.0]
})
turma2["Media"] = (turma2["Provas"] + turma2["Seminarios"])/2
# Quando um deles tem uma coluna a mais, essa coluna vem vazia
turma1 + turma2

### Para verdadeiramente unir esses dataframes preciso da função *concat*

pd.concat([turma1, turma2])

# Notebook usado em sala

In [1]:
import pandas as pd

In [3]:
dicionario = {
    "Aluno" : ["Cecilia", "Celina", "Rafael", "Bruna", "Eduardo"],
    "Faltas" : [3,5,2,7,0],
    "Provas" : [10, 9, 8, 7, 2],
    "Seminario" : [7, 10, 8, 10, 5]
}

pd.DataFrame()

Unnamed: 0,Aluno,Faltas,Provas,Seminario
0,Cecilia,3,10,7
1,Celina,5,9,10
2,Rafael,2,8,8
3,Bruna,7,7,10
4,Eduardo,0,2,5


In [6]:
tabela = pd.DataFrame({
    "Aluno" : ["Cecilia", "Celina", "Rafael", "Bruna", "Eduardo"],
    "Faltas" : [3,5,2,7,0],
    "Provas" : [10, 9, 8, 7, 2],
    "Seminario" : [7, 10, 8, 10, 5]
})
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminario
0,Cecilia,3,10,7
1,Celina,5,9,10
2,Rafael,2,8,8
3,Bruna,7,7,10
4,Eduardo,0,2,5


In [7]:
tabela.dtypes

Aluno        object
Faltas        int64
Provas        int64
Seminario     int64
dtype: object

In [8]:
tabela.columns

Index(['Aluno', 'Faltas', 'Provas', 'Seminario'], dtype='object')

In [9]:
tabela["Faltas"]

0    3
1    5
2    2
3    7
4    0
Name: Faltas, dtype: int64

In [11]:
tabela.loc[0]

Aluno        Cecilia
Faltas             3
Provas            10
Seminario          7
Name: 0, dtype: object

In [12]:
tabela.loc[0, "Aluno"]

'Cecilia'

In [13]:
tabela.iloc[0, 0]

'Cecilia'

In [15]:
array_de_numpy = tabela.to_numpy()
array_de_numpy[0,0]

'Cecilia'

In [16]:
tabela.describe()

Unnamed: 0,Faltas,Provas,Seminario
count,5.0,5.0,5.0
mean,3.4,7.2,8.0
std,2.701851,3.114482,2.12132
min,0.0,2.0,5.0
25%,2.0,7.0,7.0
50%,3.0,8.0,8.0
75%,5.0,9.0,10.0
max,7.0,10.0,10.0


In [20]:
tabela.sort_values(by="Seminario")

Unnamed: 0,Aluno,Faltas,Provas,Seminario
4,Eduardo,0,2,5
0,Cecilia,3,10,7
2,Rafael,2,8,8
1,Celina,5,9,10
3,Bruna,7,7,10


In [22]:
tabela["Provas"] >= 7

0     True
1     True
2     True
3     True
4    False
Name: Provas, dtype: bool

In [24]:
tabela[tabela["Provas"] >= 7]

Unnamed: 0,Aluno,Faltas,Provas,Seminario
0,Cecilia,3,10,7
1,Celina,5,9,10
2,Rafael,2,8,8
3,Bruna,7,7,10


In [30]:
provas = tabela["Provas"]
filtro = provas >= 7
tabela[filtro]

Unnamed: 0,Aluno,Faltas,Provas,Seminario
0,Cecilia,3,10,7
1,Celina,5,9,10
2,Rafael,2,8,8
3,Bruna,7,7,10


In [33]:
# And é representado por &
# Or é representado por |
# Not é representado por ~
tabela

Unnamed: 0,Aluno,Faltas,Provas,Seminario
0,Cecilia,3,10,7
1,Celina,5,9,10
2,Rafael,2,8,8
3,Bruna,7,7,10
4,Eduardo,0,2,5


In [36]:
tabela[(tabela["Provas"] == 10) | (tabela["Seminario"] == 10)]

Unnamed: 0,Aluno,Faltas,Provas,Seminario
0,Cecilia,3,10,7
1,Celina,5,9,10
3,Bruna,7,7,10


In [37]:
tabela[(tabela["Provas"] >= 7) & (tabela["Seminario"] == 10)]

Unnamed: 0,Aluno,Faltas,Provas,Seminario
1,Celina,5,9,10
3,Bruna,7,7,10
