# Pandas

* É uma biblioteca escrita sobre numpy
* Permite rápida visualização e limpeza de dados
* Pode trabalhar com dados de tipos diferentes
* Possui métodos próprios de visualização de dados

## Conteúdo

* Séries
* Dataframe
* Dados ausentes
* Groupby
* Concatenar, juntar e mesclar
* Operações
* Entrada e Saída de Dados

## Serie
Uma Serie é muito semelhante a um vetor em NumPy (na verdade, ela é construída em cima do objeto NumPy). O que diferencia um vetor em NumPy de uma Serie, é que uma Serie pode ter rótulos de eixos, o que significa que **pode ser indexado por um rótulo, em vez de apenas uma localização numérica**. Também não precisa manter dados homogêneos, ele **pode conter qualquer objeto Python arbitrário**.

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.html

In [1]:
import pandas as pd

In [2]:
notas = pd.Series([2,7,5,10,6]) #serie com rotulos default

In [3]:
notas

0     2
1     7
2     5
3    10
4     6
dtype: int64

In [4]:
notas.values

array([ 2,  7,  5, 10,  6])

In [5]:
notas.index

RangeIndex(start=0, stop=5, step=1)

In [6]:
#serie com rotulos definidos
notas = pd.Series([2,7,5,10,5], index=['Wilfred', 'Abbie', 'Harry', 'Julia', 'Carrie'])

In [7]:
print(notas)

Wilfred     2
Abbie       7
Harry       5
Julia      10
Carrie      5
dtype: int64


In [8]:
notas['Julia']

10

Outra facilidade proporcionada pela estrutura são seus métodos que fornecem informações estatísticas sobre os valores, como média .mean() e desvio padrão .std()

In [9]:
print("Média:", notas.mean())
print("Desvio padrão:", notas.std())

Média: 5.8
Desvio padrão: 2.949576240750525


describe() retorna informacoes diferentes dependendo se o tipo eh numerico ou categorico

In [10]:
notas.describe() 

count     5.000000
mean      5.800000
std       2.949576
min       2.000000
25%       5.000000
50%       5.000000
75%       7.000000
max      10.000000
dtype: float64

In [11]:
notas.max()

10

In [12]:
notas.min()

2

In [13]:
notas.value_counts() #conta quantas ocorrencias de cada valor

5     2
7     1
10    1
2     1
dtype: int64

A estrutura é flexível o suficiente pra aplicarmos algumas expressões matemáticas e funções matemáticas do numpy diretamente:

In [14]:
notas**2

Wilfred      4
Abbie       49
Harry       25
Julia      100
Carrie      25
dtype: int64

In [15]:
notas

Wilfred     2
Abbie       7
Harry       5
Julia      10
Carrie      5
dtype: int64

Observe que diferente dos arrays numpy, as series podem manter itens com tipos diferentes

In [16]:
lista = [[1,2], 3.4, 'laura', 5]
lista

[[1, 2], 3.4, 'laura', 5]

In [17]:
listaserie = pd.Series(lista)
listaserie

0    [1, 2]
1       3.4
2     laura
3         5
dtype: object

In [18]:
type(listaserie[1])

float

## Dataframe

Já um DataFrame é uma estrutura bidimensional de dados, como uma **planilha**. Podemos pensar em um DataFrame como um conjunto de objetos de Série juntos compartilhando o mesmo índice (linha)

In [19]:
import numpy as np

In [20]:
marray = np.random.rand(5,3)*10
print(marray)

[[8.1854254  5.99858115 9.53811134]
 [2.8580265  1.25524311 1.71473617]
 [8.85326609 9.69649341 8.57309704]
 [4.4735666  4.19828042 7.15696351]
 [3.54705969 3.87449007 2.95090962]]


In [21]:
# Criando um dataframe aleatorio com indices das linhas e rotulos de colunas default
df0 = pd.DataFrame(marray)

In [22]:
df0

Unnamed: 0,0,1,2
0,8.185425,5.998581,9.538111
1,2.858027,1.255243,1.714736
2,8.853266,9.696493,8.573097
3,4.473567,4.19828,7.156964
4,3.54706,3.87449,2.95091


In [23]:
#Uma coluna
df0[0] #passa o indice ou o rotulo da coluna

0    8.185425
1    2.858027
2    8.853266
3    4.473567
4    3.547060
Name: 0, dtype: float64

In [24]:
type(df0[0]) #observe que a coluna retornada é uma Serie

pandas.core.series.Series

In [25]:
#Várias colunas
df0[[0,2]] #passa os indices ou rotulos da coluna separados por virgula dentro de colchetes

Unnamed: 0,0,2
0,8.185425,9.538111
1,2.858027,1.714736
2,8.853266,8.573097
3,4.473567,7.156964
4,3.54706,2.95091


In [26]:
#Linha
df0[0:2] #usa a notação com :

Unnamed: 0,0,1,2
0,8.185425,5.998581,9.538111
1,2.858027,1.255243,1.714736


In [27]:
#Pedaço qualquer
df0[0:2][0] #linhas e colunas

0    8.185425
1    2.858027
Name: 0, dtype: float64

In [28]:
#Pedaço qualquer
df0[0:2][[0,2]]

Unnamed: 0,0,2
0,8.185425,9.538111
1,2.858027,1.714736


In [29]:
#Colocar rotulos nas colunas
df0.columns = ['N1', 'N2', 'N3']
df0

Unnamed: 0,N1,N2,N3
0,8.185425,5.998581,9.538111
1,2.858027,1.255243,1.714736
2,8.853266,9.696493,8.573097
3,4.473567,4.19828,7.156964
4,3.54706,3.87449,2.95091


In [30]:
#Pedaço qualquer
df0[0:2][['N1','N3']] #agora no lugar da coluna nao podemos mais usar os indices default

Unnamed: 0,N1,N3
0,8.185425,9.538111
1,2.858027,1.714736


In [31]:
# Colocar rotulos nas linhas
df0.index = ['A1', 'A2', 'A3', 'A4', 'A5']
df0

Unnamed: 0,N1,N2,N3
A1,8.185425,5.998581,9.538111
A2,2.858027,1.255243,1.714736
A3,8.853266,9.696493,8.573097
A4,4.473567,4.19828,7.156964
A5,3.54706,3.87449,2.95091


**Observe que para a linha, tanto faz usar indice numerico default ou o rotulo do index**

In [32]:
#Pedaço qualquer
df0[0:2][['N1','N3']] #agora no lugar da coluna nao podemos mais usar os indices default

Unnamed: 0,N1,N3
A1,8.185425,9.538111
A2,2.858027,1.714736


In [33]:
#Pedaço qualquer
df0['A1':'A2'][['N1','N3']] #agora no lugar da coluna nao podemos mais usar os indices default

Unnamed: 0,N1,N3
A1,8.185425,9.538111
A2,2.858027,1.714736


**Podemos criar o dataframe direto com rotulos no indice e nas colunas**

In [52]:
#Criando um dataframe aleatorio indicando os rotulos de indice e colunas
df1 = pd.DataFrame(np.random.rand(5,4),index=['A', 'B', 'C', 'D', 'E'],columns=['W', 'X', 'Y', 'Z'])

In [53]:
df1

Unnamed: 0,W,X,Y,Z
A,0.591612,0.735797,0.998409,0.70556
B,0.05141,0.287292,0.785953,0.360303
C,0.086158,0.09271,0.807022,0.626386
D,0.81013,0.494687,0.092987,0.503873
E,0.867313,0.658913,0.611842,0.748493


### loc

Pode-se usar o método loc para localizar linhas ou pedaços do dataframe pelos rótulos

Sintaxe:

loc[linhas, colunas]

Onde as linhas e colunas podem ser passadas em sequencia (:) ou saltos (,)

In [54]:
df1.loc['A'] #retorna uma Série

W    0.591612
X    0.735797
Y    0.998409
Z    0.705560
Name: A, dtype: float64

In [55]:
df1.loc[['A']] #retorna um Dataframe

Unnamed: 0,W,X,Y,Z
A,0.591612,0.735797,0.998409,0.70556


In [56]:
df1.loc['A', 'W'] #um elemento qualquer [linha, coluna]

0.5916123961802259

In [57]:
df1.loc['A':'C', 'W':'Y'] #um pedaço qualquer pegando sequencias

Unnamed: 0,W,X,Y
A,0.591612,0.735797,0.998409
B,0.05141,0.287292,0.785953
C,0.086158,0.09271,0.807022


In [58]:
df1.loc[['A','C'], ['W','Y']] #um pedaço qualquer com saltos

Unnamed: 0,W,Y
A,0.591612,0.998409
C,0.086158,0.807022


In [59]:
df1.loc['A':'C', ['W','Y']] #um pedaço qualquer

Unnamed: 0,W,Y
A,0.591612,0.998409
B,0.05141,0.785953
C,0.086158,0.807022


### iloc

Pode-se usar o método iloc para localizar linhas ou pedaços do dataframe pelos índices numéricos (posicionais)

Sintaxe (igual a do loc):

iloc[linhas, colunas]

Onde as linhsa e colunas podem usar sequencias (:) ou saltos (,)

A diferença de iloc para loc é que loc usa os rotulos, enquanto iloc usa os indices numericos default

In [60]:
df1.iloc[0:2, 0:2] #um pedaço qualquer sequencial

Unnamed: 0,W,X
A,0.591612,0.735797
B,0.05141,0.287292


In [61]:
df1.iloc[[0,2], [0,2]] #um pedaço qualquer com saltos

Unnamed: 0,W,Y
A,0.591612,0.998409
C,0.086158,0.807022


**Fazendo alterações**

In [62]:
df1.iloc[[0,2], [0,2]] = 2019

In [63]:
df1.loc['A', 'X'] = 99

In [64]:
df1

Unnamed: 0,W,X,Y,Z
A,2019.0,99.0,2019.0,0.70556
B,0.05141,0.287292,0.785953,0.360303
C,2019.0,0.09271,2019.0,0.626386
D,0.81013,0.494687,0.092987,0.503873
E,0.867313,0.658913,0.611842,0.748493


**Adicionando colunas**

In [67]:
df1['XY'] = df1['X'] + df1['Y']

In [68]:
df1

Unnamed: 0,W,X,Y,Z,XY
A,2019.0,2118.0,2019.0,0.70556,4137.0
B,0.05141,1.073244,0.785953,0.360303,1.859197
C,2019.0,2019.09271,2019.0,0.626386,4038.09271
D,0.81013,0.587673,0.092987,0.503873,0.68066
E,0.867313,1.270756,0.611842,0.748493,1.882598


**Removendo colunas**

In [69]:
df1.drop('XY', axis=1)

Unnamed: 0,W,X,Y,Z
A,2019.0,2118.0,2019.0,0.70556
B,0.05141,1.073244,0.785953,0.360303
C,2019.0,2019.09271,2019.0,0.626386
D,0.81013,0.587673,0.092987,0.503873
E,0.867313,1.270756,0.611842,0.748493


In [70]:
df1

Unnamed: 0,W,X,Y,Z,XY
A,2019.0,2118.0,2019.0,0.70556,4137.0
B,0.05141,1.073244,0.785953,0.360303,1.859197
C,2019.0,2019.09271,2019.0,0.626386,4038.09271
D,0.81013,0.587673,0.092987,0.503873,0.68066
E,0.867313,1.270756,0.611842,0.748493,1.882598


**Para remover permanentemente, use o argumento inplace**

In [71]:
df1.drop('XY', axis=1, inplace=True)

In [72]:
df1

Unnamed: 0,W,X,Y,Z
A,2019.0,2118.0,2019.0,0.70556
B,0.05141,1.073244,0.785953,0.360303
C,2019.0,2019.09271,2019.0,0.626386
D,0.81013,0.587673,0.092987,0.503873
E,0.867313,1.270756,0.611842,0.748493


### Leitura de arquivos CSV

In [73]:
df = pd.read_csv("BaseAlunos.csv")

In [74]:
df

Unnamed: 0,Matrícula,Nome,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.
0,2020001,ANA SILVA,10.0,4.0,2.0,8.00,7.3,7.0,APR
1,2020002,BRUNO SOUZA,7.0,1.0,4.0,4.00,5.0,1.0,APR
2,2020003,CARLA OLIVEIRA,7.0,0.0,2.0,3.00,4.0,11.0,REP
3,2020004,DAVID ANDRADE,3.0,0.0,5.0,4.00,4.0,17.0,REP
4,2020005,EVELIN MATIAS,8.0,10.0,2.0,4.00,7.3,11.0,APR
5,2020006,FRANCISCO JOSÉ,3.0,8.0,6.0,-,5.7,17.0,APRN
6,2020007,GABRIEL SOARES,10.0,6.0,6.0,-,7.3,0.0,APR
7,2020008,HEITOR NEVES,3.0,10.0,9.0,-,7.3,15.0,APR
8,2020009,INGRID DA SILVA,0.0,5.0,2.0,0.00,2.3,20.0,REMF
9,2020010,JOSÉ MARIA SANTOS,9.0,2.0,0.0,2.00,4.3,17.0,REP


In [75]:
df.head(3)

Unnamed: 0,Matrícula,Nome,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.
0,2020001,ANA SILVA,10.0,4.0,2.0,8.0,7.3,7.0,APR
1,2020002,BRUNO SOUZA,7.0,1.0,4.0,4.0,5.0,1.0,APR
2,2020003,CARLA OLIVEIRA,7.0,0.0,2.0,3.0,4.0,11.0,REP


In [76]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10 entries, 0 to 9
Data columns (total 9 columns):
Matrícula    10 non-null int64
Nome         10 non-null object
Unid. 1      10 non-null float64
Unid. 2      10 non-null float64
Unid. 3      10 non-null float64
Rec.         10 non-null object
Resultado    10 non-null float64
Faltas       10 non-null float64
Sit.         10 non-null object
dtypes: float64(5), int64(1), object(3)
memory usage: 800.0+ bytes


In [77]:
df.describe()

Unnamed: 0,Matrícula,Unid. 1,Unid. 2,Unid. 3,Resultado,Faltas
count,10.0,10.0,10.0,10.0,10.0,10.0
mean,2020006.0,6.0,4.6,3.8,5.45,11.6
std,3.02765,3.496029,3.864367,2.699794,1.807546,6.979335
min,2020001.0,0.0,0.0,0.0,2.3,0.0
25%,2020003.0,3.0,1.25,2.0,4.075,8.0
50%,2020006.0,7.0,4.5,3.0,5.35,13.0
75%,2020008.0,8.75,7.5,5.75,7.3,17.0
max,2020010.0,10.0,10.0,9.0,7.3,20.0


In [78]:
df.describe().drop('Matrícula', axis=1)

Unnamed: 0,Unid. 1,Unid. 2,Unid. 3,Resultado,Faltas
count,10.0,10.0,10.0,10.0,10.0
mean,6.0,4.6,3.8,5.45,11.6
std,3.496029,3.864367,2.699794,1.807546,6.979335
min,0.0,0.0,0.0,2.3,0.0
25%,3.0,1.25,2.0,4.075,8.0
50%,7.0,4.5,3.0,5.35,13.0
75%,8.75,7.5,5.75,7.3,17.0
max,10.0,10.0,9.0,7.3,20.0


In [79]:
df['Nome'] #retorna uma Serie

0            ANA SILVA
1          BRUNO SOUZA
2       CARLA OLIVEIRA
3        DAVID ANDRADE
4        EVELIN MATIAS
5       FRANCISCO JOSÉ
6       GABRIEL SOARES
7         HEITOR NEVES
8      INGRID DA SILVA
9    JOSÉ MARIA SANTOS
Name: Nome, dtype: object

In [80]:
df[['Unid. 1']] #retorna um dataframe

Unnamed: 0,Unid. 1
0,10.0
1,7.0
2,7.0
3,3.0
4,8.0
5,3.0
6,10.0
7,3.0
8,0.0
9,9.0


In [81]:
df[['Nome','Sit.']]

Unnamed: 0,Nome,Sit.
0,ANA SILVA,APR
1,BRUNO SOUZA,APR
2,CARLA OLIVEIRA,REP
3,DAVID ANDRADE,REP
4,EVELIN MATIAS,APR
5,FRANCISCO JOSÉ,APRN
6,GABRIEL SOARES,APR
7,HEITOR NEVES,APR
8,INGRID DA SILVA,REMF
9,JOSÉ MARIA SANTOS,REP


In [82]:
df['Unid. 1'].mean() #media da coluna

6.0

In [83]:
df['Unid. 1'].std() #desvio padrao da coluna

3.496029493900505

In [84]:
x = [df['Unid. 1'].mean(), df['Unid. 2'].mean(), df['Unid. 3'].mean()]

In [85]:
type(x)

list

In [86]:
print(x)

[6.0, 4.6, 3.8]


In [87]:
y = df[['Unid. 1','Unid. 2', 'Unid. 3']].mean()

In [88]:
type(y)

pandas.core.series.Series

In [89]:
print(y)

Unid. 1    6.0
Unid. 2    4.6
Unid. 3    3.8
dtype: float64


**Criando colunas usando Series**

In [90]:
df['New'] = pd.Series(['S', 'N', 'S', 'N','S', 'N','S', 'N','S', 'N', 'Y'])

In [91]:
df

Unnamed: 0,Matrícula,Nome,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.,New
0,2020001,ANA SILVA,10.0,4.0,2.0,8.00,7.3,7.0,APR,S
1,2020002,BRUNO SOUZA,7.0,1.0,4.0,4.00,5.0,1.0,APR,N
2,2020003,CARLA OLIVEIRA,7.0,0.0,2.0,3.00,4.0,11.0,REP,S
3,2020004,DAVID ANDRADE,3.0,0.0,5.0,4.00,4.0,17.0,REP,N
4,2020005,EVELIN MATIAS,8.0,10.0,2.0,4.00,7.3,11.0,APR,S
5,2020006,FRANCISCO JOSÉ,3.0,8.0,6.0,-,5.7,17.0,APRN,N
6,2020007,GABRIEL SOARES,10.0,6.0,6.0,-,7.3,0.0,APR,S
7,2020008,HEITOR NEVES,3.0,10.0,9.0,-,7.3,15.0,APR,N
8,2020009,INGRID DA SILVA,0.0,5.0,2.0,0.00,2.3,20.0,REMF,S
9,2020010,JOSÉ MARIA SANTOS,9.0,2.0,0.0,2.00,4.3,17.0,REP,N


**Transformando uma coluna em indice das linhas**

In [92]:
df.set_index('Nome', inplace= True)

In [93]:
df

Unnamed: 0_level_0,Matrícula,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.,New
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ANA SILVA,2020001,10.0,4.0,2.0,8.00,7.3,7.0,APR,S
BRUNO SOUZA,2020002,7.0,1.0,4.0,4.00,5.0,1.0,APR,N
CARLA OLIVEIRA,2020003,7.0,0.0,2.0,3.00,4.0,11.0,REP,S
DAVID ANDRADE,2020004,3.0,0.0,5.0,4.00,4.0,17.0,REP,N
EVELIN MATIAS,2020005,8.0,10.0,2.0,4.00,7.3,11.0,APR,S
FRANCISCO JOSÉ,2020006,3.0,8.0,6.0,-,5.7,17.0,APRN,N
GABRIEL SOARES,2020007,10.0,6.0,6.0,-,7.3,0.0,APR,S
HEITOR NEVES,2020008,3.0,10.0,9.0,-,7.3,15.0,APR,N
INGRID DA SILVA,2020009,0.0,5.0,2.0,0.00,2.3,20.0,REMF,S
JOSÉ MARIA SANTOS,2020010,9.0,2.0,0.0,2.00,4.3,17.0,REP,N


In [94]:
df.loc['ANA SILVA'] # localiza uma linha a partir do novo indice colocado

Matrícula    2020001
Unid. 1           10
Unid. 2            4
Unid. 3            2
Rec.            8.00
Resultado        7.3
Faltas             7
Sit.             APR
New                S
Name: ANA SILVA, dtype: object

## Seleção condicional


Uma característica importante dos pandas é a seleção condicional usando notação de colchetes, muito semelhante ao numpy:

In [95]:
#Mostrar somente os alunos aprovados
df[df['Sit.'] == 'APR']

Unnamed: 0_level_0,Matrícula,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.,New
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ANA SILVA,2020001,10.0,4.0,2.0,8.00,7.3,7.0,APR,S
BRUNO SOUZA,2020002,7.0,1.0,4.0,4.00,5.0,1.0,APR,N
EVELIN MATIAS,2020005,8.0,10.0,2.0,4.00,7.3,11.0,APR,S
GABRIEL SOARES,2020007,10.0,6.0,6.0,-,7.3,0.0,APR,S
HEITOR NEVES,2020008,3.0,10.0,9.0,-,7.3,15.0,APR,N


In [96]:
#Observe que a seleção condicional faz o mesmo que um Filter faz
df['Sit.'] == 'APR'  #condição do filtro

Nome
ANA SILVA             True
BRUNO SOUZA           True
CARLA OLIVEIRA       False
DAVID ANDRADE        False
EVELIN MATIAS         True
FRANCISCO JOSÉ       False
GABRIEL SOARES        True
HEITOR NEVES          True
INGRID DA SILVA      False
JOSÉ MARIA SANTOS    False
Name: Sit., dtype: bool

Para mais de uma condição usa-se & e | com parênteses

In [97]:
#mostrar quem foi reprovado
df[(df['Sit.'] == 'REP') | (df['Sit.'] == 'REMF')]

Unnamed: 0_level_0,Matrícula,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.,New
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
CARLA OLIVEIRA,2020003,7.0,0.0,2.0,3.0,4.0,11.0,REP,S
DAVID ANDRADE,2020004,3.0,0.0,5.0,4.0,4.0,17.0,REP,N
INGRID DA SILVA,2020009,0.0,5.0,2.0,0.0,2.3,20.0,REMF,S
JOSÉ MARIA SANTOS,2020010,9.0,2.0,0.0,2.0,4.3,17.0,REP,N


In [98]:
#mostrar as faltas de quem foi reprovado
df[(df['Sit.'] == 'REP') | (df['Sit.'] == 'REMF')]['Faltas'] #encadeamento de ações

Nome
CARLA OLIVEIRA       11.0
DAVID ANDRADE        17.0
INGRID DA SILVA      20.0
JOSÉ MARIA SANTOS    17.0
Name: Faltas, dtype: float64

In [99]:
#mostrar as faltas e resultados de quem foi reprovado
df[(df['Sit.'] == 'REP') | (df['Sit.'] == 'REMF')][['Resultado','Faltas']]

Unnamed: 0_level_0,Resultado,Faltas
Nome,Unnamed: 1_level_1,Unnamed: 2_level_1
CARLA OLIVEIRA,4.0,11.0
DAVID ANDRADE,4.0,17.0
INGRID DA SILVA,2.3,20.0
JOSÉ MARIA SANTOS,4.3,17.0


In [100]:
#mostrar as faltas de quem foi aprovado
df[(df['Sit.'] == 'APR') | (df['Sit.'] == 'APRN')]['Faltas']

Nome
ANA SILVA          7.0
BRUNO SOUZA        1.0
EVELIN MATIAS     11.0
FRANCISCO JOSÉ    17.0
GABRIEL SOARES     0.0
HEITOR NEVES      15.0
Name: Faltas, dtype: float64

In [101]:
#VERIFICAR A MEDIA DAS FALTAS DE QUEM FOI REPROVADO E DE QUEM FOI APROVADO
mediafaltasrep = df[(df['Sit.'] == 'REP') | (df['Sit.'] == 'REMF')]['Faltas'].mean()
print('Media de faltas de quem foi reprovado: ',mediafaltasrep)
mediafaltasapr = df[(df['Sit.'] == 'APR') | (df['Sit.'] == 'APRN')]['Faltas'].mean()
print('Media de faltas de quem foi aprovado: ', mediafaltasapr)

Media de faltas de quem foi reprovado:  16.25
Media de faltas de quem foi aprovado:  8.5


In [102]:
#Verificar quem tirou mais de 7 nas 3 unidades
maiorsete = df[(df['Unid. 1']>=7) & (df['Unid. 2']>=7) & (df['Unid. 3']>=7)]
print(maiorsete)

Empty DataFrame
Columns: [Matrícula, Unid. 1, Unid. 2, Unid. 3, Rec., Resultado, Faltas, Sit., New]
Index: []


**Correlação entre colunas**

In [103]:
df['Unid. 1'].corr(df['Resultado'])  #0.5, fraca correlação positiva

0.5292484090079961

**O que é um coeficiente de correlação?**

O coeficiente de correlação r mede a direção e a força de uma relação linear. 

* Ele sempre tem um valor entre -1 e 1.
* Fortes relações lineares positivas têm valores de r mais próximos de 1.
* Fortes relações lineares negativas têm valores de r mais próximos de -1.
* Relações mais fracas têm valores de r mais próximos de 0.

**Podemos resetar os indices**

In [104]:
df.reset_index()

Unnamed: 0,Nome,Matrícula,Unid. 1,Unid. 2,Unid. 3,Rec.,Resultado,Faltas,Sit.,New
0,ANA SILVA,2020001,10.0,4.0,2.0,8.00,7.3,7.0,APR,S
1,BRUNO SOUZA,2020002,7.0,1.0,4.0,4.00,5.0,1.0,APR,N
2,CARLA OLIVEIRA,2020003,7.0,0.0,2.0,3.00,4.0,11.0,REP,S
3,DAVID ANDRADE,2020004,3.0,0.0,5.0,4.00,4.0,17.0,REP,N
4,EVELIN MATIAS,2020005,8.0,10.0,2.0,4.00,7.3,11.0,APR,S
5,FRANCISCO JOSÉ,2020006,3.0,8.0,6.0,-,5.7,17.0,APRN,N
6,GABRIEL SOARES,2020007,10.0,6.0,6.0,-,7.3,0.0,APR,S
7,HEITOR NEVES,2020008,3.0,10.0,9.0,-,7.3,15.0,APR,N
8,INGRID DA SILVA,2020009,0.0,5.0,2.0,0.00,2.3,20.0,REMF,S
9,JOSÉ MARIA SANTOS,2020010,9.0,2.0,0.0,2.00,4.3,17.0,REP,N


### Dados ausentes

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html#pandas.DataFrame.fillna

In [105]:
#np.nan gera uma marcação de dado ausente
dfna = pd.DataFrame({'A':[1,2,np.nan],
                  'B':[5,np.nan,np.nan],
                  'C':[1,2,3]})

In [106]:
dfna

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


In [107]:
dfna.dropna() # mostra as linhas que nao tem dados ausentes

Unnamed: 0,A,B,C
0,1.0,5.0,1


In [108]:
dfna.dropna(axis=1) #mostra as colunas que nao tem dados ausentes

Unnamed: 0,C
0,1
1,2
2,3


In [109]:
dfna.dropna(thresh=2) #thresh define o mínimo de elementos não NaN

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2


In [110]:
dfna.fillna(value='-') #preenche os dados ausentes com um value

Unnamed: 0,A,B,C
0,1,5,1
1,2,-,2
2,-,-,3


In [111]:
# veja que nem o dropna nem o fillna alteram de fato o dataframe original, eles apenas retornam uma copia alterada
dfna 

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,,,3


**Para alterar na origem deve colocar o argumento inplace**

In [115]:
dfna['A'].fillna(value=dfna['A'].mean(), inplace = True) #preenche com a media da coluna

In [116]:
dfna

Unnamed: 0,A,B,C
0,1.0,5.0,1
1,2.0,,2
2,1.5,,3


## Groupby

O método groupby permite agrupar linhas de dados em conjunto e chamar funções agregadas

In [117]:
# Cria um DataFrame
data = {'Empresa':['GOOG','GOOG','MSFT','MSFT','FB','FB'],
       'Nome':['Sam','Charlie','Amy','Vanessa','Carl','Sarah'],
       'Venda':[200,120,340,124,243,350]}

In [118]:
type(data)

dict

In [119]:
dfdata = pd.DataFrame(data)

In [120]:
dfdata

Unnamed: 0,Empresa,Nome,Venda
0,GOOG,Sam,200
1,GOOG,Charlie,120
2,MSFT,Amy,340
3,MSFT,Vanessa,124
4,FB,Carl,243
5,FB,Sarah,350


In [121]:
dfdata['Salario'] = [1, 2,3, 4,5, 6]

In [122]:
dfdata

Unnamed: 0,Empresa,Nome,Venda,Salario
0,GOOG,Sam,200,1
1,GOOG,Charlie,120,2
2,MSFT,Amy,340,3
3,MSFT,Vanessa,124,4
4,FB,Carl,243,5
5,FB,Sarah,350,6


In [123]:
por_companhia = dfdata.groupby("Empresa")

In [124]:
por_companhia.mean()

Unnamed: 0_level_0,Venda,Salario
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1
FB,296.5,5.5
GOOG,160.0,1.5
MSFT,232.0,3.5


In [125]:
por_companhia.max()

Unnamed: 0_level_0,Nome,Venda,Salario
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FB,Sarah,350,6
GOOG,Sam,200,2
MSFT,Vanessa,340,4


In [126]:
por_companhia.count()

Unnamed: 0_level_0,Nome,Venda,Salario
Empresa,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
FB,2,2,2
GOOG,2,2,2
MSFT,2,2,2


In [127]:
por_companhia.describe()

Unnamed: 0_level_0,Salario,Salario,Salario,Salario,Salario,Salario,Salario,Salario,Venda,Venda,Venda,Venda,Venda,Venda,Venda,Venda
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,std,min,25%,50%,75%,max
Empresa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
FB,2.0,5.5,0.707107,5.0,5.25,5.5,5.75,6.0,2.0,296.5,75.660426,243.0,269.75,296.5,323.25,350.0
GOOG,2.0,1.5,0.707107,1.0,1.25,1.5,1.75,2.0,2.0,160.0,56.568542,120.0,140.0,160.0,180.0,200.0
MSFT,2.0,3.5,0.707107,3.0,3.25,3.5,3.75,4.0,2.0,232.0,152.735065,124.0,178.0,232.0,286.0,340.0


In [128]:
por_companhia.describe().transpose()

Unnamed: 0,Empresa,FB,GOOG,MSFT
Salario,count,2.0,2.0,2.0
Salario,mean,5.5,1.5,3.5
Salario,std,0.707107,0.707107,0.707107
Salario,min,5.0,1.0,3.0
Salario,25%,5.25,1.25,3.25
Salario,50%,5.5,1.5,3.5
Salario,75%,5.75,1.75,3.75
Salario,max,6.0,2.0,4.0
Venda,count,2.0,2.0,2.0
Venda,mean,296.5,160.0,232.0


## Mesclar, concatenar e juntar

https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html

### CONCATENAR

O método concat, concatena os dados usando os rótulos das colunas como parâmetro unificador

Caso os rótulos das colunas não sejam iguais, ele vai gerar novas colunas e colocar NaN nos espaços novos criados

Pode concatenar os dados usando os indices das linhas como parâmetro unificador, mas nesse caso deve-se colocar o argumento axis=1

**Na concatenação, os dados não são sobrepostos, apenas adicionados**

In [130]:
df_1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']},
                        index=[0, 1, 2, 3])

df_2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']},
                         index=[4, 5, 6, 7]) 

df_3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']},
                        index=[8, 9, 10, 11])

In [131]:
result = pd.concat([df_1, df_2, df_3])

In [132]:
result

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3
4,A4,B4,C4,D4
5,A5,B5,C5,D5
6,A6,B6,C6,D6
7,A7,B7,C7,D7
8,A8,B8,C8,D8
9,A9,B9,C9,D9


**Se os índices forem default, podemos criar uma chave para cada dataframe quando concatenamos**

In [133]:
df_1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3'],
                        'C': ['C0', 'C1', 'C2', 'C3'],
                        'D': ['D0', 'D1', 'D2', 'D3']})

df_2 = pd.DataFrame({'A': ['A4', 'A5', 'A6', 'A7'],
                        'B': ['B4', 'B5', 'B6', 'B7'],
                        'C': ['C4', 'C5', 'C6', 'C7'],
                        'D': ['D4', 'D5', 'D6', 'D7']}) 

df_3 = pd.DataFrame({'A': ['A8', 'A9', 'A10', 'A11'],
                        'B': ['B8', 'B9', 'B10', 'B11'],
                        'C': ['C8', 'C9', 'C10', 'C11'],
                        'D': ['D8', 'D9', 'D10', 'D11']})
result = pd.concat([df_1, df_2, df_3])
print(result)

     A    B    C    D
0   A0   B0   C0   D0
1   A1   B1   C1   D1
2   A2   B2   C2   D2
3   A3   B3   C3   D3
0   A4   B4   C4   D4
1   A5   B5   C5   D5
2   A6   B6   C6   D6
3   A7   B7   C7   D7
0   A8   B8   C8   D8
1   A9   B9   C9   D9
2  A10  B10  C10  D10
3  A11  B11  C11  D11


In [135]:
result = pd.concat([df_1, df_2, df_3], keys=['k1', 'k2', 'k3'], names = ['Grupo'])
print(result)

           A    B    C    D
Grupo                      
k1    0   A0   B0   C0   D0
      1   A1   B1   C1   D1
      2   A2   B2   C2   D2
      3   A3   B3   C3   D3
k2    0   A4   B4   C4   D4
      1   A5   B5   C5   D5
      2   A6   B6   C6   D6
      3   A7   B7   C7   D7
k3    0   A8   B8   C8   D8
      1   A9   B9   C9   D9
      2  A10  B10  C10  D10
      3  A11  B11  C11  D11


In [136]:
result.loc['k1']

Unnamed: 0,A,B,C,D
0,A0,B0,C0,D0
1,A1,B1,C1,D1
2,A2,B2,C2,D2
3,A3,B3,C3,D3


In [137]:
pd.concat([df_1, df_2, df_3], axis=1)

Unnamed: 0,A,B,C,D,A.1,B.1,C.1,D.1,A.2,B.2,C.2,D.2
0,A0,B0,C0,D0,A4,B4,C4,D4,A8,B8,C8,D8
1,A1,B1,C1,D1,A5,B5,C5,D5,A9,B9,C9,D9
2,A2,B2,C2,D2,A6,B6,C6,D6,A10,B10,C10,D10
3,A3,B3,C3,D3,A7,B7,C7,D7,A11,B11,C11,D11


Observe que o concat não mescla as colunas/linhas que tem o mesmo rótulo

### Mesclar

Permite combinar os dados, sem repetir as colunas/linhas iguais

In [138]:
esquerda = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],
                     'key2': ['K0', 'K1', 'K0', 'K1'],
                        'A': ['A0', 'A1', 'A2', 'A3'],
                        'B': ['B0', 'B1', 'B2', 'B3']})
    
direita = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],
                               'key2': ['K0', 'K0', 'K0', 'K0'],
                                  'C': ['C0', 'C1', 'C2', 'C3'],
                                  'D': ['D0', 'D1', 'D2', 'D3']})

In [139]:
esquerda

Unnamed: 0,key1,key2,A,B
0,K0,K0,A0,B0
1,K0,K1,A1,B1
2,K1,K0,A2,B2
3,K2,K1,A3,B3


In [140]:
direita

Unnamed: 0,key1,key2,C,D
0,K0,K0,C0,D0
1,K1,K0,C1,D1
2,K1,K0,C2,D2
3,K2,K0,C3,D3


In [141]:
pd.concat([esquerda, direita])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D,key1,key2
0,A0,B0,,,K0,K0
1,A1,B1,,,K0,K1
2,A2,B2,,,K1,K0
3,A3,B3,,,K2,K1
0,,,C0,D0,K0,K0
1,,,C1,D1,K1,K0
2,,,C2,D2,K1,K0
3,,,C3,D3,K2,K0


In [142]:
pd.merge(esquerda, direita) # mescla os dados com base nos rotulos das colunas em comum

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


Por padrão, o argumento on são os rótulos iguais das colunas e o argumento how é inner, ou seja, interseção, apenas as chaves iguais aparecerão

In [143]:
pd.merge(esquerda, direita, how='outer', on=['key1', 'key2']) #une tudo

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [144]:
pd.merge(esquerda, direita, how='left', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [145]:
pd.merge(esquerda, direita, how='right', on=['key1', 'key2'])

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2
3,K2,K0,,,C3,D3


### Join

O alinhamento de dados aqui está nos índices (rótulos de linha). Esse mesmo comportamento pode ser alcançado usando merge mais argumentos adicionais instruindo-o a usar os índices.

Ou seja, faz o mesmo que o merge, mas usando os indices das linhas como parametro de sobreposição

In [146]:
esquerda = pd.DataFrame({'A': ['A0', 'A1', 'A2'],
                     'B': ['B0', 'B1', 'B2']},
                      index=['K0', 'K1', 'K2']) 

direita = pd.DataFrame({'C': ['C0', 'C2', 'C3'],
                    'D': ['D0', 'D2', 'D3']},
                      index=['K0', 'K2', 'K3'])

In [147]:
esquerda

Unnamed: 0,A,B
K0,A0,B0
K1,A1,B1
K2,A2,B2


In [148]:
direita

Unnamed: 0,C,D
K0,C0,D0
K2,C2,D2
K3,C3,D3


In [149]:
esquerda.join(direita)

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2


In [150]:
esquerda.join(direita, how='inner') #interseção

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K2,A2,B2,C2,D2


In [151]:
esquerda.join(direita, how='outer') #união

Unnamed: 0,A,B,C,D
K0,A0,B0,C0,D0
K1,A1,B1,,
K2,A2,B2,C2,D2
K3,,,C3,D3


In [152]:
direita.join(esquerda)

Unnamed: 0,C,D,A,B
K0,C0,D0,A0,B0
K2,C2,D2,A2,B2
K3,C3,D3,,


Observe que na concatenação não há sobreposição de dados, ou seja, nenhuma coluna ou linha é omitida, todas serão apresentadas

No Merge e Join existe uma sobreposição de dados, onde as colunas/linhas repetidas só aparecem uma vez

O merge faz o que o join faz, desde que seja configurado. Por padrão, o merge faz a sobreposição dos dados usando rótulos das colunas como chave. Já o Join faz a sobreposição dos dados usando os índices das linhas como chave.

inner = interseção
outer = união

## Mais operações com dataframes

In [153]:
d_f = pd.DataFrame({'col1':[1,2,3,4],'col2':[444,555,666,444],'col3':['abc','def','ghi','xyz']})
d_f

Unnamed: 0,col1,col2,col3
0,1,444,abc
1,2,555,def
2,3,666,ghi
3,4,444,xyz


### Informação sobre valores exclusivos

In [154]:
d_f['col2'].unique() #mostra apenas os exclusivos

array([444, 555, 666])

In [155]:
d_f['col2'].nunique() #quantidade de exclusivos

3

In [156]:
d_f['col2'].value_counts() #quantidade de cada valor

444    2
555    1
666    1
Name: col2, dtype: int64

### Aplicando funções

In [157]:
def times2(x):
    return x*2

In [158]:
d_f['col1'].apply(lambda x: x*2)

0    2
1    4
2    6
3    8
Name: col1, dtype: int64

In [159]:
d_f['col3'].apply(len)

0    3
1    3
2    3
3    3
Name: col3, dtype: int64

In [160]:
d_f['col1'].sum()

10

**Removendo colunas permanentemente**

In [161]:
del d_f['col1']

**Obter nomes de coluna e índice:**

In [162]:
d_f.columns

Index(['col2', 'col3'], dtype='object')

In [163]:
d_f.index

RangeIndex(start=0, stop=4, step=1)

**Ordenando um DataFrame**

In [164]:
d_f

Unnamed: 0,col2,col3
0,444,abc
1,555,def
2,666,ghi
3,444,xyz


In [165]:
d_f.sort_values(by='col2', ascending=False) #inplace=False por padrão

Unnamed: 0,col2,col3
2,666,ghi
1,555,def
0,444,abc
3,444,xyz


**Encontre Valores Nulos ou Verifique Valores Nulos**

In [166]:
d_f.isnull()

Unnamed: 0,col2,col3
0,False,False
1,False,False
2,False,False
3,False,False


## Saída de dados CSV

In [None]:
d_f.to_csv('exemplodf.csv',index=False)

## Entrada usando ARFF

In [167]:
from scipy.io import arff

In [168]:
data = arff.loadarff('iris.arff')
df = pd.DataFrame(data[0])


In [169]:
type(data[0])

numpy.ndarray

In [170]:
df.head()

Unnamed: 0,sepallength,sepalwidth,petallength,petalwidth,class
0,5.1,3.5,1.4,0.2,b'Iris-setosa'
1,4.9,3.0,1.4,0.2,b'Iris-setosa'
2,4.7,3.2,1.3,0.2,b'Iris-setosa'
3,4.6,3.1,1.5,0.2,b'Iris-setosa'
4,5.0,3.6,1.4,0.2,b'Iris-setosa'
