# Introdução ao Pandas

## Series

* Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica


## DataFrame
* Elemento mais importante dos Pandas 
* Semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy)
* Inspirados pela linguagem de programação R :(
* Analogia: um monte de objetos da série juntos usando o mesmo índice. 


In [1]:
#Tudo começa importando as bibliotecas
import numpy as np
import pandas as pd

#### pd.Series

In [3]:
#Para criarmos uma Series, 
#utilizamos pd.Series. Vamos exercitar isso usando alguns 
#outros objetos de dados:

minha_lista = [10,20,30]
array_numpy = np.array([10,20,30])
dicio = {'a':10,'b':20,'c':30}

In [11]:
minha_lista

[10, 20, 30]

In [10]:
#Exemplos Series
#uma Series é criada a partir de pd.Series, 
#que também usamos para converter tipos de dados

pd.Series(minha_lista)


0    10
1    20
2    30
dtype: int64

In [12]:
pd.Series(array_numpy)

0    10
1    20
2    30
dtype: int64

In [13]:
pd.Series(dicio)

a    10
b    20
c    30
dtype: int64

In [14]:
dicio

{'a': 10, 'b': 20, 'c': 30}

In [15]:
# quando convertemos um dicionario para uma series, percebam que as chaves do dicionário passam a ser os rótulos
# dos indices. Podemos rotular usando o parametro index.
rotulos = [ 'A', 'B', 'C'  ]
pd.Series(minha_lista, index=rotulos)

A    10
B    20
C    30
dtype: int64

In [16]:
# a grande sacada do pandas é o compartilhamento dos indices, 
# permitindo inclusive realizar operações

conj_1 = pd.Series([10,20,30], index=['martelos', 'parafusos', 'pregos'])
conj_2 = pd.Series([40,50,60], index=['martelos', 'parafusos', 'pregos'])


In [17]:
print(conj_1)
print(conj_2)

martelos     10
parafusos    20
pregos       30
dtype: int64
martelos     40
parafusos    50
pregos       60
dtype: int64


In [18]:
conj_1 + conj_2

martelos     50
parafusos    70
pregos       90
dtype: int64

In [19]:
conj_3 = pd.Series([4,5,6], index=['martelos', 'parafusos', 'porcas'])

In [21]:
conj_2 + conj_3

martelos     44.0
parafusos    55.0
porcas        NaN
pregos        NaN
dtype: float64

#### pd.DataFrame

In [22]:
# Vamos definir aqui uma matriz, da mesma forma que 
# fizemos na aula de numpy

dados = np.array(
                    [
                        [1,2,3],
                        [4,5,6],
                        [7,8,9]
                    ]
                )
dados

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [23]:
# a partir desse conjunto, vamos transformar essa matriz 
# em uma estrutura de DataFrame. Abaixo estamos definindo
# no primeiro parametro qual o conjunto de dados que será transformado e 
# no parametro columns estamos nomeando colunas

conj_dados = pd.DataFrame(dados, columns=['col_A','col_B','col_C'])
conj_dados

Unnamed: 0,col_A,col_B,col_C
0,1,2,3
1,4,5,6
2,7,8,9


In [25]:
# Percebam acima que em cada linha, temos um indice. 
# Assim como temos nomes nas colunas, podemos nomear o indice.
# vamos explorar isso agora

# criamos uma variavel com os nomes. 
# Abaixo eu estou gerando uma lista a partir do texto, relembrando
# a função split()

rotulo_linhas = 'linha_A linha_B linha_C'.split()
print(rotulo_linhas)

# o proximo passo é criar uma coluna, que vai receber esses valores. 
# No pandas, chamamos a variavel do tipo dataframe e entre os colchetes, 
# declaramos o nome da coluna entre aspas e depois atribuímos os valores 
# que desejamos utilizar

conj_dados['indice_linhas'] = rotulo_linhas

conj_dados

['linha_A', 'linha_B', 'linha_C']


Unnamed: 0,col_A,col_B,col_C,indice_linhas
0,1,2,3,linha_A
1,4,5,6,linha_B
2,7,8,9,linha_C


In [26]:
conj_dados.set_index('indice_linhas')

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [27]:
conj_dados

Unnamed: 0,col_A,col_B,col_C,indice_linhas
0,1,2,3,linha_A
1,4,5,6,linha_B
2,7,8,9,linha_C


In [28]:
conj_dados.set_index('indice_linhas', inplace=True)

In [29]:
conj_dados

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [30]:
# E como navegamos?
# - dataframe
# - dataframe['nome_coluna']

conj_dados['col_B']

indice_linhas
linha_A    2
linha_B    5
linha_C    8
Name: col_B, dtype: int64

In [31]:
# - dataframe[ [lista_nomes_colunas] ]

lista_colunas = ['col_A', 'col_C']

conj_dados[lista_colunas]

Unnamed: 0_level_0,col_A,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1
linha_A,1,3
linha_B,4,6
linha_C,7,9


In [32]:
conj_dados[ ['col_A', 'col_C'] ]

Unnamed: 0_level_0,col_A,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1
linha_A,1,3
linha_B,4,6
linha_C,7,9


In [35]:
conj_dados.index

Index(['linha_A', 'linha_B', 'linha_C'], dtype='object', name='indice_linhas')

In [33]:
conj_dados.columns

Index(['col_A', 'col_B', 'col_C'], dtype='object')

In [38]:
# - dataframe.loc['nome-indice']
conj_dados.loc[ ['linha_A','linha_C'] , ['col_A','col_B'] ]


Unnamed: 0_level_0,col_A,col_B
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1
linha_A,1,2
linha_C,7,8


In [37]:
indice_linhas = ['linha_A','linha_C']
indice_colunas = ['col_A','col_B']

conj_dados.loc[ indice_linhas, indice_colunas]

Unnamed: 0_level_0,col_A,col_B
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1
linha_A,1,2
linha_C,7,8


In [40]:
# - dataframe.iloc[posicao-indice]

conj_dados.iloc[ 1, 2 ] 

6

In [41]:
# assim como outras estrutura que ja vimos, também é possível 
# fatiarmos esse conjunto para pegarmos apenas um 
# subconjunto desses dados

# vejam o exemplo abaixo que testa se exitem valores menores que 7 
# dentro do conjunto o resultado da execução são valores booleanos, 
# retornando verdadeiro ou falso.

conj_dados < 7


Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,True,True,True
linha_B,True,True,True
linha_C,False,False,False


In [42]:
# mas como apresentar os valores?
# passaremos para o dataframe justamente esse filtro entre os colchetes
conj_dados[ conj_dados < 7 ]


Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1.0,2.0,3.0
linha_B,4.0,5.0,6.0
linha_C,,,


In [43]:
filtro = conj_dados < 7

conj_dados[ filtro ]


Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1.0,2.0,3.0
linha_B,4.0,5.0,6.0
linha_C,,,


In [46]:
# Esses critérios de seleção poderiam ser colocados em 
# variáveis para facilitar a letra, caso a notação acima 
# seja dificil para quem está iniciando

# importante destacar que quando temos necessidades de 
# rodar mais de uma condição, usamos o sinais & e | para
# executar as operacoes AND e OR, respectivamente.

#
conj_dados

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [48]:
filtro_1 = (conj_dados['col_C'] > 5) & (conj_dados['col_A'] < 7)

In [49]:
conj_dados[ filtro_1 ]

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_B,4,5,6


In [51]:
filtro_2 = (conj_dados['col_C'] < 5) | (conj_dados['col_A'] >= 7)

conj_dados[ filtro_2 ]

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_C,7,8,9


In [52]:
# da mesma forma que a Series, podemos fazer operacoes também, 
# tudo em virtude do compartilhamento dos indices

conj_dados['Produto B x C'] = conj_dados['col_B'] * conj_dados['col_C']
conj_dados

Unnamed: 0_level_0,col_A,col_B,col_C,Produto B x C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
linha_A,1,2,3,6
linha_B,4,5,6,30
linha_C,7,8,9,72


In [None]:
# agora vamos supor que não temos a necessidade dessa coluna que criamos. 
# Para isso, usaremos o comando abaixo.

conj_dados.drop('Produto B x C', axis=1, inplace= True


In [60]:
conj_dados

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [56]:
conj_dados2 = conj_dados.copy()

In [57]:
conj_dados2

Unnamed: 0_level_0,col_A,col_B,col_C,Produto B x C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
linha_A,1,2,3,6
linha_B,4,5,6,30
linha_C,7,8,9,72


In [61]:
conj_dados2 = conj_dados2.drop('Produto B x C', axis=1)

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [62]:
conj_dados2

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [63]:
conj_dados3 = conj_dados2.drop('col_C', axis=1)

In [64]:
conj_dados2

Unnamed: 0_level_0,col_A,col_B,col_C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [66]:
conj_dados3.drop('linha_C', axis=0, inplace=True)
conj_dados3

Unnamed: 0_level_0,col_A,col_B
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1
linha_A,1,2
linha_B,4,5


In [67]:
# outra operação possível é renomear o nome das colunas.

conj_dados.rename({
    'col_A': 'Coluna A',
    'col_B': 'Coluna B',
    'col_C': 'Coluna C'
}, axis = 1, inplace= True)

conj_dados

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
linha_A,1,2,3
linha_B,4,5,6
linha_C,7,8,9


In [68]:
conj_dados.rename({
    'linha_A': 'A',
    'linha_B': 'B',
    'linha_C': 'C'
}, axis = 0, inplace= True)

conj_dados

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,3
B,4,5,6
C,7,8,9


In [69]:
# caso seja necessário retornar os valores de indice, usamos o .index
conj_dados.index

Index(['A', 'B', 'C'], dtype='object', name='indice_linhas')

In [70]:
# e da mesma forma, com .columns, retornamo uma lista com os nomes das colunas
conj_dados.columns

Index(['Coluna A', 'Coluna B', 'Coluna C'], dtype='object')

In [71]:
# Em algumas situações, talvez seja necessario transformar linhas em 
# colunas e colunas em linhas.
# para essa tarefa, usaremos o transpose

conj_dados.transpose()

indice_linhas,A,B,C
Coluna A,1,4,7
Coluna B,2,5,8
Coluna C,3,6,9


In [73]:
conj_dados.sort_index(ascending=False)

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
C,7,8,9
B,4,5,6
A,1,2,3


In [74]:
conj_dados.sort_values(by=['Coluna A','Coluna C'], ascending=True)

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,3
B,4,5,6
C,7,8,9


In [75]:
# Imprimir as primeiras linhas a gente usa o metodo .head()
# por padrao ele retorna as primeiras 5 linhas

conj_dados.head()

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,3
B,4,5,6
C,7,8,9


In [76]:
conj_dados.head(2)

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,3
B,4,5,6


In [77]:
# Imprimir as ultimas linhas a gente usa o metodo .tail()
# por padrao ele retorna as ultimas 5 linhas

conj_dados.tail()

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,2,3
B,4,5,6
C,7,8,9


In [78]:
conj_dados.tail(2)

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linhas,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
B,4,5,6
C,7,8,9


In [79]:
#trazer informações sobre o dataframe que estamos trabalhando
conj_dados.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, A to C
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype
---  ------    --------------  -----
 0   Coluna A  3 non-null      int64
 1   Coluna B  3 non-null      int64
 2   Coluna C  3 non-null      int64
dtypes: int64(3)
memory usage: 204.0+ bytes


In [80]:
conj_dados.shape

(3, 3)

In [83]:
conj_dados.reset_index(inplace=True)

In [84]:
conj_dados

Unnamed: 0,indice_linhas,Coluna A,Coluna B,Coluna C
0,A,1,2,3
1,B,4,5,6
2,C,7,8,9


In [85]:
conj_dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   indice_linhas  3 non-null      object
 1   Coluna A       3 non-null      int64 
 2   Coluna B       3 non-null      int64 
 3   Coluna C       3 non-null      int64 
dtypes: int64(3), object(1)
memory usage: 224.0+ bytes


In [87]:
conj_dados.dtypes

indice_linhas    object
Coluna A          int64
Coluna B          int64
Coluna C          int64
dtype: object

In [88]:
conj_dados.shape

(3, 4)

In [89]:
#novo conjunto de dados

df = pd.DataFrame({
    'Amostra 1': [1,2,4,np.nan],
    'Amostra 2': [np.nan,6,7,8],
    'Amostra 3': [3,np.nan,np.nan,2]
})

In [90]:
df

Unnamed: 0,Amostra 1,Amostra 2,Amostra 3
0,1.0,,3.0
1,2.0,6.0,
2,4.0,7.0,
3,,8.0,2.0


In [91]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Amostra 1  3 non-null      float64
 1   Amostra 2  3 non-null      float64
 2   Amostra 3  2 non-null      float64
dtypes: float64(3)
memory usage: 224.0 bytes


In [92]:
df.isna()

Unnamed: 0,Amostra 1,Amostra 2,Amostra 3
0,False,True,False
1,False,False,True
2,False,False,True
3,True,False,False


In [93]:
df.isna().sum()

Amostra 1    1
Amostra 2    1
Amostra 3    2
dtype: int64

In [101]:
df.dropna(thresh=3, axis=1)

Unnamed: 0,Amostra 1,Amostra 2
0,1.0,
1,2.0,6.0
2,4.0,7.0
3,,8.0


In [102]:
df

Unnamed: 0,Amostra 1,Amostra 2,Amostra 3
0,1.0,,3.0
1,2.0,6.0,
2,4.0,7.0,
3,,8.0,2.0


In [103]:
df.fillna(0)

Unnamed: 0,Amostra 1,Amostra 2,Amostra 3
0,1.0,0.0,3.0
1,2.0,6.0,0.0
2,4.0,7.0,0.0
3,0.0,8.0,2.0


In [105]:
df.fillna('sem dados')

Unnamed: 0,Amostra 1,Amostra 2,Amostra 3
0,1.0,sem dados,3.0
1,2.0,6.0,sem dados
2,4.0,7.0,sem dados
3,sem dados,8.0,2.0


In [106]:
df.mean()

Amostra 1    2.333333
Amostra 2    7.000000
Amostra 3    2.500000
dtype: float64

In [108]:
df['Amostra 1'].fillna(df['Amostra 1'].mean(), inplace=True)

In [109]:
df

Unnamed: 0,Amostra 1,Amostra 2,Amostra 3
0,1.0,,3.0
1,2.0,6.0,
2,4.0,7.0,
3,2.333333,8.0,2.0


### Até aqui vimos

* Series e Dataframes compartilham do mesmo indice
* Quando a gente vai pesquisar um item no conjunto, fazemos de duas formas:
 - .loc --> pesquisar pelo rótulo do indice
 - .iloc -> pesquisar pelo valor do rótulo (posição)

* Notação para "imprimir" o conteudo:
- dataframe
- dataframe['nome_coluna']
- dataframe[ [lista_nomes_colunas] ]

* Podemos atribuir rótulos para os indices das linhas atravé do metodo set_index(inplace=True)
* Podemos retornar, resetar o indice das linhas usando o reset_index(inplace=True)
* inplace=True altera o conteudo do dataframe

* Podemos definir criterios para selecionar os dados, operadores condicionais >, <, >=, etc... e caso a gente precise de mais de um criterio, usamos & para fazer uma operacao de AND e | para uma operacao de OR
* Como identificar dados faltantes, primeiras informações sobre os tipos de dados