# Introdução ao Pandas

## Series

* Semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy)
* Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica


## DataFrame
* Elemento mais importante dos Pandas 
* Inspirados pela linguagem de programação R :(
* Analogia: um monte de objetos da série juntos usando o mesmo índice. 


In [1]:
#Tudo começa importando as bibliotecas
import numpy as np
import pandas as pd

#### pd.Series

In [2]:
#Para criarmos uma Series, utilizamos pd.Series. Vamos exercitar isso usando alguns outros objetos de dados:

minha_lista = [10,20,30]
array_numpy = np.array([10,20,30])
dicio = {'a':10,'b':20,'c':30}

In [3]:
#Exemplos Series
#uma Series é criada a partir de pd.Series, que também usamos para converter tipos de dados

pd.Series(minha_lista)

0    10
1    20
2    30
dtype: int64

In [4]:
pd.Series(array_numpy)

0    10
1    20
2    30
dtype: int64

In [5]:
pd.Series(dicio)

a    10
b    20
c    30
dtype: int64

In [7]:
# quando convertemos um dicionario para uma series, percebam que as chaves do dicionário passam a ser os rótulos
# dos indices. Podemos rotular usando o parametro index.

rotulos = ['a','b','c']
pd.Series(minha_lista, index=rotulos)

a    10
b    20
c    30
dtype: int64

In [8]:
# a grande sacada do pandas é o compartilhamento dos indices, permitindo inclusive realizar operações
conj_1 = pd.Series([10,20,30], index=['martelos','parafusos','pregos'])
conj_2 = pd.Series([30,40,50], index=['martelos','parafusos','chaves'])

conj_1 + conj_2

chaves        NaN
martelos     40.0
parafusos    60.0
pregos        NaN
dtype: float64

#### pd.DataFrame

In [9]:
# Vamos definir aqui uma matriz, da mesma forma que fizemos na aula de numpy
dados = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [10]:
# a partir desse conjunto, vamos transformar essa matriz em uma estrutura de DataFrame. Abaixo estamos definindo
# no primeiro parametro qual o conjunto de dados que será transformado e no parametro columns estamos nomeando
# colunas
conjunto_dados = pd.DataFrame(dados, columns=['a', 'b', 'c'])

In [11]:
conjunto_dados

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [16]:
# Percebam acima que em cada linha, temos um indice. Assim como temos nomes nas colunas, podemos nomear o indice.
# vamos explorar isso agora

# criamos uma variavel com os nomes. abaixo eu estou gerando uma lista a partir do texto, relembrando
# a função split()
rotulos_linhas = 'LinhaD LinhaE LinhaF'.split()

# o proximo passo é criar uma coluna, que vai receber esses valores. No pandas, chamamos a variavel do tipo 
# dataframe e entre os colchetes, declaramos o nome da coluna entre aspas e depois atribuímos os valores 
# que desejamos utilizar
conjunto_dados['indice_linha'] = rotulos_linhas
conjunto_dados.set_index('indice_linha', inplace=True)

In [17]:
conjunto_dados

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1,2,3
LinhaE,4,5,6
LinhaF,7,8,9


In [18]:
# E como navegamos?
# - dataframe
# - dataframe['nome_coluna']
# - dataframe[ [lista_nomes_colunas] ]
# - dataframe.loc['nome-indice']
# - dataframe.iloc[posicao-indice]

conjunto_dados

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1,2,3
LinhaE,4,5,6
LinhaF,7,8,9


In [19]:
conjunto_dados['a']

indice_linha
LinhaD    1
LinhaE    4
LinhaF    7
Name: a, dtype: int64

In [20]:
conjunto_dados[['a','c']]

Unnamed: 0_level_0,a,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1
LinhaD,1,3
LinhaE,4,6
LinhaF,7,9


In [21]:
conjunto_dados.loc[ ['LinhaD','LinhaF'], ['a', 'b'] ]

Unnamed: 0_level_0,a,b
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1
LinhaD,1,2
LinhaF,7,8


In [23]:
# assim como outras estrutura que ja vimos, também é possível fatiarmos esse conjunto para pegarmos apenas um 
# subconjunto desses dados

# vejam o exemplo abaixo que testa se exitem valores menores que 7 dentro do conjunto
# o resultado da execução são valores booleanos, retornando verdadeiro ou falso.
# mas como apresentar os valores?

conjunto_dados < 7 

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,True,True,True
LinhaE,True,True,True
LinhaF,False,False,False


In [24]:
# passaremos para o dataframe justamente esse filtro entre os colchetes
conjunto_dados[ conjunto_dados < 7 ]

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1.0,2.0,3.0
LinhaE,4.0,5.0,6.0
LinhaF,,,


In [25]:
# Esses critérios de seleção poderiam ser colocados em variáveis para facilitar a letra, caso a notação acima 
# seja dificil para quem está iniciando

# importante destacar que quando temos necessidades de rodar mais de uma condição, usamos o sinais & e | para
# executar as operacoes AND e OR, respectivamente.

filtro1 = (conjunto_dados['c'] > 5) & (conjunto_dados['a']< 7)
filtro2 = (conjunto_dados['c'] < 5) | (conjunto_dados['a']> 7)

In [26]:
conjunto_dados[ filtro2 ]

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1,2,3


In [27]:
conjunto_dados[ filtro1 ]

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaE,4,5,6


In [28]:
# da mesma forma que a Series, podemos fazer operacoes também, tudo em virtude do compartilhamento dos indices
conjunto_dados['B x C'] = conjunto_dados['b'] * conjunto_dados['c']

In [29]:
conjunto_dados

Unnamed: 0_level_0,a,b,c,B x C
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
LinhaD,1,2,3,6
LinhaE,4,5,6,30
LinhaF,7,8,9,72


In [30]:
# agora vamos supor que não temos a necessidade dessa coluna que criamos. Para isso, usaremos o comando abaixo.
# importante destacar os parametros axis e inplace. Axis vai determinar se a operacao sera realizada na linha ou
# coluna e o inplace se efetivamente iremos alterar o conjunto origem. Por padrao, inplace=False.

conjunto_dados.drop('B x C', axis=1, inplace=True)

In [31]:
conjunto_dados

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1,2,3
LinhaE,4,5,6
LinhaF,7,8,9


In [33]:
conjunto_dados.drop('LinhaE', axis=0)

Unnamed: 0_level_0,a,b,c
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1,2,3
LinhaF,7,8,9


In [34]:
# outra operação possível é renomear o nome das colunas.

conjunto_dados.rename({
                        'a' : 'Coluna A',
                        'b' : 'Coluna B',
                        'c' : 'Coluna C'
                      }, inplace=True, axis=1)

In [35]:
conjunto_dados

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
indice_linha,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
LinhaD,1,2,3
LinhaE,4,5,6
LinhaF,7,8,9


In [36]:
# caso seja necessário retornar os valores de indice, usamos o .index
conjunto_dados.index

Index(['LinhaD', 'LinhaE', 'LinhaF'], dtype='object', name='indice_linha')

In [37]:
# e da mesma forma, com .columns, retornamo uma lista com os nomes das colunas
conjunto_dados.columns

Index(['Coluna A', 'Coluna B', 'Coluna C'], dtype='object')

In [38]:
# Em algumas situações, talvez seja necessario transformar linhas em colunas e colunas em linhas.
# para essa tarefa, usaremos o transpose
conjunto_dados.transpose()

indice_linha,LinhaD,LinhaE,LinhaF
Coluna A,1,4,7
Coluna B,2,5,8
Coluna C,3,6,9


In [None]:
conjunto_dados.sort_index(ascending=False)

In [None]:
conjunto_dados.sort_values(by=['Coluna A', 'Coluna C'], ascending=True)

### Até aqui vimos

* Series e Dataframes compartilham do mesmo indice
* Quando a gente vai pesquisar um item no conjunto, fazemos de duas formas:
 - .loc --> pesquisar pelo rótulo do indice
 - .iloc -> pesquisar pelo valor do rótulo (posição)

* Notação para "imprimir" o conteudo:
- dataframe
- dataframe['nome_coluna']
- dataframe[ [lista_nomes_colunas] ]

* Podemos atribuir rótulos para os indices das linhas atravé do metodo set_index(inplace=True)
* Podemos retornar, resetar o indice das linhas usando o reset_index(inplace=True)
* inplace=True altera o conteudo do dataframe

* Podemos definir criterios para selecionar os dados, operadores condicionais >, <, >=, etc... e caso a gente precise de mais de um criterio, usamos & para fazer uma operacao de AND e | para uma operacao de OR