# Introdução ao Pandas

## Series

* Semelhante a uma matriz NumPy (na verdade, ela é construída em cima do objeto de matriz NumPy)
* Serie pode ter rótulos de eixos, o que significa que pode ser indexado por um rótulo, em vez de apenas uma localização numérica


## DataFrame
* Elemento mais importante dos Pandas 
* Inspirados pela linguagem de programação R :(
* Analogia: um monte de objetos da série juntos usando o mesmo índice. 


In [35]:
#Tudo começa importando as bibliotecas
import numpy as np
import pandas as pd

In [36]:
#Para criarmos uma Series, utilizamos pd.Series. Vamos exercitar isso usando alguns outros objetos de dados:

minha_lista = [10,20,30]
array_numpy = np.array([10,20,30])
dicio = {'a':10,'b':20,'c':30}

In [None]:
#Exemplos Series

In [37]:
dados = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

In [38]:
conjunto_dados = pd.DataFrame(dados, columns=['a', 'b', 'c'])

In [39]:
conjunto_dados

Unnamed: 0,a,b,c
0,1,2,3
1,4,5,6
2,7,8,9


In [40]:
novo_indice = 'D E F'.split()
conjunto_dados['nova_coluna'] = novo_indice
conjunto_dados.set_index('nova_coluna', inplace=True)

In [41]:
conjunto_dados


Unnamed: 0_level_0,a,b,c
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,1,2,3
E,4,5,6
F,7,8,9


In [43]:
conjunto_dados.loc[ ['D','E'], ['a', 'b'] ]

Unnamed: 0_level_0,a,b
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1
D,1,2
E,4,5


In [57]:
conjunto_dados[ conjunto_dados['a']< 7 ]

Unnamed: 0_level_0,a,b,c
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,1,2,3
E,4,5,6


In [63]:
criterio_filtro = (conjunto_dados['c'] > 5) & (conjunto_dados['a']< 7)
criterio_filtro2 = (conjunto_dados['c'] < 5) | (conjunto_dados['a']> 7)

In [64]:
conjunto_dados[ criterio_filtro2 ]

Unnamed: 0_level_0,a,b,c
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,1,2,3


In [69]:
conjunto_dados['B x C'] = conjunto_dados['b'] * conjunto_dados['c']

In [76]:
conjunto_dados

Unnamed: 0_level_0,a,b,c
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,1,2,3
E,4,5,6


In [75]:
conjunto_dados.drop('F', axis=0, inplace=True)

### Até aqui vimos

* Series e Dataframes compartilham do mesmo indice
* Quando a gente vai pesquisar um item no conjunto, fazemos de duas formas:
 - .loc --> pesquisar pelo rótulo do indice
 - .iloc -> pesquisar pelo valor do rótulo (posição)

* Notação para "imprimir" o conteudo:
- dataframe
- dataframe['nome_coluna']
- dataframe[ [lista_nomes_colunas] ]

* Podemos atribuir rótulos para os indices das linhas atravé do metodo set_index(inplace=True)
* Podemos retornar, resetar o indice das linhas usando o reset_index(inplace=True)
* inplace=True altera o conteudo do dataframe

* Podemos definir criterios para selecionar os dados, operadores condicionais >, <, >=, etc... e caso a gente precise de mais de um criterio, usamos & para fazer uma operacao de AND e | para uma operacao de OR

In [79]:
# Renomear colunas de um dataframe
# axis = 0 --> linha, axis = 1 --> coluna

conjunto_dados.rename({
    'a' : 'Coluna A',
    'b' : 'Coluna B',
    'c' : 'Coluna C'
}, inplace=True, axis=1)

In [86]:
conjunto_dados2 = conjunto_dados.drop('Coluna C', axis=1)

In [83]:
# Retorna uma lista com os rotulos do indice das linhas e nome geral desse conjunto
conjunto_dados.index

Index(['D', 'E'], dtype='object', name='nova_coluna')

In [84]:
#Retornar uma lista com os nomes das colunas
conjunto_dados.columns

Index(['Coluna A', 'Coluna B', 'Coluna C'], dtype='object')

In [88]:
conjunto_dados2.pivot(index=conjunto_dados2.columns, columns=conjunto_dados2.index)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [90]:
conjunto_dados.transpose()

nova_coluna,D,E
Coluna A,1,4
Coluna B,2,5
Coluna C,3,6


In [91]:
ser = pd.Series([2,4,5])

In [92]:
ser

0    2
1    4
2    5
dtype: int64

In [95]:
conjunto_dados.sort_index(ascending=False)

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,4,5,6
D,1,2,3


In [100]:
conjunto_dados.sort_values(by=['Coluna A', 'Coluna C'], ascending=True)

Unnamed: 0_level_0,Coluna A,Coluna B,Coluna C
nova_coluna,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,1,2,3
E,4,5,6


In [106]:
conjunto_dados not in [1,2,3]

ValueError: The truth value of a DataFrame is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().