# Aula 2 - Pandas

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 2) Pandas

## 1) Pandas

O **Pandas** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Comos os dados são a matéria prima de todo projeto de data science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

Para entendermos melhor o pandas e passar a utilizá-lo, precisamos entender suas estruturas fundamentais: as **Series** e o **DataFrame**.

Começamos importando o pandas:

In [2]:
# importando o pandas

import numpy as np
import pandas as pd

### Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [3]:
# 1
lista = [4,6,3,7,13]
arr = np.array(lista)

In [4]:
# 2
serie = pd.Series(lista)

In [5]:
# 3
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [6]:
# 4
serie[2]

3

In [7]:
# 5
serie.index

RangeIndex(start=0, stop=5, step=1)

In [8]:
# 6
serie.values

array([ 4,  6,  3,  7, 13], dtype=int64)

In [9]:
# 7
list(range(0,5,1))

[0, 1, 2, 3, 4]

In [4]:
# 8


In [5]:
# 9

In [6]:
# 10


In [7]:
# 11

In [8]:
# 12

In [9]:
# 13

In [10]:
# 14

In [11]:
# 15


In [12]:
# 16

In [None]:
# 17

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [13]:
# 18
dic = {'a':12, 'b':13, 'd': 42, 'g': 51}
serie = pd.Series(dic)

In [15]:
serie + 5


a    17
b    18
d    47
g    56
dtype: int64

In [19]:
masc1 = serie % 2 == 0

serie[masc1]

In [12]:
pd.Series(data=dic.values(), index=dic.keys())

a    12
b    13
d    42
g    51
dtype: int64

Ao fazer operações com séries, os valores são alterados um a um, exatamente como vimos com os numpy arrays!

In [14]:
# 19

In [15]:
# 20

In [16]:
# 21

In [17]:
# 22

In [18]:
# 23

In [19]:
# 24

In [20]:
# 25

In [None]:
# 26

In [None]:
# 27

In [None]:
# 28

In [21]:
# 29

In [None]:
# 30

In [None]:
# 31


In [22]:
# 32

In [None]:
# 33

In [None]:
# 34

In [23]:
# 35

In [None]:
# 36

Há vários outros métodos muito úteis para séries!

Os principais são:

In [None]:
# 37


In [24]:
# 38

In [25]:
# 39

In [26]:
# 40

In [27]:
# 41

In [28]:
# 42

In [29]:
# 43

In [30]:
# 44

In [31]:
# 45

In [32]:
# 46

In [33]:
# 47

In [34]:
# 48

In [35]:
# 49

In [36]:
# 50

In [37]:
# 51

In [None]:
# 52

In [None]:
# 53

In [None]:
# 54

In [38]:
# 55

In [39]:
# 56

In [40]:
# 57

In [41]:
# 58

In [42]:
# 59

In [43]:
# 60

In [44]:
# 61

In [45]:
# 62

In [46]:
# 63

In [47]:
# 64

In [48]:
# 65

In [49]:
# 66

In [50]:
# 67

In [51]:
# 68

In [52]:
# 69

Como séries são construídas a partir de numpy arrays, podemos também fazer filtros!

In [None]:
# 70

In [None]:
# 71

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [53]:
# 72

In [None]:
# 73

In [None]:
# 74

In [None]:
# 75

In [54]:
# 76

In [55]:
# 77

In [56]:
# 78

In [57]:
# 79

In [58]:
# 80

In [59]:
# 81

Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [None]:
# 82

In [60]:
# 83

In [61]:
# 84

In [62]:
# 85

In [63]:
# 86

In [64]:
# 87

In [65]:
# 88

Acessando com o .loc e .iloc

In [66]:
# 89

In [68]:
# 90

In [69]:
# 91

In [None]:
# 92

In [70]:
# 93

In [None]:
# 94

Podemos fazer operações com as colunas, dado que elas são séries!

In [71]:
# 95

In [72]:
# 96

In [73]:
# 97

In [74]:
# 98

In [75]:
# 99

In [76]:
# 100

In [77]:
# 101

In [78]:
# 102

In [79]:
# 103

In [80]:
# 104

In [81]:
# 105

In [82]:
# 106

In [83]:
# 107

In [84]:
# 108

In [85]:
# 109

Excluindo uma coluna

In [None]:
# 110

In [None]:
# 111

Como o dataframe é um conjunto de séries, também podemos fazer filtros!


In [86]:
# 112

In [87]:
# 113

In [88]:
# 114

In [89]:
# 115

In [90]:
# 116

In [91]:
# 117

In [92]:
# 118

In [93]:
# 119

Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [None]:
# 120

In [95]:
# 121

Também é possível criar uma coluna diretamente a partir da lista (mas tem que ser com o número exato de linhas!)

In [96]:
# 122

In [97]:
# 123

Alterando o nome de colunas

In [98]:
# 124

In [None]:
# 125

In [99]:
# 126

#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [100]:
# 127

In [101]:
# 128

In [102]:
# 129

In [103]:
# 130.

In [104]:
# 131

In [105]:
# 132

In [106]:
# 133

In [None]:
# 134

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
# 135

In [107]:
# 136

In [108]:
# 137

In [109]:
# 138

In [110]:
# 139

__________

## Uso do map:

In [None]:
# 140

# Transformações de dados

## GroupBy

## Pivot

## Melt

## cut

## qcut

## get_dummies