# Aula 2 - Pandas

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 2) Pandas

## 1) Pandas

O **Pandas** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Comos os dados são a matéria prima de todo projeto de data science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

Para entendermos melhor o pandas e passar a utilizá-lo, precisamos entender suas estruturas fundamentais: as **Series** e o **DataFrame**.

Começamos importando o pandas:

In [113]:
# importando o pandas

import numpy as np
import pandas as pd

### Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [114]:
lista = [4, 6, 3, 7, 13]

In [115]:
arr = np.array(lista)
arr

array([ 4,  6,  3,  7, 13])

In [116]:
arr[2]

3

In [117]:
serie = pd.Series(lista)

In [118]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [119]:
serie[2]

3

In [120]:
serie.values

array([ 4,  6,  3,  7, 13])

In [122]:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [124]:
list(range(0, 5, 1))

[0, 1, 2, 3, 4]

In [125]:
serie.index.tolist()

[0, 1, 2, 3, 4]

In [126]:
list(serie.index)

[0, 1, 2, 3, 4]

In [127]:
serie[2]

3

In [129]:
serie.values[2]

3

In [130]:
dic = {
    0: 42,
    1: 50
}

In [134]:
dic

{0: 42, 1: 50}

In [131]:
dic.values()

dict_values([42, 50])

In [132]:
dic.keys()

dict_keys([0, 1])

In [133]:
dic[1]

50

In [135]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [136]:
serie[2:]

2     3
3     7
4    13
dtype: int64

In [137]:
indices = ['a', 'b', 'c', 'd', 'e']

In [139]:
serie2 = pd.Series(data=lista, index=indices)

In [141]:
serie2

a     4
b     6
c     3
d     7
e    13
dtype: int64

In [142]:
serie[2]

3

In [144]:
serie2['c']

3

In [145]:
serie2['c':]

c     3
d     7
e    13
dtype: int64

In [146]:
serie2.loc['c']

3

In [149]:
serie2.loc[2]

KeyError: 2

In [148]:
serie2.iloc[2]

3

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [150]:
dic

{0: 42, 1: 50}

In [151]:
pd.Series(dic)

0    42
1    50
dtype: int64

In [152]:
dic = {
    'a': 12,
    'b': 13,
    'd': 42,
    'g': 51
}

In [153]:
pd.Series(dic)

a    12
b    13
d    42
g    51
dtype: int64

In [154]:
pd.Series(data=dic.values(), index = dic.keys())

a    12
b    13
d    42
g    51
dtype: int64

Ao fazer operações com séries, os valores são alterados um a um, exatamente como vimos com os numpy arrays!

In [163]:
arr + 5 

array([ 9, 11,  8, 12, 18])

In [164]:
serie + 5

0     9
1    11
2     8
3    12
4    18
dtype: int64

In [165]:
serie / 5

0    0.8
1    1.2
2    0.6
3    1.4
4    2.6
dtype: float64

In [166]:
serie * 10

0     40
1     60
2     30
3     70
4    130
dtype: int64

In [167]:
serie ** 2

0     16
1     36
2      9
3     49
4    169
dtype: int64

In [168]:
np.log(serie)

0    1.386294
1    1.791759
2    1.098612
3    1.945910
4    2.564949
dtype: float64

In [170]:
arr % 2 == 0

array([ True,  True, False, False, False])

In [172]:
mascara = serie % 2 == 0

In [173]:
serie[mascara]

0    4
1    6
dtype: int64

In [178]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [179]:
mascara2 = serie < 6

In [182]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [180]:
mascara2

0     True
1    False
2     True
3    False
4    False
dtype: bool

In [181]:
serie[mascara2]

0    4
2    3
dtype: int64

In [183]:
lista1 = [4, 6, 3, 7, 25]
lista2 = [21, 31, 98, 65, 42]

In [187]:
arr1 = np.array(lista1)
arr2 = np.array(lista2)

In [184]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [185]:
s1

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [186]:
s2

0    21
1    31
2    98
3    65
4    42
dtype: int64

In [188]:
arr1 + arr2

array([ 25,  37, 101,  72,  67])

In [189]:
s1 + s2

0     25
1     37
2    101
3     72
4     67
dtype: int64

In [193]:
np.random.seed(42)

a1 = np.random.randint(0, 100, 5)
a2 = np.random.randint(0, 100, 7)
print(a1)
print(a2)

[51 92 14 71 60]
[20 82 86 74 74 87 99]


In [194]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [195]:
s1

0    51
1    92
2    14
3    71
4    60
dtype: int64

In [196]:
s2

0    20
1    82
2    86
3    74
4    74
5    87
6    99
dtype: int64

In [198]:
a1, a2

(array([51, 92, 14, 71, 60]), array([20, 82, 86, 74, 74, 87, 99]))

In [199]:
a1 + a2

ValueError: operands could not be broadcast together with shapes (5,) (7,) 

In [201]:
s1

0    51
1    92
2    14
3    71
4    60
dtype: int64

In [200]:
s1 + s2

0     71.0
1    174.0
2    100.0
3    145.0
4    134.0
5      NaN
6      NaN
dtype: float64

In [203]:
s1.add(s2, fill_value=0)

0     71.0
1    174.0
2    100.0
3    145.0
4    134.0
5     87.0
6     99.0
dtype: float64

In [204]:
s1 * s2

0    1020.0
1    7544.0
2    1204.0
3    5254.0
4    4440.0
5       NaN
6       NaN
dtype: float64

In [207]:
s1.multiply(s2, fill_value=1)

0    1020.0
1    7544.0
2    1204.0
3    5254.0
4    4440.0
5      87.0
6      99.0
dtype: float64

In [213]:
t1 = pd.Series({valor*10: valor for valor in a1})

In [214]:
t2 = pd.Series({valor: valor for valor in a2})

In [215]:
t1

510    51
920    92
140    14
710    71
600    60
dtype: int64

In [216]:
t2

20    20
82    82
86    86
74    74
87    87
99    99
dtype: int64

In [219]:
# Operações baseiam-se no indices
t1 + t2

20    NaN
74    NaN
82    NaN
86    NaN
87    NaN
99    NaN
140   NaN
510   NaN
600   NaN
710   NaN
920   NaN
dtype: float64

In [220]:
s_texto = pd.Series(['a', 'b', 'c'])
s_numero = pd.Series([1, 2, 3])

In [221]:
'a' * 3

'aaa'

In [222]:
s_texto * 3

0    aaa
1    bbb
2    ccc
dtype: object

In [223]:
s_texto * s_numero

0      a
1     bb
2    ccc
dtype: object

In [225]:
'a' + 20

TypeError: can only concatenate str (not "int") to str

In [224]:
s_texto + s_numero

TypeError: can only concatenate str (not "int") to str

In [226]:
s_texto + s_numero.astype('str')

0    a1
1    b2
2    c3
dtype: object

Há vários outros métodos muito úteis para séries!

Os principais são:

In [331]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 11, 30))

In [229]:
arr_notas = notas.values

In [230]:
arr_notas

array([ 6,  3, 10,  7,  4,  6,  9,  2,  6, 10, 10,  7,  4,  3,  7,  7,  2,
        5,  4,  1,  7,  5,  1,  4,  0,  9,  5,  8,  0, 10])

In [231]:
notas

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
dtype: int64

In [234]:
mascara = arr_notas > 0

In [235]:
arr_notas[mascara]

array([ 6,  3, 10,  7,  4,  6,  9,  2,  6, 10, 10,  7,  4,  3,  7,  7,  2,
        5,  4,  1,  7,  5,  1,  4,  9,  5,  8, 10])

In [239]:
mascara2 = notas > 0

In [240]:
notas[mascara2]

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
25     9
26     5
27     8
29    10
dtype: int64

In [241]:
mascara3 = (notas >= 0) & (notas < 5)

In [264]:
notas_vermelhas = notas[mascara3]

# Utilizar o ~ para pegar a negativa da mascara
notas_azuis = notas[~mascara3]

In [265]:
mascara3

0     False
1      True
2     False
3     False
4      True
5     False
6     False
7      True
8     False
9     False
10    False
11    False
12     True
13     True
14    False
15    False
16     True
17    False
18     True
19     True
20    False
21    False
22     True
23     True
24     True
25    False
26    False
27    False
28     True
29    False
dtype: bool

In [266]:
(~mascara3)

0      True
1     False
2      True
3      True
4     False
5      True
6      True
7     False
8      True
9      True
10     True
11     True
12    False
13    False
14     True
15     True
16    False
17     True
18    False
19    False
20     True
21     True
22    False
23    False
24    False
25     True
26     True
27     True
28    False
29     True
dtype: bool

In [272]:
notas_vermelhas

1     3
4     4
7     2
12    4
13    3
16    2
18    4
19    1
22    1
23    4
24    0
28    0
dtype: int64

In [273]:
notas_azuis

0      6
2     10
3      7
5      6
6      9
8      6
9     10
10    10
11     7
14     7
15     7
17     5
20     7
21     5
25     9
26     5
27     8
29    10
dtype: int64

In [285]:
soma = lambda a, b: a + b

In [286]:
def soma_func(a, b):
    return a + b

In [287]:
soma(1, 2)

3

In [288]:
soma_func(1, 2)

3

In [289]:
eleva_quad = lambda x: x ** 2

In [290]:
eleva_quad(4)

16

In [293]:
lista_valores = [1, 2, 3, 4]

In [295]:
[eleva_quad(valor) for valor in lista_valores]

[1, 4, 9, 16]

In [296]:
notas.apply(lambda nota: 'par' if nota % 2 == 0 else 'impar')

0       par
1     impar
2       par
3     impar
4       par
5       par
6     impar
7       par
8       par
9       par
10      par
11    impar
12      par
13    impar
14    impar
15    impar
16      par
17    impar
18      par
19    impar
20    impar
21    impar
22    impar
23      par
24      par
25    impar
26    impar
27      par
28      par
29      par
dtype: object

In [297]:
notas

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
dtype: int64

In [307]:
notas_check = notas.apply(lambda x: True if x >= 5 else False)

In [308]:
notas[notas_check]

0      6
2     10
3      7
5      6
6      9
8      6
9     10
10    10
11     7
14     7
15     7
17     5
20     7
21     5
25     9
26     5
27     8
29    10
dtype: int64

In [310]:
notas.max()

10

In [311]:
notas.min()

0

In [312]:
notas.mean()

5.4

In [313]:
notas.std()

3.0580588839868725

In [314]:
len(notas)

30

In [316]:
notas.shape

(30,)

In [317]:
notas.size

30

In [332]:
notas.sort_values()

24     0
28     0
22     1
19     1
16     2
7      2
1      3
13     3
12     4
18     4
23     4
4      4
21     5
26     5
17     5
8      6
5      6
0      6
20     7
14     7
11     7
3      7
15     7
27     8
6      9
25     9
10    10
9     10
2     10
29    10
dtype: int64

In [335]:
notas_ordernadas = notas.sort_values(ascending=False)

In [338]:
notas.unique()

array([ 6,  3, 10,  7,  4,  9,  2,  5,  1,  0,  8])

In [339]:
# Numero de ocorrencia de cada valor unico

# Frequencia absoluta
notas.value_counts()

7     5
10    4
4     4
6     3
5     3
3     2
9     2
2     2
1     2
0     2
8     1
dtype: int64

In [340]:
notas.value_counts() / notas.size

7     0.166667
10    0.133333
4     0.133333
6     0.100000
5     0.100000
3     0.066667
9     0.066667
2     0.066667
1     0.066667
0     0.066667
8     0.033333
dtype: float64

In [342]:
# Frequência relativa
notas.value_counts(normalize=True)

7     0.166667
10    0.133333
4     0.133333
6     0.100000
5     0.100000
3     0.066667
9     0.066667
2     0.066667
1     0.066667
0     0.066667
8     0.033333
dtype: float64

## Paramos aqui

In [38]:
# 55
(notas
 .value_counts(normalize=True)
 .apply(lambda x: roun(x))
)

In [39]:
# 56

In [40]:
# 57

In [41]:
# 58

In [42]:
# 59

In [43]:
# 60

In [44]:
# 61

In [45]:
# 62

In [46]:
# 63

In [47]:
# 64

In [48]:
# 65

In [49]:
# 66

In [50]:
# 67

In [51]:
# 68

In [52]:
# 69

Como séries são construídas a partir de numpy arrays, podemos também fazer filtros!

In [None]:
# 70

In [None]:
# 71

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [53]:
# 72

In [None]:
# 73

In [None]:
# 74

In [None]:
# 75

In [54]:
# 76

In [55]:
# 77

In [56]:
# 78

In [57]:
# 79

In [58]:
# 80

In [59]:
# 81

Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [None]:
# 82

In [60]:
# 83

In [61]:
# 84

In [62]:
# 85

In [63]:
# 86

In [64]:
# 87

In [65]:
# 88

Acessando com o .loc e .iloc

In [66]:
# 89

In [68]:
# 90

In [69]:
# 91

In [None]:
# 92

In [70]:
# 93

In [None]:
# 94

Podemos fazer operações com as colunas, dado que elas são séries!

In [71]:
# 95

In [72]:
# 96

In [73]:
# 97

In [74]:
# 98

In [75]:
# 99

In [76]:
# 100

In [77]:
# 101

In [78]:
# 102

In [79]:
# 103

In [80]:
# 104

In [81]:
# 105

In [82]:
# 106

In [83]:
# 107

In [84]:
# 108

In [85]:
# 109

Excluindo uma coluna

In [None]:
# 110

In [None]:
# 111

Como o dataframe é um conjunto de séries, também podemos fazer filtros!


In [86]:
# 112

In [87]:
# 113

In [88]:
# 114

In [89]:
# 115

In [90]:
# 116

In [91]:
# 117

In [92]:
# 118

In [93]:
# 119

Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [None]:
# 120

In [95]:
# 121

Também é possível criar uma coluna diretamente a partir da lista (mas tem que ser com o número exato de linhas!)

In [96]:
# 122

In [97]:
# 123

Alterando o nome de colunas

In [98]:
# 124

In [None]:
# 125

In [99]:
# 126

#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [100]:
# 127

In [101]:
# 128

In [102]:
# 129

In [103]:
# 130.

In [104]:
# 131

In [105]:
# 132

In [106]:
# 133

In [None]:
# 134

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
# 135

In [107]:
# 136

In [108]:
# 137

In [109]:
# 138

In [110]:
# 139

__________

## Uso do map:

In [None]:
# 140

# Transformações de dados

## GroupBy

### Apply com GroupBy

## Pivot

## Melt

## cut

## qcut

## get_dummies