# Aula 2 - Pandas

Na aula de hoje, vamos explorar os seguintes tópicos em Python:

- 2) Pandas

## 1) Pandas

O **Pandas** é uma das bibliotecas mais usadas em data science.

Esta biblioteca, construída a partir do Numpy, possibilita a estruturação e manipulação de dados de maneira simples e eficiente.

Comos os dados são a matéria prima de todo projeto de data science, manipulá-los é fundamental! Por isso, utilizaremos o Pandas em quase todas as aulas daqui pra frente!

Para entendermos melhor o pandas e passar a utilizá-lo, precisamos entender suas estruturas fundamentais: as **Series** e o **DataFrame**.

Começamos importando o pandas:

In [113]:
# importando o pandas

import numpy as np
import pandas as pd

### Series

O objeto fundamental do Pandas são as **Series**, uma classe do pandas.

As Series são as **colunas das tabelas** (que veremos mais a frente), e por baixo dos panos, os dados ficam armazenados como **numpy arrays**!

A diferença é que a série possui um **índice associado**, permitindo o acesso aos conteúdos dessa estrutura por ele, como um dicionário.

Além disso, as séries têm métodos específicos além dos que vimos pra arrays, o que será super útil!

Podemos criar uma série **a partir de uma lista**, usando a função do pandas `pd.Series()`: 

In [114]:
lista = [4, 6, 3, 7, 13]

In [115]:
arr = np.array(lista)
arr

array([ 4,  6,  3,  7, 13])

In [116]:
arr[2]

3

In [117]:
serie = pd.Series(lista)

In [118]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [119]:
serie[2]

3

In [120]:
serie.values

array([ 4,  6,  3,  7, 13])

In [122]:
serie.index

RangeIndex(start=0, stop=5, step=1)

In [124]:
list(range(0, 5, 1))

[0, 1, 2, 3, 4]

In [125]:
serie.index.tolist()

[0, 1, 2, 3, 4]

In [126]:
list(serie.index)

[0, 1, 2, 3, 4]

In [127]:
serie[2]

3

In [129]:
serie.values[2]

3

In [130]:
dic = {
    0: 42,
    1: 50
}

In [134]:
dic

{0: 42, 1: 50}

In [131]:
dic.values()

dict_values([42, 50])

In [132]:
dic.keys()

dict_keys([0, 1])

In [133]:
dic[1]

50

In [135]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [136]:
serie[2:]

2     3
3     7
4    13
dtype: int64

In [137]:
indices = ['a', 'b', 'c', 'd', 'e']

In [139]:
serie2 = pd.Series(data=lista, index=indices)

In [141]:
serie2

a     4
b     6
c     3
d     7
e    13
dtype: int64

In [142]:
serie[2]

3

In [144]:
serie2['c']

3

In [145]:
serie2['c':]

c     3
d     7
e    13
dtype: int64

In [146]:
serie2.loc['c']

3

In [149]:
serie2.loc[2]

KeyError: 2

In [148]:
serie2.iloc[2]

3

Outra forma bem natural de construir séries é apartir de um **dicionário**

Neste caso, as **chaves** se tornam as labels de índice!

In [150]:
dic

{0: 42, 1: 50}

In [151]:
pd.Series(dic)

0    42
1    50
dtype: int64

In [152]:
dic = {
    'a': 12,
    'b': 13,
    'd': 42,
    'g': 51
}

In [153]:
pd.Series(dic)

a    12
b    13
d    42
g    51
dtype: int64

In [154]:
pd.Series(data=dic.values(), index = dic.keys())

a    12
b    13
d    42
g    51
dtype: int64

Ao fazer operações com séries, os valores são alterados um a um, exatamente como vimos com os numpy arrays!

In [163]:
arr + 5 

array([ 9, 11,  8, 12, 18])

In [164]:
serie + 5

0     9
1    11
2     8
3    12
4    18
dtype: int64

In [165]:
serie / 5

0    0.8
1    1.2
2    0.6
3    1.4
4    2.6
dtype: float64

In [166]:
serie * 10

0     40
1     60
2     30
3     70
4    130
dtype: int64

In [167]:
serie ** 2

0     16
1     36
2      9
3     49
4    169
dtype: int64

In [168]:
np.log(serie)

0    1.386294
1    1.791759
2    1.098612
3    1.945910
4    2.564949
dtype: float64

In [170]:
arr % 2 == 0

array([ True,  True, False, False, False])

In [172]:
mascara = serie % 2 == 0

In [173]:
serie[mascara]

0    4
1    6
dtype: int64

In [178]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [179]:
mascara2 = serie < 6

In [182]:
serie

0     4
1     6
2     3
3     7
4    13
dtype: int64

In [180]:
mascara2

0     True
1    False
2     True
3    False
4    False
dtype: bool

In [181]:
serie[mascara2]

0    4
2    3
dtype: int64

In [183]:
lista1 = [4, 6, 3, 7, 25]
lista2 = [21, 31, 98, 65, 42]

In [187]:
arr1 = np.array(lista1)
arr2 = np.array(lista2)

In [184]:
s1 = pd.Series(lista1)
s2 = pd.Series(lista2)

In [185]:
s1

0     4
1     6
2     3
3     7
4    25
dtype: int64

In [186]:
s2

0    21
1    31
2    98
3    65
4    42
dtype: int64

In [188]:
arr1 + arr2

array([ 25,  37, 101,  72,  67])

In [189]:
s1 + s2

0     25
1     37
2    101
3     72
4     67
dtype: int64

In [193]:
np.random.seed(42)

a1 = np.random.randint(0, 100, 5)
a2 = np.random.randint(0, 100, 7)
print(a1)
print(a2)

[51 92 14 71 60]
[20 82 86 74 74 87 99]


In [194]:
s1 = pd.Series(a1)
s2 = pd.Series(a2)

In [195]:
s1

0    51
1    92
2    14
3    71
4    60
dtype: int64

In [196]:
s2

0    20
1    82
2    86
3    74
4    74
5    87
6    99
dtype: int64

In [198]:
a1, a2

(array([51, 92, 14, 71, 60]), array([20, 82, 86, 74, 74, 87, 99]))

In [199]:
a1 + a2

ValueError: operands could not be broadcast together with shapes (5,) (7,) 

In [201]:
s1

0    51
1    92
2    14
3    71
4    60
dtype: int64

In [200]:
s1 + s2

0     71.0
1    174.0
2    100.0
3    145.0
4    134.0
5      NaN
6      NaN
dtype: float64

In [203]:
s1.add(s2, fill_value=0)

0     71.0
1    174.0
2    100.0
3    145.0
4    134.0
5     87.0
6     99.0
dtype: float64

In [204]:
s1 * s2

0    1020.0
1    7544.0
2    1204.0
3    5254.0
4    4440.0
5       NaN
6       NaN
dtype: float64

In [207]:
s1.multiply(s2, fill_value=1)

0    1020.0
1    7544.0
2    1204.0
3    5254.0
4    4440.0
5      87.0
6      99.0
dtype: float64

In [213]:
t1 = pd.Series({valor*10: valor for valor in a1})

In [214]:
t2 = pd.Series({valor: valor for valor in a2})

In [215]:
t1

510    51
920    92
140    14
710    71
600    60
dtype: int64

In [216]:
t2

20    20
82    82
86    86
74    74
87    87
99    99
dtype: int64

In [219]:
# Operações baseiam-se no indices
t1 + t2

20    NaN
74    NaN
82    NaN
86    NaN
87    NaN
99    NaN
140   NaN
510   NaN
600   NaN
710   NaN
920   NaN
dtype: float64

In [220]:
s_texto = pd.Series(['a', 'b', 'c'])
s_numero = pd.Series([1, 2, 3])

In [221]:
'a' * 3

'aaa'

In [222]:
s_texto * 3

0    aaa
1    bbb
2    ccc
dtype: object

In [223]:
s_texto * s_numero

0      a
1     bb
2    ccc
dtype: object

In [225]:
'a' + 20

TypeError: can only concatenate str (not "int") to str

In [224]:
s_texto + s_numero

TypeError: can only concatenate str (not "int") to str

In [226]:
s_texto + s_numero.astype('str')

0    a1
1    b2
2    c3
dtype: object

Há vários outros métodos muito úteis para séries!

Os principais são:

In [331]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 11, 30))

In [229]:
arr_notas = notas.values

In [230]:
arr_notas

array([ 6,  3, 10,  7,  4,  6,  9,  2,  6, 10, 10,  7,  4,  3,  7,  7,  2,
        5,  4,  1,  7,  5,  1,  4,  0,  9,  5,  8,  0, 10])

In [231]:
notas

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
dtype: int64

In [234]:
mascara = arr_notas > 0

In [235]:
arr_notas[mascara]

array([ 6,  3, 10,  7,  4,  6,  9,  2,  6, 10, 10,  7,  4,  3,  7,  7,  2,
        5,  4,  1,  7,  5,  1,  4,  9,  5,  8, 10])

In [239]:
mascara2 = notas > 0

In [240]:
notas[mascara2]

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
25     9
26     5
27     8
29    10
dtype: int64

In [241]:
mascara3 = (notas >= 0) & (notas < 5)

In [264]:
notas_vermelhas = notas[mascara3]

# Utilizar o ~ para pegar a negativa da mascara
notas_azuis = notas[~mascara3]

In [265]:
mascara3

0     False
1      True
2     False
3     False
4      True
5     False
6     False
7      True
8     False
9     False
10    False
11    False
12     True
13     True
14    False
15    False
16     True
17    False
18     True
19     True
20    False
21    False
22     True
23     True
24     True
25    False
26    False
27    False
28     True
29    False
dtype: bool

In [266]:
(~mascara3)

0      True
1     False
2      True
3      True
4     False
5      True
6      True
7     False
8      True
9      True
10     True
11     True
12    False
13    False
14     True
15     True
16    False
17     True
18    False
19    False
20     True
21     True
22    False
23    False
24    False
25     True
26     True
27     True
28    False
29     True
dtype: bool

In [272]:
notas_vermelhas

1     3
4     4
7     2
12    4
13    3
16    2
18    4
19    1
22    1
23    4
24    0
28    0
dtype: int64

In [273]:
notas_azuis

0      6
2     10
3      7
5      6
6      9
8      6
9     10
10    10
11     7
14     7
15     7
17     5
20     7
21     5
25     9
26     5
27     8
29    10
dtype: int64

In [285]:
soma = lambda a, b: a + b

In [286]:
def soma_func(a, b):
    return a + b

In [287]:
soma(1, 2)

3

In [288]:
soma_func(1, 2)

3

In [289]:
eleva_quad = lambda x: x ** 2

In [290]:
eleva_quad(4)

16

In [293]:
lista_valores = [1, 2, 3, 4]

In [295]:
[eleva_quad(valor) for valor in lista_valores]

[1, 4, 9, 16]

In [296]:
notas.apply(lambda nota: 'par' if nota % 2 == 0 else 'impar')

0       par
1     impar
2       par
3     impar
4       par
5       par
6     impar
7       par
8       par
9       par
10      par
11    impar
12      par
13    impar
14    impar
15    impar
16      par
17    impar
18      par
19    impar
20    impar
21    impar
22    impar
23      par
24      par
25    impar
26    impar
27      par
28      par
29      par
dtype: object

In [297]:
notas

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
dtype: int64

In [307]:
notas_check = notas.apply(lambda x: True if x >= 5 else False)

In [308]:
notas[notas_check]

0      6
2     10
3      7
5      6
6      9
8      6
9     10
10    10
11     7
14     7
15     7
17     5
20     7
21     5
25     9
26     5
27     8
29    10
dtype: int64

In [310]:
notas.max()

10

In [311]:
notas.min()

0

In [312]:
notas.mean()

5.4

In [313]:
notas.std()

3.0580588839868725

In [314]:
len(notas)

30

In [316]:
notas.shape

(30,)

In [317]:
notas.size

30

In [332]:
notas.sort_values()

24     0
28     0
22     1
19     1
16     2
7      2
1      3
13     3
12     4
18     4
23     4
4      4
21     5
26     5
17     5
8      6
5      6
0      6
20     7
14     7
11     7
3      7
15     7
27     8
6      9
25     9
10    10
9     10
2     10
29    10
dtype: int64

In [335]:
notas_ordernadas = notas.sort_values(ascending=False)

In [338]:
notas.unique()

array([ 6,  3, 10,  7,  4,  9,  2,  5,  1,  0,  8])

In [339]:
# Numero de ocorrencia de cada valor unico

# Frequencia absoluta
notas.value_counts()

7     5
10    4
4     4
6     3
5     3
3     2
9     2
2     2
1     2
0     2
8     1
dtype: int64

In [340]:
notas.value_counts() / notas.size

7     0.166667
10    0.133333
4     0.133333
6     0.100000
5     0.100000
3     0.066667
9     0.066667
2     0.066667
1     0.066667
0     0.066667
8     0.033333
dtype: float64

In [342]:
# Frequência relativa
notas.value_counts(normalize=True)

7     0.166667
10    0.133333
4     0.133333
6     0.100000
5     0.100000
3     0.066667
9     0.066667
2     0.066667
1     0.066667
0     0.066667
8     0.033333
dtype: float64

In [346]:
def formata_porcentagem(x):
    return f'{(x*100):.2f}%'

In [354]:
formata_porcentagem(1.1)

'110.00%'

In [358]:
(notas
 .value_counts(normalize=True)
 .apply(lambda x: round(x, 3)))

7     0.167
10    0.133
4     0.133
6     0.100
5     0.100
3     0.067
9     0.067
2     0.067
1     0.067
0     0.067
8     0.033
dtype: float64

In [360]:
(notas
 .value_counts(normalize=True)
 .apply(lambda x: round(x*100, 2)))

7     16.67
10    13.33
4     13.33
6     10.00
5     10.00
3      6.67
9      6.67
2      6.67
1      6.67
0      6.67
8      3.33
dtype: float64

In [362]:
(notas
 .value_counts(normalize=True)
 .apply(lambda x: formata_porcentagem(x))
)

7     16.67%
10    13.33%
4     13.33%
6     10.00%
5     10.00%
3      6.67%
9      6.67%
2      6.67%
1      6.67%
0      6.67%
8      3.33%
dtype: object

In [364]:
(notas
 .value_counts(normalize=True)
 .apply(lambda x: f'{(x*100):.2f}%')
)

7     16.67%
10    13.33%
4     13.33%
6     10.00%
5     10.00%
3      6.67%
9      6.67%
2      6.67%
1      6.67%
0      6.67%
8      3.33%
dtype: object

In [369]:
notas

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
dtype: int64

In [370]:
notas.sum()

162

In [371]:
notas.cumsum()

0       6
1       9
2      19
3      26
4      30
5      36
6      45
7      47
8      53
9      63
10     73
11     80
12     84
13     87
14     94
15    101
16    103
17    108
18    112
19    113
20    120
21    125
22    126
23    130
24    130
25    139
26    144
27    152
28    152
29    162
dtype: int64

In [376]:
(notas
 .value_counts(normalize=True)
 .cumsum())

7     0.166667
10    0.300000
4     0.433333
6     0.533333
5     0.633333
3     0.700000
9     0.766667
2     0.833333
1     0.900000
0     0.966667
8     1.000000
dtype: float64

In [382]:
total_pop = 30000
vacinacao = np.random.randint(0, 1000, 60)

In [383]:
serie_vacinacao = pd.Series(vacinacao)

In [386]:
serie_normalizada_vacinacao = serie_vacinacao / total_pop

In [387]:
serie_normalizada_vacinacao.cumsum()

0     0.030600
1     0.035567
2     0.039933
3     0.054333
4     0.056267
5     0.088533
6     0.116367
7     0.122967
8     0.130100
9     0.160000
10    0.178667
11    0.194367
12    0.219133
13    0.227333
14    0.240033
15    0.273033
16    0.280967
17    0.311833
18    0.324033
19    0.329600
20    0.348233
21    0.349900
22    0.376900
23    0.397200
24    0.428867
25    0.453100
26    0.476033
27    0.488667
28    0.504433
29    0.507067
30    0.530267
31    0.542467
32    0.557800
33    0.588133
34    0.606067
35    0.621100
36    0.636533
37    0.668500
38    0.684400
39    0.715233
40    0.729200
41    0.752733
42    0.759833
43    0.772100
44    0.800533
45    0.804300
46    0.829400
47    0.846133
48    0.867300
49    0.894500
50    0.914067
51    0.924400
52    0.940000
53    0.967433
54    0.991000
55    1.019733
56    1.021167
57    1.034967
58    1.058200
59    1.086667
dtype: float64

In [434]:
meta = 1.5*10**6
vendas = np.random.randint(12000, 50000, 61)
serie_vendas = pd.Series(vendas)

In [435]:
serie_normalizada_vendas = serie_vendas / meta

In [436]:
serie_normalizada_vendas.cumsum()

0     0.010257
1     0.040717
2     0.055628
3     0.085849
4     0.106944
        ...   
56    1.231609
57    1.257415
58    1.265447
59    1.286747
60    1.304862
Length: 61, dtype: float64

In [437]:
serie_normalizada_vendas.max()

0.033

In [438]:
serie_normalizada_vendas.min()

0.008032

In [439]:
# pegando a linha com menor valor, utilizando o indice que retorna do argmin(), retorna apenas um valor
serie_normalizada_vendas.loc[serie_normalizada_vendas.argmin(): serie_normalizada_vendas.argmin()]

58    0.008032
dtype: float64

In [440]:
# pegando a linha com menor valor, utilizando uma comparação booleana, retorna todas as linhas com menor valor
serie_normalizada_vendas.loc[serie_normalizada_vendas == serie_normalizada_vendas.min()]

58    0.008032
dtype: float64

In [441]:
serie_normalizada_vendas.loc[serie_normalizada_vendas <= 0.02]

0     0.010257
2     0.014911
5     0.015193
11    0.008233
20    0.012780
21    0.016869
22    0.012138
23    0.016211
25    0.012160
26    0.009262
27    0.017169
28    0.015488
29    0.019673
30    0.010078
32    0.010695
35    0.017344
40    0.013858
41    0.009324
42    0.015295
43    0.019639
44    0.016107
49    0.013848
51    0.008807
52    0.008153
53    0.017563
56    0.019257
58    0.008032
60    0.018115
dtype: float64

In [442]:
serie_normalizada_vendas.mean()

0.021391180327868863

In [443]:
serie_normalizada_vendas.std()

0.008096072014569045

30

In [458]:
(serie_normalizada_vendas
 .sort_values()
 .values
 [int(serie_normalizada_vendas.size/2)])

0.021094666666666668

In [449]:
serie_normalizada_vendas.median()

0.021094666666666668

In [460]:
np.quantile(serie_normalizada_vendas, 0.25)

0.015192666666666667

In [461]:
np.quantile(serie_normalizada_vendas, 0.50)

0.021094666666666668

In [462]:
np.quantile(serie_normalizada_vendas, 0.75)

0.029994

In [463]:
serie_normalizada_vendas.describe()

count    61.000000
mean      0.021391
std       0.008096
min       0.008032
25%       0.015193
50%       0.021095
75%       0.029994
max       0.033000
dtype: float64

Como séries são construídas a partir de numpy arrays, podemos também fazer filtros!

In [466]:
serie_normalizada_vendas[serie_normalizada_vendas>0.021].describe()

count    31.000000
mean      0.028316
std       0.003844
min       0.021095
25%       0.025424
50%       0.029994
75%       0.031673
max       0.033000
dtype: float64

In [467]:
serie_normalizada_vendas[(serie_normalizada_vendas >= 0.015193) & 
                         (serie_normalizada_vendas <= 0.029994)].describe()

count    30.000000
mean      0.021760
std       0.004412
min       0.015295
25%       0.017701
50%       0.021197
75%       0.025614
max       0.029994
dtype: float64

### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [474]:
np.random.seed(42)
m = np.random.randint(-100, 100, (5, 3))

In [476]:
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [477]:
df_nome_linhas = pd.DataFrame(
                             m,
                             index = ['obs1', 'obs2', 'obs3', 'obs4', 'obs5'],
                             columns=['variavel_1', 'variavel_2', 'variavel_3']
                        )

In [478]:
df_nome_linhas

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [479]:
df_nome_linhas.loc['obs3']

variavel_1    88
variavel_2   -80
variavel_3     2
Name: obs3, dtype: int64

In [480]:
df_nome_linhas.iloc[2]

variavel_1    88
variavel_2   -80
variavel_3     2
Name: obs3, dtype: int64

In [481]:
df_nome_linhas.loc['obs3', 'variavel_2']

-80

In [483]:
# Selecionando todas as linhas de uma dada coluna
df_nome_linhas['variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [484]:
# Selecionando todas as linhas de uma dada coluna utilizando o .loc
df_nome_linhas.loc[:, 'variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [485]:
df_nome_linhas

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [487]:
df_nome_linhas.iloc[2, 1]

-80

In [492]:
for col in df_nome_linhas.columns:
    print(df_nome_linhas.loc['obs1', col])

2
79
-8


In [494]:
df_nome_linhas.loc['obs1'].values

array([ 2, 79, -8])

In [497]:
df_nome_linhas.iloc[-2:,[0, 2]]

Unnamed: 0,variavel_1,variavel_3
obs4,21,-13
obs5,16,3


In [500]:
df_nome_linhas.iloc[-2:,[0, 2]].values

array([[ 21, -13],
       [ 16,   3]])

In [501]:
df_nome_linhas.shape

(5, 3)

In [503]:
# Número de colunas com o shape
df_nome_linhas.shape[1]
# Número de colunas com o len
len(df_nome_linhas.columns)

3

In [508]:
# Número de linhas com shape
df_nome_linhas.shape[0]

5

In [509]:
len(df_nome_linhas.index)

5

In [510]:
df_nome_colunas = pd.DataFrame(m,
                              columns=['variavel_1', 'variavel_2', 'variavel_3'])

In [511]:
df_nome_colunas

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [522]:
(df_nome_colunas.to_dict())

{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

In [521]:
pd.DataFrame(df_nome_colunas.to_dict())

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [518]:
dic = {
    'variavel_1': [2, 79, 78, 88],
    'variavel_2': [-86, 6, 78, 192],
    'variavel_3': [88, -80, 93, 24]
}

In [525]:
df_dic = pd.DataFrame(dic)

In [528]:
df_dic['variavel_1'][1] = -90

In [529]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-90,6,-80
2,78,78,93
3,88,192,24


In [530]:
df_dic.loc[1, 'variavel_1'] = -78

In [531]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-78,6,-80
2,78,78,93
3,88,192,24


In [532]:
df_dic.iloc[1, 0] = -150

In [533]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-150,6,-80
2,78,78,93
3,88,192,24


Podemos fazer operações com as colunas, dado que elas são séries!

In [538]:
resultado = df_dic['variavel_1'] + 20

In [539]:
resultado

0     22
1   -130
2     98
3    108
Name: variavel_1, dtype: int64

In [540]:
df_dic['resultado'] = df_dic['variavel_1'] + 20

In [541]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3,resultado
0,2,-86,88,22
1,-150,6,-80,-130
2,78,78,93,98
3,88,192,24,108


In [542]:
df_dic['resultado2'] = resultado

In [543]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3,resultado,resultado2
0,2,-86,88,22,22
1,-150,6,-80,-130,-130
2,78,78,93,98,98
3,88,192,24,108,108


In [555]:
df_notas = pd.DataFrame(notas,columns=['nota'])

In [556]:
df_notas['nome'] = None

In [557]:
df_notas.loc[0: 9, 'nome'] = 'Maria'
df_notas.loc[10: 19,'nome'] = 'João'
df_notas.loc[20: , 'nome'] = 'José'

In [562]:
df_notas['e_aprovado'] = df_notas.nota.apply(lambda x: 'Aprovado' if x>5 else 'Reprovado')

In [566]:
# Utilizando o apply sem passar o nome da coluna e com o axis=0, conseguimos acessar os valores individuais de cada linha
df_notas.apply(lambda coluna: coluna.unique())

nota          [6, 3, 10, 7, 4, 9, 2, 5, 1, 0, 8]
nome                         [Maria, João, José]
e_aprovado                 [Aprovado, Reprovado]
dtype: object

In [568]:
# Utilizando o apply sem passar o nome da coluna e com o axis=1, conseguimos acessar os valores individuais de cada coluna
# utilizando a anotação com `linha[<nome_coluna>]` ou linha.<nome_coluna>
df_notas.apply(lambda linha: str(linha['nota'] / 3) + linha['nome'], axis=1)

0                    2.0Maria
1                    1.0Maria
2     3.3333333333333335Maria
3     2.3333333333333335Maria
4     1.3333333333333333Maria
5                    2.0Maria
6                    3.0Maria
7     0.6666666666666666Maria
8                    2.0Maria
9     3.3333333333333335Maria
10     3.3333333333333335João
11     2.3333333333333335João
12     1.3333333333333333João
13                    1.0João
14     2.3333333333333335João
15     2.3333333333333335João
16     0.6666666666666666João
17     1.6666666666666667João
18     1.3333333333333333João
19     0.3333333333333333João
20     2.3333333333333335José
21     1.6666666666666667José
22     0.3333333333333333José
23     1.3333333333333333José
24                    0.0José
25                    3.0José
26     1.6666666666666667José
27     2.6666666666666665José
28                    0.0José
29     3.3333333333333335José
dtype: object

In [575]:
df_notas['nota'] # ou df_notas.nota

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
Name: nota, dtype: int64

In [None]:
df_notas.get('nota')

In [573]:
df_notas.aa

AttributeError: 'DataFrame' object has no attribute 'aa'

In [574]:
df_notas['aa']

KeyError: 'aa'

In [572]:
df_notas.get('aa')

In [578]:
df_notas['e_aprovado_bool'] = df_notas['nota'] > 5

In [579]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool
0,6,Maria,Aprovado,True
1,3,Maria,Reprovado,False
2,10,Maria,Aprovado,True
3,7,Maria,Aprovado,True
4,4,Maria,Reprovado,False
5,6,Maria,Aprovado,True
6,9,Maria,Aprovado,True
7,2,Maria,Reprovado,False
8,6,Maria,Aprovado,True
9,10,Maria,Aprovado,True


In [581]:
# Para criar novas colunas utilizar com colchetes []
df_notas['coluna_de_1'] = 1

In [586]:
df_notas.shape

(30, 5)

In [587]:
df_notas['x'] = np.random.randint(0, 20, 30)

In [588]:
# Quando passamos um vetor/lista/array/serie precisamos do mesmo número de linhas no dataframe original
df_notas['y'] = np.random.randint(0, 20, 25)

ValueError: Length of values (25) does not match length of index (30)

In [595]:
lista_numero_com_nan = (list(np.random.randint(0, 20, 10)) 
+ [np.nan, np.nan]  
+ list(np.random.randint(0, 20, 10))
+ [np.nan, np.nan, np.nan]
+ list(np.random.randint(0, 20, 5)))

In [596]:
df_notas['y'] = lista_numero_com_nan

In [598]:
df_notas['y'].max()

19.0

In [604]:
df_notas.y.sum() / 30

7.96

In [606]:
# o mean desconsidera os NaN (Not a Number), eliminando da população
df_notas['y'].mean()

7.96

In [None]:
df_notas.y.sum() / 25

In [611]:
df_notas['y'] = df_notas['y'].fillna(0)

In [619]:
df = df_notas[['x', 'y']]

In [621]:
df['soma_x_y'] = df['x'] + df['y']

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['soma_x_y'] = df['x'] + df['y']


In [623]:
df[['x', 'y']].sum(axis=1)

0      4.0
1     17.0
2     15.0
3     21.0
4     17.0
5     16.0
6     12.0
7     12.0
8     20.0
9      9.0
10    15.0
11    14.0
12    14.0
13    36.0
14    12.0
15    30.0
16     7.0
17     7.0
18    28.0
19    22.0
20    13.0
21    10.0
22    17.0
23     3.0
24    13.0
25    36.0
26     9.0
27     6.0
28    29.0
29    29.0
dtype: float64

Excluindo uma coluna

In [625]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
1,3,Maria,Reprovado,False,1,1,16.0
2,10,Maria,Aprovado,True,1,11,4.0
3,7,Maria,Aprovado,True,1,5,16.0
4,4,Maria,Reprovado,False,1,1,16.0


In [627]:
df_notas2 = df_notas[['nota', 'e_aprovado', 'x']]

In [628]:
df_notas2

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,2
1,3,Reprovado,1
2,10,Aprovado,11
3,7,Aprovado,5
4,4,Reprovado,1
5,6,Aprovado,0
6,9,Aprovado,11
7,2,Reprovado,11
8,6,Aprovado,16
9,10,Aprovado,9


In [629]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
1,3,Maria,Reprovado,False,1,1,16.0
2,10,Maria,Aprovado,True,1,11,4.0
3,7,Maria,Aprovado,True,1,5,16.0
4,4,Maria,Reprovado,False,1,1,16.0


In [631]:
df_notas3 = df_notas.drop(columns=['nome', 'e_aprovado_bool', 'coluna_de_1','y'])

In [633]:
df_notas3.head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,2
1,3,Reprovado,1
2,10,Aprovado,11
3,7,Aprovado,5
4,4,Reprovado,1


In [656]:
def exclui_colunas(df, colunas):
    df = df.copy()
    df.drop(columns=colunas, inplace=True)
    return df

def exclui_colunas_ins(df, colunas):
    df.drop(columns=colunas, inplace=True)
    return df

In [657]:
df_nota_bkp = df_notas.copy()

In [658]:
exclui_colunas(df_notas, colunas=['nome', 'e_aprovado_bool', 'coluna_de_1','y'])

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,2
1,3,Reprovado,1
2,10,Aprovado,11
3,7,Aprovado,5
4,4,Reprovado,1
5,6,Aprovado,0
6,9,Aprovado,11
7,2,Reprovado,11
8,6,Aprovado,16
9,10,Aprovado,9


Como o dataframe é um conjunto de séries, também podemos fazer filtros!


In [664]:
df_notas[df_notas.nota > 5]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
2,10,Maria,Aprovado,True,1,11,4.0
3,7,Maria,Aprovado,True,1,5,16.0
5,6,Maria,Aprovado,True,1,0,16.0
6,9,Maria,Aprovado,True,1,11,1.0
8,6,Maria,Aprovado,True,1,16,4.0
9,10,Maria,Aprovado,True,1,9,0.0
10,10,João,Aprovado,True,1,15,0.0
11,7,João,Aprovado,True,1,14,0.0
14,7,João,Aprovado,True,1,11,1.0


In [666]:
df_notas[(df_notas.nota > 5) & (df_notas.nota < 8)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
3,7,Maria,Aprovado,True,1,5,16.0
5,6,Maria,Aprovado,True,1,0,16.0
8,6,Maria,Aprovado,True,1,16,4.0
11,7,João,Aprovado,True,1,14,0.0
14,7,João,Aprovado,True,1,11,1.0
15,7,João,Aprovado,True,1,19,11.0
20,7,José,Aprovado,True,1,8,5.0


In [670]:
# retorna valores dentro de uma lista
df_notas[df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
1,3,Maria,Reprovado,False,1,1,16.0
3,7,Maria,Aprovado,True,1,5,16.0
11,7,João,Aprovado,True,1,14,0.0
13,3,João,Reprovado,False,1,18,18.0
14,7,João,Aprovado,True,1,11,1.0
15,7,João,Aprovado,True,1,19,11.0
17,5,João,Reprovado,False,1,4,3.0
20,7,José,Aprovado,True,1,8,5.0
21,5,José,Reprovado,False,1,6,4.0
26,5,José,Reprovado,False,1,8,1.0


In [671]:
# Negação de notas 
df_notas[~df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
2,10,Maria,Aprovado,True,1,11,4.0
4,4,Maria,Reprovado,False,1,1,16.0
5,6,Maria,Aprovado,True,1,0,16.0
6,9,Maria,Aprovado,True,1,11,1.0
7,2,Maria,Reprovado,False,1,11,1.0
8,6,Maria,Aprovado,True,1,16,4.0
9,10,Maria,Aprovado,True,1,9,0.0
10,10,João,Aprovado,True,1,15,0.0
12,4,João,Reprovado,False,1,14,0.0


In [674]:
df_notas[df_notas.nota.between(3, 7)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
1,3,Maria,Reprovado,False,1,1,16.0
3,7,Maria,Aprovado,True,1,5,16.0
4,4,Maria,Reprovado,False,1,1,16.0
5,6,Maria,Aprovado,True,1,0,16.0
8,6,Maria,Aprovado,True,1,16,4.0
11,7,João,Aprovado,True,1,14,0.0
12,4,João,Reprovado,False,1,14,0.0
13,3,João,Reprovado,False,1,18,18.0
14,7,João,Aprovado,True,1,11,1.0


In [677]:
# Setando o indice a partir de uma coluna
df_notas_nome = df_notas.set_index('nome')

In [678]:
df_notas_nome

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Maria,6,Aprovado,True,1,2,2.0
Maria,3,Reprovado,False,1,1,16.0
Maria,10,Aprovado,True,1,11,4.0
Maria,7,Aprovado,True,1,5,16.0
Maria,4,Reprovado,False,1,1,16.0
Maria,6,Aprovado,True,1,0,16.0
Maria,9,Aprovado,True,1,11,1.0
Maria,2,Reprovado,False,1,11,1.0
Maria,6,Aprovado,True,1,16,4.0
Maria,10,Aprovado,True,1,9,0.0


In [679]:
df_notas_nome.loc['João']

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,10,Aprovado,True,1,15,0.0
João,7,Aprovado,True,1,14,0.0
João,4,Reprovado,False,1,14,0.0
João,3,Reprovado,False,1,18,18.0
João,7,Aprovado,True,1,11,1.0
João,7,Aprovado,True,1,19,11.0
João,2,Reprovado,False,1,2,5.0
João,5,Reprovado,False,1,4,3.0
João,4,Reprovado,False,1,18,10.0
João,1,Reprovado,False,1,6,16.0


In [682]:
df_notas_nome_resetado = df_notas_nome.reset_index()

Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [683]:
df_notas_nome_resetado

Unnamed: 0,nome,nota,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,Maria,6,Aprovado,True,1,2,2.0
1,Maria,3,Reprovado,False,1,1,16.0
2,Maria,10,Aprovado,True,1,11,4.0
3,Maria,7,Aprovado,True,1,5,16.0
4,Maria,4,Reprovado,False,1,1,16.0
5,Maria,6,Aprovado,True,1,0,16.0
6,Maria,9,Aprovado,True,1,11,1.0
7,Maria,2,Reprovado,False,1,11,1.0
8,Maria,6,Aprovado,True,1,16,4.0
9,Maria,10,Aprovado,True,1,9,0.0


In [690]:
# O indice vai como coluna
df_notas_nome_resetado.reset_index()

Unnamed: 0,index,nome,nota,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,0,Maria,6,Aprovado,True,1,2,2.0
1,1,Maria,3,Reprovado,False,1,1,16.0
2,2,Maria,10,Aprovado,True,1,11,4.0
3,3,Maria,7,Aprovado,True,1,5,16.0
4,4,Maria,4,Reprovado,False,1,1,16.0
5,5,Maria,6,Aprovado,True,1,0,16.0
6,6,Maria,9,Aprovado,True,1,11,1.0
7,7,Maria,2,Reprovado,False,1,11,1.0
8,8,Maria,6,Aprovado,True,1,16,4.0
9,9,Maria,10,Aprovado,True,1,9,0.0


In [691]:
# Resetamos o indice e removemos a coluna indice
df_notas_nome_resetado.reset_index(drop=True)

Unnamed: 0,nome,nota,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,Maria,6,Aprovado,True,1,2,2.0
1,Maria,3,Reprovado,False,1,1,16.0
2,Maria,10,Aprovado,True,1,11,4.0
3,Maria,7,Aprovado,True,1,5,16.0
4,Maria,4,Reprovado,False,1,1,16.0
5,Maria,6,Aprovado,True,1,0,16.0
6,Maria,9,Aprovado,True,1,11,1.0
7,Maria,2,Reprovado,False,1,11,1.0
8,Maria,6,Aprovado,True,1,16,4.0
9,Maria,10,Aprovado,True,1,9,0.0


In [693]:
df_notas_nome.reset_index(drop=True)

Unnamed: 0,nota,e_aprovado,e_aprovado_bool,coluna_de_1,x,y
0,6,Aprovado,True,1,2,2.0
1,3,Reprovado,False,1,1,16.0
2,10,Aprovado,True,1,11,4.0
3,7,Aprovado,True,1,5,16.0
4,4,Reprovado,False,1,1,16.0
5,6,Aprovado,True,1,0,16.0
6,9,Aprovado,True,1,11,1.0
7,2,Reprovado,False,1,11,1.0
8,6,Aprovado,True,1,16,4.0
9,10,Aprovado,True,1,9,0.0


Alterando o nome de colunas

In [698]:
df_notas = df_notas.rename(columns={'e_aprovado': 'está aprovado?',
                         'coluna_de_1': 'col_de_1'})

In [701]:
df_notas.head()

Unnamed: 0,nota,nome,está aprovado?,e_aprovado_bool,col_de_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
1,3,Maria,Reprovado,False,1,1,16.0
2,10,Maria,Aprovado,True,1,11,4.0
3,7,Maria,Aprovado,True,1,5,16.0
4,4,Maria,Reprovado,False,1,1,16.0


In [702]:
colunas = ['nota', 'nome', 'e_aprovado', 'e_aprovado_bool', 'col_num_1', 'x', 'y']

In [704]:
df_notas.columns = colunas

In [705]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,col_num_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
1,3,Maria,Reprovado,False,1,1,16.0
2,10,Maria,Aprovado,True,1,11,4.0
3,7,Maria,Aprovado,True,1,5,16.0
4,4,Maria,Reprovado,False,1,1,16.0
5,6,Maria,Aprovado,True,1,0,16.0
6,9,Maria,Aprovado,True,1,11,1.0
7,2,Maria,Reprovado,False,1,11,1.0
8,6,Maria,Aprovado,True,1,16,4.0
9,10,Maria,Aprovado,True,1,9,0.0


In [708]:
# reordenando as colunas
df_notas[['nome', 'nota', 'y', 'x']]

Unnamed: 0,nome,nota,y,x
0,Maria,6,2.0,2
1,Maria,3,16.0,1
2,Maria,10,4.0,11
3,Maria,7,16.0,5
4,Maria,4,16.0,1
5,Maria,6,16.0,0
6,Maria,9,1.0,11
7,Maria,2,1.0,11
8,Maria,6,4.0,16
9,Maria,10,0.0,9


In [709]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values('nota')

Unnamed: 0,nome,nota,y,x
24,José,0,0.0,13
28,José,0,10.0,19
22,José,1,0.0,17
19,João,1,16.0,6
16,João,2,5.0,2
7,Maria,2,1.0,11
1,Maria,3,16.0,1
13,João,3,18.0,18
12,João,4,0.0,14
18,João,4,10.0,18


In [710]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values(['nota', 'x', 'y'])

Unnamed: 0,nome,nota,y,x
24,José,0,0.0,13
28,José,0,10.0,19
19,João,1,16.0,6
22,José,1,0.0,17
16,João,2,5.0,2
7,Maria,2,1.0,11
1,Maria,3,16.0,1
13,João,3,18.0,18
4,Maria,4,16.0,1
23,José,4,0.0,3


#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [712]:
df1 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df2 = pd.DataFrame(
                    {
                        'B': [1,2,3],
                        'C': [4,5,6],
                        'D': [7,8,9]
                    })

In [713]:
display(df1)
display(df2)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9


In [716]:
df3 = pd.concat([df1, df2], axis=0)

In [717]:
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0


In [718]:
df3.isnull()

Unnamed: 0,A,B,C,D
0,False,False,False,True
1,False,False,False,True
2,False,False,False,True
0,True,False,False,False
1,True,False,False,False
2,True,False,False,False


In [719]:
df3.isnull().sum()

A    3
B    0
C    0
D    3
dtype: int64

In [720]:
df3.isnull().sum(axis=1)

0    1
1    1
2    1
0    1
1    1
2    1
dtype: int64

In [724]:
df3.isnull().sum().sum()

6

In [726]:
display(df1)
display(df2)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9


In [725]:
# os indices se repetem
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0


In [727]:
df3.reset_index()

Unnamed: 0,index,A,B,C,D
0,0,1.0,4,7,
1,1,2.0,5,8,
2,2,3.0,6,9,
3,0,,1,4,7.0
4,1,,2,5,8.0
5,2,,3,6,9.0


In [728]:
df3.reset_index(drop = True)

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
3,,1,4,7.0
4,,2,5,8.0
5,,3,6,9.0


In [730]:
df4 = pd.concat([df1, df2], axis = 1)

In [731]:
df4['A']

0    1
1    2
2    3
Name: A, dtype: int64

In [732]:
df4['B']

Unnamed: 0,B,B.1
0,4,1
1,5,2
2,6,3


In [733]:
df1.columns = [f'{col}_df1' for col in df1.columns]

In [734]:
df1

Unnamed: 0,A_df1,B_df1,C_df1
0,1,4,7
1,2,5,8
2,3,6,9


In [735]:
pd.concat([df1,df2], axis = 1)

Unnamed: 0,A_df1,B_df1,C_df1,B,C,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [737]:
df5 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df6 = pd.DataFrame(
                    {
                        'B': [1,2,3,6],
                        'C': [4,5,6,9],
                        'D': [7,8,9,10]
                    })

In [738]:
display(df5)
display(df6)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9
3,6,9,10


In [739]:
pd.concat([df5, df6], axis=1)

Unnamed: 0,A,B,C,B.1,C.1,D
0,1.0,4.0,7.0,1,4,7
1,2.0,5.0,8.0,2,5,8
2,3.0,6.0,9.0,3,6,9
3,,,,6,9,10


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [742]:
df3 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})
df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})
display(df3)
display(df4)

Unnamed: 0,Paises,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Paises,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [743]:
# Cruzando os dados da coluna `"Paises"` com o modo `inner`

df3.merge(df4, how='inner', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1,3
1,Pt,2,4,2,4


In [744]:
df3.merge(df4, how='left', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [745]:
df4.merge(df3, how='left', on='Paises')

Unnamed: 0,Paises,valor3,valor4,valor1,valor2
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,Py,3,5,,


In [746]:
df3.merge(df4, how='right', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1,3
1,Pt,2.0,4.0,2,4
2,Py,,,3,5


In [747]:
df3.merge(df4, how='outer', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1.0,3.0
1,Pt,2.0,4.0,2.0,4.0
2,It,3.0,5.0,,
3,Py,,,3.0,5.0


In [None]:
df3 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})
df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [749]:
df3 = pd.DataFrame({
    'Country': ['Br','Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [750]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Paises'])

Unnamed: 0,Country,valor1,valor2,Paises,valor3,valor4
0,Br,1,3,Br,1.0,3.0
1,Pt,2,4,Pt,2.0,4.0
2,It,3,5,,,


In [751]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Paises']).drop(columns=['Paises'])

Unnamed: 0,Country,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [754]:
df4 = df4.rename(columns={'Paises': 'Country'})

In [755]:
display(df3)
display(df4)

Unnamed: 0,Country,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Country,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [756]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Country'])

Unnamed: 0,Country,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [757]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','Maria', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [758]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Dadinho,Deus,3,5


In [759]:
df3.merge(df4, on=['nome', 'sobrenome'])

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [760]:
df3.merge(df4, left_on=['nome', 'sobrenome'], right_on=['nome', 'sobrenome'])

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [763]:
df3.join(df4, lsuffix='_df3', rsuffix='_df4')

Unnamed: 0,nome_df3,sobrenome_df3,valor1,valor2,nome_df4,sobrenome_df4,valor3,valor4
0,João,Silva,1,3,João,Silva,1,3
1,Maria,Alencar,2,4,Maria,Alencar,2,4
2,Edu,Deus,3,5,Dadinho,Deus,3,5


In [766]:
df3.join(df4, lsuffix='_df3')

Unnamed: 0,nome_df3,sobrenome_df3,valor1,valor2,nome,sobrenome,valor3,valor4
0,João,Silva,1,3,João,Silva,1,3
1,Maria,Alencar,2,4,Maria,Alencar,2,4
2,Edu,Deus,3,5,Dadinho,Deus,3,5


In [769]:
df3_nome = df3.set_index('nome')
df4_nome = df4.set_index('nome')

display(df3_nome)
display(df4_nome)

Unnamed: 0_level_0,sobrenome,valor1,valor2
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Edu,Deus,3,5


Unnamed: 0_level_0,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Dadinho,Deus,3,5


In [772]:
df3_nome.join(df4_nome, lsuffix='_df3')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1.0,3.0
Maria,Alencar,2,4,Alencar,2.0,4.0
Edu,Deus,3,5,,,


In [773]:
df3_nome.join(df4_nome, lsuffix='_df3', how='inner')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1,3
Maria,Alencar,2,4,Alencar,2,4


In [774]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','João', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [775]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,João,Alencar,2,4
2,Dadinho,Deus,3,5


In [777]:
df3.merge(df4, on='nome', how='left')

Unnamed: 0,nome,sobrenome_x,valor1,valor2,sobrenome_y,valor3,valor4
0,João,Silva,1,3,Silva,1.0,3.0
1,João,Silva,1,3,Alencar,2.0,4.0
2,Maria,Alencar,2,4,,,
3,Edu,Deus,3,5,,,


In [778]:
df3.merge(df4, on=['nome', 'sobrenome'], how='left')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1.0,3.0
1,Maria,Alencar,2,4,,
2,Edu,Deus,3,5,,


__________

## Uso do map:

In [787]:
df_notas.nota.apply(lambda x: x * 10)

0      60
1      30
2     100
3      70
4      40
5      60
6      90
7      20
8      60
9     100
10    100
11     70
12     40
13     30
14     70
15     70
16     20
17     50
18     40
19     10
20     70
21     50
22     10
23     40
24      0
25     90
26     50
27     80
28      0
29    100
Name: nota, dtype: int64

In [790]:
def multiplica_10(x):
    return x * 10

In [791]:
df_notas.nota.map(multiplica_10)

0      60
1      30
2     100
3      70
4      40
5      60
6      90
7      20
8      60
9     100
10    100
11     70
12     40
13     30
14     70
15     70
16     20
17     50
18     40
19     10
20     70
21     50
22     10
23     40
24      0
25     90
26     50
27     80
28      0
29    100
Name: nota, dtype: int64

In [793]:
dic_map = {
    'Aprovado': 'Azul',
    'Reprovado': 'Vermelho'
}

In [795]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,col_num_1,x,y
0,6,Maria,Aprovado,True,1,2,2.0
1,3,Maria,Reprovado,False,1,1,16.0
2,10,Maria,Aprovado,True,1,11,4.0
3,7,Maria,Aprovado,True,1,5,16.0
4,4,Maria,Reprovado,False,1,1,16.0


In [796]:
df_notas['cor'] = df_notas.e_aprovado.map(dic_map)

In [797]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,col_num_1,x,y,cor
0,6,Maria,Aprovado,True,1,2,2.0,Azul
1,3,Maria,Reprovado,False,1,1,16.0,Vermelho
2,10,Maria,Aprovado,True,1,11,4.0,Azul
3,7,Maria,Aprovado,True,1,5,16.0,Azul
4,4,Maria,Reprovado,False,1,1,16.0,Vermelho
5,6,Maria,Aprovado,True,1,0,16.0,Azul
6,9,Maria,Aprovado,True,1,11,1.0,Azul
7,2,Maria,Reprovado,False,1,11,1.0,Vermelho
8,6,Maria,Aprovado,True,1,16,4.0,Azul
9,10,Maria,Aprovado,True,1,9,0.0,Azul


# Transformações de dados

## GroupBy

In [798]:
titanic = pd.read_csv('./datasets/titanic_completa_oficial.csv')

In [800]:
# transpondo os dados
titanic.head().T

Unnamed: 0,0,1,2,3,4
pclass,1,1,1,1,1
survived,1,1,0,0,0
name,"Allen, Miss. Elisabeth Walton","Allison, Master. Hudson Trevor","Allison, Miss. Helen Loraine","Allison, Mr. Hudson Joshua Creighton","Allison, Mrs. Hudson J C (Bessie Waldo Daniels)"
sex,female,male,female,male,female
age,29,0.9167,2,30,25
sibsp,0,1,1,1,1
parch,0,2,2,2,2
ticket,24160,113781,113781,113781,113781
fare,211.3375,151.55,151.55,151.55,151.55
cabin,B5,C22 C26,C22 C26,C22 C26,C22 C26


In [802]:
titanic[titanic['sex'] == 'female'].shape

(466, 14)

In [803]:
titanic[titanic['sex'] == 'male'].shape

(843, 14)

In [804]:
titanic.shape

(1309, 14)

In [805]:
titanic.groupby('sex').count()

Unnamed: 0_level_0,pclass,survived,name,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
female,466,466,466,466,466,466,466,466,466,466,466,466,466
male,843,843,843,843,843,843,843,843,843,843,843,843,843


In [806]:
titanic.groupby('sex').size()

sex
female    466
male      843
dtype: int64

In [813]:
titanic.pclass.unique()

array([1, 2, 3])

In [814]:
titanic.groupby('pclass').size()

pclass
1    323
2    277
3    709
dtype: int64

In [815]:
titanic.groupby(['pclass', 'sex']).size()

pclass  sex   
1       female    144
        male      179
2       female    106
        male      171
3       female    216
        male      493
dtype: int64

In [817]:
titanic.groupby(['sex','survived']).size()

sex     survived
female  0           127
        1           339
male    0           682
        1           161
dtype: int64

In [820]:
titanic.groupby(['pclass','sex','survived']).size()

pclass  sex     survived
1       female  0             5
                1           139
        male    0           118
                1            61
2       female  0            12
                1            94
        male    0           146
                1            25
3       female  0           110
                1           106
        male    0           418
                1            75
dtype: int64

In [819]:
titanic.groupby(['pclass','sex','survived']).size().reset_index()

Unnamed: 0,pclass,sex,survived,0
0,1,female,0,5
1,1,female,1,139
2,1,male,0,118
3,1,male,1,61
4,2,female,0,12
5,2,female,1,94
6,2,male,0,146
7,2,male,1,25
8,3,female,0,110
9,3,female,1,106


In [822]:
titanic.groupby(['pclass','sex','survived']).size()

pclass  sex     survived
1       female  0             5
                1           139
        male    0           118
                1            61
2       female  0            12
                1            94
        male    0           146
                1            25
3       female  0           110
                1           106
        male    0           418
                1            75
dtype: int64

In [825]:
titanic.age

0           29
1       0.9167
2            2
3           30
4           25
         ...  
1304      14.5
1305         ?
1306      26.5
1307        27
1308        29
Name: age, Length: 1309, dtype: object

In [837]:
# retirando as idades indeterminadas
titanic_age = titanic[titanic['age'] != '?'].copy()

dtype('O')

In [838]:
# transformando a coluna idade de string para float
titanic_age['age'] = titanic_age.age.astype('float')

In [839]:
titanic_age.age.mean()

29.8811345124283

In [840]:
titanic_age.groupby(['pclass']).mean()

Unnamed: 0_level_0,survived,age,sibsp,parch
pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,0.637324,39.159918,0.475352,0.411972
2,0.440613,29.506705,0.417625,0.390805
3,0.261477,24.816367,0.562874,0.441118


In [841]:
titanic_age.groupby(['pclass', 'sex']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age,sibsp,parch
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,female,0.962406,37.037594,0.556391,0.503759
1,male,0.350993,41.02925,0.403974,0.331126
2,female,0.893204,27.499191,0.514563,0.669903
2,male,0.14557,30.815401,0.35443,0.208861
3,female,0.473684,22.185307,0.736842,0.796053
3,male,0.169054,25.962273,0.487106,0.286533


In [854]:
titanic_age.groupby(['pclass', 'sex']).median()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,age,sibsp,parch
pclass,sex,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
1,female,1.0,36.0,0.0,0.0
1,male,0.0,42.0,0.0,0.0
2,female,1.0,28.0,0.0,0.0
2,male,0.0,29.5,0.0,0.0
3,female,0.0,22.0,0.0,0.0
3,male,0.0,25.0,0.0,0.0


In [856]:
(titanic_age
    .groupby(['pclass', 'sex'])
    .agg({
             'survived': ['mean', 'median', 'std'],
             'age': ['mean', 'median', 'std', 'max', 'min'],
             'sibsp': 'max'
         }))

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,survived,survived,age,age,age,age,age,sibsp
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,median,std,mean,median,std,max,min,max
pclass,sex,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2
1,female,0.962406,1.0,0.190931,37.037594,36.0,14.27246,76.0,2.0,3
1,male,0.350993,0.0,0.478869,41.02925,42.0,14.57859,80.0,0.9167,3
2,female,0.893204,1.0,0.310364,27.499191,28.0,12.911813,60.0,0.9167,3
2,male,0.14557,0.0,0.353796,30.815401,29.5,13.977355,70.0,0.6667,2
3,female,0.473684,0.0,0.500958,22.185307,22.0,12.205294,63.0,0.1667,5
3,male,0.169054,0.0,0.375338,25.962273,25.0,11.682395,74.0,0.3333,8


In [865]:
# quando realizamos o groupby realizamos operações em sub-tabelas
for i, g in titanic_age.groupby(['pclass']):
    print(g.pclass.unique())
    display(g.mean())

[1]


  display(g.mean())


pclass       1.000000
survived     0.637324
age         39.159918
sibsp        0.475352
parch        0.411972
dtype: float64

[2]


pclass       2.000000
survived     0.440613
age         29.506705
sibsp        0.417625
parch        0.390805
dtype: float64

[3]


pclass       3.000000
survived     0.261477
age         24.816367
sibsp        0.562874
parch        0.441118
dtype: float64

  g.mean()


pclass       3.000000
survived     0.261477
age         24.816367
sibsp        0.562874
parch        0.441118
dtype: float64

## Pivot

In [871]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                   'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                        'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


In [872]:
df.pivot(index='foo', columns=['bar'],values='baz')

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


In [880]:
titanic_age.head()[['pclass', 'sex', 'age']]

Unnamed: 0,pclass,sex,age
0,1,female,29.0
1,1,male,0.9167
2,1,female,2.0
3,1,male,30.0
4,1,female,25.0


In [888]:
(titanic_age
 .groupby(['sex', 'pclass'])
 .age.mean()
 .reset_index()
 .pivot('sex', 'pclass'))

Unnamed: 0_level_0,age,age,age
pclass,1,2,3
sex,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
female,37.037594,27.499191,22.185307
male,41.02925,30.815401,25.962273


In [882]:
titanic_age.pivot_table(index='sex', columns='pclass', values='age', aggfunc=np.mean)

pclass,1,2,3
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
female,37.037594,27.499191,22.185307
male,41.02925,30.815401,25.962273


In [896]:
df = pd.DataFrame([
    ['A', 'B', 1],
    ['B', 'C', 3],
    ['A', 'C', 4],
    ['B', 'A', 0],
    ['C', 'A', 3]
])

In [898]:
df

Unnamed: 0,0,1,2
0,A,B,1
1,B,C,3
2,A,C,4
3,B,A,0
4,C,A,3


In [899]:
df_pivot = df.pivot(0, 1, 2)

## Melt

In [900]:
df_pivot

1,A,B,C
0,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,,1.0,4.0
B,0.0,,3.0
C,3.0,,


In [901]:
df = pd.DataFrame({'A': {0: 'a', 1: 'b', 2: 'c'},
                    'B': {0: 1, 1: 3, 2: 5},
                    'C': {0: 2, 1: 4, 2: 6}})

In [903]:
df

Unnamed: 0,A,B,C
0,a,1,2
1,b,3,4
2,c,5,6


In [905]:
df.melt(id_vars=['A'], value_vars=['B'])

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5


In [904]:
df.melt(id_vars=['A'], value_vars=['B', 'C'])

Unnamed: 0,A,variable,value
0,a,B,1
1,b,B,3
2,c,B,5
3,a,C,2
4,b,C,4
5,c,C,6


## cut

In [918]:
pd.cut(titanic_age['age'], 5).reset_index().groupby('age').size()

age
(0.0869, 16.133]    134
(16.133, 32.1]      524
(32.1, 48.067]      269
(48.067, 64.033]    106
(64.033, 80.0]       13
dtype: int64

## qcut

In [923]:
pd.qcut(titanic_age.age, 5).reset_index().groupby('age').size()

age
(0.166, 19.0]    225
(19.0, 25.0]     218
(25.0, 31.0]     191
(31.0, 42.0]     217
(42.0, 80.0]     195
dtype: int64

## get_dummies

In [926]:
titanic_age.head()[['sex']]

Unnamed: 0,sex
0,female
1,male
2,female
3,male
4,female


In [924]:
pd.get_dummies(titanic_age.sex)

Unnamed: 0,female,male
0,1,0
1,0,1
2,1,0
3,0,1
4,1,0
...,...,...
1301,0,1
1304,1,0
1306,0,1
1307,0,1


In [931]:
pd.get_dummies(titanic_age.cabin)

Unnamed: 0,?,A10,A11,A16,A18,A20,A21,A23,A24,A26,...,E8,F,F E57,F G63,F G73,F2,F33,F4,G6,T
0,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
2,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
4,0,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1301,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1304,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1306,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
1307,1,0,0,0,0,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0


In [None]:
y = w0*X0 + w1 * X1 + w2 * X3 + ... + wn * Xn

In [None]:
10 * 1 + 5 * 0  = 10
10 * 0 + 5 * 1  = 5

## Voltamos as 21:10