## Técnicas de Programação I - Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas - DataFrame


### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [None]:
import numpy as np
import pandas as pd

In [None]:
np.random.seed(42)
m = np.random.randint(-100, 100, (5, 3))
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [None]:
# Criando um DataFrame nomeando as colunas e indices
df_nome_linhas = pd.DataFrame(
    data=m, # Dados formato tabular
    index=['obs1', 'obs2', 'obs3', 'obs4', 'obs5'], # Nomeando as linhas, opcional
    columns=['variavel_1', 'variavel_2', 'variavel_3'] # Nomeando as colunas, opcional
)
df_nome_linhas

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [None]:
# Pegando apenas uma linha
# Quando utilizamos o `loc` ou `iloc` passando apenas uma linha retornamos uma série
# Nessa série os indices serão os nomes das colunas
# df_nome_linhas.loc['obs3']
# ou
df_nome_linhas.iloc[2]

variavel_1    88
variavel_2   -80
variavel_3     2
Name: obs3, dtype: int64

In [None]:
df_nome_linhas

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [None]:
# Um valor específico, célula (um valor)
df_nome_linhas.loc['obs3', 'variavel_2']

-80

In [None]:
# Selecionando todas as linhas de uma dada coluna
# Retorna uma série
df_nome_linhas['variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [None]:
# Selecionando todas as linhas de uma dada coluna utilizando o .loc
# O `:` pega o início e fim dos valores, ou seja, todos os valores
df_nome_linhas.loc[:, 'variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [None]:
# Utilizando o iloc
df_nome_linhas.iloc[2, 1]

-80

In [None]:
# Podemos utilizar o loc ou iloc com listas
display(df_nome_linhas)

display(df_nome_linhas.loc[['obs1', 'obs3'], ['variavel_1', 'variavel_3']])

display(df_nome_linhas.iloc[[0, 2], [0, 1]])

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


Unnamed: 0,variavel_1,variavel_3
obs1,2,-8
obs3,88,2


Unnamed: 0,variavel_1,variavel_2
obs1,2,79
obs3,88,-80


In [None]:
# Número de colunas com o shape
print('colunas shape', df_nome_linhas.shape[1])
# Número de colunas com o len de `DataFrame.columns`
print('colunas len de colunas', len(df_nome_linhas.columns))

colunas shape 3
colunas len de colunas 3


In [None]:
# Número de linhas com shape
print('linhas shape', df_nome_linhas.shape[0]) # Mais comum
# Com len
print('linhas len', len(df_nome_linhas)) # Também é comum
# Ou
print('linhas len(index)', len(df_nome_linhas.index))

linhas shape 5
linhas len 5
linhas len(index) 5


In [None]:
df_nome_colunas = pd.DataFrame(m,
                              columns=['variavel_1', 'variavel_2', 'variavel_3'])

In [None]:
df_nome_colunas

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [None]:
# O dataframe parece um dict
df_nome_colunas.to_dict()

{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

In [None]:
for coluna, valores in df_nome_colunas.to_dict().items():
  print('Coluna:', coluna)
  for idx, valor in valores.items():
    print('idx:', idx, 'valor:', valor)
  print('-'*32)


Coluna: variavel_1
idx: 0 valor: 2
idx: 1 valor: -86
idx: 2 valor: 88
idx: 3 valor: 21
idx: 4 valor: 16
--------------------------------
Coluna: variavel_2
idx: 0 valor: 79
idx: 1 valor: 6
idx: 2 valor: -80
idx: 3 valor: -26
idx: 4 valor: -1
--------------------------------
Coluna: variavel_3
idx: 0 valor: -8
idx: 1 valor: -29
idx: 2 valor: 2
idx: 3 valor: -13
idx: 4 valor: 3
--------------------------------


In [None]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index') 
for orient in orients:
  print(orient)
  display(df_nome_colunas.to_dict(orient=orient))
  print('-'*32)

dict


{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

--------------------------------
list


{'variavel_1': [2, -86, 88, 21, 16],
 'variavel_2': [79, 6, -80, -26, -1],
 'variavel_3': [-8, -29, 2, -13, 3]}

--------------------------------
series


{'variavel_1': 0     2
 1   -86
 2    88
 3    21
 4    16
 Name: variavel_1, dtype: int64, 'variavel_2': 0    79
 1     6
 2   -80
 3   -26
 4    -1
 Name: variavel_2, dtype: int64, 'variavel_3': 0    -8
 1   -29
 2     2
 3   -13
 4     3
 Name: variavel_3, dtype: int64}

--------------------------------
split


{'index': [0, 1, 2, 3, 4],
 'columns': ['variavel_1', 'variavel_2', 'variavel_3'],
 'data': [[2, 79, -8],
  [-86, 6, -29],
  [88, -80, 2],
  [21, -26, -13],
  [16, -1, 3]]}

--------------------------------
records


[{'variavel_1': 2, 'variavel_2': 79, 'variavel_3': -8},
 {'variavel_1': -86, 'variavel_2': 6, 'variavel_3': -29},
 {'variavel_1': 88, 'variavel_2': -80, 'variavel_3': 2},
 {'variavel_1': 21, 'variavel_2': -26, 'variavel_3': -13},
 {'variavel_1': 16, 'variavel_2': -1, 'variavel_3': 3}]

--------------------------------
index


{0: {'variavel_1': 2, 'variavel_2': 79, 'variavel_3': -8},
 1: {'variavel_1': -86, 'variavel_2': 6, 'variavel_3': -29},
 2: {'variavel_1': 88, 'variavel_2': -80, 'variavel_3': 2},
 3: {'variavel_1': 21, 'variavel_2': -26, 'variavel_3': -13},
 4: {'variavel_1': 16, 'variavel_2': -1, 'variavel_3': 3}}

--------------------------------


In [None]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index') 
for orient in orients:
  print(orient)
  dicionario_dados = df_nome_colunas.to_dict(orient=orient)
  if orient == 'split':
    display(pd.DataFrame(**dicionario_dados))
  else:
    display(pd.DataFrame(dicionario_dados))
  print('-'*32)

dict


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
list


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
series


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
split


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
records


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
index


Unnamed: 0,0,1,2,3,4
variavel_1,2,-86,88,21,16
variavel_2,79,6,-80,-26,-1
variavel_3,-8,-29,2,-13,3


--------------------------------


In [None]:
df_nome_colunas_transposto = pd.DataFrame(dicionario_dados)
df_nome_colunas_transposto

Unnamed: 0,0,1,2,3,4
variavel_1,2,-86,88,21,16
variavel_2,79,6,-80,-26,-1
variavel_3,-8,-29,2,-13,3


In [None]:
# Uma forma rápida de transformar as colunas em linhas e as linhas em colunas
# é realizando a transposta da tabela, utilizando o `T`
df_nome_colunas_transposto.T

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [None]:
dic = {
    'variavel_1': [2, 79, 78, 88],
    'variavel_2': [-86, 6, 78, 192],
    'variavel_3': [88, -80, 93, 24]
}

df_dic = pd.DataFrame(dic)
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,79,6,-80
2,78,78,93
3,88,192,24


In [None]:
# Podemos substituir um valor de uma célula
df_dic.loc[1, 'variavel_1'] = -1000
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-1000,6,-80
2,78,78,93
3,88,192,24


In [None]:
# Utilizando iloc
df_dic.iloc[1, 0] = -150
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-150,6,-80
2,78,78,93
3,88,192,24


Podemos fazer operações com as colunas, dado que elas são séries!

In [None]:
resultado = df_dic['variavel_1'] + 20

In [None]:
resultado

0     22
1   -130
2     98
3    108
Name: variavel_1, dtype: int64

In [None]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-150,6,-80
2,78,78,93
3,88,192,24


In [None]:
# Adicionar uma coluna de resultado
df_dic['resultado'] = df_dic['variavel_1'] + 20
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3,resultado
0,2,-86,88,22
1,-150,6,-80,-130
2,78,78,93,98
3,88,192,24,108


In [None]:
# A partir de uma série
df_dic['resultado2'] = resultado

In [None]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3,resultado,resultado2
0,2,-86,88,22,22
1,-150,6,-80,-130,-130
2,78,78,93,98,98
3,88,192,24,108,108


In [None]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 11, 30))
df_notas = pd.DataFrame(notas,columns=['nota'])


In [None]:
df_notas.head()

Unnamed: 0,nota
0,6
1,3
2,10
3,7
4,4


In [None]:
# Criando uma coluna nome
df_notas['nome'] = None
df_notas

Unnamed: 0,nota,nome
0,6,
1,3,
2,10,
3,7,
4,4,
5,6,
6,9,
7,2,
8,6,
9,10,


In [None]:

df_notas.loc[0: 9, 'nome'] = 'Maria'
df_notas

Unnamed: 0,nota,nome
0,6,Maria
1,3,Maria
2,10,Maria
3,7,Maria
4,4,Maria
5,6,Maria
6,9,Maria
7,2,Maria
8,6,Maria
9,10,Maria


In [None]:
df_notas.loc[10: 19,'nome'] = 'João'
df_notas

Unnamed: 0,nota,nome
0,6,Maria
1,3,Maria
2,10,Maria
3,7,Maria
4,4,Maria
5,6,Maria
6,9,Maria
7,2,Maria
8,6,Maria
9,10,Maria


In [None]:
df_notas.loc[20: , 'nome'] = 'José'
df_notas

Unnamed: 0,nota,nome
0,6,Maria
1,3,Maria
2,10,Maria
3,7,Maria
4,4,Maria
5,6,Maria
6,9,Maria
7,2,Maria
8,6,Maria
9,10,Maria


In [None]:
# Utilizando o apply
df_notas['e_aprovado'] = df_notas.nota.apply(lambda x: 'Aprovado' if x>5 else 'Reprovado')

In [None]:
df_notas

Unnamed: 0,nota,nome,e_aprovado
0,6,Maria,Aprovado
1,3,Maria,Reprovado
2,10,Maria,Aprovado
3,7,Maria,Aprovado
4,4,Maria,Reprovado
5,6,Maria,Aprovado
6,9,Maria,Aprovado
7,2,Maria,Reprovado
8,6,Maria,Aprovado
9,10,Maria,Aprovado


In [None]:
# Utilizando o apply sem passar o nome da coluna e com axis=0,
# conseguimos acessar os valores individuais de cada coluna
# Como default o axis é 0, <axis=0>
df_notas.apply(lambda coluna: coluna.unique(), axis=0)

nota          [6, 3, 10, 7, 4, 9, 2, 5, 1, 0, 8]
nome                         [Maria, João, José]
e_aprovado                 [Aprovado, Reprovado]
dtype: object

In [None]:
# Utilizando o apply sem passar o nome da coluna e com axis=1,
# conseguimos acessar os valores individuais de cada linha
df_notas.apply(lambda linha: f"{linha['nota'] / 3:.2f} {linha['nome']}", axis=1)

0     2.00 Maria
1     1.00 Maria
2     3.33 Maria
3     2.33 Maria
4     1.33 Maria
5     2.00 Maria
6     3.00 Maria
7     0.67 Maria
8     2.00 Maria
9     3.33 Maria
10     3.33 João
11     2.33 João
12     1.33 João
13     1.00 João
14     2.33 João
15     2.33 João
16     0.67 João
17     1.67 João
18     1.33 João
19     0.33 João
20     2.33 José
21     1.67 José
22     0.33 José
23     1.33 José
24     0.00 José
25     3.00 José
26     1.67 José
27     2.67 José
28     0.00 José
29     3.33 José
dtype: object

In [None]:
# Asssim como nos dicionários temos o `get`
# Qual a vantagem do get?
df_notas.get('nota')

0      6
1      3
2     10
3      7
4      4
5      6
6      9
7      2
8      6
9     10
10    10
11     7
12     4
13     3
14     7
15     7
16     2
17     5
18     4
19     1
20     7
21     5
22     1
23     4
24     0
25     9
26     5
27     8
28     0
29    10
Name: nota, dtype: int64

In [None]:
# O get permite que lidemos com uma coluna inexistente na tablea

df_notas.get('Classe', default='Não tem essa coluna')

'Não tem essa coluna'

**Aplicando o `apply` em colunas selecionadas**

In [None]:
data = pd.DataFrame(np.random.randint(0, 10, (3,3)), columns=['ativo1', 'ativo2', 'ativo3'])
data

Unnamed: 0,ativo1,ativo2,ativo3
0,4,1,4
1,7,9,8
2,8,0,8


In [None]:
def transforma_porcentagem(n):
  return n * 100

# Quando temos que aplicar uma função para todos os elementos da tabela
# Utilizamos apply
data.apply(transforma_porcentagem)

Unnamed: 0,ativo1,ativo2,ativo3
0,400,100,400
1,700,900,800
2,800,0,800


In [None]:
data

Unnamed: 0,ativo1,ativo2,ativo3
0,4,1,4
1,7,9,8
2,8,0,8


In [None]:
colunas = ['ativo2', 'ativo3']
for col in colunas:
  data[col] = (
      data.apply(
          lambda linha: transforma_porcentagem(linha[col]), 1
          )
      )

In [None]:
data

Unnamed: 0,ativo1,ativo2,ativo3
0,4,100,400
1,7,900,800
2,8,0,800


In [None]:
data[colunas].apply(transforma_porcentagem)

Unnamed: 0,ativo2,ativo3
0,10000,40000
1,90000,80000
2,0,80000


**

In [None]:
df_notas['e_aprovado_bool'] = df_notas['nota'] > 5

In [None]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool
0,6,Maria,Aprovado,True
1,3,Maria,Reprovado,False
2,10,Maria,Aprovado,True
3,7,Maria,Aprovado,True
4,4,Maria,Reprovado,False
5,6,Maria,Aprovado,True
6,9,Maria,Aprovado,True
7,2,Maria,Reprovado,False
8,6,Maria,Aprovado,True
9,10,Maria,Aprovado,True


In [None]:
df_notas

In [None]:
df_notas['x'] = np.random.randint(0, 20, 30)

In [None]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x
0,6,Maria,Aprovado,True,6
1,3,Maria,Reprovado,False,8
2,10,Maria,Aprovado,True,0
3,7,Maria,Aprovado,True,11
4,4,Maria,Reprovado,False,7
5,6,Maria,Aprovado,True,10
6,9,Maria,Aprovado,True,18
7,2,Maria,Reprovado,False,16
8,6,Maria,Aprovado,True,7
9,10,Maria,Aprovado,True,2


In [None]:
# Quando passamos um vetor/lista/array/serie precisamos do mesmo número de linhas
# do que no dataframe original
df_notas['y'] = np.random.randint(0, 20, 25)

ValueError: ignored

In [None]:
lista_numero_com_nan = (list(np.random.randint(0, 20, 10)) 
+ [np.nan, np.nan]  
+ list(np.random.randint(0, 20, 10))
+ [np.nan, np.nan, np.nan]
+ list(np.random.randint(0, 20, 5)))

In [None]:
df_notas['y'] = lista_numero_com_nan

In [None]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
7,2,Maria,Reprovado,False,16,11.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0


In [None]:
# Quando utilizamos o `DataFrame.max` ignoramos os `NaNs`
df_notas['y'].max()

19.0

In [None]:
# Obtendo o soma
# Ignorando os NaNs
df_notas['y'].sum()

232.0

In [None]:
# Obtendo a média
df_notas['y'].sum() / df_notas.shape[0] # df_notas.shape[0] -> 30 linhas

7.733333333333333

In [None]:
# O `mean` desconsidera os NaNs (Not a Number) eliminando da população
df_notas['y'].mean()

9.28

In [None]:
df_notas['y'].sum() / 25

9.28

**Tratando valores faltantes (`NaN`)**

In [None]:
df_notas_bkp = df_notas.copy()

In [None]:
# Contando o número de nulos
df_notas.isnull().tail(10)

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
20,False,False,False,False,False,False
21,False,False,False,False,False,False
22,False,False,False,False,False,True
23,False,False,False,False,False,True
24,False,False,False,False,False,True
25,False,False,False,False,False,False
26,False,False,False,False,False,False
27,False,False,False,False,False,False
28,False,False,False,False,False,False
29,False,False,False,False,False,False


In [None]:
# Somando por coluna
df_notas.isnull().sum()

nota               0
nome               0
e_aprovado         0
e_aprovado_bool    0
x                  0
y                  5
dtype: int64

In [None]:
# Preenchendo os valores faltantes com `0`
df_notas["y"] = df_notas['y'].fillna(0)
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
7,2,Maria,Reprovado,False,16,11.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0


In [None]:
# Preenchendo os valores faltantes com `-10`
df_notas = df_notas_bkp.copy()
df_notas['y'] = df_notas['y'].fillna(-10)
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
7,2,Maria,Reprovado,False,16,11.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0


In [None]:
# Preenchendo os valores faltantes com a média
df_notas = df_notas_bkp.copy()
media_y = df_notas['y'].mean()
df_notas['y'] = df_notas['y'].fillna(media_y)
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
7,2,Maria,Reprovado,False,16,11.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0


In [None]:
# Preenchendo os valores faltantes com valores de outras colunas
df_notas = df_notas_bkp.copy()
df_notas['y'] = df_notas.apply(lambda linha: linha['y'] if not pd.isnull(linha['y']) else linha['x']**2, 1)
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
7,2,Maria,Reprovado,False,16,11.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0


**Pergunta da Ana, como fazer uma média movel**

In [None]:
data = pd.DataFrame(np.random.randint(0, 10, 20))
data.index = pd.date_range('2021-01-01', '2021-01-20')

rolling = data.rolling("3D").mean()
rolling.columns = ['movel']
data.join(rolling).head()

Unnamed: 0,0,movel
2021-01-01,6,6.0
2021-01-02,8,7.0
2021-01-03,4,6.0
2021-01-04,0,4.0
2021-01-05,9,4.333333


**Somando colunas**

In [None]:
df = df_notas[['x', 'y']].copy()

In [None]:
df

Unnamed: 0,x,y
0,6,11.0
1,8,14.0
2,0,8.0
3,11,19.0
4,7,16.0
5,10,16.0
6,18,19.0
7,16,11.0
8,7,6.0
9,2,1.0


In [None]:
# Criando uma nova coluna utilizando o `loc`
df.loc[:, 'soma_x_y'] = df['x'] + df['y']

In [None]:
df

Unnamed: 0,x,y,soma_x_y
0,6,11.0,17.0
1,8,14.0,22.0
2,0,8.0,8.0
3,11,19.0,30.0
4,7,16.0,23.0
5,10,16.0,26.0
6,18,19.0,37.0
7,16,11.0,27.0
8,7,6.0,13.0
9,2,1.0,3.0


In [None]:
df[['x', 'y']].sum(axis=1)

0     17.00
1     22.00
2      8.00
3     30.00
4     23.00
5     26.00
6     37.00
7     27.00
8     13.00
9      3.00
10    11.28
11     9.28
12     6.00
13    25.00
14    10.00
15    24.00
16    22.00
17    24.00
18     8.00
19    12.00
20     5.00
21     0.00
22    24.28
23    13.28
24    11.28
25    11.00
26    25.00
27     3.00
28    11.00
29     7.00
dtype: float64

Excluindo uma coluna

In [None]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0


In [None]:
# Selecionando colunas a serem mantidas
df_notas2 = df_notas[['nota', 'e_aprovado', 'x']]
df_notas2.head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,6
1,3,Reprovado,8
2,10,Aprovado,0
3,7,Aprovado,11
4,4,Reprovado,7


In [None]:
# Excluindo colunas com o `Drop`
df_notas3 = df_notas.drop(columns=['nome', 'e_aprovado_bool', 'y'])

In [None]:
df_notas3.head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,6
1,3,Reprovado,8
2,10,Aprovado,0
3,7,Aprovado,11
4,4,Reprovado,7


In [None]:
df_nota_bkp = df_notas.copy()

In [None]:
def exclui_colunas(df, colunas):
  df = df.copy()
  df = df.drop(columns=colunas)
  return df

In [None]:
exclui_colunas(df_notas, colunas=['nome', 'e_aprovado_bool', 'y'])

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,6
1,3,Reprovado,8
2,10,Aprovado,0
3,7,Aprovado,11
4,4,Reprovado,7
5,6,Aprovado,10
6,9,Aprovado,18
7,2,Reprovado,16
8,6,Aprovado,7
9,10,Aprovado,2


Como o dataframe é um conjunto de séries, também podemos fazer filtros!

In [None]:
df_notas.head(3)

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0


In [None]:
df_notas[df_notas.nota > 5]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
2,10,Maria,Aprovado,True,0,8.0
3,7,Maria,Aprovado,True,11,19.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0
10,10,João,Aprovado,True,2,9.28
11,7,João,Aprovado,True,0,9.28
14,7,João,Aprovado,True,6,4.0


In [None]:
df_notas[(df_notas["nota"] > 5) & (df_notas.nota < 8)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
3,7,Maria,Aprovado,True,11,19.0
5,6,Maria,Aprovado,True,10,16.0
8,6,Maria,Aprovado,True,7,6.0
11,7,João,Aprovado,True,0,9.28
14,7,João,Aprovado,True,6,4.0
15,7,João,Aprovado,True,8,16.0
20,7,José,Aprovado,True,1,4.0


In [None]:
# retorna valores dentro de uma lista
# O `isin` é similar a sintaxe <'pera' in ['banana', 'maca', 'uva']>
df_notas[df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
1,3,Maria,Reprovado,False,8,14.0
3,7,Maria,Aprovado,True,11,19.0
11,7,João,Aprovado,True,0,9.28
13,3,João,Reprovado,False,9,16.0
14,7,João,Aprovado,True,6,4.0
15,7,João,Aprovado,True,8,16.0
17,5,João,Reprovado,False,8,16.0
20,7,José,Aprovado,True,1,4.0
21,5,José,Reprovado,False,0,0.0
26,5,José,Reprovado,False,7,18.0


In [None]:
# Negação de notas 
df_notas[~df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
2,10,Maria,Aprovado,True,0,8.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
6,9,Maria,Aprovado,True,18,19.0
7,2,Maria,Reprovado,False,16,11.0
8,6,Maria,Aprovado,True,7,6.0
9,10,Maria,Aprovado,True,2,1.0
10,10,João,Aprovado,True,2,9.28
12,4,João,Reprovado,False,4,2.0


In [None]:
df_notas[df_notas.nota.between(3, 7)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
3,7,Maria,Aprovado,True,11,19.0
4,4,Maria,Reprovado,False,7,16.0
5,6,Maria,Aprovado,True,10,16.0
8,6,Maria,Aprovado,True,7,6.0
11,7,João,Aprovado,True,0,9.28
12,4,João,Reprovado,False,4,2.0
13,3,João,Reprovado,False,9,16.0
14,7,João,Aprovado,True,6,4.0


In [None]:
# Setando o indice a partir de uma coluna
# <DataFrame.set_index(<nome da coluna>)>
df_notas_nome = df_notas.set_index('nome')
df_notas_nome

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Maria,6,Aprovado,True,6,11.0
Maria,3,Reprovado,False,8,14.0
Maria,10,Aprovado,True,0,8.0
Maria,7,Aprovado,True,11,19.0
Maria,4,Reprovado,False,7,16.0
Maria,6,Aprovado,True,10,16.0
Maria,9,Aprovado,True,18,19.0
Maria,2,Reprovado,False,16,11.0
Maria,6,Aprovado,True,7,6.0
Maria,10,Aprovado,True,2,1.0


In [None]:
df_notas_nome.loc['Maria']

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Maria,6,Aprovado,True,6,11.0
Maria,3,Reprovado,False,8,14.0
Maria,10,Aprovado,True,0,8.0
Maria,7,Aprovado,True,11,19.0
Maria,4,Reprovado,False,7,16.0
Maria,6,Aprovado,True,10,16.0
Maria,9,Aprovado,True,18,19.0
Maria,2,Reprovado,False,16,11.0
Maria,6,Aprovado,True,7,6.0
Maria,10,Aprovado,True,2,1.0


Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [None]:
# Resetando os indices
# <DataFrame.reset_index()>
df_notas_nome_resetado = df_notas_nome.reset_index()

In [None]:
# O indice voltou a ser uma coluna
df_notas_nome_resetado.head(3)

Unnamed: 0,nome,nota,e_aprovado,e_aprovado_bool,x,y
0,Maria,6,Aprovado,True,6,11.0
1,Maria,3,Reprovado,False,8,14.0
2,Maria,10,Aprovado,True,0,8.0


In [None]:
# O indice virou uma coluna nova chamada `index`
df_notas_nome_resetado.reset_index().head(3)

Unnamed: 0,index,nome,nota,e_aprovado,e_aprovado_bool,x,y
0,0,Maria,6,Aprovado,True,6,11.0
1,1,Maria,3,Reprovado,False,8,14.0
2,2,Maria,10,Aprovado,True,0,8.0


In [None]:
# Resetando o indice e removendo a coluna que era indice
df_notas_nome_resetado.reset_index(drop=True).head(3)

Unnamed: 0,nome,nota,e_aprovado,e_aprovado_bool,x,y
0,Maria,6,Aprovado,True,6,11.0
1,Maria,3,Reprovado,False,8,14.0
2,Maria,10,Aprovado,True,0,8.0


In [None]:
display(df_notas_nome.head(3))
display(df_notas_nome.reset_index(drop=True).head(3))

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Maria,6,Aprovado,True,6,11.0
Maria,3,Reprovado,False,8,14.0
Maria,10,Aprovado,True,0,8.0


Unnamed: 0,nota,e_aprovado,e_aprovado_bool,x,y
0,6,Aprovado,True,6,11.0
1,3,Reprovado,False,8,14.0
2,10,Aprovado,True,0,8.0


Alterando o nome de colunas

In [None]:
df_notas = df_notas.rename(columns={
    'e_aprovado': 'está aprovado',
    'x': 'Número x'
})
df_notas.head(3)

Unnamed: 0,nota,nome,está aprovado,e_aprovado_bool,Número x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0


In [None]:
# Renomeando as colunas com uma lista de nomes
# Precisa ter o número exato e a ordem exata das colunas da tabela
colunas = ['nota', 'nome', 'e_aprovado', 'e_aprovado_bool', 'x', 'y']
df_notas.columns = colunas
df_notas.head(3)

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,6,11.0
1,3,Maria,Reprovado,False,8,14.0
2,10,Maria,Aprovado,True,0,8.0


In [None]:
# Reordenando as colunas
df_notas[['nome', 'nota', 'x', 'y']].head(3)

Unnamed: 0,nome,nota,x,y
0,Maria,6,6,11.0
1,Maria,3,8,14.0
2,Maria,10,0,8.0


Ordenando os valores

In [None]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values('nota', ascending=False).head()

Unnamed: 0,nome,nota,y,x
29,José,10,5.0,2
10,João,10,9.28,2
2,Maria,10,8.0,0
9,Maria,10,1.0,2
25,José,9,0.0,11


In [None]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values(['nota', 'x', 'y'])

Unnamed: 0,nome,nota,y,x
28,José,0,11.0,0
24,José,0,9.28,2
19,João,1,1.0,11
22,José,1,9.28,15
16,João,2,16.0,6
7,Maria,2,11.0,16
1,Maria,3,14.0,8
13,João,3,16.0,9
12,João,4,2.0,4
23,José,4,9.28,4


#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [None]:
df1 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df2 = pd.DataFrame(
                    {
                        'B': [1,2,3],
                        'C': [4,5,6],
                        'D': [7,8,9]
                    })
display(df1)
display(df2)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df3 = pd.concat([df1, df2], axis=0)
# Os indices se repetem
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0


In [None]:
df3.loc[0]

Unnamed: 0,A,B,C,D
0,1.0,4,7,
0,,1,4,7.0


In [None]:
# Resolve o problema de indices duplicados
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
3,,1,4,7.0
4,,2,5,8.0
5,,3,6,9.0


In [None]:
df3.loc[0]

A    1.0
B    4.0
C    7.0
D    NaN
Name: 0, dtype: float64

In [None]:
df4 = pd.concat([df1, df2], axis=1)
df4

Unnamed: 0,A,B,C,B.1,C.1,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [None]:
df4['A']

0    1
1    2
2    3
Name: A, dtype: int64

In [None]:
df4['B']

Unnamed: 0,B,B.1
0,4,1
1,5,2
2,6,3


In [None]:
df1.columns = [f"{col}_df1" for col in df1.columns]
df1

Unnamed: 0,A_df1,B_df1,C_df1
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A_df1,B_df1,C_df1,B,C,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [None]:
df5 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df6 = pd.DataFrame(
                    {
                        'B': [1,2,3,6],
                        'C': [4,5,6,9],
                        'D': [7,8,9,10]
                    })

In [None]:
df5

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


In [None]:
df6

Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9
3,6,9,10


In [None]:
pd.concat([df5, df6], axis=1)

Unnamed: 0,A,B,C,B.1,C.1,D
0,1.0,4.0,7.0,1,4,7
1,2.0,5.0,8.0,2,5,8
2,3.0,6.0,9.0,3,6,9
3,,,,6,9,10


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
df3 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})
df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})
display(df3)
display(df4)

Unnamed: 0,Paises,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Paises,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [None]:
# Cruzando os dados da coluna `Paises` com o modo `inner`
# Seleção dos elementos em comum
df3.merge(df4, how='inner', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1,3
1,Pt,2,4,2,4


In [None]:
# Left Join
# A tabela da esquerda é a `df3`
df3.merge(df4, how='left', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [None]:
# Left Join
# A tabela da esquerda é a `df3`
df4.merge(df3, how='left', on='Paises')

Unnamed: 0,Paises,valor3,valor4,valor1,valor2
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,Py,3,5,,


In [None]:
# Right Join
df3.merge(df4, how='right', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1,3
1,Pt,2.0,4.0,2,4
2,Py,,,3,5


In [None]:
# Outer Join
df3.merge(df4, how='outer', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1.0,3.0
1,Pt,2.0,4.0,2.0,4.0
2,It,3.0,5.0,,
3,Py,,,3.0,5.0


In [None]:
df3 = pd.DataFrame({
    'Country': ['Br','Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [None]:
# Colunas que representam o mesmo tipo de valor (Paises/Country)
# Precisamos passar o nome com `left_on`, `right_on`
df3.merge(df4, how='left', left_on=['Country'], right_on=['Paises'])

Unnamed: 0,Country,valor1,valor2,Paises,valor3,valor4
0,Br,1,3,Br,1.0,3.0
1,Pt,2,4,Pt,2.0,4.0
2,It,3,5,,,


In [None]:
df4 = df4.rename(columns={'Paises': 'Country'})

In [None]:
display(df3)
display(df4)

Unnamed: 0,Country,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Country,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [None]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Country'])

Unnamed: 0,Country,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [None]:
df3.merge(df4, how='left', on=['Country'])

Unnamed: 0,Country,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [None]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','Maria', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [None]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Dadinho,Deus,3,5


In [None]:
df3.merge(df4, on=['nome', 'sobrenome'], how='inner')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [None]:
df3.merge(df4, left_on=['nome', 'sobrenome'], right_on=['nome', 'sobrenome'], how='inner')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [None]:
# Utilizando o Join
# Juntamos os valores pelos indices!
# Colocando um suffixo nos valores repetidos
df3.join(df4, lsuffix='_df3', rsuffix='_df4')

Unnamed: 0,nome_df3,sobrenome_df3,valor1,valor2,nome_df4,sobrenome_df4,valor3,valor4
0,João,Silva,1,3,João,Silva,1,3
1,Maria,Alencar,2,4,Maria,Alencar,2,4
2,Edu,Deus,3,5,Dadinho,Deus,3,5


In [None]:
df3_nome = df3.set_index('nome')
df4_nome = df4.set_index('nome')
display(df3_nome)
display(df4_nome)

Unnamed: 0_level_0,sobrenome,valor1,valor2
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Edu,Deus,3,5


Unnamed: 0_level_0,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Dadinho,Deus,3,5


In [None]:
df3_nome.join(df4_nome, lsuffix='_df3', rsuffix='_df4')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome_df4,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1.0,3.0
Maria,Alencar,2,4,Alencar,2.0,4.0
Edu,Deus,3,5,,,


In [None]:
df3_nome.join(df4_nome, lsuffix='_df3', rsuffix='_df4', how='inner')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome_df4,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1,3
Maria,Alencar,2,4,Alencar,2,4


In [None]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','João', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [None]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,João,Alencar,2,4
2,Dadinho,Deus,3,5


In [None]:
# Efeito multiplicativo de merge
# Note o nome `João` aparece em duas linhas
df3.merge(df4, on='nome', how='left')

Unnamed: 0,nome,sobrenome_x,valor1,valor2,sobrenome_y,valor3,valor4
0,João,Silva,1,3,Silva,1.0,3.0
1,João,Silva,1,3,Alencar,2.0,4.0
2,Maria,Alencar,2,4,,,
3,Edu,Deus,3,5,,,


In [None]:
# Evitando o efeito multiplicativo
df3.merge(df4, on=['nome', 'sobrenome'], how='left')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1.0,3.0
1,Maria,Alencar,2,4,,
2,Edu,Deus,3,5,,


### Transformações de dados

#### GroupBy

In [26]:
titanic = pd.read_csv('./titanic_completa_oficial.csv')

In [29]:
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"


Antes de inicializar qualquer análise há alguns passos importantes
- 1-) Olhe os dados!!!
- 2-) Verifique o tipo de dados
- 3-) Verifique se há dados faltantes
- 4-) Faça uma análise estatística descritiva

In [37]:
# Olhando os dados
titanic.head(2)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"


In [38]:
# Verificando o tipo de dados
# Observe:
# - O tipo era o esperado? Se há somente números, e termos um tipo `object`
#   Não seria melhor transformar a coluna em númerico?
# - Quantos dados são categóricos
# - Quantos dados númericos eu tenho?
# - O que caracteriza o meu dados? Qual o identificador (chave) -> Pense que o `id` ou `nome sobrenome` pode ser um indicativo
titanic.dtypes

pclass        int64
survived      int64
name         object
sex          object
age          object
sibsp         int64
parch         int64
ticket       object
fare         object
cabin        object
embarked     object
boat         object
body         object
home.dest    object
dtype: object

In [39]:
# Temos dados faltantes?
titanic.isnull().sum()

pclass       0
survived     0
name         0
sex          0
age          0
sibsp        0
parch        0
ticket       0
fare         0
cabin        0
embarked     0
boat         0
body         0
home.dest    0
dtype: int64

In [40]:
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"


In [41]:
# Observe que temos o `?`
# Vamos tratar o `?` como NaN
titanic = titanic.replace({'?': np.nan})
titanic.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

In [42]:
titanic.fare.unique()

array(['211.3375', '151.55', '26.55', '77.9583', '0', '51.4792',
       '49.5042', '227.525', '69.3', '78.85', '30', '25.925', '247.5208',
       '76.2917', '75.2417', '52.5542', '221.7792', '26', '91.0792',
       '135.6333', '35.5', '31', '164.8667', '262.375', '55', '30.5',
       '50.4958', '39.6', '27.7208', '134.5', '26.2875', '27.4458',
       '512.3292', '5', '47.1', '120', '61.175', '53.1', '86.5', '29.7',
       '136.7792', '52', '25.5875', '83.1583', '25.7', '71', '71.2833',
       '57', '81.8583', '106.425', '56.9292', '78.2667', '31.6792',
       '31.6833', '110.8833', '26.3875', '27.75', '263', '133.65', '49.5',
       '79.2', '38.5', '211.5', '59.4', '89.1042', '34.6542', '28.5',
       '153.4625', '63.3583', '55.4417', '76.7292', '42.4', '83.475',
       '93.5', '42.5', '51.8625', '50', '57.9792', '90', '30.6958', '80',
       '28.7125', '25.9292', '39.4', '45.5', '146.5208', '82.1708',
       '57.75', '113.275', '26.2833', '108.9', '25.7417', '61.9792',
       '66.6', 

Agora temos muitos dados faltantes!
Principalmente:
- Idade
- Cabine
- Se embarcou ou não
- Barco
- Corpo (muitos não foram achados)
- Destino final

In [43]:
# Vamos transformar algumas dessas colunas em númericas!
for col in ['age', 'fare']:
  titanic[col] = titanic[col].astype(float)


In [44]:
titanic.head(2)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"


In [45]:
titanic.dtypes

pclass         int64
survived       int64
name          object
sex           object
age          float64
sibsp          int64
parch          int64
ticket        object
fare         float64
cabin         object
embarked      object
boat          object
body          object
home.dest     object
dtype: object

In [48]:
# Selecionando colunas númericas
# <DataFrame.select_dtypes>
num_cols = list(titanic.select_dtypes(include=[np.number]).columns)
# Selecionando colunas categoricas
cat_cols = list(titanic.select_dtypes(include=['object']).columns)

In [None]:
# Note que temos apenas colunas númericas
titanic.describe()

Unnamed: 0,pclass,survived,age,sibsp,parch,fare
count,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,2.294882,0.381971,29.881135,0.498854,0.385027,33.295479
std,0.837836,0.486055,14.4135,1.041658,0.86556,51.758668
min,1.0,0.0,0.1667,0.0,0.0,0.0
25%,2.0,0.0,21.0,0.0,0.0,7.8958
50%,3.0,0.0,28.0,0.0,0.0,14.4542
75%,3.0,1.0,39.0,1.0,0.0,31.275
max,3.0,1.0,80.0,8.0,9.0,512.3292


In [None]:
titanic.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
pclass,1309.0,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
survived,1309.0,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
age,1046.0,29.881135,14.4135,0.1667,21.0,28.0,39.0,80.0
sibsp,1309.0,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
parch,1309.0,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
fare,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292


In [None]:
# Note que temos apenas colunas númericas
titanic[cat_cols].describe(include='all').T

Unnamed: 0,count,unique,top,freq
name,1309,1307,"Connolly, Miss. Kate",2
sex,1309,2,male,843
ticket,1309,929,CA. 2343,11
cabin,295,186,C23 C25 C27,6
embarked,1307,3,S,914
boat,486,27,13,39
body,121,121,135,1
home.dest,745,369,"New York, NY",64


Observe que temos dois nomes duplicados!  
Vamos voltar para a tabela original!

In [49]:
# Opa temos dados repetidos!
# Como verificar se temos? E quais nomes são repetidos?
# Podemos ver o tamanho dos dados agrupados com o `size`
titanic.groupby('name').size()

name
Abbing, Mr. Anthony                              1
Abbott, Master. Eugene Joseph                    1
Abbott, Mr. Rossmore Edward                      1
Abbott, Mrs. Stanton (Rosa Hunt)                 1
Abelseth, Miss. Karen Marie                      1
                                                ..
del Carlo, Mrs. Sebastiano (Argenia Genovesi)    1
van Billiard, Master. James William              1
van Billiard, Master. Walter John                1
van Billiard, Mr. Austin Blyler                  1
van Melkebeke, Mr. Philemon                      1
Length: 1307, dtype: int64

In [50]:
# Vamos ordenar
nomes = titanic.groupby('name').size()
nomes.sort_values()

name
Abbing, Mr. Anthony                             1
Nysten, Miss. Anna Sofia                        1
Nye, Mrs. (Elizabeth Ramell)                    1
Novel, Mr. Mansouer                             1
Nourney, Mr. Alfred ('Baron von Drachstedt')    1
                                               ..
Gaskell, Mr. Alfred                             1
Garfirth, Mr. John                              1
van Melkebeke, Mr. Philemon                     1
Kelly, Mr. James                                2
Connolly, Miss. Kate                            2
Length: 1307, dtype: int64

In [52]:
nomes_duplicados = nomes[nomes > 1]
nomes_duplicados

name
Connolly, Miss. Kate    2
Kelly, Mr. James        2
dtype: int64

In [54]:
'banana' in ['maca', 'pera', 'uva']

False

In [55]:
# São pessoas diferentes?
mascara_nomes_duplicados = titanic['name'].isin(nomes_duplicados.index)
titanic[mascara_nomes_duplicados]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
725,3,1,"Connolly, Miss. Kate",female,22.0,0,0,370373,7.75,,Q,13.0,,Ireland
726,3,0,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q,,,Ireland
924,3,0,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,,70.0,
925,3,0,"Kelly, Mr. James",male,44.0,0,0,363592,8.05,,S,,,


In [62]:
# Removendo dados duplicados
print(titanic.shape)
dados_nao_dup = titanic.name.drop_duplicates()
print(dados_nao_dup.head())
print(dados_nao_dup.shape)
titanic = titanic.loc[dados_nao_dup.index]
print(titanic.shape)

(1309, 14)
0                      Allen, Miss. Elisabeth Walton
1                     Allison, Master. Hudson Trevor
2                       Allison, Miss. Helen Loraine
3               Allison, Mr. Hudson Joshua Creighton
4    Allison, Mrs. Hudson J C (Bessie Waldo Daniels)
Name: name, dtype: object
(1307,)
(1307, 14)


**Dados limpos!**

Podemos começar a analisar

In [63]:
titanic[titanic['sex'] == 'female'].shape[0]

(465, 14)

In [65]:
titanic[titanic['sex'] == 'male'].shape[0]

842

In [67]:
# Quantas pessoas por sexo?
titanic.groupby('sex').size()

sex
female    465
male      842
dtype: int64

In [68]:
titanic.pclass.unique()

array([1, 2, 3])

In [69]:
# Quantas pessoas por classe?
titanic.groupby('pclass').size()

pclass
1    323
2    277
3    707
dtype: int64

In [70]:
# Quantas pessoas por classe e sexo?
titanic.groupby(['pclass', 'sex']).size()

pclass  sex   
1       female    144
        male      179
2       female    106
        male      171
3       female    215
        male      492
dtype: int64

In [75]:
# Quantas pessoas por sexo e classe?
titanic.groupby(['sex', 'pclass']).size()

sex     pclass
female  1         144
        2         106
        3         215
male    1         179
        2         171
        3         492
dtype: int64

In [76]:
# Sobrevivente por sexo
titanic.groupby(['sex', 'survived']).size()

sex     survived
female  0           126
        1           339
male    0           681
        1           161
dtype: int64

In [77]:
# Sobrevivente por classe sexo
titanic.groupby(['pclass', 'sex', 'survived']).size()

pclass  sex     survived
1       female  0             5
                1           139
        male    0           118
                1            61
2       female  0            12
                1            94
        male    0           146
                1            25
3       female  0           109
                1           106
        male    0           417
                1            75
dtype: int64

**Podemos melhorar?**

Na análise de dados a forma que mostramos os dados fazem muita diferença!

In [81]:
# Sobrevivente por classe sexo
(titanic
  .groupby(['pclass', 'sex', 'survived'])
  .size()
  .reset_index()
  .sort_values(['sex', 'survived','pclass']))

Unnamed: 0,pclass,sex,survived,0
0,1,female,0,5
4,2,female,0,12
8,3,female,0,109
1,1,female,1,139
5,2,female,1,94
9,3,female,1,106
2,1,male,0,118
6,2,male,0,146
10,3,male,0,417
3,1,male,1,61


Pode ficar ainda melhor!

In [85]:
# Qual a porcentagem de pessoas que sobreviveram por classe?
(titanic
  .groupby(['sex', 'pclass'])
  .survived
  .value_counts(normalize=True)
)

sex     pclass  survived
female  1       1           0.965278
                0           0.034722
        2       1           0.886792
                0           0.113208
        3       0           0.506977
                1           0.493023
male    1       0           0.659218
                1           0.340782
        2       0           0.853801
                1           0.146199
        3       0           0.847561
                1           0.152439
Name: survived, dtype: float64

In [86]:
# Qual a porcentagem de pessoas que sobreviveram por classe?
(titanic
  .groupby(['sex', 'pclass'])
  .survived
  .value_counts(normalize=True)
  .apply(lambda x: f"{x*100:.2f}%")
)

sex     pclass  survived
female  1       1           96.53%
                0            3.47%
        2       1           88.68%
                0           11.32%
        3       0           50.70%
                1           49.30%
male    1       0           65.92%
                1           34.08%
        2       0           85.38%
                1           14.62%
        3       0           84.76%
                1           15.24%
Name: survived, dtype: object

In [97]:
# Quando realizamos o groupby estamos dividindo os dados em pequenos
# dataframes de acordo com o agrupamento
for i, g in titanic.groupby(['sex', 'pclass']):
  # print('grupo', i)
  display(g)
  break

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
6,1,1,"Andrews, Miss. Kornelia Theodosia",female,63.0,1,0,13502,77.9583,D7,S,10,,"Hudson, NY"
8,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",female,53.0,2,0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
311,1,1,"Wick, Mrs. George Dennick (Mary Hitchcock)",female,45.0,1,1,36928,164.8667,,S,8,,"Youngstown, OH"
314,1,1,"Widener, Mrs. George Dunton (Eleanor Elkins)",female,50.0,1,1,113503,211.5000,C80,C,4,,"Elkins Park, PA"
315,1,1,"Willard, Miss. Constance",female,21.0,0,0,113795,26.5500,,S,8 10,,"Duluth, MN"
319,1,1,"Wilson, Miss. Helen Alice",female,31.0,0,0,16966,134.5000,E39 E41,C,3,,


In [102]:

sobreviventes = (titanic
  .groupby(['sex', 'pclass'])
  .survived
  .value_counts()
)
sobreviventes = sobreviventes / titanic.shape[0]
sobreviventes.apply(lambda x: f"{x*100:.2f}%")

sex     pclass  survived
female  1       1           10.64%
                0            0.38%
        2       1            7.19%
                0            0.92%
        3       0            8.34%
                1            8.11%
male    1       0            9.03%
                1            4.67%
        2       0           11.17%
                1            1.91%
        3       0           31.91%
                1            5.74%
Name: survived, dtype: object

Não gostei! As vezes o 1 está em cima as vezes o 0 em cima, vamos organizar!

In [104]:
sobreviventes = sobreviventes * 100
sobreviventes = (
    sobreviventes.reset_index(name='Porcentagem')
    .sort_values(['sex', 'pclass', 'survived'])
)

In [105]:
sobreviventes

Unnamed: 0,sex,pclass,survived,Porcentagem
1,female,1,0,0.382555
0,female,1,1,10.635042
3,female,2,0,0.918133
2,female,2,1,7.192043
4,female,3,0,8.339709
5,female,3,1,8.110176
6,male,1,0,9.028309
7,male,1,1,4.667177
8,male,2,0,11.17062
9,male,2,1,1.912777


In [106]:
# Por fim, podemos verificar somente as mulheres
sobreviventes[sobreviventes['sex'] == 'female']

Unnamed: 0,sex,pclass,survived,Porcentagem
1,female,1,0,0.382555
0,female,1,1,10.635042
3,female,2,0,0.918133
2,female,2,1,7.192043
4,female,3,0,8.339709
5,female,3,1,8.110176


A análise de dados envolve sempre uma estória.

Qual a estória que queremos contar com os nossos dados?

## Pivot

In [107]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                   'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                        'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
df

Unnamed: 0,foo,bar,baz,zoo
0,one,A,1,x
1,one,B,2,y
2,one,C,3,z
3,two,A,4,q
4,two,B,5,w
5,two,C,6,t


In [109]:
df.pivot(index='foo', columns=['bar'], values='baz')

bar,A,B,C
foo,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
one,1,2,3
two,4,5,6


In [111]:
(sobreviventes
 .pivot(index=['survived'], columns=['pclass', 'sex']))

Unnamed: 0_level_0,Porcentagem,Porcentagem,Porcentagem,Porcentagem,Porcentagem,Porcentagem
pclass,1,2,3,1,2,3
sex,female,female,female,male,male,male
survived,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
0,0.382555,0.918133,8.339709,9.028309,11.17062,31.905126
1,10.635042,7.192043,8.110176,4.667177,1.912777,5.738332


In [120]:
sobreviventes

Unnamed: 0,sex,pclass,survived,Porcentagem
1,female,1,0,0.382555
0,female,1,1,10.635042
3,female,2,0,0.918133
2,female,2,1,7.192043
4,female,3,0,8.339709
5,female,3,1,8.110176
6,male,1,0,9.028309
7,male,1,1,4.667177
8,male,2,0,11.17062
9,male,2,1,1.912777


In [116]:
inter = (
    titanic
    .groupby(['pclass', 'sex'])
    .size()
    .reset_index(name='Porcentagem')
)
inter['survived'] = 'Total'

In [118]:
tabela_final = pd.concat([sobreviventes, inter], axis=0)

In [119]:
tabela_final.pivot(index=['survived'], columns=['pclass', 'sex'])

Unnamed: 0_level_0,Porcentagem,Porcentagem,Porcentagem,Porcentagem,Porcentagem,Porcentagem
pclass,1,2,3,1,2,3
sex,female,female,female,male,male,male
survived,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3,Unnamed: 5_level_3,Unnamed: 6_level_3
0,0.382555,0.918133,8.339709,9.028309,11.17062,31.905126
1,10.635042,7.192043,8.110176,4.667177,1.912777,5.738332
Total,144.0,106.0,215.0,179.0,171.0,492.0


## Avaliação até 20:50

In [122]:
df.dropna??