## Técnicas de Programação I - Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas - DataFrame


### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(42)
m = np.random.randint(-100, 100, (5, 3))
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [3]:
# Criando um DataFrame nomeando as colunas e indices
df_nome_linhas = pd.DataFrame(
    data = m, # Dados formato tabular
    index = ['obs1', 'obs2', 'obs3', 'obs4', 'obs5'], # Nomeando as linhas, opcional
    columns = ['variavel_1', 'variavel_2', 'variavel_3'] # Nomeando as colunas, opcional
)
df_nome_linhas

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [9]:
# Pegando apenas uma linha
df_nome_linhas.loc['obs3']
# ou
# df_nome_linhas.iloc[2]

variavel_1    88
variavel_2   -80
variavel_3     2
Name: obs3, dtype: int32

In [5]:
# Um valor específico
df_nome_linhas.loc['obs3', 'variavel_2']

-80

In [11]:
# Selecionando todas as linhas de uma dada coluna
# Retorna uma série
df_nome_linhas['variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int32

In [12]:
# Selecionando todas as linhas de uma dada coluna utilizando o .loc
df_nome_linhas.loc[:, 'variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int32

In [13]:
# Utilizando o iloc
df_nome_linhas.iloc[2, 1]

-80

In [14]:
# Podemos utilizar o loc ou iloc com listas
display(df_nome_linhas)

display(df_nome_linhas.loc[['obs1', 'obs3'], ['variavel_1', 'variavel_3']])

display(df_nome_linhas.iloc[[0, 2], [0, 1]])

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


Unnamed: 0,variavel_1,variavel_3
obs1,2,-8
obs3,88,2


Unnamed: 0,variavel_1,variavel_2
obs1,2,79
obs3,88,-80


In [17]:
# Número de colunas com o shape
print('colunas shape', df_nome_linhas.shape[1])
# Número de colunas com o len
print('colunas len de colunas: ', len(df_nome_linhas.columns))

colunas shape 3
colunas len de colunas:  3


In [19]:
# Número de linhas com shape
print('linhas shape', df_nome_linhas.shape[0])
# Com len
print('linhas len', len(df_nome_linhas))
# Ou
print('linhas len(index)',len(df_nome_linhas.index))

linhas shape 5
linhas len 5
linhas len(index) 5


In [20]:
df_nome_colunas = pd.DataFrame(m,
                              columns=['variavel_1', 'variavel_2', 'variavel_3'])

In [21]:
df_nome_colunas

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [22]:
# O dataframe parece um dict
df_nome_colunas.to_dict()

{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

In [23]:
for coluna, valores in df_nome_colunas.to_dict().items():
    print('Coluna', coluna)
    for idx, valor in valores.items():
        print('idx', idx, 'valor:', valor)
    print('-'*32)

Coluna variavel_1
idx 0 valor: 2
idx 1 valor: -86
idx 2 valor: 88
idx 3 valor: 21
idx 4 valor: 16
--------------------------------
Coluna variavel_2
idx 0 valor: 79
idx 1 valor: 6
idx 2 valor: -80
idx 3 valor: -26
idx 4 valor: -1
--------------------------------
Coluna variavel_3
idx 0 valor: -8
idx 1 valor: -29
idx 2 valor: 2
idx 3 valor: -13
idx 4 valor: 3
--------------------------------


In [25]:
df_nome_colunas.to_dict(orient='list')

{'variavel_1': [2, -86, 88, 21, 16],
 'variavel_2': [79, 6, -80, -26, -1],
 'variavel_3': [-8, -29, 2, -13, 3]}

In [32]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index')
for orient in orients:
    print(orient)
    display(df_nome_colunas.to_dict(orient=orient))
    print('-'*32)

dict


{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

--------------------------------
list


{'variavel_1': [2, -86, 88, 21, 16],
 'variavel_2': [79, 6, -80, -26, -1],
 'variavel_3': [-8, -29, 2, -13, 3]}

--------------------------------
series


{'variavel_1': 0     2
 1   -86
 2    88
 3    21
 4    16
 Name: variavel_1, dtype: int32,
 'variavel_2': 0    79
 1     6
 2   -80
 3   -26
 4    -1
 Name: variavel_2, dtype: int32,
 'variavel_3': 0    -8
 1   -29
 2     2
 3   -13
 4     3
 Name: variavel_3, dtype: int32}

--------------------------------
split


{'index': [0, 1, 2, 3, 4],
 'columns': ['variavel_1', 'variavel_2', 'variavel_3'],
 'data': [[2, 79, -8],
  [-86, 6, -29],
  [88, -80, 2],
  [21, -26, -13],
  [16, -1, 3]]}

--------------------------------
records


[{'variavel_1': 2, 'variavel_2': 79, 'variavel_3': -8},
 {'variavel_1': -86, 'variavel_2': 6, 'variavel_3': -29},
 {'variavel_1': 88, 'variavel_2': -80, 'variavel_3': 2},
 {'variavel_1': 21, 'variavel_2': -26, 'variavel_3': -13},
 {'variavel_1': 16, 'variavel_2': -1, 'variavel_3': 3}]

--------------------------------
index


{0: {'variavel_1': 2, 'variavel_2': 79, 'variavel_3': -8},
 1: {'variavel_1': -86, 'variavel_2': 6, 'variavel_3': -29},
 2: {'variavel_1': 88, 'variavel_2': -80, 'variavel_3': 2},
 3: {'variavel_1': 21, 'variavel_2': -26, 'variavel_3': -13},
 4: {'variavel_1': 16, 'variavel_2': -1, 'variavel_3': 3}}

--------------------------------


In [34]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index')
for orient in orients:
    print(orient)
    dicionario_dados = df_nome_colunas.to_dict(orient=orient)
    if orient == 'split':
        display(pd.DataFrame(**dicionario_dados))
    else:
        display(pd.DataFrame(dicionario_dados))
    print('-'*32)

dict


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
list


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
series


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
split


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
records


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
index


Unnamed: 0,0,1,2,3,4
variavel_1,2,-86,88,21,16
variavel_2,79,6,-80,-26,-1
variavel_3,-8,-29,2,-13,3


--------------------------------


In [36]:
df_nome_colunas_transposto = pd.DataFrame(dicionario_dados)
df_nome_colunas_transposto

Unnamed: 0,0,1,2,3,4
variavel_1,2,-86,88,21,16
variavel_2,79,6,-80,-26,-1
variavel_3,-8,-29,2,-13,3


In [39]:
# Uma forma rápida de transformar as colunas em linhas e as linhas em colunas
# É realizando a transposta da tabela, utilizando o 'T'
df_nome_colunas_transposto.T

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [50]:
def elementos(nome, idade, cidade, **kwargs):
    print(nome, idade, cidade)
    print(kwargs)

In [51]:
config = {
    'nome' : 'Fulano',
    'idade': 32,
    'cidade': 'SP',
    'Hobbies': 'LoL'
}

elementos(**config)

Fulano 32 SP
{'Hobbies': 'LoL'}


In [52]:
dict(
    nome = 'fulano',
    idade = 32
)

{'nome': 'fulano', 'idade': 32}

Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [53]:
dic = {
    'variavel_1': [2, 79, 78, 88],
    'variavel_2': [-86, 6, 78, 192],
    'variavel_3': [88, -80, 93, 24]
}

df_dic = pd.DataFrame(dic)
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,79,6,-80
2,78,78,93
3,88,192,24


In [54]:
# Podemos substituir um valor de uma célula
df_dic.loc[1, 'variavel_1'] = -1000
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-1000,6,-80
2,78,78,93
3,88,192,24


In [57]:
# Utilizando iloc
df_dic.iloc[1, 0] = -150
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-150,6,-80
2,78,78,93
3,88,192,24


Podemos fazer operações com as colunas, dado que elas são séries!

In [59]:
resultado = df_dic['variavel_1'] + 20
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,88
1,-150,6,-80
2,78,78,93
3,88,192,24


In [60]:
resultado

0     22
1   -130
2     98
3    108
Name: variavel_1, dtype: int64

In [None]:
# A partir de uma série

In [66]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 11, 30))
df_notas = pd.DataFrame(notas,columns=['nota'])
# Criando uma coluna nome
df_notas['nome'] = None

df_notas.loc[0: 9, 'nome'] = 'Maria'
df_notas.loc[10: 19,'nome'] = 'João'
df_notas.loc[20: , 'nome'] = 'José'

In [67]:
df_notas

Unnamed: 0,nota,nome
0,6,Maria
1,3,Maria
2,10,Maria
3,7,Maria
4,4,Maria
5,6,Maria
6,9,Maria
7,2,Maria
8,6,Maria
9,10,Maria


In [72]:
# Utilizando o apply
df_notas['e_aprovado'] = df_notas.nota.apply(lambda x: 'Aprovado' if x>5 else 'Reprovado')

In [73]:
df_notas

Unnamed: 0,nota,nome,e_aprovado
0,6,Maria,Aprovado
1,3,Maria,Reprovado
2,10,Maria,Aprovado
3,7,Maria,Aprovado
4,4,Maria,Reprovado
5,6,Maria,Aprovado
6,9,Maria,Aprovado
7,2,Maria,Reprovado
8,6,Maria,Aprovado
9,10,Maria,Aprovado


In [74]:
# Utilizando o apply sem passar o nome da colunae com axis = 0 (coluna)
# Conseguimos acessar os valores individuais de cada linha
# Como default, o axis é 0, <axis = 0>
df_notas.apply(lambda coluna: coluna.unique(), axis = 0)

nota          [6, 3, 10, 7, 4, 9, 2, 5, 1, 0, 8]
nome                         [Maria, João, José]
e_aprovado                 [Aprovado, Reprovado]
dtype: object

In [83]:
df_notas.apply(lambda linha: f"{linha['nota'] / 3:.2f} {linha['nome']}", axis = 1)

0     2.00 Maria
1     1.00 Maria
2     3.33 Maria
3     2.33 Maria
4     1.33 Maria
5     2.00 Maria
6     3.00 Maria
7     0.67 Maria
8     2.00 Maria
9     3.33 Maria
10     3.33 João
11     2.33 João
12     1.33 João
13     1.00 João
14     2.33 João
15     2.33 João
16     0.67 João
17     1.67 João
18     1.33 João
19     0.33 João
20     2.33 José
21     1.67 José
22     0.33 José
23     1.33 José
24     0.00 José
25     3.00 José
26     1.67 José
27     2.67 José
28     0.00 José
29     3.33 José
dtype: object

In [85]:
# O get permite que lidemos com uma coluna não existente 
df_notas.get('Classe', default='Não tem essa coluna')

'Não tem essa coluna'

In [98]:
data = pd.DataFrame(np.random.randint(0, 10, (3,3)), columns = ['ativo1','ativo2', 'ativo3'])
data


Unnamed: 0,ativo1,ativo2,ativo3
0,9,4,1
1,3,6,7
2,2,0,3


In [90]:
def transforma_porcentagem(n):
    return n * 100

# quando temos que aplicar uma função para todos os elementos da tabela
# utilizamos apply
data.apply(transforma_porcentagem)

Unnamed: 0,ativo1,ativo2,ativo3
0,900,200,600
1,300,800,200
2,400,200,600


**Aplicando o Apply em colunas selecionadas**

In [99]:
colunas = ['ativo2', 'ativo3']
for col in colunas:
    data[col] = data.apply(lambda linha: transforma_porcentagem(linha[col]), 1)

data

Unnamed: 0,ativo1,ativo2,ativo3
0,9,400,100
1,3,600,700
2,2,0,300


In [101]:
df_notas['e_aprovado_bool'] = df_notas['nota'] > 5

df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool
0,6,Maria,Aprovado,True
1,3,Maria,Reprovado,False
2,10,Maria,Aprovado,True
3,7,Maria,Aprovado,True
4,4,Maria,Reprovado,False
5,6,Maria,Aprovado,True
6,9,Maria,Aprovado,True
7,2,Maria,Reprovado,False
8,6,Maria,Aprovado,True
9,10,Maria,Aprovado,True


In [102]:
df_notas['x'] = np.random.randint(0, 20, 30)

In [103]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x
0,6,Maria,Aprovado,True,17
1,3,Maria,Reprovado,False,7
2,10,Maria,Aprovado,True,3
3,7,Maria,Aprovado,True,1
4,4,Maria,Reprovado,False,5
5,6,Maria,Aprovado,True,9
6,9,Maria,Aprovado,True,3
7,2,Maria,Reprovado,False,17
8,6,Maria,Aprovado,True,11
9,10,Maria,Aprovado,True,1


In [107]:
# Quando passamos um vetor/lista/array/serie precisamos do mesmo número de linhas
# do que no dataframe original
df_notas['y'] = np.random.randint(0, 20, 25)

In [108]:
lista_numero_com_nan = (list(np.random.randint(0, 20, 10)) 
+ [np.nan, np.nan]  
+ list(np.random.randint(0, 20, 10))
+ [np.nan, np.nan, np.nan]
+ list(np.random.randint(0, 20, 5)))

In [109]:
df_notas['y'] = lista_numero_com_nan

In [110]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
2,10,Maria,Aprovado,True,3,5.0
3,7,Maria,Aprovado,True,1,11.0
4,4,Maria,Reprovado,False,5,11.0
5,6,Maria,Aprovado,True,9,19.0
6,9,Maria,Aprovado,True,3,10.0
7,2,Maria,Reprovado,False,17,6.0
8,6,Maria,Aprovado,True,11,0.0
9,10,Maria,Aprovado,True,1,0.0


In [111]:
# Quando utilizamos o 'DataFrame.max' ignoramos os 'NaNs
df_notas['y'].max()

19.0

In [112]:
# Obtendo a soma
# Ignorando os NaNs
df_notas['y'].sum()

214.0

In [113]:
# Obtendo a média
df_notas['y'].sum() / df_notas.shape[0]

7.133333333333334

In [114]:
# O 'mean' desconsidera os NaNs (Not a Number) eliminando da população
df_notas['y'].mean()

8.56

In [116]:
df_notas['y'].sum() /25

8.56

**Tratando valores faltantes (`NaN`)**

In [117]:
df_notas_bkp = df_notas.copy() #Criando uma cópia segura uehaue

In [118]:
# Contando o número de nulos
df_notas.isnull()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
5,False,False,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,False
8,False,False,False,False,False,False
9,False,False,False,False,False,False


In [120]:
# Somando por coluna
df_notas.isnull().sum()

nota               0
nome               0
e_aprovado         0
e_aprovado_bool    0
x                  0
y                  5
dtype: int64

In [126]:
# Preenchendo os valores faltantes com '0'
df_notas = df_notas_bkp.copy()
df_notas['y'] = df_notas['y'].fillna(-10)
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
2,10,Maria,Aprovado,True,3,5.0
3,7,Maria,Aprovado,True,1,11.0
4,4,Maria,Reprovado,False,5,11.0
5,6,Maria,Aprovado,True,9,19.0
6,9,Maria,Aprovado,True,3,10.0
7,2,Maria,Reprovado,False,17,6.0
8,6,Maria,Aprovado,True,11,0.0
9,10,Maria,Aprovado,True,1,0.0


In [131]:
# Preenchendo os valores faltantes com a média
df_notas = df_notas_bkp.copy()
media_y = df_notas['y'].mean()
df_notas['y'] = df_notas['y'].fillna(media_y)
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
2,10,Maria,Aprovado,True,3,5.0
3,7,Maria,Aprovado,True,1,11.0
4,4,Maria,Reprovado,False,5,11.0
5,6,Maria,Aprovado,True,9,19.0
6,9,Maria,Aprovado,True,3,10.0
7,2,Maria,Reprovado,False,17,6.0
8,6,Maria,Aprovado,True,11,0.0
9,10,Maria,Aprovado,True,1,0.0


**Somando colunas**

In [138]:
df = df_notas[['x', 'y']].copy()

In [139]:
df

Unnamed: 0,x,y
0,17,9.0
1,7,12.0
2,3,5.0
3,1,11.0
4,5,11.0
5,9,19.0
6,3,10.0
7,17,6.0
8,11,0.0
9,1,0.0


In [140]:
# Criando uma nova coluna utilizando o loc
df.loc[:, 'soma_x_y'] = df['x'] + df['y']

In [141]:
df

Unnamed: 0,x,y,soma_x_y
0,17,9.0,26.0
1,7,12.0,19.0
2,3,5.0,8.0
3,1,11.0,12.0
4,5,11.0,16.0
5,9,19.0,28.0
6,3,10.0,13.0
7,17,6.0,23.0
8,11,0.0,11.0
9,1,0.0,1.0


In [142]:
# "recortando" e somando por linha
df[['x', 'y']].sum(axis=1)

0     26.00
1     19.00
2      8.00
3     12.00
4     16.00
5     28.00
6     13.00
7     23.00
8     11.00
9      1.00
10    17.56
11    11.56
12    32.00
13    27.00
14    22.00
15     9.00
16    19.00
17    12.00
18    22.00
19    20.00
20    21.00
21    14.00
22    20.56
23    16.56
24    22.56
25    30.00
26     9.00
27    17.00
28    22.00
29     8.00
dtype: float64

Excluindo uma coluna

In [143]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
2,10,Maria,Aprovado,True,3,5.0
3,7,Maria,Aprovado,True,1,11.0
4,4,Maria,Reprovado,False,5,11.0


In [144]:
df_notas2 = df_notas[['nota', 'e_aprovado', 'x']]

In [145]:
df_notas2.head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,17
1,3,Reprovado,7
2,10,Aprovado,3
3,7,Aprovado,1
4,4,Reprovado,5


In [146]:
# Excluindo colunas com o 'Drop'
df_notas3 = df_notas.drop(columns = ['nome', 'e_aprovado_bool', 'y'])

In [147]:
df_notas3.head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,17
1,3,Reprovado,7
2,10,Aprovado,3
3,7,Aprovado,1
4,4,Reprovado,5


In [148]:
df_nota_bkp = df_notas.copy()

In [149]:
def exclui_colunas(df, colunas):
    df = df.copy()
    df = df.drop(columns = colunas)
    return df

In [150]:
exclui_colunas(df_notas, colunas = ['nome', 'e_aprovado_bool', 'y'])

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,17
1,3,Reprovado,7
2,10,Aprovado,3
3,7,Aprovado,1
4,4,Reprovado,5
5,6,Aprovado,9
6,9,Aprovado,3
7,2,Reprovado,17
8,6,Aprovado,11
9,10,Aprovado,1


Como o dataframe é um conjunto de séries, também podemos fazer filtros!

In [151]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
2,10,Maria,Aprovado,True,3,5.0
3,7,Maria,Aprovado,True,1,11.0
4,4,Maria,Reprovado,False,5,11.0


In [152]:
df_notas[df_notas.nota > 5]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
2,10,Maria,Aprovado,True,3,5.0
3,7,Maria,Aprovado,True,1,11.0
5,6,Maria,Aprovado,True,9,19.0
6,9,Maria,Aprovado,True,3,10.0
8,6,Maria,Aprovado,True,11,0.0
9,10,Maria,Aprovado,True,1,0.0
10,10,João,Aprovado,True,9,8.56
11,7,João,Aprovado,True,3,8.56
14,7,João,Aprovado,True,14,8.0


In [153]:
df_notas[(df_notas.nota > 5) & (df_notas.nota < 8)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
3,7,Maria,Aprovado,True,1,11.0
5,6,Maria,Aprovado,True,9,19.0
8,6,Maria,Aprovado,True,11,0.0
11,7,João,Aprovado,True,3,8.56
14,7,João,Aprovado,True,14,8.0
15,7,João,Aprovado,True,7,2.0
20,7,José,Aprovado,True,17,4.0


In [154]:
# retorna valores dentro de uma lista
# O 'isin' é similar a sintaxe 'pera' in ['banana','pera', 'maça']
df_notas[df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
1,3,Maria,Reprovado,False,7,12.0
3,7,Maria,Aprovado,True,1,11.0
11,7,João,Aprovado,True,3,8.56
13,3,João,Reprovado,False,15,12.0
14,7,João,Aprovado,True,14,8.0
15,7,João,Aprovado,True,7,2.0
17,5,João,Reprovado,False,7,5.0
20,7,José,Aprovado,True,17,4.0
21,5,José,Reprovado,False,14,0.0
26,5,José,Reprovado,False,0,9.0


In [155]:
# Negação de notas 
df_notas[~df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
2,10,Maria,Aprovado,True,3,5.0
4,4,Maria,Reprovado,False,5,11.0
5,6,Maria,Aprovado,True,9,19.0
6,9,Maria,Aprovado,True,3,10.0
7,2,Maria,Reprovado,False,17,6.0
8,6,Maria,Aprovado,True,11,0.0
9,10,Maria,Aprovado,True,1,0.0
10,10,João,Aprovado,True,9,8.56
12,4,João,Reprovado,False,13,19.0


In [156]:
df_notas[df_notas.nota.between(3, 7)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
3,7,Maria,Aprovado,True,1,11.0
4,4,Maria,Reprovado,False,5,11.0
5,6,Maria,Aprovado,True,9,19.0
8,6,Maria,Aprovado,True,11,0.0
11,7,João,Aprovado,True,3,8.56
12,4,João,Reprovado,False,13,19.0
13,3,João,Reprovado,False,15,12.0
14,7,João,Aprovado,True,14,8.0


In [None]:
# Setando o índice a partir de uma coluna
# <DataFrame>

In [None]:
df_notas_nome = df

Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [None]:
# Resetando os indices
# <DataFrame = Data_frame.reset_index()>
df_notas_nome_resetado = df_notas_nome.reset_index()

Alterando o nome de colunas

In [162]:
df_notas = df_notas.rename(columns = {
    'e_aprovado': 'Está Aprovado?',
    'x': 'Numero x'
})

df_notas.head(3)

Unnamed: 0,nota,nome,Está Aprovado?,e_aprovado_bool,Numero x,y
0,6,Maria,Aprovado,True,17,9.0
1,3,Maria,Reprovado,False,7,12.0
2,10,Maria,Aprovado,True,3,5.0


In [163]:
# Renomeando  as colunas 
colunas = ['nota', 'nome', 'e_aprovado', 'e_aprovado_bool', 'x', 'y']
df_notas.columns = colunas

In [160]:
colunas = ['nota', 'nome', 'e_aprovado', 'e_aprovado_bool', 'col_num_1', 'x', 'y']
df_notas.columns = colunas
df_notas.head(3)

ValueError: Length mismatch: Expected axis has 6 elements, new values have 7 elements

Ordenando os valores

In [164]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values('nota').head()

Unnamed: 0,nome,nota,y,x
24,José,0,8.56,14
28,José,0,14.0,8
22,José,1,8.56,12
19,João,1,8.0,12
16,João,2,6.0,13


In [165]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values(['nota', 'x', 'y'])

Unnamed: 0,nome,nota,y,x
28,José,0,14.0,8
24,José,0,8.56,14
19,João,1,8.0,12
22,José,1,8.56,12
16,João,2,6.0,13
7,Maria,2,6.0,17
1,Maria,3,12.0,7
13,João,3,12.0,15
4,Maria,4,11.0,5
23,José,4,8.56,8


#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [166]:
df1 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df2 = pd.DataFrame(
                    {
                        'B': [1,2,3],
                        'C': [4,5,6],
                        'D': [7,8,9]
                    })
display(df1)
display(df2)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9


In [172]:
df3 = pd.concat([df1, df2], axis = 0)
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0


In [173]:
df3.loc[0]

Unnamed: 0,A,B,C,D
0,1.0,4,7,
0,,1,4,7.0


In [174]:
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
3,,1,4,7.0
4,,2,5,8.0
5,,3,6,9.0


In [175]:
df3.loc[0]

A    1.0
B    4.0
C    7.0
D    NaN
Name: 0, dtype: float64

In [176]:
df4 = pd.concat([df1, df2], axis = 1)
df4

Unnamed: 0,A,B,C,B.1,C.1,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [177]:
df4['A']

0    1
1    2
2    3
Name: A, dtype: int64

In [178]:
df4['B']

Unnamed: 0,B,B.1
0,4,1
1,5,2
2,6,3


In [179]:
# Usando list comprehension para renomear as colunas de forma a saber de onde vieram
df1.columns = [f"{col}_df1" for col in df1.columns]
df1

Unnamed: 0,A_df1,B_df1,C_df1
0,1,4,7
1,2,5,8
2,3,6,9


In [180]:
pd.concat([df1, df2], axis = 1)

Unnamed: 0,A_df1,B_df1,C_df1,B,C,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [181]:
df5 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df6 = pd.DataFrame(
                    {
                        'B': [1,2,3,6],
                        'C': [4,5,6,9],
                        'D': [7,8,9,10]
                    })

In [182]:
pd.concat([df5, df6], axis = 0)

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0
3,,6,9,10.0


In [183]:
pd.concat([df5, df6], axis = 1)

Unnamed: 0,A,B,C,B.1,C.1,D
0,1.0,4.0,7.0,1,4,7
1,2.0,5.0,8.0,2,5,8
2,3.0,6.0,9.0,3,6,9
3,,,,6,9,10


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [184]:
df3 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})
df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})
display(df3)
display(df4)

Unnamed: 0,Paises,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Paises,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [186]:
# Cruzando dados da coluna 'Paises' com modo 'inner' 
# Seleção dos elementos em comum 
df3.merge(df4, how = 'inner', on = 'Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1,3
1,Pt,2,4,2,4


In [188]:
# Left join
# A tabela da esquerda é a df3
df3.merge(df4, how = 'left', on = 'Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [189]:
# Right Join 
df3.merge(df4, how = 'right', on = 'Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1,3
1,Pt,2.0,4.0,2,4
2,Py,,,3,5


In [190]:
df3 = pd.DataFrame({
    'Country': ['Br','Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [191]:
# Colunas que representam o mesmo tipo de valor (países/country)
# Precisamos passar o nome como 'left_on', 'right_on'
df3.merge(df4, how = 'left', left_on=['Country'], right_on=['Paises'])

Unnamed: 0,Country,valor1,valor2,Paises,valor3,valor4
0,Br,1,3,Br,1.0,3.0
1,Pt,2,4,Pt,2.0,4.0
2,It,3,5,,,


In [192]:
df4 = df4.rename(columns = {'Paises': 'Country'})

In [193]:
display(df3)
display(df4)

Unnamed: 0,Country,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Country,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [194]:
df3.merge(df4, how='left', on = ['Country'])

Unnamed: 0,Country,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [195]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','Maria', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [207]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Dadinho,Deus,3,5


In [197]:
# Caso queira passar uma coleção de valores, passe uma lista
df3.merge(df4, on = ['nome', 'sobrenome'], how = 'inner')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [198]:
df3.merge(df4, left_on = ['nome', 'sobrenome'], right_on = ['nome', 'sobrenome'], how = 'inner')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [199]:
# Utilizando o join
# Juntamos os valores pelos índices
# Colocando um suffixo nos valores repetidos 
df3.join(df4, lsuffix='_df3', rsuffix='_df4')

Unnamed: 0,nome_df3,sobrenome_df3,valor1,valor2,nome_df4,sobrenome_df4,valor3,valor4
0,João,Silva,1,3,João,Silva,1,3
1,Maria,Alencar,2,4,Maria,Alencar,2,4
2,Edu,Deus,3,5,Dadinho,Deus,3,5


In [208]:
# Definindo o nome como indice
df3_nome = df3.set_index('nome')
df4_nome = df4.set_index('nome')

In [209]:
display(df3_nome)
display(df4_nome)

Unnamed: 0_level_0,sobrenome,valor1,valor2
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Edu,Deus,3,5


Unnamed: 0_level_0,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Dadinho,Deus,3,5


In [210]:
df3_nome.join(df4_nome, lsuffix='_df3', rsuffix='_df4')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome_df4,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1.0,3.0
Maria,Alencar,2,4,Alencar,2.0,4.0
Edu,Deus,3,5,,,


In [None]:
#

In [212]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','João', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [213]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,João,Alencar,2,4
2,Dadinho,Deus,3,5


In [218]:
# Efeito multiplicativo de merge
# Note o nome 'João' aparece em duas linhas
df3.merge(df4, on = 'nome', how = 'left')

Unnamed: 0,nome,sobrenome_x,valor1,valor2,sobrenome_y,valor3,valor4
0,João,Silva,1,3,Silva,1.0,3.0
1,João,Silva,1,3,Alencar,2.0,4.0
2,Maria,Alencar,2,4,,,
3,Edu,Deus,3,5,,,


In [219]:
# Evitando o efeito multiplicativo
df3.merge(df4, on=['nome', 'sobrenome'], how = 'left')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1.0,3.0
1,Maria,Alencar,2,4,,
2,Edu,Deus,3,5,,


### Transformações de dados

#### GroupBy

In [223]:
titanic = pd.read_csv('./datasets/titanic_completa_oficial.csv')

Antes de inicializar qualquer análise há alguns passos importantes
- 1-) Olhe os dados!!!
- 2-) Verifique o tipo de dados
- 3-) Verifique se há dados faltantes
- 4-) Faça uma análise estatística descritiva

In [224]:
# Olhando os dados
titanic.head(2)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"


In [225]:
# Verificando o tipo de dados
# Observe:
# - O tipo era o esperado? Se há somente números, e termos um tipo `object`
#   Não seria melhor transformar a coluna em númerico?
# - Quantos dados são categóricos
# - Quantos dados númericos eu tenho?
# - O que caracteriza o meu dados? Qual o identificador (chave) -> Pense que o `id` ou `nome sobrenome` pode ser um indicativo
titanic.dtypes

pclass        int64
survived      int64
name         object
sex          object
age          object
sibsp         int64
parch         int64
ticket       object
fare         object
cabin        object
embarked     object
boat         object
body         object
home.dest    object
dtype: object

In [226]:
# Temos dados faltantes?
titanic.isnull().sum()

pclass       0
survived     0
name         0
sex          0
age          0
sibsp        0
parch        0
ticket       0
fare         0
cabin        0
embarked     0
boat         0
body         0
home.dest    0
dtype: int64

In [227]:
titanic.head(3)

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"


In [228]:
# Observei que temos o '?'
# Vamos tratar o '?' como NaN
titanic = titanic.replace({'?':np.nan})
titanic.isnull().sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

In [229]:
titanic.fare.unique()

array(['211.3375', '151.55', '26.55', '77.9583', '0', '51.4792',
       '49.5042', '227.525', '69.3', '78.85', '30', '25.925', '247.5208',
       '76.2917', '75.2417', '52.5542', '221.7792', '26', '91.0792',
       '135.6333', '35.5', '31', '164.8667', '262.375', '55', '30.5',
       '50.4958', '39.6', '27.7208', '134.5', '26.2875', '27.4458',
       '512.3292', '5', '47.1', '120', '61.175', '53.1', '86.5', '29.7',
       '136.7792', '52', '25.5875', '83.1583', '25.7', '71', '71.2833',
       '57', '81.8583', '106.425', '56.9292', '78.2667', '31.6792',
       '31.6833', '110.8833', '26.3875', '27.75', '263', '133.65', '49.5',
       '79.2', '38.5', '211.5', '59.4', '89.1042', '34.6542', '28.5',
       '153.4625', '63.3583', '55.4417', '76.7292', '42.4', '83.475',
       '93.5', '42.5', '51.8625', '50', '57.9792', '90', '30.6958', '80',
       '28.7125', '25.9292', '39.4', '45.5', '146.5208', '82.1708',
       '57.75', '113.275', '26.2833', '108.9', '25.7417', '61.9792',
       '66.6', 

Agora temos muitos dados faltantes!
Principalmente:
- Idade
- Cabine
- Se embarcou ou não
- Barco
- Corpo (muitos não foram achados)
- Destino final

In [232]:
# Vamos transformar algumas colunas em númericas!
for col in ['age', 'fare']:
    titanic[col] = titanic[col].astype(float)

In [233]:
titanic.dtypes

pclass         int64
survived       int64
name          object
sex           object
age          float64
sibsp          int64
parch          int64
ticket        object
fare         float64
cabin         object
embarked      object
boat          object
body          object
home.dest     object
dtype: object

Observe que temos dois nomes duplicados!  
Vamos voltar para a tabela original!

**Dados limpos!**

Podemos começar a analisar

**Podemos melhorar?**

Na análise de dados a forma que mostramos os dados fazem muita diferença!

Pode ficar ainda melhor!

Não gostei! As vezes o 1 está em cima as vezes o 0 em cima, vamos organizar!

A análise de dados envolve sempre uma estória.

Qual a estória que queremos contar com os nossos dados?

## Pivot

In [None]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                   'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                        'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
df