## Técnicas de Programação I - Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas - DataFrame


### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [1]:
import numpy as np
import pandas as pd

In [2]:
np.random.seed(42)
m = np.random.randint(-100, 100, (5, 3))
pd.DataFrame(m)

Unnamed: 0,0,1,2
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [3]:
# Criando um DataFrame nomeando as colunas e os indices
df_nomes_linhas = pd.DataFrame(
    m,
    index=['obs1', 'obs2', 'obs3', 'obs4', 'obs5'],
    columns=['variavel_1', 'variavel_2', 'variavel_3']
)
df_nomes_linhas

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


In [4]:
# Pegando apenas uma linha
display(df_nomes_linhas.loc['obs3'])
print('-'*21)
# Ou
display(df_nomes_linhas.iloc[2])

variavel_1    88
variavel_2   -80
variavel_3     2
Name: obs3, dtype: int64

---------------------


variavel_1    88
variavel_2   -80
variavel_3     2
Name: obs3, dtype: int64

In [5]:
# Um valor especifico
df_nomes_linhas.loc['obs3', 'variavel_2']

-80

In [6]:
# Selecionar todas as linhas de uma dada coluna
# Retorna uma série
df_nomes_linhas['variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [7]:
# Selecionando todas as linhas de uma dada coluna utilizando o `.loc`
df_nomes_linhas.loc[ : , 'variavel_2']

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [8]:
# Utilizando o iloc, passamos o indice da coluna
df_nomes_linhas.iloc[ : , 1]

obs1    79
obs2     6
obs3   -80
obs4   -26
obs5    -1
Name: variavel_2, dtype: int64

In [9]:
# Podemos utilizar o loc ou iloc com listas
display(df_nomes_linhas)
print('-'*32)

# Passando uma lista de linhas e uma lista de colunas
display(df_nomes_linhas.loc[['obs1', 'obs3'], ['variavel_1', 'variavel_3']])
print('-'*32)

display(df_nomes_linhas.iloc[[0, 2], [0, 2]])

Unnamed: 0,variavel_1,variavel_2,variavel_3
obs1,2,79,-8
obs2,-86,6,-29
obs3,88,-80,2
obs4,21,-26,-13
obs5,16,-1,3


--------------------------------


Unnamed: 0,variavel_1,variavel_3
obs1,2,-8
obs3,88,2


--------------------------------


Unnamed: 0,variavel_1,variavel_3
obs1,2,-8
obs3,88,2


In [10]:
# Número de linhas com o shape
print(df_nomes_linhas.shape[0])
print('-'*32)

# Utilizando o len
print(len(df_nomes_linhas))
print('-'*32)

# Utilizando o len do index
print(len(df_nomes_linhas.index))

5
--------------------------------
5
--------------------------------
5


In [11]:
# Número de colunas com o shape
print(df_nomes_linhas.shape[1])
print('-'*32)

# Com o len
print(len(df_nomes_linhas.columns))

3
--------------------------------
3


In [12]:
df_nomes = pd.DataFrame(m,
                        columns=['variavel_1', 'variavel_2', 'variavel_3'])
df_nomes

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


In [13]:
# O dataframe parece um dict
df_nomes.to_dict()

{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

In [14]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index')

for orient in orients:
  print(orient)
  display(df_nomes.to_dict(orient=orient))
  print('-'*32)

dict


{'variavel_1': {0: 2, 1: -86, 2: 88, 3: 21, 4: 16},
 'variavel_2': {0: 79, 1: 6, 2: -80, 3: -26, 4: -1},
 'variavel_3': {0: -8, 1: -29, 2: 2, 3: -13, 4: 3}}

--------------------------------
list


{'variavel_1': [2, -86, 88, 21, 16],
 'variavel_2': [79, 6, -80, -26, -1],
 'variavel_3': [-8, -29, 2, -13, 3]}

--------------------------------
series


{'variavel_1': 0     2
 1   -86
 2    88
 3    21
 4    16
 Name: variavel_1, dtype: int64,
 'variavel_2': 0    79
 1     6
 2   -80
 3   -26
 4    -1
 Name: variavel_2, dtype: int64,
 'variavel_3': 0    -8
 1   -29
 2     2
 3   -13
 4     3
 Name: variavel_3, dtype: int64}

--------------------------------
split


{'index': [0, 1, 2, 3, 4],
 'columns': ['variavel_1', 'variavel_2', 'variavel_3'],
 'data': [[2, 79, -8],
  [-86, 6, -29],
  [88, -80, 2],
  [21, -26, -13],
  [16, -1, 3]]}

--------------------------------
records


[{'variavel_1': 2, 'variavel_2': 79, 'variavel_3': -8},
 {'variavel_1': -86, 'variavel_2': 6, 'variavel_3': -29},
 {'variavel_1': 88, 'variavel_2': -80, 'variavel_3': 2},
 {'variavel_1': 21, 'variavel_2': -26, 'variavel_3': -13},
 {'variavel_1': 16, 'variavel_2': -1, 'variavel_3': 3}]

--------------------------------
index


{0: {'variavel_1': 2, 'variavel_2': 79, 'variavel_3': -8},
 1: {'variavel_1': -86, 'variavel_2': 6, 'variavel_3': -29},
 2: {'variavel_1': 88, 'variavel_2': -80, 'variavel_3': 2},
 3: {'variavel_1': 21, 'variavel_2': -26, 'variavel_3': -13},
 4: {'variavel_1': 16, 'variavel_2': -1, 'variavel_3': 3}}

--------------------------------


In [15]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index')

for orient in orients:
  print(orient)
  dados_em_dict = df_nomes.to_dict(orient=orient)
  if orient == 'split':
    display(pd.DataFrame(**dados_em_dict))
  elif orient == 'index':
    display(pd.DataFrame(dados_em_dict).T)
  else:
    display(pd.DataFrame(dados_em_dict))
  print('-'*32)


dict


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
list


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
series


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
split


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
records


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------
index


Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,79,-8
1,-86,6,-29
2,88,-80,2
3,21,-26,-13
4,16,-1,3


--------------------------------


Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [16]:
dic = {
    'variavel_1': [2, 79, 78, 88],
    'variavel_2': [-86, 6, 78, 192],
    'variavel_3': [-71, 57, 47, 24],
}

df_dic = pd.DataFrame(dic)
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,-71
1,79,6,57
2,78,78,47
3,88,192,24


In [17]:
# Podemos substituir um valor de uma célula
df_dic.loc[1, 'variavel_1'] = -100
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,-71
1,-100,6,57
2,78,78,47
3,88,192,24


In [18]:
# Utilizando o iloc
df_dic.iloc[1, 0] = -300
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3
0,2,-86,-71
1,-300,6,57
2,78,78,47
3,88,192,24


Podemos fazer operações com as colunas, dado que elas são séries!

In [19]:
resultado = df_dic['variavel_1'] + 20

In [20]:
resultado

0     22
1   -280
2     98
3    108
Name: variavel_1, dtype: int64

In [21]:
# Adicionando uma coluna com resultado
df_dic['resultado'] = df_dic['variavel_1'] + 20

In [22]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3,resultado
0,2,-86,-71,22
1,-300,6,57,-280
2,78,78,47,98
3,88,192,24,108


In [23]:
df_dic['resultado2'] = resultado

In [24]:
df_dic

Unnamed: 0,variavel_1,variavel_2,variavel_3,resultado,resultado2
0,2,-86,-71,22,22
1,-300,6,57,-280,-280
2,78,78,47,98,98
3,88,192,24,108,108


In [25]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 10, 30))
df_notas = pd.DataFrame(notas, columns=['nota'])
# Criando uma coluna `nome` com None (constante)
df_notas['nome'] = None

# Adicionar valores por intervalos
df_notas.loc[0:9, 'nome'] = 'Maria'
df_notas.loc[10:19, 'nome'] = 'João'
df_notas.loc[20:, 'nome'] = 'José'
display(df_notas.head(5))
display(df_notas.tail(5))

Unnamed: 0,nota,nome
0,6,Maria
1,3,Maria
2,7,Maria
3,4,Maria
4,6,Maria


Unnamed: 0,nota,nome
25,0,José
26,9,José
27,2,José
28,6,José
29,3,José


In [26]:
df_notas['e_aprovado'] = df_notas.nota.apply(lambda nota: 'Aprovado' if nota >= 5 else 'Reprovado')
df_notas

Unnamed: 0,nota,nome,e_aprovado
0,6,Maria,Aprovado
1,3,Maria,Reprovado
2,7,Maria,Aprovado
3,4,Maria,Reprovado
4,6,Maria,Aprovado
5,9,Maria,Aprovado
6,2,Maria,Reprovado
7,6,Maria,Aprovado
8,7,Maria,Aprovado
9,4,Maria,Reprovado


In [27]:
# Utilizando o apply sem passar o nome da coluna
# estamos utilizando o axis=0
# Conseguimos acessar os valores individuais de cada coluna
df_notas.apply(lambda coluna: coluna.unique())

nota          [6, 3, 7, 4, 9, 2, 5, 1, 0, 8]
nome                     [Maria, João, José]
e_aprovado             [Aprovado, Reprovado]
dtype: object

In [28]:
# Utilizando o apply sem passar o nome da coluna
# e utilizando o axis=1
# Conseguimos acessar os valores individuais de cada linha
# utilizamos a anotação `linha[<nome_coluna>] (ou `linha.<nome_coluna>`) para pegar o valor da célula
df_notas.apply(lambda linha: str(linha['nota']) + linha['nome'], axis=1)

0     6Maria
1     3Maria
2     7Maria
3     4Maria
4     6Maria
5     9Maria
6     2Maria
7     6Maria
8     7Maria
9     4Maria
10     3João
11     7João
12     7João
13     2João
14     5João
15     4João
16     1João
17     7João
18     5João
19     1João
20     4José
21     0José
22     9José
23     5José
24     8José
25     0José
26     9José
27     2José
28     6José
29     3José
dtype: object

In [29]:
# Assim como nos dicionários temos o `get`
# Qual vantagem do get?
df_notas.get('nota')

0     6
1     3
2     7
3     4
4     6
5     9
6     2
7     6
8     7
9     4
10    3
11    7
12    7
13    2
14    5
15    4
16    1
17    7
18    5
19    1
20    4
21    0
22    9
23    5
24    8
25    0
26    9
27    2
28    6
29    3
Name: nota, dtype: int64

In [30]:
# Sem o get se a coluna não existir é levantado um erro de chave
df_notas['sobrenome']

KeyError: ignored

In [31]:
# Com o get não ocorre erro e retorna None
df_notas.get('sobrenome')

In [32]:
df_notas['e_aprovado_bool'] = df_notas['nota'] >= 5

In [33]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool
0,6,Maria,Aprovado,True
1,3,Maria,Reprovado,False
2,7,Maria,Aprovado,True
3,4,Maria,Reprovado,False
4,6,Maria,Aprovado,True
5,9,Maria,Aprovado,True
6,2,Maria,Reprovado,False
7,6,Maria,Aprovado,True
8,7,Maria,Aprovado,True
9,4,Maria,Reprovado,False


In [34]:
# Precisamos de 30 valores
df_notas['x'] = np.random.randint(0, 20, 30)

In [35]:
# Quando passamos um vetor/lista/array/serie
# precisamos passar o mesmo número de linhas do dataframe original
df_notas['y'] = np.random.randint(0, 20, 25)

ValueError: ignored

In [36]:
lista_numero_com_nan = (list(np.random.randint(0, 20, 10)) +
                        [np.nan, np.nan] +
                        list(np.random.randint(0, 20, 10)) +
                        [np.nan, np.nan, np.nan] +
                        list(np.random.randint(0, 20, 5))
                        )

In [37]:
df_notas['y'] = lista_numero_com_nan

In [38]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0
5,9,Maria,Aprovado,True,6,0.0
6,2,Maria,Reprovado,False,17,4.0
7,6,Maria,Aprovado,True,3,9.0
8,7,Maria,Aprovado,True,13,6.0
9,4,Maria,Reprovado,False,17,8.0


In [39]:
df_notas['y'].max()

18.0

In [40]:
df_notas['y'].sum()

152.0

In [41]:
df_notas['y'].sum() / 30

5.066666666666666

In [42]:
# O mean desconsidera os NaNs (Not a Number), eliminando da população
df_notas['y'].mean()

6.08

In [43]:
df_notas.y.sum() / 25

6.08

**Tratando valores faltantes (`NaN`)**

In [44]:
df_notas_bkp = df_notas.copy()

In [45]:
# Contando o número de nulos
df_notas.isnull().sum()

nota               0
nome               0
e_aprovado         0
e_aprovado_bool    0
x                  0
y                  5
dtype: int64

In [46]:
# Preenchendo os valores faltantes com zero
# O `fillna(<valor>)`
df_notas['y'] = df_notas['y'].fillna(0)

In [47]:
# preenchemos os dados faltantes
df_notas.isnull().sum()

nota               0
nome               0
e_aprovado         0
e_aprovado_bool    0
x                  0
y                  0
dtype: int64

In [48]:
df_notas.y.mean()

5.066666666666666

In [49]:
# Preenchendo os valores faltantes com -10
# Um método bem comum de indicar categorias faltantes (colocando número negativo)
df_notas = df_notas_bkp.copy()
df_notas['y'] = df_notas['y'].fillna(-10)

In [50]:
df_notas

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0
5,9,Maria,Aprovado,True,6,0.0
6,2,Maria,Reprovado,False,17,4.0
7,6,Maria,Aprovado,True,3,9.0
8,7,Maria,Aprovado,True,13,6.0
9,4,Maria,Reprovado,False,17,8.0


In [51]:
# Preenchendo os valores faltantes com a média
df_notas = df_notas_bkp.copy()
media_y = df_notas.y.mean()
print(media_y)
df_notas['y'] = df_notas['y'].fillna(media_y)
df_notas

6.08


Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0
5,9,Maria,Aprovado,True,6,0.0
6,2,Maria,Reprovado,False,17,4.0
7,6,Maria,Aprovado,True,3,9.0
8,7,Maria,Aprovado,True,13,6.0
9,4,Maria,Reprovado,False,17,8.0


In [55]:
# podemos preencher dados categoricos com a moda
# Obtemos a moda com o `mode`
df_notas.e_aprovado_bool.mode()

0    True
Name: e_aprovado_bool, dtype: bool

**Somando colunas**

In [58]:
df = df_notas[['x', 'y']].copy()

In [60]:
df.head()

Unnamed: 0,x,y
0,2,18.0
1,4,16.0
2,18,7.0
3,6,2.0
4,8,2.0


In [65]:
# Conseguimos somar duas colunas distintas
# Já que cada coluna é uma séries
df.loc[:, 'soma_x_y'] = df['x'] + df['y']

In [67]:
# Conseguimos selecionar as colunas que queremos somar
# e aplicamos o método `sum` com o axis=1 (por linha)
df['soma_x_y<sum>'] = df[['x', 'y']].sum(axis=1)

In [68]:
df.head()

Unnamed: 0,x,y,soma_x_y,soma_x_y<sum>
0,2,18.0,20.0,20.0
1,4,16.0,20.0,20.0
2,18,7.0,25.0,25.0
3,6,2.0,8.0,8.0
4,8,2.0,10.0,10.0


Excluindo uma coluna

In [69]:
df_notas.head(3)

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0


In [72]:
# Podemos excluir as colunas selecionando apenas as colunas de interesse.
df_notas2 = df_notas[['nota', 'e_aprovado', 'x']]

In [73]:
df_notas2.head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,2
1,3,Reprovado,4
2,7,Aprovado,18
3,4,Reprovado,6
4,6,Aprovado,8


In [78]:
# Excluir as colunas com drop
# Passamos quais colunas devem ser excluidas
df_notas3 = df_notas.drop(columns=['nome', 'e_aprovado_bool', 'y'])
# Alternativamente, podemos passar uma lista das colunas e o axis=1
# df_notas.drop(['x', 'nome', 'e_aprovado_bool'], axis=1)

In [80]:
# Apagando linhas especificas
# axis=0 é o parâmetro padrão (default)
# df_notas.drop([0,1,20], axis=0)

In [81]:
def exclui_colunas(df, colunas):
  df = df.copy()
  df = df.drop(columns=colunas)
  return df

In [82]:
df_notas_bkp = df_notas.copy()

In [84]:
exclui_colunas(df_notas, colunas=['nome', 'e_aprovado_bool', 'y']).head()

Unnamed: 0,nota,e_aprovado,x
0,6,Aprovado,2
1,3,Reprovado,4
2,7,Aprovado,18
3,4,Reprovado,6
4,6,Aprovado,8


Como o dataframe é um conjunto de séries, também podemos fazer filtros!

In [90]:
notas = df_notas.nota
# Conseguimos utilizar mascara para filtrar as linhas de interesse
df_notas[notas >= 5]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
2,7,Maria,Aprovado,True,18,7.0
4,6,Maria,Aprovado,True,8,2.0
5,9,Maria,Aprovado,True,6,0.0
7,6,Maria,Aprovado,True,3,9.0
8,7,Maria,Aprovado,True,13,6.0
11,7,João,Aprovado,True,1,6.08
12,7,João,Aprovado,True,19,6.0
14,5,João,Aprovado,True,6,7.0
17,7,João,Aprovado,True,14,0.0


In [93]:
# Aplicação de múltiplas mascaras
df_notas[(df_notas.nota >= 5) & (df_notas.nota <= 8)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
2,7,Maria,Aprovado,True,18,7.0
4,6,Maria,Aprovado,True,8,2.0
7,6,Maria,Aprovado,True,3,9.0
8,7,Maria,Aprovado,True,13,6.0
11,7,João,Aprovado,True,1,6.08
12,7,João,Aprovado,True,19,6.0
14,5,João,Aprovado,True,6,7.0
17,7,João,Aprovado,True,14,0.0
18,5,João,Aprovado,True,2,15.0


In [95]:
print("""
SELECT *
FROM tabela AS t
WHERE t.nota >= 5 AND t.y <= 3
""")


SELECT *
FROM tabela AS t
WHERE t.nota >= 5 AND t.y <= 3



In [96]:
# Filtrando múltiplas linhas por diferentes condicionais
df_notas[(df_notas.nota >= 5) & (df_notas.y <= 3)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
4,6,Maria,Aprovado,True,8,2.0
5,9,Maria,Aprovado,True,6,0.0
17,7,João,Aprovado,True,14,0.0
26,9,José,Aprovado,True,5,2.0
28,6,José,Aprovado,True,3,2.0


In [98]:
# Retorna os valores que estão presente numa lista
df_notas[df_notas.nota.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
8,7,Maria,Aprovado,True,13,6.0
10,3,João,Reprovado,False,8,6.08
11,7,João,Aprovado,True,1,6.08
12,7,João,Aprovado,True,19,6.0
14,5,João,Aprovado,True,6,7.0
17,7,João,Aprovado,True,14,0.0
18,5,João,Aprovado,True,2,15.0
23,5,José,Aprovado,True,7,6.08


In [99]:
# Negação
df_notas[~df_notas.isin([3, 5, 7])]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6.0,Maria,Aprovado,True,2.0,18.0
1,,Maria,Reprovado,False,4.0,16.0
2,,Maria,Aprovado,True,18.0,
3,4.0,Maria,Reprovado,False,6.0,2.0
4,6.0,Maria,Aprovado,True,8.0,2.0
5,9.0,Maria,Aprovado,True,6.0,0.0
6,2.0,Maria,Reprovado,False,17.0,4.0
7,6.0,Maria,Aprovado,True,,9.0
8,,Maria,Aprovado,True,13.0,6.0
9,4.0,Maria,Reprovado,False,17.0,8.0


In [101]:
# Consigos filtrar entre intervalos (sendo o começo e fim incluso)
df_notas[df_notas.nota.between(3, 8)]

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0
7,6,Maria,Aprovado,True,3,9.0
8,7,Maria,Aprovado,True,13,6.0
9,4,Maria,Reprovado,False,17,8.0
10,3,João,Reprovado,False,8,6.08
11,7,João,Aprovado,True,1,6.08


Ajustar o indice a partir de uma coluna

In [102]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0


In [104]:
# Utilizamos o `set_index` para tornar uma coluna o indice
df_notas_nome = df_notas.set_index('nome')
df_notas_nome.head()

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Maria,6,Aprovado,True,2,18.0
Maria,3,Reprovado,False,4,16.0
Maria,7,Aprovado,True,18,7.0
Maria,4,Reprovado,False,6,2.0
Maria,6,Aprovado,True,8,2.0


In [107]:
df_notas_nome.loc['João']
# Se o nome não fosse o indice, precisariamos de uma máscara
# df_notas[df_notas.nome == 'João']

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
João,3,Reprovado,False,8,6.08
João,7,Aprovado,True,1,6.08
João,7,Aprovado,True,19,6.0
João,2,Reprovado,False,14,8.0
João,5,Aprovado,True,6,7.0
João,4,Reprovado,False,11,11.0
João,1,Reprovado,False,7,1.0
João,7,Aprovado,True,14,0.0
João,5,Aprovado,True,2,15.0
João,1,Reprovado,False,13,4.0


Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [110]:
# O `reset_index` torna o indice uma coluna
df_notas_nome_resetado = df_notas_nome.reset_index()

In [111]:
df_notas_nome_resetado.head()

Unnamed: 0,nome,nota,e_aprovado,e_aprovado_bool,x,y
0,Maria,6,Aprovado,True,2,18.0
1,Maria,3,Reprovado,False,4,16.0
2,Maria,7,Aprovado,True,18,7.0
3,Maria,4,Reprovado,False,6,2.0
4,Maria,6,Aprovado,True,8,2.0


In [113]:
# O indice virou uma coluna
df_notas_nome_resetado.reset_index().head()

Unnamed: 0,index,nome,nota,e_aprovado,e_aprovado_bool,x,y
0,0,Maria,6,Aprovado,True,2,18.0
1,1,Maria,3,Reprovado,False,4,16.0
2,2,Maria,7,Aprovado,True,18,7.0
3,3,Maria,4,Reprovado,False,6,2.0
4,4,Maria,6,Aprovado,True,8,2.0


In [120]:
# Resetando o indice e removendo a coluna que era o indice
display(df_notas_nome.head(3))
df_notas_nome.reset_index(drop=True).head()

Unnamed: 0_level_0,nota,e_aprovado,e_aprovado_bool,x,y
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Maria,6,Aprovado,True,2,18.0
Maria,3,Reprovado,False,4,16.0
Maria,7,Aprovado,True,18,7.0


Unnamed: 0,nota,e_aprovado,e_aprovado_bool,x,y
0,6,Aprovado,True,2,18.0
1,3,Reprovado,False,4,16.0
2,7,Aprovado,True,18,7.0
3,4,Reprovado,False,6,2.0
4,6,Aprovado,True,8,2.0


Alterando o nome de colunas

In [121]:
df_notas.head()

Unnamed: 0,nota,nome,e_aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0


In [123]:
# Utilizando o rename para renomear as colunas com columns
df_notas = df_notas.rename(columns={'e_aprovado': 'está aprovado'})

In [124]:
df_notas.head()

Unnamed: 0,nota,nome,está aprovado,e_aprovado_bool,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0


In [129]:
# Utilizando a atribuição na propriedade `columns` precisamos passar todos os valores
colunas = ['nota', 'nome', 'está aprovado', 'Está aprovado?', 'x', 'y']
df_notas.columns = colunas
df_notas.head()

Unnamed: 0,nota,nome,está aprovado,Está aprovado?,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0


In [137]:
# Como mudar uma lista a partir do `columns`, mas não recomendo
# df_notas.columns[3] = 'está aprovado booleano'
colunas = list(df_notas.columns)
colunas[3] = 'está aprovado booleano'
df_notas.columns = colunas

In [138]:
df_notas.head()

Unnamed: 0,nota,nome,está aprovado,está aprovado booleano,x,y
0,6,Maria,Aprovado,True,2,18.0
1,3,Maria,Reprovado,False,4,16.0
2,7,Maria,Aprovado,True,18,7.0
3,4,Maria,Reprovado,False,6,2.0
4,6,Maria,Aprovado,True,8,2.0


In [141]:
# Reordenando as colunas
df_notas[['nome', 'nota', 'x', 'y']].head()

Unnamed: 0,nome,nota,x,y
0,Maria,6,2,18.0
1,Maria,3,4,16.0
2,Maria,7,18,7.0
3,Maria,4,6,2.0
4,Maria,6,8,2.0


Ordenando os valores

In [145]:
df_notas.sort_values('nota').head()

Unnamed: 0,nota,nome,está aprovado,está aprovado booleano,x,y
25,0,José,Reprovado,False,1,7.0
21,0,José,Reprovado,False,3,11.0
19,1,João,Reprovado,False,13,4.0
16,1,João,Reprovado,False,7,1.0
27,2,José,Reprovado,False,9,0.0


In [150]:
# Múltiplas ordenações
# Começa pelo nome (do maior para menor) e nota (do menor para maior)
# Conseguimos orientar o sorting passando uma lista no ascending.
df_notas.sort_values(['nome', 'nota'], ascending=[False, True])

Unnamed: 0,nota,nome,está aprovado,está aprovado booleano,x,y
6,2,Maria,Reprovado,False,17,4.0
1,3,Maria,Reprovado,False,4,16.0
3,4,Maria,Reprovado,False,6,2.0
9,4,Maria,Reprovado,False,17,8.0
0,6,Maria,Aprovado,True,2,18.0
4,6,Maria,Aprovado,True,8,2.0
7,6,Maria,Aprovado,True,3,9.0
2,7,Maria,Aprovado,True,18,7.0
8,7,Maria,Aprovado,True,13,6.0
5,9,Maria,Aprovado,True,6,0.0


#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [151]:
df1 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df2 = pd.DataFrame(
                    {
                        'B': [1,2,3],
                        'C': [4,5,6],
                        'D': [7,8,9]
                    })
display(df1)
display(df2)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9


In [154]:
# Concatenando por coluna
# as colunas iguais são empilhadas e as faltantes preenchidas com NaN
df3 = pd.concat([df1, df2], axis=0)
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
0,,1,4,7.0
1,,2,5,8.0
2,,3,6,9.0


In [157]:
# O problema do indice repetido
df3.loc[0]

Unnamed: 0,A,B,C,D
0,1.0,4,7,
0,,1,4,7.0


In [158]:
df3.reset_index()

Unnamed: 0,index,A,B,C,D
0,0,1.0,4,7,
1,1,2.0,5,8,
2,2,3.0,6,9,
3,0,,1,4,7.0
4,1,,2,5,8.0
5,2,,3,6,9.0


In [159]:
df3 = df3.reset_index(drop=True)
df3

Unnamed: 0,A,B,C,D
0,1.0,4,7,
1,2.0,5,8,
2,3.0,6,9,
3,,1,4,7.0
4,,2,5,8.0
5,,3,6,9.0


In [171]:
# Empilhamento horizontal
df4 = pd.concat([df1, df2], axis=1)

In [172]:
df4

Unnamed: 0,A,B,C,B.1,C.1,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [174]:
df4['A']

0    1
1    2
2    3
Name: A, dtype: int64

In [175]:
df4['B']

Unnamed: 0,B,B.1
0,4,1
1,5,2
2,6,3


In [176]:
# Alteramos o nome das colunas de um dos dados para evitar que o nome das colunas
# fiquem repetidas
df1.columns = [f'{col}_df1' for col in df1.columns]
df1

Unnamed: 0,A_df1,B_df1,C_df1
0,1,4,7
1,2,5,8
2,3,6,9


In [177]:
pd.concat([df1, df2], axis=1)

Unnamed: 0,A_df1,B_df1,C_df1,B,C,D
0,1,4,7,1,4,7
1,2,5,8,2,5,8
2,3,6,9,3,6,9


In [178]:
df5 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df6 = pd.DataFrame(
                    {
                        'B': [1,2,3,6],
                        'C': [4,5,6,9],
                        'D': [7,8,9,10]
                    })

In [179]:
display(df5)
display(df6)

Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


Unnamed: 0,B,C,D
0,1,4,7
1,2,5,8
2,3,6,9
3,6,9,10


In [181]:
# Ele insere NaNs nos valores da linha faltante
pd.concat([df5, df6], axis=1)

Unnamed: 0,A,B,C,B.1,C.1,D
0,1.0,4.0,7.0,1,4,7
1,2.0,5.0,8.0,2,5,8
2,3.0,6.0,9.0,3,6,9
3,,,,6,9,10


### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [182]:
df3 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})
df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})
display(df3)
display(df4)

Unnamed: 0,Paises,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Paises,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [183]:
# Cruzando os dados da coluna `Paises` com o modo `inner`
df3.merge(df4, how='inner', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1,3
1,Pt,2,4,2,4


In [184]:
# Left Join
df3.merge(df4, how='left', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [185]:
# Left Join
df4.merge(df3, how='left', on="Paises")

Unnamed: 0,Paises,valor3,valor4,valor1,valor2
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,Py,3,5,,


In [187]:
# Right Join
df3.merge(df4, how='right', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1,3
1,Pt,2.0,4.0,2,4
2,Py,,,3,5


In [188]:
df3.merge(df4, how='outer', on='Paises')

Unnamed: 0,Paises,valor1,valor2,valor3,valor4
0,Br,1.0,3.0,1.0,3.0
1,Pt,2.0,4.0,2.0,4.0
2,It,3.0,5.0,,
3,Py,,,3.0,5.0


In [189]:
df3 = pd.DataFrame({
    'Country': ['Br','Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [190]:
display(df3)
display(df4)

Unnamed: 0,Country,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Paises,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [192]:
print("""
SELECT t2.paises, t1.valor1, t1.valor2, t2.valor3, t2.valor4
FROM t1
LEFT JOIN t2
ON t1.country = t2.paises
""")


SELECT t2.paises, t1.valor1, t1.valor2, t2.valor3, t2.valor4
FROM t1
LEFT JOIN t2
ON t1.country = t2.paises



In [191]:
df3.merge(df4, how='left', left_on='Country', right_on='Paises')

Unnamed: 0,Country,valor1,valor2,Paises,valor3,valor4
0,Br,1,3,Br,1.0,3.0
1,Pt,2,4,Pt,2.0,4.0
2,It,3,5,,,


In [193]:
df4 = df4.rename(columns={'Paises': 'Country'})

In [194]:
display(df3)
display(df4)

Unnamed: 0,Country,valor1,valor2
0,Br,1,3
1,Pt,2,4
2,It,3,5


Unnamed: 0,Country,valor3,valor4
0,Br,1,3
1,Pt,2,4
2,Py,3,5


In [195]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Country'])

Unnamed: 0,Country,valor1,valor2,valor3,valor4
0,Br,1,3,1.0,3.0
1,Pt,2,4,2.0,4.0
2,It,3,5,,


In [196]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','Maria', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [197]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Dadinho,Deus,3,5


In [201]:
print("""
SELECT *
FROM t1
INNER JOIN t2
ON t1.nome = t2.nome AND t1.sobrenome = t2.sobrenome
""")


SELECT *
FROM t1
INNER JOIN t2
ON t1.nome = t2.nome AND t1.sobrenome = t2.sobrenome



In [204]:
# Podemos fazer o merge com múltiplos campos
df3.merge(df4, on=['nome', 'sobrenome'])

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [205]:
df3.merge(df4, left_on=['nome', 'sobrenome'], right_on=['nome', 'sobrenome'])

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1,3
1,Maria,Alencar,2,4,2,4


In [207]:
# O join junta pelo indice
df3.join(df4, lsuffix='_df3', rsuffix='_df4')

Unnamed: 0,nome_df3,sobrenome_df3,valor1,valor2,nome_df4,sobrenome_df4,valor3,valor4
0,João,Silva,1,3,João,Silva,1,3
1,Maria,Alencar,2,4,Maria,Alencar,2,4
2,Edu,Deus,3,5,Dadinho,Deus,3,5


In [209]:
# O join se assemlha ao concat!
df3.join(df4, lsuffix='_df3')

Unnamed: 0,nome_df3,sobrenome_df3,valor1,valor2,nome,sobrenome,valor3,valor4
0,João,Silva,1,3,João,Silva,1,3
1,Maria,Alencar,2,4,Maria,Alencar,2,4
2,Edu,Deus,3,5,Dadinho,Deus,3,5


In [210]:
df3_nome = df3.set_index('nome')
df4_nome = df4.set_index('nome')
display(df3_nome)
display(df4_nome)

Unnamed: 0_level_0,sobrenome,valor1,valor2
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Edu,Deus,3,5


Unnamed: 0_level_0,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
João,Silva,1,3
Maria,Alencar,2,4
Dadinho,Deus,3,5


In [211]:
df3_nome.join(df4_nome, lsuffix='_df3')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1.0,3.0
Maria,Alencar,2,4,Alencar,2.0,4.0
Edu,Deus,3,5,,,


In [212]:
# Passando o how no join (inner, left, right, outer)
df3_nome.join(df4_nome, lsuffix='_df3', how='inner')

Unnamed: 0_level_0,sobrenome_df3,valor1,valor2,sobrenome,valor3,valor4
nome,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
João,Silva,1,3,Silva,1,3
Maria,Alencar,2,4,Alencar,2,4


In [213]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','João', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [214]:
display(df3)
display(df4)

Unnamed: 0,nome,sobrenome,valor1,valor2
0,João,Silva,1,3
1,Maria,Alencar,2,4
2,Edu,Deus,3,5


Unnamed: 0,nome,sobrenome,valor3,valor4
0,João,Silva,1,3
1,João,Alencar,2,4
2,Dadinho,Deus,3,5


In [217]:
# Efeito multiplicativo, nome repetido na tabela df4
df3.merge(df4, on='nome', how='left')

Unnamed: 0,nome,sobrenome_x,valor1,valor2,sobrenome_y,valor3,valor4
0,João,Silva,1,3,Silva,1.0,3.0
1,João,Silva,1,3,Alencar,2.0,4.0
2,Maria,Alencar,2,4,,,
3,Edu,Deus,3,5,,,


In [218]:
df3.merge(df4, on=['nome', 'sobrenome'], how='left')

Unnamed: 0,nome,sobrenome,valor1,valor2,valor3,valor4
0,João,Silva,1,3,1.0,3.0
1,Maria,Alencar,2,4,,
2,Edu,Deus,3,5,,


**Conseguimos verificar o tipo dos dados utilizando o `dtypes`**

In [219]:
df3.dtypes

nome         object
sobrenome    object
valor1        int64
valor2        int64
dtype: object

In [221]:
# Diz qual a quantidade de dados não nulos e o tipo
df3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 4 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nome       3 non-null      object
 1   sobrenome  3 non-null      object
 2   valor1     3 non-null      int64 
 3   valor2     3 non-null      int64 
dtypes: int64(2), object(2)
memory usage: 224.0+ bytes


## Voltamos 20:42

### Transformações de dados

#### GroupBy

In [29]:
import pandas as pd
titanic = pd.read_csv('./titanic_completa_oficial.csv')

Antes de inicializar qualquer análise há alguns passos importantes
- 1-) Olhe os dados!!!
- 2-) Verifique o tipo de dados
- 3-) Verifique se há dados faltantes
- 4-) Faça uma análise estatística descritiva

### Drops
Selecione as 5 primeiras e 5 últimas linhas

In [2]:
display(titanic.head(5))
display(titanic.tail(5))

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,?,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,?,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,?,135,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0,1,2,113781,151.55,C22 C26,S,?,?,"Montreal, PQ / Chesterville, ON"


Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1304,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,?,C,?,328,?
1305,3,0,"Zabour, Miss. Thamine",female,?,1,0,2665,14.4542,?,C,?,?,?
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,?,C,?,304,?
1307,3,0,"Zakarian, Mr. Ortin",male,27,0,0,2670,7.225,?,C,?,?,?
1308,3,0,"Zimmerman, Mr. Leo",male,29,0,0,315082,7.875,?,S,?,?,?


### Drops
Verifique o tipo de dados (`dtypes`)

Observe:
- O tipo era o esperado? Se há somente números, e termos um tipo `object`
  - Não seria melhor transformar a coluna em númerico?
- Quantos dados são categóricos
- Quantos dados númericos eu tenho?
- O que caracteriza o meu dados? Qual o identificador (chave) -> Pense que o `id` ou `nome sobrenome` pode ser um indicativo

In [7]:
display(titanic.dtypes)


pclass        int64
survived      int64
name         object
sex          object
age          object
sibsp         int64
parch         int64
ticket       object
fare         object
cabin        object
embarked     object
boat         object
body         object
home.dest    object
dtype: object

### Drops

Calcule o número de dados faltantes por coluna (lembre-se do `isnull`)



In [13]:
titanic.loc[titanic.duplicated(subset=['name'],keep=False) == True]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
725,3,1,"Connolly, Miss. Kate",female,22.0,0,0,370373,7.75,?,Q,13,?,Ireland
726,3,0,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,?,Q,?,?,Ireland
924,3,0,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,?,Q,?,70,?
925,3,0,"Kelly, Mr. James",male,44.0,0,0,363592,8.05,?,S,?,?,?


In [15]:
pd.isnull(titanic).sum()

pclass       0
survived     0
name         0
sex          0
age          0
sibsp        0
parch        0
ticket       0
fare         0
cabin        0
embarked     0
boat         0
body         0
home.dest    0
dtype: int64

### Drops
Temos o simbolo `?`, o que significa o `?`?

Será que podemos considerar o `?` sendo nulo (NaN)?

Faça a substituição do `?` por NaN.

Como fica a quantidade de dados faltantes (`isnull`) com essa operação?

In [31]:
import numpy as np
titanic = titanic.replace('?',np.nan )

In [32]:
pd.isnull(titanic).sum()

pclass          0
survived        0
name            0
sex             0
age           263
sibsp           0
parch           0
ticket          0
fare            1
cabin        1014
embarked        2
boat          823
body         1188
home.dest     564
dtype: int64

Agora temos muitos dados faltantes!
Principalmente:
- Idade
- Cabine
- Se embarcou ou não
- Barco
- Corpo (muitos não foram achados)
- Destino final

### Drops

As colunas `age` e `fare` não são númericas, mas deveriam ser!

Transforme essas em um número (`float`)

Para tal utilize o `astype`.

In [36]:
titanic[['age','fare']] = titanic[['age','fare']].astype('float')

In [37]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    object 
 13  home.dest  745 non-null    object 
dtypes: float64(2), int64(4), object(8)
memory usage: 143.3+ KB


In [38]:
titanic.select_dtypes(include=np.number).columns

Index(['pclass', 'survived', 'age', 'sibsp', 'parch', 'fare'], dtype='object')

### Drops
Vamos fazer a análise estatística descritiva dos dados númericos

Para tal, utilize a função `describe`

In [45]:
titanic.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
pclass,1309.0,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
survived,1309.0,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
age,1046.0,29.881135,14.4135,0.1667,21.0,28.0,39.0,80.0
sibsp,1309.0,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
parch,1309.0,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
fare,1308.0,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292


**Além das colunas númericas podemos fazer a análise estatística descritiva de colunas categóricas!**

In [57]:
titanic.describe(include='all').T

Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
pclass,1309.0,,,,2.294882,0.837836,1.0,2.0,3.0,3.0,3.0
survived,1309.0,,,,0.381971,0.486055,0.0,0.0,0.0,1.0,1.0
name,1309.0,1307.0,"Connolly, Miss. Kate",2.0,,,,,,,
sex,1309.0,2.0,male,843.0,,,,,,,
age,1046.0,,,,29.881135,14.4135,0.1667,21.0,28.0,39.0,80.0
sibsp,1309.0,,,,0.498854,1.041658,0.0,0.0,0.0,1.0,8.0
parch,1309.0,,,,0.385027,0.86556,0.0,0.0,0.0,0.0,9.0
ticket,1309.0,929.0,CA. 2343,11.0,,,,,,,
fare,1308.0,,,,33.295479,51.758668,0.0,7.8958,14.4542,31.275,512.3292
cabin,295.0,186.0,C23 C25 C27,6.0,,,,,,,


**Podemos verificar se existe dados repetidos, uma forma é utilizando o `groupby`**

In [59]:
titanic[titanic.duplicated(keep=False,subset=['name'])]

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
725,3,1,"Connolly, Miss. Kate",female,22.0,0,0,370373,7.75,,Q,13.0,,Ireland
726,3,0,"Connolly, Miss. Kate",female,30.0,0,0,330972,7.6292,,Q,,,Ireland
924,3,0,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,,70.0,
925,3,0,"Kelly, Mr. James",male,44.0,0,0,363592,8.05,,S,,,


Observe que temos dois nomes duplicados!  
Vamos voltar para a tabela original!

**Dados limpos!**

Podemos começar a analisar

### Drop

Verifique quantas pessoas são do sexo feminino e masculino utilizando o shape

In [73]:
print('feminino: ',titanic[titanic.sex== 'female'].shape[0])
print('masculino: ',titanic[titanic.sex== 'male'].shape[0])

feminino:  466
masculino:  843


### Drops

Faça a mesma operação utilizando o `groupby` e size

In [78]:
titanic.groupby('sex').size()

sex
female    466
male      843
dtype: int64

### Drops
- Calcule a média de idade por sexo.
- Calcule a média da taxa (`fare`) por sexo.

Note que podemos utilizar:

`groupby().<operação>`

Sendo a operação `std`, `mean`, `median`, etc

In [93]:
titanic[['age','sex','fare']].groupby('sex').mean()

Unnamed: 0_level_0,age,fare
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,28.687071,46.198097
male,30.585233,26.154601


In [94]:
titanic[['age','sex','survived']].groupby('sex').mean()

Unnamed: 0_level_0,age,survived
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,28.687071,0.727468
male,30.585233,0.190985


**Podemos melhorar?**

Na análise de dados a forma que mostramos os dados fazem muita diferença!

Pode ficar ainda melhor!

Não gostei! As vezes o 1 está em cima as vezes o 0 em cima, vamos organizar!

A análise de dados envolve sempre uma estória.

Qual a estória que queremos contar com os nossos dados?

## Pivot