## Técnicas de Programação I - Pandas

Na aula de hoje iremos explorar os seguintes tópicos:

- Pandas - DataFrame


### DataFrame

Agora que conhecemos as séries, vamos partir pro objeto do Pandas que mais utilizaremos: o **DataFrame**

Como veremos a seguir, o DataFrame é uma estrutura que se assemalha a uma **tabela**.

Estruturalmente, o DataFrame nada mais é que um **conjunto de Series**, uma para cada coluna (e, claro, com mesmo índice, que irão indexar as linhas).

Veremos depois como **ler um dataframe a partir de um arquivo** (que é provavelmente a forma mais comum)

Há muitas formas de construir um DataFrame do zero. Todas elas fazem uso da função **pd.DataFrame()**, como veremos a seguir.

Se quisermos especificar os índices de linha, o nome das colunas, e os dados, podemos passá-los separadamente: 

In [None]:
import numpy as np
import pandas as pd

In [None]:
np.random.seed(42)
m = np.random.randint(-100, 100, (5, 3))
pd.DataFrame(m)

In [None]:
# Criando um DataFrame nomeando as colunas e indices
df_nome_linhas = pd.DataFrame(
                             m,
                             index = ['obs1', 'obs2', 'obs3', 'obs4', 'obs5'],
                             columns=['variavel_1', 'variavel_2', 'variavel_3']
                        )
df_nome_linhas

In [None]:
# Pegando apenas uma linha
df_nome_linhas.loc['obs3']
# ou
df_nome_linhas.iloc[2]

In [None]:
# Um valor específico
df_nome_linhas.loc['obs3', 'variavel_2']

In [None]:
# Selecionando todas as linhas de uma dada coluna
# Retorna uma série
df_nome_linhas['variavel_2']

In [None]:
# Selecionando todas as linhas de uma dada coluna utilizando o .loc
df_nome_linhas.loc[:, 'variavel_2']

In [None]:
# Utilizando o iloc
df_nome_linhas.iloc[2, 1]

In [None]:
# Podemos utilizar o loc ou iloc com listas
display(df_nome_linhas)

display(df_nome_linhas.loc[['obs1', 'obs3'], ['variavel_1', 'variavel_3']])

display(df_nome_linhas.iloc[[0, 2], [0, 1]])

In [None]:
# Número de colunas com o shape
df_nome_linhas.shape[1]
# Número de colunas com o len
len(df_nome_linhas.columns)

In [None]:
# Número de linhas com shape
print(df_nome_linhas.shape[0])
# Com len
print(len(df_nome_linhas))
# Ou
print(len(df_nome_linhas.index))

In [None]:
df_nome_colunas = pd.DataFrame(m,
                              columns=['variavel_1', 'variavel_2', 'variavel_3'])

In [None]:
df_nome_colunas

In [None]:
# O dataframe parece um dict
df_nome_colunas.to_dict()

In [None]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index')

for orient in orients:
  print(orient)
  display(df_nome_colunas.to_dict(orient=orient))
  print('-'*32)

In [None]:
orients = ('dict', 'list', 'series', 'split', 'records', 'index')

for orient in orients:

  print(orient)
  if orient == 'split':
    display(pd.DataFrame(**df_nome_colunas.to_dict(orient='split')))
  else:
    display(pd.DataFrame(df_nome_colunas.to_dict(orient=orient)))
  print('-'*32)


Outra forma bem natural é utilizar um dicionário cujos valores são listas. Neste caso, as chaves serão o nome das colunas!

In [None]:
dic = {
    'variavel_1': [2, 79, 78, 88],
    'variavel_2': [-86, 6, 78, 192],
    'variavel_3': [88, -80, 93, 24]
}

df_dic = pd.DataFrame(dic)
df_dic

In [None]:
# Podemos substituir um valor de uma célula
df_dic.loc[1, 'variavel_1'] = -78
df_dic

In [None]:
# Utilizando iloc
df_dic.iloc[1, 0] = -150

Podemos fazer operações com as colunas, dado que elas são séries!

In [None]:
resultado = df_dic['variavel_1'] + 20

In [None]:
resultado

In [None]:
# Adicionando uma coluna resultado
df_dic['resultado'] = df_dic['variavel_1'] + 20

In [None]:
df_dic

In [None]:
df_dic['resultado2'] = resultado

In [None]:
df_dic

In [None]:
np.random.seed(42)

notas = pd.Series(np.random.randint(0, 11, 30))
df_notas = pd.DataFrame(notas,columns=['nota'])
# Criando uma coluna nome
df_notas['nome'] = None

df_notas.loc[0: 9, 'nome'] = 'Maria'
df_notas.loc[10: 19,'nome'] = 'João'
df_notas.loc[20: , 'nome'] = 'José'

In [None]:
# Utilizando o apply
df_notas['e_aprovado'] = df_notas.nota.apply(lambda x: 'Aprovado' if x>5 else 'Reprovado')

In [None]:
# Utilizando o apply sem passar o nome da coluna e com o axis=0, conseguimos acessar os valores individuais de cada linha
df_notas.apply(lambda coluna: coluna.unique())

In [None]:
# Utilizando o apply sem passar o nome da coluna e com o axis=1, conseguimos acessar os valores individuais de cada coluna
# utilizando a anotação com `linha[<nome_coluna>]` ou linha.<nome_coluna>
df_notas.apply(lambda linha: str(linha['nota'] / 3) + linha['nome'], axis=1)

In [None]:
# Assim como nos dicionários temo o `get`
# Qual a vantagem do get?
df_notas.get('nota')

In [None]:
df_notas['e_aprovado_bool'] = df_notas['nota'] > 5

In [None]:
df_notas

In [None]:
df_notas['x'] = np.random.randint(0, 20, 30)

In [None]:
# Quando passamos um vetor/lista/array/serie precisamos do mesmo número de linhas no dataframe original
df_notas['y'] = np.random.randint(0, 20, 25)

In [None]:
lista_numero_com_nan = (list(np.random.randint(0, 20, 10)) 
+ [np.nan, np.nan]  
+ list(np.random.randint(0, 20, 10))
+ [np.nan, np.nan, np.nan]
+ list(np.random.randint(0, 20, 5)))

In [None]:
df_notas['y'] = lista_numero_com_nan

In [None]:
df_notas

In [None]:
df_notas['y'].max()

In [None]:
# Obtendo a média
df_notas.y.sum() / 30

In [None]:
# o mean desconsidera os NaN (Not a Number), eliminando da população
df_notas['y'].mean()

In [None]:
df_notas.y.sum() / 25

**Tratando valores faltantes (`NaN`)**

In [None]:
df_notas_bkp = df_notas.copy()

In [None]:
# Contando o número de nulos
df_notas.isnull().tail(10)

In [None]:
df_notas.isnull().sum()

In [None]:
# Preenchendo os valores faltantes com 0
df_notas['y'] = df_notas['y'].fillna(0)
df_notas

In [None]:
# Preenchendo os valores faltantes com -10
df_notas = df_notas_bkp.copy()
df_notas['y'] = df_notas['y'].fillna(-10)
df_notas

In [None]:
# Preenchendo os valores faltantes com a média
df_notas = df_notas_bkp.copy()
media_y = df_notas.y.mean()
print(media_y)
df_notas['y'] = df_notas['y'].fillna(media_y)
df_notas

**Somando colunas**

In [None]:
df = df_notas[['x', 'y']].copy()

In [None]:
df

In [None]:
df.loc[:, 'soma_x_y'] = df['x'] + df['y']

In [None]:
df

In [None]:
df[['x', 'y']].sum(axis=1)

Excluindo uma coluna

In [None]:
df_notas.head()

In [None]:
df_notas2 = df_notas[['nota', 'e_aprovado', 'x']]

In [None]:
df_notas2.head()

In [None]:
df_notas3 = df_notas.drop(columns=['nome', 'e_aprovado_bool', 'coluna_de_1','y'])

In [None]:
df_notas3.head()

In [None]:
def exclui_colunas(df, colunas):
    df = df.copy()
    df = df.drop(columns=colunas)
    return df


In [None]:
df_nota_bkp = df_notas.copy()

In [None]:
exclui_colunas(df_notas, colunas=['nome', 'e_aprovado_bool', 'coluna_de_1','y'])

Como o dataframe é um conjunto de séries, também podemos fazer filtros!

In [None]:
df_notas[df_notas.nota > 5]

In [None]:
df_notas[(df_notas.nota > 5) & (df_notas.nota < 8)]

In [None]:
# retorna valores dentro de uma lista
df_notas[df_notas.nota.isin([3, 5, 7])]

In [None]:
# Negação de notas 
df_notas[~df_notas.nota.isin([3, 5, 7])]

In [None]:
df_notas[df_notas.nota.between(3, 7)]

In [None]:
# Setando o indice a partir de uma coluna
df_notas_nome = df_notas.set_index('nome')
df_notas_nome

In [None]:
df_notas_nome.loc['João']

Se você quiser fazer com que os indices de linha voltem a ser numéricos, faça:

In [None]:
df_notas_nome_resetado = df_notas_nome.reset_index()

In [None]:
df_notas_nome_resetado

In [None]:
# O indice vai como coluna
df_notas_nome_resetado.reset_index()

In [None]:
# Resetamos o indice e removemos a coluna indice
display(df_notas_nome.head(3))
df_notas_nome.reset_index(drop=True).head()

Alterando o nome de colunas

In [None]:
df_notas = df_notas.rename(columns={'e_aprovado': 'está aprovado?',
                         'coluna_de_1': 'col_de_1'})

In [None]:
df_notas.head()

In [None]:
colunas = ['nota', 'nome', 'e_aprovado', 'e_aprovado_bool', 'col_num_1', 'x', 'y']
df_notas.columns = colunas
df_notas.head(3)

In [None]:
# reordenando as colunas
df_notas[['nome', 'nota', 'y', 'x']].head()

Ordenando os valores

In [None]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values('nota').head()

In [None]:
df_notas[['nome', 'nota', 'y', 'x']].sort_values(['nota', 'x', 'y'])

#### Concat

Muitas vezes, queremos **juntar** dataframes relacionados em um único dataframe.

Para isso, utilizamos o método **pd.concat()**

In [None]:
df1 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df2 = pd.DataFrame(
                    {
                        'B': [1,2,3],
                        'C': [4,5,6],
                        'D': [7,8,9]
                    })
display(df1)
display(df2)

In [None]:
df3 = pd.concat([df1, df2], axis=0)
# os indices se repetem
df3

In [None]:
# O problema de indices repetidos!
df3.loc[0]

In [None]:
df3.reset_index()

In [None]:
df3 = df3.reset_index(drop = True)
df3

In [None]:
df3.loc[0]

In [None]:
df4 = pd.concat([df1, df2], axis = 1)

In [None]:
df4

In [None]:
df4['A']

In [None]:
df4['B']

In [None]:
df1.columns = [f'{col}_df1' for col in df1.columns]

In [None]:
df1

In [None]:
pd.concat([df1,df2], axis = 1)

In [None]:
df5 = pd.DataFrame(
                    {
                        'A': [1,2,3],
                        'B': [4,5,6],
                        'C': [7,8,9]
                    })
df6 = pd.DataFrame(
                    {
                        'B': [1,2,3,6],
                        'C': [4,5,6,9],
                        'D': [7,8,9,10]
                    })

In [None]:
pd.concat([df5, df6], axis=1)

### Merge (join)

Outra tarefa muito comum quando estamos trabalhando com bases de dados é o **cruzamento**

Para fazer isso, utilizamos o método **.merge()**, cujos modos de cruzamento são:

<img src="https://community.qlik.com/legacyfs/online/87693_all-joins.png" width=450>

In [None]:
df3 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})
df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})
display(df3)
display(df4)

In [None]:
# Cruzando os dados da coluna `"Paises"` com o modo `inner`

df3.merge(df4, how='inner', on='Paises')

In [None]:
df3.merge(df4, how='left', on='Paises')

In [None]:
df4.merge(df3, how='left', on='Paises')

In [None]:
df3.merge(df4, how='right', on='Paises')

In [None]:
df3.merge(df4, how='outer', on='Paises')

In [None]:
df3 = pd.DataFrame({
    'Country': ['Br','Pt', 'It'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'Paises': ['Br', 'Pt', 'Py'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [None]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Paises'])

In [None]:
df4 = df4.rename(columns={'Paises': 'Country'})

In [None]:
display(df3)
display(df4)

In [None]:
df3.merge(df4, how='left', left_on=['Country'], right_on=['Country'])

In [None]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','Maria', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [None]:
display(df3)
display(df4)

In [None]:
df3.merge(df4, on=['nome', 'sobrenome'])

In [None]:
df3.merge(df4, left_on=['nome', 'sobrenome'], right_on=['nome', 'sobrenome'])

In [None]:
df3.join(df4, lsuffix='_df3', rsuffix='_df4')

In [None]:
df3.join(df4, lsuffix='_df3')

In [None]:
df3_nome = df3.set_index('nome')
df4_nome = df4.set_index('nome')

display(df3_nome)
display(df4_nome)

In [None]:
df3_nome.join(df4_nome, lsuffix='_df3')

In [None]:
df3_nome.join(df4_nome, lsuffix='_df3', how='inner')

In [None]:
df3 = pd.DataFrame({
    'nome': ['João','Maria', 'Edu'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor1': [1, 2, 3],
    'valor2': [3, 4, 5]
})

df4 = pd.DataFrame({
    'nome': ['João','João', 'Dadinho'],
    'sobrenome': ['Silva','Alencar', 'Deus'],
    'valor3': [1, 2, 3],
    'valor4': [3, 4, 5]
})

In [None]:
display(df3)
display(df4)

In [None]:
df3.merge(df4, on='nome', how='left')

In [None]:
df3.merge(df4, on=['nome', 'sobrenome'], how='left')

### Transformações de dados

#### GroupBy

In [None]:
titanic = pd.read_csv('./titanic_completa_oficial.csv')

Antes de inicializar qualquer análise há alguns passos importantes
- 1-) Olhe os dados!!!
- 2-) Verifique o tipo de dados
- 3-) Verifique se há dados faltantes
- 4-) Faça uma análise estatística descritiva

In [None]:
# Olhando os dados
titanic.head(2)

In [None]:
# Verificando o tipo de dados
# Observe:
# - O tipo era o esperado? Se há somente números, e termos um tipo `object`
#   Não seria melhor transformar a coluna em númerico?
# - Quantos dados são categóricos
# - Quantos dados númericos eu tenho?
# - O que caracteriza o meu dados? Qual o identificador (chave) -> Pense que o `id` ou `nome sobrenome` pode ser um indicativo
titanic.dtypes

In [None]:
# Não temos dados faltantes?
titanic.isnull().sum()

In [None]:
titanic.head(3)

In [None]:
# Observe que temos o `?`
# Vamos tratar tudo que é `?` por NaN
titanic = titanic.replace({'?': np.nan})
titanic.isnull().sum()

In [None]:
titanic.fare.unique()

Agora temos muitos dados faltantes!
Principalmente:
- Idade
- Cabine
- Se embarcou ou não
- Barco
- Corpo (muitos não foram achados)
- Destino final

In [None]:
# Vamos transformas algumas dessas em colunas númericas!
for col in ['age', 'fare']:
  titanic[col] = titanic[col].astype('float')

In [None]:
# Selecionando colunas númericas
num_cols = list(titanic.select_dtypes(include=[np.number]).columns)
cat_cols = list(titanic.select_dtypes(include=['object']).columns)

In [None]:
# Note que temos apenas colunas númericas!
titanic.describe()

In [None]:
# Outra visualização muito boa é a transposta
titanic.describe().T

In [None]:
# Describe das colunas categóricas!
# Usamos primeiro um filtro das colunas e depois o describe
titanic[cat_cols].describe(include='all').T

In [None]:
# Opa temos dados repetidos?
# Como verificar se temos, e quais nomes são repetidos?
# Podemos ver o tamanho dos dados agrupados com o `size`
titanic.groupby('name').size()

In [None]:
# Vamos ordenar
nomes = titanic.groupby('name').size()
nomes[nomes>1]

Observe que temos dois nomes duplicados!  
Vamos voltar para a tabela original!

In [None]:
# São pessoas diferentes?
titanic[titanic['name'].isin(nomes[nomes>1].index)]

In [None]:
# Removendo dados duplicados
print(titanic.shape)
dados_nao_dup = titanic.name.drop_duplicates()
print(dados_nao_dup.head())
print(dados_nao_dup.shape)
titanic = titanic.loc[dados_nao_dup.index]
print(titanic.shape)

**Dados limpos!**

Podemos começar a analisar

In [None]:
titanic[titanic['sex'] == 'female'].shape

In [None]:
titanic[titanic['sex'] == 'male'].shape

In [None]:
# Quantas pessoas por sexo?
titanic.groupby('sex').size()

In [None]:
titanic.pclass.unique()

In [None]:
# Quantas pessoas por classe?
titanic.groupby('pclass').size()

In [None]:
# Quantas pessoas por classe e sexo?
titanic.groupby(['pclass', 'sex']).size()

In [None]:
# Sobrevivente por sexo
titanic.groupby(['sex','survived']).size()

In [None]:
# Sobrevivente por classe e sexo
titanic.groupby(['pclass','sex','survived']).size()

In [None]:
titanic.groupby(['pclass','sex','survived']).size().reset_index()

**Podemos melhorar?**

Na análise de dados a forma que mostramos os dados fazem muita diferença!

In [None]:
titanic.groupby(['sex',"pclass",'survived']).size().reset_index()

Pode ficar ainda melhor!

In [None]:
# Qual a porcentagem de pessoas que sobreviveram por classe?
(titanic
 .groupby(['sex', 'pclass'])
 .survived
 .value_counts(normalize=True)
 .apply(lambda x: f'{x*100:.2f}%')
)

In [None]:
sobreviventes = (
    titanic
    .groupby(['sex', 'pclass'])
    .survived
    .value_counts()
  )
sobreviventes = sobreviventes / titanic.shape[0]
sobreviventes.apply(lambda x: f'{x*100:.2f}%')

Não gostei! As vezes o 1 está em cima as vezes o 0 em cima, vamos organizar!

In [None]:
# Dando um nome para a agregação
sobreviventes = sobreviventes * 100
sobreviventes = (sobreviventes.reset_index(name='Porcentagem').sort_values(['sex', 'pclass', 'survived']))

In [None]:
sobreviventes

In [None]:
# Por fim, podemos verificar somente as mulheres!
sobreviventes[sobreviventes['sex'] == 'female']

A análise de dados envolve sempre uma estória.

Qual a estória que queremos contar com os nossos dados?

## Pivot

In [None]:
df = pd.DataFrame({'foo': ['one', 'one', 'one', 'two', 'two',
                   'two'],
                    'bar': ['A', 'B', 'C', 'A', 'B', 'C'],
                   'baz': [1, 2, 3, 4, 5, 6],
                        'zoo': ['x', 'y', 'z', 'q', 'w', 't']})
df

In [None]:
df.pivot(index='foo', columns=['bar'],values='baz')

In [None]:
(sobreviventes
 .pivot(index=['survived'], columns=['pclass', 'sex']))


In [None]:
inter = (titanic
 .groupby(['pclass', 'sex'])
 .size()
 .reset_index(name='Porcentagem'))

inter['survived'] = 'Total'

In [None]:
inter

In [None]:
(pd.concat([sobreviventes, inter], axis=0)
 .pivot(index=['survived'], columns=['pclass', 'sex']))
