In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importação da biblioteca Pandas e Numpy:
import pandas as pd
import numpy as np

In [None]:
# Importação dos datasets das olimpíadas de 2008 e 2012
df_2008 = pd.read_csv('/content/drive/MyDrive/ath_2008.csv')
df_2012 = pd.read_csv('/content/drive/MyDrive/ath_2012.csv')
print('Formato - Dataset Olimpíadas 2008: ', df_2008.shape)
print('\n')
print('Formato - Dataset Olimpíadas 2012: ', df_2012.shape)

In [None]:
# Visualização breve das olimpíadas de 2008:
df_2008.head()

In [None]:
# Visualização breve das olimpíadas de 2012:
df_2012.head()

In [None]:
# Concatenação das olimpíadas de 2008 e 2012 com o método .append():
df_2008.append(df_2012, ignore_index = True)

In [None]:
# Concatenação das olimpíadas de 2008 e 2012 com o método .concat():
df_full = pd.concat([df_2008, df_2012], ignore_index = False, keys = [2008, 2012],
          names = ['Ano'])
print(df_full.shape)
df_full

In [None]:
# Exclusão do índice no level_1:
df_full = df_full.reset_index().drop(columns = 'level_1')
df_full

In [None]:
# Importação de dados fictícios das olimpíadas de 2008:
df_2008_fic = pd.read_csv('/content/drive/MyDrive/ath_2008_ficticio.csv', index_col = 'Atleta')
print(df_2008_fic.shape)
df_2008_fic.head()

In [None]:
# Importação de dados fictícios das olimpíadas de 2012:
df_2012_fic = pd.read_csv('/content/drive/MyDrive/ath_2012_ficticio.csv', index_col = 'Atleta')
print(df_2012_fic.shape)
df_2012_fic.head()

In [None]:
# Soma entre os dados de cada coluna:
df_2008_fic + df_2012_fic

In [None]:
# Soma entre os dados da coluna 'Gold' das olimpíadas fictícias de 2008 e 2012:
df_2008_fic['Gold'] + df_2012_fic['Gold']

In [None]:
# Soma entre os dois datasets fictícios com o método .add():
df_2008_fic.add(df_2012_fic, fill_value = 0)

In [None]:
# Subtração entre dados na coluna 'Bronze':
df_2008_fic['Bronze'] - df_2012_fic['Bronze']

In [None]:
# Subtração entre todos os dados fictícios das olimpíadas de 2008 e 2012:
df_2008_fic - df_2012_fic

In [None]:
# Método .sub() para facilitar na subtração de tais dados fictícios:
df_2008_fic.sub(df_2012_fic)

In [None]:
# A soma da quantidade de linhas presentes entre o dataset das olimpíadas de 2008 e de 2012:
len(df_2008) + len(df_2012)

In [None]:
# .merge() como método para concatenar os dois datasets de olimpíadas de 2008 e 2012:
# Nesse caso, irá retornar todos os dados presentes em cada dataset:
df_merge_outer = df_2008.merge(df_2012, how = 'outer',on = 'Athlete', suffixes = ['_2008', '_2012'], indicator = True)
print(df_merge_outer.shape)
df_merge_outer

In [None]:
# .value_counts() para sabermos quantos dados vieram do dataset da esquerda (2008), da direita (2012) ou
# vieram de ambos como intersecção (2008-2012):
df_merge_outer._merge.value_counts()

In [None]:
# .merge() com o inner que retornará somente os dados em comum entre os datasets olímpicos de 2008 e 2012
# Neste casos, os dados em comum na coluna 'Athlete' que irão ser mergeados para retornar visualmente:
df_merge_inner = df_2008.merge(df_2012, how = 'inner', on = 'Athlete', suffixes = ['_2008', '_2012'], indicator = True)
print(df_merge_inner.shape)
df_merge_inner

In [None]:
# .value_counts() para sabermos que somente dados intersectados nos dois datasets foram retornáveis nesse mergeamento:
df_merge_inner._merge.value_counts()

In [None]:
# Filtragem de dados que estão ou no dataset da esquerda (2008) ou no da direita (2012)
# Mas sem retornar e filtrar os dados que estão como intersecção em ambos (2008-2012):
df_merge_outer[(df_merge_outer['_merge'] == 'left_only') | (df_merge_outer['_merge'] == 'right_only')]

In [None]:
# Filtrar somente dados do dataset da esquerda (2008) ou da direita (2012), e não de ambos:
df_merge_outer_sem_inner = df_merge_outer.query('_merge != "both"')
print(df_merge_outer_sem_inner.shape)
print('\n')
df_merge_outer_sem_inner._merge.value_counts()

In [None]:
# Filtragem de dados exclusivamente da esquerda (2008):
df_merge_left_sem_inner = df_merge_outer.query('_merge == "left_only"')
print(df_merge_left_sem_inner.shape)
df_merge_left_sem_inner.head()

In [None]:
# Filtragem de dados exclusivamente da direita (2012):
df_merge_right_sem_inner = df_merge_outer.query('_merge == "right_only"')
print(df_merge_right_sem_inner.shape)
df_merge_right_sem_inner.head()

In [None]:
# Verificação de que há dados somente do dataset da direita (2012) pelo método .value_counts():
df_merge_right_sem_inner._merge.value_counts()

In [None]:
# .merge() com todos os dados da esquerda (2008) que intersectam em comum com o dataset da direita (2012):
df_merge_left = df_2008.merge(df_2012, how = 'left', on = 'Athlete', suffixes = ['_2008', '_2012'], indicator = True)
print(df_merge_left.shape)
df_merge_left.head()

In [None]:
# .merge() com todos os dados da direita (2012) que intersectam em comum com o dataset da esquerda (2008):
df_merge_right = df_2008.merge(df_2012, how = 'right', on = 'Athlete', suffixes = ['_2008', '_2012'], indicator = True)
print(df_merge_right.shape)
df_merge_right.head()

In [None]:
# Renomeação da coluna 'Athlete' para 'Name':
df_2008.rename(columns = {'Athlete': 'Name'}, inplace = True)
df_2008.columns

In [None]:
# Mergeamento de todos os dados presentes no dataset da esquerda (2008) quanto no da direita (2012):
df_full = df_2008.merge(df_2012, how = 'outer',left_on = 'Name', right_on = 'Athlete', suffixes = ['_2008', '_2012'], indicator = True)
print(df_full.shape)
df_full

In [None]:
# Preencher os dados ausentes da coluna 'Name' com os nomes da coluna 'Athlete':
df_full.Name.fillna(df_full.Athlete, inplace = True)
df_full.drop(columns = ['Athlete', '_merge'], inplace = True)
df_full

In [None]:
# Filtragem das medalhas conquistadas por Usain Bolt em 2008 e em 2012:
df_full.query('Name == "BOLT, Usain"')[['Name','Gold_2008', 'Gold_2012']]

In [None]:
# Mergeamento entre os dois datasets das olimpíadas de 2008 e 2012 de outro modo:
df_2008.rename(columns = {'Name': 'Athlete'}, inplace = True)
pd.merge(df_2008,
         df_2012, 
         how = 'outer',
         on = 'Athlete',
         suffixes = '_2008 _2012'.split(),
         indicator = True)

In [None]:
# Método .join() para juntar os dois datasets olímpicos de 2008 e 2012 pelo índice:
df_2008.join(df_2012, how = 'outer',lsuffix = '_2008', rsuffix = '_2012')

In [None]:
# Importação do dataset do titanic:
df_titanic = pd.read_csv('/content/drive/MyDrive/titanic.csv')
print(df_titanic.shape)
df_titanic.head()

In [None]:
# Filtragem das colunas de sexo e idade:
df_titanic_2 = df_titanic.loc[:, ['Sex', 'Age']]
df_titanic_2.head()

In [None]:
# Agrupamento do dataset do titanic por grupos de sexo:
df_group_sex = df_titanic_2.groupby('Sex')
type(df_group_sex)

In [None]:
# For aplicado para demonstrar visualmente cada grupo de sexo separadamente:
for sex, age in df_group_sex:
  print(sex)
  print(age)

In [None]:
# .get_group() para utilizar somente o grupo do sexo masculino:
df_group_sex.get_group('male')

In [None]:
# .get_group() para utilizar somente o grupo do sexo feminino:
df_group_sex.get_group('female')

In [None]:
# .count() aplicado por sexo:
df_group_sex.count()

In [None]:
# .size() para sabermos a quantidade de passageiros por sexo:
df_group_sex.size()

In [None]:
# Dados únicos da coluna 'Sex':
df_titanic.Sex.unique()

In [None]:
# Quantidade de dados únicos da coluna 'Sex':
df_titanic.Sex.nunique()

In [None]:
# Agrupamento representável em lista:
list(df_titanic.groupby('Sex'))

In [None]:
# Agregação da quantidade de sobreviventes e não-sobreviventes por sexo:
df_titanic.groupby(['Sex', 'Survived']).agg({'Survived': 'size'})

In [None]:
# Dados únicos da coluna 'Survived':
df_titanic.Survived.unique()

In [None]:
# .groups para sabermos quais índices estão atribuídos a tais grupos de sexo separados:
df_titanic.groupby('Survived').groups

In [None]:
# Importação de algumas colunas do dataset do Titanic:
df_titanic = pd.read_csv('/content/drive/MyDrive/titanic.csv', usecols = ['Survived', 'Pclass', 'Sex', 'Age', 'Fare'])
df_titanic.head()

In [None]:
# Média por cada grupo de sexo:
df_titanic.groupby('Sex').mean()

In [None]:
# Média e contagem por cada grupo de sexo:
df_titanic.groupby('Sex').agg(['mean', 'count'])

In [None]:
# Descrições estatísticas por cada grupo de sexo:
df_titanic.groupby('Sex').describe()

In [None]:
# Agregação de várias funções aplicáveis em cada grupo de sexo:
df_titanic.groupby('Sex').agg(['mean', 'count', 'min', 'max', 'sum'])

In [None]:
# Agregação diferível para cada coluna específica:
df_titanic.groupby('Sex').agg({'Survived': ['sum', 'mean'],
                               'Age': ['min', 'max', 'mean'],
                               'Fare': ['max', 'median']})

In [None]:
# Nomeação ou rotulação para a agregação realizada:
df_titanic.groupby('Sex').agg(survived_rate = ('Survived', 'mean'))

In [None]:
# Nomeação ou rotulação para a agregação realizada:
df_titanic.groupby('Sex').agg(survived_total = ('Survived', 'sum'),
                              survived_rate = ('Survived', 'mean'),
                              age_mean = ('Age', 'mean')).round(2)

In [None]:
# Novamente, re-importação do dataset do Titanic:
df_titanic = pd.read_csv('/content/drive/MyDrive/titanic.csv')
print(df_titanic.shape)
df_titanic.head()

In [None]:
# Informações generalizadas do dataset:
df_titanic.info()

In [None]:
# Quantidade de dados ausentes por coluna:
df_titanic.isna().sum()

In [None]:
# A média da coluna idade:
df_titanic.Age.mean()

In [None]:
# Preenchimento dos dados ausentes da coluna idade pela média de idade:
df_titanic.Age.fillna(df_titanic.Age.mean())

In [None]:
# Transformar todos os dados da coluna em idade na média da coluna idade dividida por sexo e classe do passageiro:
df_titanic.groupby(['Sex', 'Pclass']).Age.transform('mean')

In [None]:
# Retirar tais colunas de sexo e classe do índice:
df_titanic.groupby(['Sex', 'Pclass']).agg({'Age': 'mean'}).reset_index()

In [None]:
# Agrupamento por sexo e classe atributivamente à uma variável:
df_groupby = df_titanic.groupby(['Sex', 'Pclass']).mean()
print(df_groupby.shape)
df_groupby.head()

In [None]:
# Índice do agrupamento que é representado por um multíndice:
df_groupby.index

In [None]:
# Filtragem de um dataset multíndice:
df_groupby.loc[('female', 1), :]

In [None]:
# Como converter os níveis do índice de 0 para 1 e de 1 para 0:
df_groupby.swaplevel()

In [None]:
# Retirar tais multíndices e transforma-los em colunas:
df_groupby.swaplevel().reset_index()

In [None]:
# Visualização de dez linhas do dataframe:
df_titanic

In [None]:
# Verificar as configurações do máximo de linhas que podem ser exibidas do dataset:
pd.options.display.max_rows

In [None]:
# Verificar as configurações do mínimo de linhas que podem ser exibidas do dataset:
pd.options.display.min_rows

In [None]:
# Como mudar as configurações para exibir 20 linhas como o mínimo de linhas exibicionais:
pd.set_option('display.min', 20)

In [None]:
# Verificação da alteração configuracional:
df_titanic

In [None]:
# Retornar ao padrão exibicional de linhas mínimas para 10:
pd.set_option('display.min_rows', 10)

In [None]:
# Verificar a modificação da configuração:
pd.get_option('display.min_rows')

## SEÇÃO DE PANDAS IV FINALIZADA.