# <font color='blue'>Python Fundamentos - Groupby</font>

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Versão da Linguagem Python Usada Neste Jupyter Notebook:', python_version())

Versão da Linguagem Python Usada Neste Jupyter Notebook: 3.9.13


## Groupby
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>
    
Uma operação de agrupamento de dados envolve uma combinação de ações como: <br>
- **Dividir o dataset** em grupos com base em algum critério; <br>
- **Aplicar funções** para cada grupo independente; <br>
- **Combinar os resultados** em uma estrutura de dados. <br> 
<br>
    
Permite observar os dados a partir de diversas perspectivas.<br>

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.groupby.html    
    
</details>

In [None]:
# Instalando as bibliotecas
!pip install pandas
!pip install numpy

In [None]:
# Importando pacotes
import pandas as pd
import numpy as np

In [None]:
# Coletando os dados
df = pd.read_csv('Dados/Titanic/train.csv')
df.head()

In [None]:
# Excluir colunas específicas
df = df.drop(['PassengerId', 'Name'], axis=1)

In [None]:
# Renomeando as colunas
df.columns = ['Sobrevivente', 'Classe', 'Sexo', 'Idade', 'Quantidade de irmãos e esposas', 'Quantidade de pais e crianças', 'Bilhete', 'Tarifa', "Cabine", 'Porto de Embarque']
df

In [None]:
# Analisar os dados setando a variável Sobrevivente como índice
df1 = df.groupby("Sobrevivente")

In [None]:
# Não conseguimos imprimir objetos do tipo Groupby
df1

In [None]:
# Verificando a quantidade de sobreviventes e não sobreviventes
df1["Sobrevivente"].size()

In [None]:
# Verificando a média das variáveis numéricas de acordo com a variável sobrevivente
df1[["Idade", "Quantidade de irmãos e esposas", "Quantidade de pais e crianças", "Tarifa"]].aggregate(["mean"])

In [None]:
# Verificando a mediana das variáveis numéricas de acordo com a variável Sobrevivente
df1[["Idade", "Quantidade de irmãos e esposas", "Quantidade de pais e crianças", "Tarifa"]].aggregate(["median"])

In [None]:
# Verificando o valor mínimo e máximo das variáveis numéricas de acordo com a variável Sobrevivente
df1[["Idade", "Quantidade de irmãos e esposas", "Quantidade de pais e crianças", "Tarifa"]].aggregate(["min", "max"])

In [None]:
# Verificando a soma das variáveis numéricas de acordo com a variável Sobrevivente
df1[["Idade", "Quantidade de irmãos e esposas", "Quantidade de pais e crianças", "Tarifa"]].aggregate(["sum"])

In [None]:
# Indexando a variável sobrevivente e a variável sexo
df2 = df.groupby(["Sobrevivente", "Sexo"])

In [None]:
# Verificando as quantidades de sobreviventes e não sobreviventes por sexo 
df2.size()

In [None]:
# Reiniciando os índices do agrupamento
df2.size().reset_index()

In [None]:
# Renomeando a coluna
df2.size().reset_index().rename(columns = {0: "Quantidade"})

In [None]:
# Gráfico das quantidades de sobreviventes e não sobreviventes por sexo 
df2.size().plot.bar()

In [None]:
# Indexando a variável sobrevivente e a variável classe
df3 = df.groupby(["Sobrevivente", "Classe"])

In [None]:
# Gráfico das quantidades de sobreviventes e não sobreviventes por Classe 
ax = df3.size().plot.bar()
ax.set_title("Relação da variável sobrevivente com a variável Classe ", fontsize = 16)
ax.set_xlabel("Não Sobrevivente = 0 / Sobrevivente = 1", fontsize = 12)
ax.set_ylabel("Quantidade", fontsize = 12)
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")

In [None]:
# Indexando a variável sobrevivente, a variável Sexo e a variável Classe
df4 = df.groupby(["Sobrevivente", "Sexo", "Classe"])

In [None]:
# Gráfico das quantidades de sobreviventes e não sobreviventes por Classe e por Sexo
ax = df4.size().plot.bar()
ax.set_title("Relação da variável sobrevivente com as variáveis Classe e Sexo ", fontsize = 16)
ax.set_xlabel("Não Sobrevivente = 0 / Sobrevivente = 1", fontsize = 12)
ax.set_ylabel("Quantidade", fontsize = 12)
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.4
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")

In [None]:
# Indexando a variável sobrevivente e a variável Quantidade de pais e crianças
df5 = df.groupby(["Sobrevivente", "Quantidade de pais e crianças"])

In [None]:
# Gráfico das quantidades de sobreviventes e não sobreviventes de acordo com a Quantidade de pais e crianças
ax = df5.size().plot.bar()
ax.set_title("Relação da variável sobrevivente com a variável quantidade de pais e crianças", fontsize = 16)
ax.set_xlabel("Não Sobrevivente = 0 / Sobrevivente = 1", fontsize = 12)
ax.set_ylabel("Quantidade", fontsize = 12)
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.5
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")

In [None]:
# Indexando a variável sobrevivente e a variável Porto de Embarque
df6 = df.groupby(["Sobrevivente", "Porto de Embarque"])

In [None]:
# Gráfico das quantidades de sobreviventes e não sobreviventes de acordo com o Porto de Embarque
ax = df6.size().plot.bar()
ax.set_title("Relação da variável sobrevivente com a variável Porto de Embarque", fontsize = 16)
ax.set_xlabel("Não Sobrevivente = 0 / Sobrevivente = 1", fontsize = 12)
ax.set_ylabel("Quantidade", fontsize = 12)
for p in ax.patches:
    _x = p.get_x() + p.get_width() - 0.5
    _y = p.get_y() + p.get_height()
    value = int(p.get_height())
    ax.text(_x, _y, value, ha="left")