<a href="https://colab.research.google.com/github/fralfaro/MAT281_2023/blob/main/docs/lectures/data_manipulation/pd_02.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Groupby


**Groupby** es un concepto bastante simple. Podemos crear una agrupación de categorías y aplicar una función a las categorías. 

El proceso de groupby se puede resumiren los siguientes pasos:

* **División**: es un proceso en el que dividimos los datos en grupos aplicando algunas condiciones en los conjuntos de datos.
* **Aplicación**: es un proceso en el que aplicamos una función a cada grupo de forma independiente
* **Combinación**: es un proceso en el que combinamos diferentes conjuntos de datos después de aplicar groupby y resultados en una estructura de datos

<img src="https://drive.google.com/uc?export=view&id=15r9YozE6iDHJuq5f8Hc1gzd8x0A9atkm" width = "600" align="center"/>




Después de dividir los datos en un grupo, aplicamos una función a cada grupo para realizar algunas operaciones que son:

* **Agregación**: es un proceso en el que calculamos una estadística resumida (o estadística) sobre cada grupo. Por ejemplo, Calcular sumas de grupo o medios
* **Transformación**: es un proceso en el que realizamos algunos cálculos específicos del grupo y devolvemos un índice similar. Por ejemplo, llenar NA dentro de grupos con un valor derivado de cada grupo
* **Filtración**: es un proceso en el cual descartamos algunos grupos, de acuerdo con un cálculo grupal que evalúa Verdadero o Falso. Por ejemplo, Filtrar datos en función de la suma o media grupal

## Aplicación

Para comprender mejor el concepto de agrupación de tablas, se realiza un ejercicio simple sobre el conjunto de datos **pokemon.csv**

<img src="https://drive.google.com/uc?export=view&id=1WYKAq-hjBVpP-u_nLFT-djJPkKA73Ap3" width = "300" align="center"/>


In [None]:
# libreria
import pandas as pd
import numpy as np
import os

In [None]:
# cargar datos

url='https://drive.google.com/file/d/1uVJcfTBWemOTfxmjWTqALfUpIMdH3LVV/view?usp=drive_link'
url='https://drive.google.com/uc?id=' + url.split('/')[-2]

pokemon_data = pd.read_csv(url, sep=",")
pokemon_data.head()

In [None]:
# renombrar columnas
pokemon_data.columns = pokemon_data.columns.str.lower().str.replace('.','_').str.replace(' ','_') #change into upper case
pokemon_data.head()

### Número de pokemones por generación

In [None]:
grupo = pokemon_data.groupby('generation')  
grupo[['name']].count().reset_index()

### Número de pokemones  por par Tipo I y Tipo II

In [None]:
grupo = pokemon_data.groupby(['type_1','type_2']) 
grupo['name'].count().reset_index()

### Calcular hp promedio y hp total agrupados si el pokemon es legendario o no

#### método 01: ocupando el comando agg

In [None]:
# metodo 01: ocupando el comando agg
grupo = pokemon_data.groupby(['legendary'])
df_leng = grupo.agg({'hp':[np.mean,sum]}).reset_index()
df_leng

#### método 02: ocupando el comando apply

In [None]:
# metodo 02: ocupando el comando apply
def my_custom_function(x):
        """
        Funcion que calcula el hp promedio y total
        """
        names = {
        'mean': x['hp'].mean(),
        'sum':x['hp'].sum()}
        
        return pd.Series(names, index=['mean', 'sum'])

In [None]:
grupo = pokemon_data.groupby(['legendary'])
df_leng = grupo.apply(my_custom_function).reset_index()
df_leng

### Normalizar las estadísticas agrupados por generación 

In [None]:
cols_statistics = [
    'generation', 'hp', 
    'attack', 'defense',
    'sp__atk','sp__def', 
    'speed'
]

grupo = pokemon_data[cols_statistics].groupby('generation') 
sc = lambda x: (x - x.mean()) / x.std()
grupo.transform(sc)

### Identificar generaciones  que tienen menos de 100 pokemones

In [None]:
grupo = pokemon_data[['name','generation']].groupby('generation')  
grupo.filter(lambda x: len(x['name']) < 150) 

## Referencias

1. [Groupby](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html)
