## Agregación de datos por categoría

In [None]:
import numpy as np
import pandas as pd

In [None]:
gender = ["Male", "Female"]
income = ["Poor", "Middle Class", "Rich"]

In [None]:
#generamos un diccionario aleatorio usando los arrays definidos
n = 500
gender_data = []
income_data = []

for i in range(0,500):
    gender_data.append(np.random.choice(gender)) #se rellenara aleatoriamente con los valores de gender
    income_data.append(np.random.choice(income))

In [None]:
gender_data[1:10]


In [None]:
income_data[1:10]

In [None]:
#generamos variables aletorias para la altura peso, edad e ingreso
height = 160 +30 *np.random.randn(n) #suponemos una altura promedio de 160 cm con dispersion de 30 cm arriba y abajo
weight = 65 +25 *np.random.randn(n)  # suponemos peso promedio de 65 kg y 25 de dispersion arriba y abajo
age = 30 + 12*np.random.randn(n)    #suponemos una edad promedio de 30 con dispersion de 12 años arriba y abajo
income = 18000 + 3500 * np.random.randn(n)

In [None]:
#creamos un pandas DataFrame a partir de un diccionario de datos
data = pd.DataFrame(
    {
        "Gender" : gender_data,
        "Economic Status" : income_data,
        "Height" : height,
        "Age" : age,
        "Income": income
    
    }
)

In [None]:
#verificar y formatear los datos, por ejemplo, edades sin decimales, alturas no tan extremas etc
data.head()

In [None]:
data.describe()

### Agrupacion de datos

In [None]:
grouped_gender = data.groupby("Gender") #devuelve objeto groupby interno de pandas

In [None]:
grouped_gender.groups

In [None]:
#iteramos para mostrar la agrupacion de datos segun la categoria "Gender"
for names, groups in grouped_gender:
    print(names)
    print(groups)

In [None]:
grouped_gender.get_group("Female") # le pido el grupo solo de mujeres

In [None]:
# agrupar por varias categorias
double_group = data.groupby(["Gender","Economic Status"])

In [None]:
len(double_group) # arma 6 grupos a partir de ambas categorias

In [None]:
for names, groups in double_group:
    print(names)
    print(groups)


### Operaciones sobre datos agrupados

In [None]:
double_group.sum() #ejemplo de operacion, suma los datos agrupados

In [None]:
double_group.mean() #promedio de los datos agrupados, recordar que siguen la normal, los promedios seran similares

In [None]:
double_group.size() #cantidad de elementos en cada una de las combinaciones agrupados

In [None]:
double_group.describe()

In [None]:
grouped_income = double_group["Income"] #operando sobre los datos agrupados, extraigo una parte

In [None]:
grouped_income.describe()

In [None]:
#podemos aplicar distintas operaciones a cada grupo de una agrupacion de datos
double_group.aggregate(
    {
        "Income":np.sum,
        "Age": np.mean,
        "Height": np.std
    
    }
)

In [None]:
#aplicado una funcion lambda a la columna height para calcular el promedio dividido por su desviacion estandar
double_group.aggregate(
    {
        "Age": np.mean,
        "Height":lambda h:np.mean(h)/np.std(h)
    }
)

In [None]:
#a cada columna de losd atos agrupados le aplico directamente las funciones sum, mean, y std
double_group.aggregate([np.sum,np.mean,np.std])

In [None]:
#aplicamos la funciona lanbda anterior a todas als columnas de los gatos agrupados
double_group.aggregate([lambda x:np.mean(x)/np.std(x)])

### Filtrado de datos agrupados

In [None]:
double_group.sum()

In [None]:
double_group["Age"].filter(lambda x:x.sum()>2400) # filtra los elementos del grupo cuya edad sumada supera los 2400 años

### transformacion matematica de variables de una columna

In [None]:
#defino una lambra a aplicara el z score que "normaliza" o estandariza los datos con media 0
zscore = lambda x : (x - x.mean())/x.std() 

In [None]:
z_group = double_group.transform(zscore)

In [None]:
import matplotlib.pyplot  as plt

In [None]:
plt.hist(z_group["Age"])

In [None]:
#reemplazo valores NaN con el promedio
fill_na_mean = lambda x : x.fillna(x.mean())

In [None]:
double_group.transform(fill_na_mean) #de haber valores NaN los reemplaza con los valores de la lambda

### Operaciones diversas muy utiles

In [None]:
double_group.head(1) # devuelve el primer elemento de cada grupo

In [None]:
double_group.tail(1) #devuelve la ultima fila de cada grupo

In [None]:
double_group.nth(32) # de existir devuelve el elemento 32avo de cada grupo, devuelve tabla agrupada

In [None]:
double_group.nth(82) # falta info porque hay menos de 82 mujeres en el objeto agrupado

In [None]:
#ordena por las columnas señaladas, joevenes primero y luego por nivel de ingreso
data_sorted = data.sort_values(["Age", "Income"]) 

In [None]:
data_sorted.head(10)

In [None]:
#agrupamos los datos previamente ordenados por edad con la categoria Gender
age_grouped = data_sorted.groupby("Gender") 

In [None]:
age_grouped.head(1)

In [None]:
#nos devuelve los mas mayores de cada grupo
age_grouped.tail(1)