# .groupby()

# Habrá ocasiones en las que la cantidad de información que estemos manejando sea demasiado grande, y sólo queramos obtener información sobre alguna categoría específica. Esto lo haremos usando el método groupby()

# Permite agrupar los datos en una o varias columnas y realizar operaciones agregadas en cada grupo. 

# Sintaxis:

df.groupby(columna a agrupar)

In [1]:
# Importamos las librerias y el archivo csv:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None)  # Para que aparezcan todas las columnas

path = 'C:/Users/Agus_Ana_María_Raúl/Agustin/DAM/MASTER/MÓDULO_7_PYTHON_FOR_DATA/2_PANDA/DatosUsuariosRedesSociales.csv'
user = pd.read_csv(path)  

user.sample(10)  # 10 filas aleatorias

Unnamed: 0,age,gender,time_spent,platform,interests,location,demographics,profession,income,indebt,isHomeOwner,Owns_Car
834,20,male,9,Facebook,Sports,United Kingdom,Rural,Marketer Manager,16035,True,True,False
728,42,non-binary,6,Facebook,Lifestlye,Australia,Urban,Marketer Manager,19096,True,True,True
122,52,female,9,Instagram,Lifestlye,United Kingdom,Rural,Marketer Manager,19257,True,True,True
433,43,male,6,Instagram,Travel,United Kingdom,Urban,Marketer Manager,16376,True,True,False
407,60,female,3,YouTube,Lifestlye,United Kingdom,Urban,Student,11392,True,False,False
109,59,non-binary,9,Instagram,Sports,Australia,Sub_Urban,Software Engineer,14468,False,False,False
223,55,female,4,YouTube,Travel,Australia,Sub_Urban,Student,14917,False,True,True
341,54,non-binary,9,YouTube,Lifestlye,United States,Urban,Marketer Manager,15317,True,False,False
510,61,male,1,Facebook,Travel,United States,Rural,Student,10075,False,True,True
895,32,non-binary,4,Facebook,Lifestlye,United Kingdom,Urban,Student,13551,False,True,True


In [None]:
# Agrupamos por la columna 'platform'
user.groupby('platform')

# Salida: objeto de tipo groupby, <pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F1E43A7CB0>

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x000001F1E43A7CB0>

In [None]:
# Cuando agrupamos SIEMPRE debemos indicar la operación que queremos hacer, en este caso la media:
user.groupby('platform').mean()

# Salida: error porque estamos intentando hacer la media de todas las columnas, numéricas o no

In [4]:
# Vamos a realizar la media de todas las columnas numéricas:
user.groupby('platform').mean(numeric_only = True)

Unnamed: 0_level_0,age,time_spent,income,indebt,isHomeOwner,Owns_Car
platform,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Facebook,40.846906,5.055375,15250.276873,0.485342,0.504886,0.52443
Instagram,40.892562,5.151515,14662.454545,0.506887,0.465565,0.523416
YouTube,41.218182,4.869697,15183.384848,0.49697,0.557576,0.569697


In [None]:
# Vamos a realizar la media de la columna 'edad' por cada red social
edad_media = user.groupby('platform')['age'].mean()
edad_media

# Salida: es de formato serie

platform
Facebook     40.846906
Instagram    40.892562
YouTube      41.218182
Name: age, dtype: float64

In [8]:
# Con el método .reset_index() convertimos el resultado anterior a formato dataframe 
edad_media = edad_media.reset_index()
edad_media

Unnamed: 0,index,platform,age
0,0,Facebook,40.846906
1,1,Instagram,40.892562
2,2,YouTube,41.218182


In [None]:
# Obtener la mediana (.median()) de los ingresos ('income') en función de su área de residencia ('demographics')
ingresos_residencia = user.groupby('demographics')['income'].median().reset_index()
ingresos_residencia

Unnamed: 0,demographics,income
0,Rural,14774.0
1,Sub_Urban,14631.0
2,Urban,15193.0


In [11]:
# Obtener el tiempo ('time_spent') total (.sum()) de uso de las redes sociales por país ('location')
tiempo_uso = user.groupby('location')[('time_spent')].sum().reset_index()
tiempo_uso

Unnamed: 0,location,time_spent
0,Australia,1837
1,United Kingdom,1615
2,United States,1577


# Podemos usar muchos otros parámetros estadísticos:

● count() : Número de observaciones no nulas
● describe() : Resumen de los principales estadísticos
● sum() : Suma de todos los valores
● mean() : Media de los valores
● median() : Mediana de los valores
● min() : Valor mínimo
● max() : Valor máximo
● std() : Desviación estándar
● var() : Varianza
● size() : Tamaño de los grupos.
● first(): Devuelve la primera entrada de cada grupo.
● last(): Devuelve la última entrada de cada grupo.

# Se pueden calcular varios datos estadísticos de una vez, se los pasamos mediante una lista de strings

# Sintaxis:

df.groupby(columna a agrupar).agg(funciones de agregacion)

In [None]:
# Calcular la media, mediana, desviación, máximo y mínimo del salario ('income') de los usuarios en función de su profesión ('profession'):
salario_profesion = user.groupby('profession')['income'].agg(['mean', 'median', 'std', 'max', 'min']).reset_index()
salario_profesion

Unnamed: 0,profession,mean,median,std,max,min
0,Marketer Manager,14927.335211,14859.0,3015.541853,19980,10028
1,Software Engineer,14876.511905,14657.0,2976.01889,19969,10012
2,Student,15265.731392,15316.0,2866.08157,19957,10075


# .groups

# Este método nos indica en qué valor de índice de nuestro DataFrame aparece un valor en la columna especificada en el groupby.

# Devuelve una lista cuyos elementos pertenecen a los índices donde se encuentra el valor.

# Sintaxis:

df.groupby(columna a agrupar).groups['Valor']

In [9]:
# Queremos buscar en que índice se encuentra el valor o la palabra 'Facebook'	:
user.groupby('platform').groups['Facebook']

Index([  1,   5,  11,  12,  15,  18,  19,  25,  27,  30,
       ...
       956, 957, 966, 974, 977, 979, 981, 987, 988, 991],
      dtype='int64', length=307)

# .get_group()

# Creamos un DataFrame sólo con los datos que incluyan el valor que especifiquemos de la columna deseada

# # Sintaxis:

df.groupby(columna a agrupar).get_group['Valor']

In [None]:
# Crear un dataframe sólo con los valores 'Facebook' de la columna 'platform
user.groupby('platform').get_group('Facebook').head()

Unnamed: 0,age,gender,time_spent,platform,interests,location,demographics,profession,income,indebt,isHomeOwner,Owns_Car
1,46,female,2,Facebook,Travel,United Kingdom,Urban,Student,10564,True,True,True
5,38,male,3,Facebook,Travel,United States,Urban,Marketer Manager,19179,True,True,True
11,41,non-binary,5,Facebook,Sports,United States,Sub_Urban,Marketer Manager,10350,False,False,False
12,53,non-binary,5,Facebook,Sports,Australia,Rural,Student,17314,False,True,True
15,20,male,6,Facebook,Sports,United Kingdom,Sub_Urban,Software Engineer,18540,True,True,False
