# Agrupaciones Múltiples, Pivotear y Transponer

In [2]:
import pandas as pd

df1 = pd.read_csv("dataset_2a.csv")
df2 = pd.read_csv("dataset_2b.csv")
df3 = pd.read_csv("dataset_2c.csv")

df_con_usuarios = df1.merge(df2, on='user', how='left')
df_completo = df_con_usuarios.merge(df3, on='ciudad', how='left')

df_completo['mes'] = df_completo['fecha_publicado'].apply(lambda x: x[3:])

In [3]:
# Cantidad de tweets por mes
df_completo.groupby('mes').agg({
    'id': 'count'
})

Unnamed: 0_level_0,id
mes,Unnamed: 1_level_1
01/2023,12
02/2023,12
03/2023,3


In [5]:
# Cantidad de tweets por mes dentro de cada ciudad
agrupado = df_completo.groupby(['mes', 'ciudad']).agg({
    'id': 'count'
})
agrupado

Unnamed: 0_level_0,Unnamed: 1_level_0,id
mes,ciudad,Unnamed: 2_level_1
01/2023,GUAYAQUIL,2
01/2023,OAXACA,4
01/2023,QUITO,1
01/2023,SAO PAULO,5
02/2023,GUADALAJARA,2
02/2023,GUAYAQUIL,2
02/2023,OAXACA,1
02/2023,QUITO,3
02/2023,RIO DE JANEIRO,4
03/2023,GUADALAJARA,1


In [8]:
# Resetea el índice para que se vuelva columna
desagrupado = agrupado.reset_index(1)
desagrupado

Unnamed: 0_level_0,ciudad,id
mes,Unnamed: 1_level_1,Unnamed: 2_level_1
01/2023,GUAYAQUIL,2
01/2023,OAXACA,4
01/2023,QUITO,1
01/2023,SAO PAULO,5
02/2023,GUADALAJARA,2
02/2023,GUAYAQUIL,2
02/2023,OAXACA,1
02/2023,QUITO,3
02/2023,RIO DE JANEIRO,4
03/2023,GUADALAJARA,1


In [9]:
desagrupado['ciudad']

mes
01/2023         GUAYAQUIL
01/2023            OAXACA
01/2023             QUITO
01/2023         SAO PAULO
02/2023       GUADALAJARA
02/2023         GUAYAQUIL
02/2023            OAXACA
02/2023             QUITO
02/2023    RIO DE JANEIRO
03/2023       GUADALAJARA
03/2023      PORTO ALEGRE
03/2023    RIO DE JANEIRO
Name: ciudad, dtype: object

# Pivotar
### Convertir cada valor único de una columna en nuevas columnas

In [11]:
# Cada fila se convierte en una columna
pivote = desagrupado.pivot(columns='ciudad')
pivote

Unnamed: 0_level_0,id,id,id,id,id,id,id
ciudad,GUADALAJARA,GUAYAQUIL,OAXACA,PORTO ALEGRE,QUITO,RIO DE JANEIRO,SAO PAULO
mes,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
01/2023,,2.0,4.0,,1.0,,5.0
02/2023,2.0,2.0,1.0,,3.0,4.0,
03/2023,1.0,,,1.0,,1.0,


In [12]:
# Ahora las columnas tienen dos índices el id y las ciudades por ello, para evitar problemas eliminaremos el índice 0
pivote = pivote.droplevel(0, axis='columns')
pivote

ciudad,GUADALAJARA,GUAYAQUIL,OAXACA,PORTO ALEGRE,QUITO,RIO DE JANEIRO,SAO PAULO
mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
01/2023,,2.0,4.0,,1.0,,5.0
02/2023,2.0,2.0,1.0,,3.0,4.0,
03/2023,1.0,,,1.0,,1.0,


In [13]:
pivote = pivote.fillna(0)
pivote

ciudad,GUADALAJARA,GUAYAQUIL,OAXACA,PORTO ALEGRE,QUITO,RIO DE JANEIRO,SAO PAULO
mes,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
01/2023,0.0,2.0,4.0,0.0,1.0,0.0,5.0
02/2023,2.0,2.0,1.0,0.0,3.0,4.0,0.0
03/2023,1.0,0.0,0.0,1.0,0.0,1.0,0.0


In [14]:
# Transpuesta
pivote.transpose()

mes,01/2023,02/2023,03/2023
ciudad,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
GUADALAJARA,0.0,2.0,1.0
GUAYAQUIL,2.0,2.0,0.0
OAXACA,4.0,1.0,0.0
PORTO ALEGRE,0.0,0.0,1.0
QUITO,1.0,3.0,0.0
RIO DE JANEIRO,0.0,4.0,1.0
SAO PAULO,5.0,0.0,0.0
