Agrupación de datos

 Usando .groupby()

El método .groupby() de Pandas permite agrupar datos en un DataFrame basado en los valores de una o más columnas. Luego, puedes aplicar una función a cada grupo para obtener resultados como sumas, medias, máximos, mínimos, etc.

Sintaxis Básica:

# Uso de groupby
df.groupby('columna_para_agrupar')

Después de agrupar los datos, puedes aplicar varios métodos de agregación:

•.sum(): Suma de valores.

•.mean(): Media aritmética.

•.median(): Mediana.

•.count(): Cuenta el número de valores no nulos.

•.max(): Valor máximo.

•.min(): Valor mínimo.

Veamos el siguiente ejemplo: Total de días por rango de temperatura en Madrid
Agrupación por rangos de valor
Aquí, el objetivo es contar cuántos días caen dentro de rangos de temperatura específicos en Madrid. Esto implica crear categorías basadas en los valores de temperatura (por ejemplo, días con temperaturas "Bajas", "Moderadas" y "Altas") y luego contar cuántos días caen en cada categoría.

Primero, necesitamos categorizar las temperaturas y luego agrupar y contar:

In [18]:
# Antes de inicar
import pandas as pd

In [19]:
#Importamos primero los archivos
archivo_temperaturas = r'C:\Users\Administrator\Documents\CF\CIENCIA DE DATOS IA\Data Analytics\M4\Python\Lecture 5\temperaturas_globales.csv'
df_temperaturas = pd.read_csv(archivo_temperaturas)

archivo_precipitaciones = 'C:\\Users\\Administrator\\Documents\\CF\\CIENCIA DE DATOS IA\\Data Analytics\\M4\\Python\\Lecture 5\\precipitaciones_globales.csv'
df_precipitaciones = pd.read_csv(archivo_precipitaciones)

In [29]:
df_temperaturas = pd.read_csv(archivo_temperaturas, parse_dates=['Fecha'])

In [21]:
# Categorizando las temperaturas
df_temperaturas['Rango_Temperatura'] = pd.cut(df_temperaturas['Madrid'], bins=[-10, 10, 20, 30, 40], labels=["Baja", "Moderada", "Alta", "Muy Alta"])

# Contando días por rango de temperatura
dias_por_rango_temperatura = df_temperaturas.groupby('Rango_Temperatura').size() # .size() se utiliza para contar los datos agrupados

print("Días por rango de temperatura en Madrid:")
print(dias_por_rango_temperatura)

Días por rango de temperatura en Madrid:
Rango_Temperatura
Baja         8
Moderada     5
Alta        10
Muy Alta     1
dtype: int64


  dias_por_rango_temperatura = df_temperaturas.groupby('Rango_Temperatura').size() # .size() se utiliza para contar los datos agrupados


Función pd.melt()

La función pd.melt() se utiliza para "despivotar" o transformar un DataFrame de un formato ancho a un formato largo. En un DataFrame ancho, cada variable se extiende a través de las columnas. Al despivotar, convertimos estas columnas en filas, lo que generalmente facilita el trabajo con los datos para ciertos tipos de análisis o visualización.

Sintaxis Básica:
pd.melt(frame, id_vars=None, value_vars=None, var_name=None, value_name='value', col_level=None, ignore_index=True)

Antes de realizar la operación, debemos eliminar la columna Madrid debido a que la misma, recordemos en base a lo realizado anteriormente con groupby, ya no contiene temperaturas sino categorías.

In [22]:
# Eliminar columna Madrid
df_temperaturas = df_temperaturas.drop('Madrid', axis=1)

# Ahora, la columna 'Madrid' ha sido eliminada del DataFrame.

Por otra parte, también debemos eliminar las columnas ‘Clasificación_Madrid’ y ‘Rango_Temperatura’, por la misma razón, evitando en este caso inconvenientes en el análisis.

In [23]:
# Eliminar columna Clasificación_Madrid
df_temperaturas = df_temperaturas.drop('Clasificación_Madrid', axis=1)

# Ahora, la columna 'Clasificación_Madrid' ha sido eliminada del DataFrame.



KeyError: "['Clasificación_Madrid'] not found in axis"

In [None]:
# Eliminar columna Rango_Temperatura
df_temperaturas = df_temperaturas.drop('Rango_Temperatura', axis=1)

# Ahora, la columna 'Rango_Temperatura' ha sido eliminada del DataFrame.

Luego, para entender mejor algunas funciones avanzadas de Pandas, necesitamos transformar nuestro DataFrame y organizar los datos con las columnas 'Fecha', 'Ciudad' y 'Temperatura'.

In [None]:
# Uso de pd.melt()

# Transformar las columnas de ciudades en una sola columna 'Ciudad' y una columna 'Temperatura'
df_temperaturas_nuevoformato = df_temperaturas.melt(id_vars=['Fecha'], var_name='Ciudad', value_name='Temperatura')

# Mostrar las primeras filas del DataFrame transformado

print(df_temperaturas_nuevoformato.head(100))

         Fecha      Ciudad  Temperatura
0   2022-01-31  Nueva York            2
1   2022-02-28  Nueva York           26
2   2022-03-31  Nueva York           20
3   2022-04-30  Nueva York           32
4   2022-05-31  Nueva York           18
..         ...         ...          ...
91  2023-08-31     Londres           14
92  2023-09-30     Londres            3
93  2023-10-31     Londres            2
94  2023-11-30     Londres           33
95  2023-12-31     Londres           19

[96 rows x 3 columns]


Este script primero utiliza pd.melt() para "derretir" el DataFrame, moviendo los nombres de las ciudades de los encabezados de las columnas a una única columna 'Ciudad', y colocando las temperaturas correspondientes en una columna 'Temperatura'. 

El argumento id_vars=['Fecha'] se usa para mantener la columna 'Fecha' como está, sin transformarla.

Transformaciones con .groupby()
Además de la agregación, puedes realizar transformaciones que mantienen el mismo índice del DataFrame original pero con los datos transformados. 

Centrar las temperaturas por ciudad
El objetivo de este ejemplo es ajustar las temperaturas de cada ciudad restando la media de temperatura de esa ciudad a cada registro de temperatura. Esto es una "transformación" porque modificamos los datos manteniendo la misma estructura del DataFrame original.

In [None]:
# Transformaciones con .groupby()

# Calculamos la temperatura media por ciudad
media_por_ciudad = df_temperaturas_nuevoformato.groupby('Ciudad')['Temperatura'].transform('mean')

# Restamos esta media de cada registro de temperatura para centrar los datos
df_temperaturas_nuevoformato['Temperatura_Centrada'] = df_temperaturas_nuevoformato['Temperatura'] - media_por_ciudad

# Mostramos las primeras filas para verificar los resultados

print(df_temperaturas_nuevoformato.head())

        Fecha      Ciudad  Temperatura  Temperatura_Centrada
0  2022-01-31  Nueva York            2            -14.583333
1  2022-02-28  Nueva York           26              9.416667
2  2022-03-31  Nueva York           20              3.416667
3  2022-04-30  Nueva York           32             15.416667
4  2022-05-31  Nueva York           18              1.416667


El resultado en este ejemplo se asigna a una nueva columna en el DataFrame, preservando la estructura original del DataFrame mientras se modifica el contenido de los datos.

Filtrado con .groupby()

También puedes filtrar grupos basado en propiedades de los grupos usando .filter().

Filtrar ciudades con variabilidad de temperatura superior al umbral
Aquí, el objetivo es filtrar y mantener sólo aquellas ciudades cuya desviación estándar de la temperatura (una medida de variabilidad) exceda un cierto umbral. Esto implica "filtrar" grupos basándonos en una propiedad calculada para el grupo entero.

In [None]:
# Definimos un umbral para la desviación estándar de la temperatura
umbral_variabilidad = 5

# Filtramos ciudades con una variabilidad de temperatura superior al umbral
ciudades_con_alta_variabilidad = df_temperaturas_nuevoformato.groupby('Ciudad').filter(lambda x: x['Temperatura'].std() > umbral_variabilidad)

print("Ciudades con alta variabilidad de temperatura:")

print(ciudades_con_alta_variabilidad['Ciudad'].unique())

Ciudades con alta variabilidad de temperatura:
['Nueva York' 'París' 'Berlín' 'Londres']


En este ejemplo, .filter() se usa para aplicar una función lambda a cada grupo. La función calcula la desviación estándar de las temperaturas para cada ciudad y compara este valor con un umbral predefinido. Solo los grupos (ciudades) que cumplen con la condición (variabilidad de temperatura superior al umbral) se mantienen en el DataFrame resultante.

Pivot tables

Las tablas pivote son una herramienta excelente para resumir, analizar, explorar y presentar tus datos. Pandas facilita la creación de tablas pivote a partir de DataFrames, permitiéndote ver la relación entre dos dimensiones de datos de manera compacta. Son especialmente útiles para análisis de datos exploratorios y reportes.
# Crear una tabla pivote
pivot = df.pivot_table(values='valor', index='fila', columns='columna', aggfunc='mean')

In [34]:
# Asegurándonos de que la columna 'Fecha' sea del tipo datetime
df_temperaturas_nuevoformato['Fecha'] = pd.to_datetime(df_temperaturas_nuevoformato['Fecha'])
#Toco investigar porque se presentaba un error pues todo el proceso anterior se realizo en otro archivo


Temperatura máxima anual para cada ciudad
Supongamos que queremos crear una tabla pivote que muestre la temperatura máxima anual para cada ciudad registrada en nuestro DataFrame df_temperaturas_nuevoformato. Esta tabla nos permitirá comparar fácilmente las temperaturas máximas entre ciudades a lo largo de los años.

In [35]:
# Primero, asegurémonos de que el DataFrame tiene una columna 'Año' extraída de 'Fecha'
df_temperaturas_nuevoformato['Año'] = df_temperaturas_nuevoformato['Fecha'].dt.year


# Crear la tabla pivote
tabla_pivote_maximas = df_temperaturas_nuevoformato.pivot_table(values='Temperatura', index='Año', columns='Ciudad', aggfunc='max')

print("Tabla Pivote de Temperaturas Máximas Anuales por Ciudad:")

print(tabla_pivote_maximas)

Tabla Pivote de Temperaturas Máximas Anuales por Ciudad:
Ciudad  Berlín  Londres  Nueva York  París
Año                                       
2022        33       31          32     31
2023        34       34          33     33


Este ejemplo utiliza pivot_table para crear una tabla que tiene años en las filas (index='Año'), ciudades en las columnas (columns='Ciudad'), y las temperaturas máximas como valores (values='Temperatura'). La función de agregación aggfunc='max' se utiliza para asegurar que estamos viendo la temperatura máxima registrada cada año para cada ciudad.

Comparación de temperaturas medias y máximas mensuales en Madrid
Si estamos interesados en comparar no solo las temperaturas máximas sino también las medias en un formato mensual para una ciudad específica, como Nueva York, podríamos adaptar nuestra tabla pivote de la siguiente manera:

In [38]:
# Primero, asegurémonos de que el DataFrame tiene una columna 'Mes' extraída de 'Fecha'
df_temperaturas_nuevoformato['Mes'] = df_temperaturas_nuevoformato['Fecha'].dt.month


# Crear la tabla pivote para Nueva York con temperaturas medias y máximas
tabla_pivote_nuevayork = df_temperaturas_nuevoformato[df_temperaturas_nuevoformato['Ciudad'] == 'Nueva York'].pivot_table(values='Temperatura',

                                                                                          index='Mes',

                                                                                          aggfunc={'Temperatura': ['mean', 'max']})


print("Tabla Pivote de Temperaturas Medias y Máximas Mensuales en Nueva York:")

print(tabla_pivote_nuevayork)



Tabla Pivote de Temperaturas Medias y Máximas Mensuales en Nueva York:
     max  mean
Mes           
1     25  13.5
2     26  10.5
3     20  15.0
4     32  25.5
5     19  18.5
6     11   9.5
7      8   7.0
8     24  13.5
9     28  15.5
10    28  24.5
11    33  26.5
12    32  19.5


Este ejemplo filtra primero los datos para Nueva York, luego crea una tabla pivote donde cada fila representa un mes del año. Utiliza dos funciones de agregación, mean y max, para calcular la temperatura media y máxima, respectivamente, para cada mes.

Estos ejemplos demuestran la flexibilidad y la capacidad de las tablas pivote en Pandas para resumir y analizar datos. Al ajustar los parámetros values, index, columns, y aggfunc, puedes adaptar las tablas pivote a una amplia variedad de situaciones de análisis de datos, facilitando la comprensión de las relaciones y tendencias en tus datos.

Fusión y concatenación de datos

Fusión de datos con merge()

pd.merge() es similar a las operaciones JOIN en SQL y combina filas de dos o más DataFrames basados en una o más claves de coincidencia.

# Fusionar DataFrames en una clave común
df_fusionado = pd.merge(df1, df2, on='clave_comun')

En base a los dos DataFrames credos, df_temperaturas y df_precipitaciones, ambos DataFrames tienen una columna común 'Fecha' y una columna para cada ciudad con los valores de temperatura y precipitación, respectivamente. Queremos fusionar estos dos DataFrames para analizar las temperaturas y las precipitaciones juntas.

Antes de continuar necesitas asegurarte de que ambas columnas 'Fecha' en los DataFrames df_temperaturas y df_precipitaciones tengan el mismo tipo de datos, específicamente datetime64[ns], antes de proceder con el merge.

In [39]:
# Asegurando que los datos estén en el formato correcto

df_temperaturas['Fecha'] = pd.to_datetime(df_temperaturas['Fecha'])

df_precipitaciones['Fecha'] = pd.to_datetime(df_precipitaciones['Fecha'])

In [40]:
# Una vez que ambos están en formato datetime, procedemos con el merge
# Combinar df_temperaturas y df_precipitaciones

df_combinado = pd.merge(df_temperaturas, df_precipitaciones, on='Fecha', suffixes=('_temp', '_prec'))

# Mostrando las primeras filas del DataFrame combinado

print(df_combinado.head())

       Fecha  Nueva York_temp  París_temp  Berlín_temp  Londres_temp  \
0 2022-01-31                2           6           22            24   
1 2022-02-28               26          29           18            10   
2 2022-03-31               20           3           14             2   
3 2022-04-30               32          -4           26            31   
4 2022-05-31               18           0           33             1   

   Madrid_temp  Nueva York_prec  París_prec  Berlín_prec  Londres_prec  \
0           23               63          78           33            99   
1           21               78          34           76            57   
2           -4               35          23           74            52   
3           33               33          75           90            88   
4           26               80          81           85            49   

   Madrid_prec  
0           82  
1           86  
2           58  
3           65  
4           49  


En este ejemplo, pd.merge() fusiona df_temperaturas y df_precipitaciones usando la columna 'Fecha' como clave de fusión. Los sufijos _temp y _prec se añaden a los nombres de las columnas para distinguir entre las temperaturas y las precipitaciones de cada ciudad.

Concatenación con concat()

pd.concat() concatena DataFrames o Series a lo largo de un eje particular. Es útil para combinar datos que tienen el mismo esquema.

# Concatenar DataFrames verticalmente
df_concatenado = pd.concat([df1, df2])

Para ilustrar el uso de pd.concat, vamos a crear dos DataFrames separados como si fueran segmentos de datos de temperatura para diferentes años y ciudades. Luego, mostraremos cómo concatenar estos DataFrames para combinar los datos en una sola estructura.

Paso 1
Creación de los DataFrames para concatenación
Vamos a simular dos conjuntos de datos:

DataFrame 1: Temperaturas del año 2022 para Nueva York y París.
DataFrame 2: Temperaturas del año 2023 para las mismas ciudades.


In [41]:
# Datos para el primer DataFrame (2022)

data_2022 = {
    'Fecha': pd.date_range(start="2022-01-01", end="2022-12-31", freq='M'),
    'Nueva York': [-5, 0, 5, 10, 15, 20, 25, 24, 19, 10, 5, -2],
    'París': [2, 5, 8, 12, 15, 18, 21, 20, 17, 11, 7, 3]
}

df_2022 = pd.DataFrame(data_2022)

# Datos para el segundo DataFrame (2023)
data_2023 = {
    'Fecha': pd.date_range(start="2023-01-01", end="2023-12-31", freq='M'),
    'Nueva York': [-6, -1, 4, 11, 16, 21, 26, 23, 18, 9, 4, -3],
    'París': [1, 4, 9, 13, 16, 19, 22, 21, 16, 10, 6, 2]
}

df_2023 = pd.DataFrame(data_2023)

  'Fecha': pd.date_range(start="2022-01-01", end="2022-12-31", freq='M'),
  'Fecha': pd.date_range(start="2023-01-01", end="2023-12-31", freq='M'),


Ahora que tenemos df_2022 y df_2023, cada uno conteniendo datos de temperatura para un año específico, vamos a concatenarlos para formar un único DataFrame que contenga los datos de ambos años.

Paso 2
Concatenación de los DataFrames
Para concatenar los dos DataFrames, utilizaremos pd.concat(), lo que nos permitirá unirlos verticalmente (uno encima del otro), asumiendo que tienen las mismas columnas.

In [42]:
# Concatenando los DataFrames verticalmente
df_temperaturas = pd.concat([df_2022, df_2023])

# Reiniciamos el índice del DataFrame resultante para evitar índices duplicados
df_temperaturas.reset_index(drop=True, inplace=True)

print(df_temperaturas)

        Fecha  Nueva York  París
0  2022-01-31          -5      2
1  2022-02-28           0      5
2  2022-03-31           5      8
3  2022-04-30          10     12
4  2022-05-31          15     15
5  2022-06-30          20     18
6  2022-07-31          25     21
7  2022-08-31          24     20
8  2022-09-30          19     17
9  2022-10-31          10     11
10 2022-11-30           5      7
11 2022-12-31          -2      3
12 2023-01-31          -6      1
13 2023-02-28          -1      4
14 2023-03-31           4      9
15 2023-04-30          11     13
16 2023-05-31          16     16
17 2023-06-30          21     19
18 2023-07-31          26     22
19 2023-08-31          23     21
20 2023-09-30          18     16
21 2023-10-31           9     10
22 2023-11-30           4      6
23 2023-12-31          -3      2


 Filtrado con isin()

Uno de los métodos de filtrados más utilizados en Pandas es isin(), el cual permite seleccionar filas de un DataFrame o Series donde un valor o conjunto de valores específicos, aparecen en una columna (o índice en el caso de Series). Es particularmente útil cuando quieres filtrar tu DataFrame para incluir sólo ciertos registros.

In [44]:
#Siguiendo nuestro caso:

# A partir de nuestro df, creamos un nuevo df que contenga los registros de Londres y Nueva York.

temperaturas_madrid = df_temperaturas_nuevoformato[df_temperaturas_nuevoformato['Ciudad'].isin(['Londres', 'Nueva York'])]
print(temperaturas_madrid)

        Fecha      Ciudad  Temperatura   Año  Mes
0  2022-01-31  Nueva York            2  2022    1
1  2022-02-28  Nueva York           26  2022    2
2  2022-03-31  Nueva York           20  2022    3
3  2022-04-30  Nueva York           32  2022    4
4  2022-05-31  Nueva York           18  2022    5
5  2022-06-30  Nueva York           11  2022    6
6  2022-07-31  Nueva York            8  2022    7
7  2022-08-31  Nueva York            3  2022    8
8  2022-09-30  Nueva York            3  2022    9
9  2022-10-31  Nueva York           28  2022   10
10 2022-11-30  Nueva York           20  2022   11
11 2022-12-31  Nueva York            7  2022   12
12 2023-01-31  Nueva York           25  2023    1
13 2023-02-28  Nueva York           -5  2023    2
14 2023-03-31  Nueva York           10  2023    3
15 2023-04-30  Nueva York           19  2023    4
16 2023-05-31  Nueva York           19  2023    5
17 2023-06-30  Nueva York            8  2023    6
18 2023-07-31  Nueva York            6  2023    7


Transformaciones

Transformaciones con groupby() y Funciones Lambda

Las transformaciones con .groupby() y funciones lambda en Pandas te permiten aplicar operaciones complejas a los subconjuntos de datos agrupados, manteniendo la estructura original del DataFrame. Esto es especialmente útil cuando necesitas normalizar o estandarizar datos dentro de grupos o aplicar cualquier transformación que dependa del contexto de cada grupo.

Normalización de las temperaturas por ciudad
Objetivo: Normalizar las temperaturas para cada ciudad en el DataFrame de temperaturas, asegurando que cada valor de temperatura se ajuste a la escala de su grupo. La normalización aquí significa restar la media del grupo a cada valor y luego dividir por la desviación estándar del grupo.

Paso 1: Creación de una función Lambda para la normalización
Para este ejemplo, la función lambda tomará cada grupo (es decir, las temperaturas de cada ciudad), restará la media de ese grupo a cada elemento y luego dividirá el resultado por la desviación estándar del grupo.

In [45]:
# Usando groupby() junto con transform() para aplicar la normalización
df_temperaturas_nuevoformato['Temperatura_Normalizada'] = df_temperaturas_nuevoformato.groupby('Ciudad')['Temperatura'].transform(
    lambda x: (x - x.mean()) / x.std()
)

In [46]:
print(df_temperaturas_nuevoformato)

        Fecha      Ciudad  Temperatura   Año  Mes  Temperatura_Normalizada
0  2022-01-31  Nueva York            2  2022    1                -1.333729
1  2022-02-28  Nueva York           26  2022    2                 0.861208
2  2022-03-31  Nueva York           20  2022    3                 0.312474
3  2022-04-30  Nueva York           32  2022    4                 1.409942
4  2022-05-31  Nueva York           18  2022    5                 0.129562
..        ...         ...          ...   ...  ...                      ...
91 2023-08-31     Londres           14  2023    8                -0.102538
92 2023-09-30     Londres            3  2023    9                -1.035990
93 2023-10-31     Londres            2  2023   10                -1.120850
94 2023-11-30     Londres           33  2023   11                 1.509788
95 2023-12-31     Londres           19  2023   12                 0.321758

[96 rows x 6 columns]


Este código agrupa el DataFrame por 'Ciudad', y para cada grupo de temperaturas de la ciudad, aplica la transformación especificada por la función lambda. El resultado es una serie de temperaturas normalizadas que se añade al DataFrame original como una nueva columna llamada 'Temperatura_Normalizada'.

Paso 2: visualización de los resultados
Para ver cómo se ha aplicado la normalización a nuestros datos, podemos imprimir las primeras filas del DataFrame:

In [48]:
print(df_temperaturas_nuevoformato[['Ciudad', 'Temperatura', 'Temperatura_Normalizada']].head())

       Ciudad  Temperatura  Temperatura_Normalizada
0  Nueva York            2                -1.333729
1  Nueva York           26                 0.861208
2  Nueva York           20                 0.312474
3  Nueva York           32                 1.409942
4  Nueva York           18                 0.129562


Este paso simplemente muestra las temperaturas originales y las normalizadas lado a lado para cada ciudad, permitiéndote ver el efecto de la normalización.