# Combinación y Agrupación de Datos

Este notebook cubre concat, merge, join y operaciones groupby en pandas.

In [None]:
import numpy as np
import pandas as pd

# Crear DataFrames de ejemplo para combinaciones
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'key': ['K0', 'K1', 'K2', 'K3']
})

df2 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3'],
    'key': ['K0', 'K1', 'K2', 'K3']
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

## Concatenación con concat()

In [None]:
# Concatenación vertical (apilar filas)
print("Concatenación vertical:")
concat_vertical = pd.concat([df1, df2])
print(concat_vertical)

print("\nConcatenación vertical con keys:")
concat_con_keys = pd.concat([df1, df2], keys=['primera', 'segunda'])
print(concat_con_keys)

print("\nConcatenación vertical ignorando índices:")
concat_ignore_index = pd.concat([df1, df2], ignore_index=True)
print(concat_ignore_index)

In [None]:
# Concatenación horizontal (agregar columnas)
print("Concatenación horizontal:")
concat_horizontal = pd.concat([df1, df2], axis=1)
print(concat_horizontal)

# Manejar columnas duplicadas
print("\nConcatenación horizontal con sufijos:")
concat_sufijos = pd.concat([df1, df2], axis=1, keys=['izq', 'der'])
print(concat_sufijos)

In [None]:
# Concatenación con DataFrames de diferentes tamaños
df3 = pd.DataFrame({
    'A': ['A4', 'A5'],
    'E': ['E4', 'E5']
})

print("DataFrame 3 (diferente estructura):")
print(df3)

print("\nConcatenación con estructuras diferentes:")
concat_diferentes = pd.concat([df1, df3], sort=False)
print(concat_diferentes)

print("\nConcatenación solo con columnas comunes (join='inner'):")
concat_inner = pd.concat([df1, df3], join='inner')
print(concat_inner)

## Merge - Uniones tipo SQL

In [None]:
# Inner Join (intersección)
print("Inner Join:")
inner_join = pd.merge(df1, df2, on='key')
print(inner_join)

# Crear DataFrames con keys diferentes para otros tipos de join
left_df = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

right_df = pd.DataFrame({
    'key': ['K0', 'K1', 'K3'],
    'B': ['B0', 'B1', 'B3']
})

print("\nDataFrame izquierdo:")
print(left_df)
print("\nDataFrame derecho:")
print(right_df)

In [None]:
# Diferentes tipos de join
print("Inner Join:")
print(pd.merge(left_df, right_df, on='key', how='inner'))

print("\nLeft Join:")
print(pd.merge(left_df, right_df, on='key', how='left'))

print("\nRight Join:")
print(pd.merge(left_df, right_df, on='key', how='right'))

print("\nOuter Join (unión completa):")
print(pd.merge(left_df, right_df, on='key', how='outer'))

In [None]:
# Merge con diferentes nombres de columnas
left_df2 = pd.DataFrame({
    'left_key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

right_df2 = pd.DataFrame({
    'right_key': ['K0', 'K1', 'K3'],
    'B': ['B0', 'B1', 'B3']
})

print("Merge con nombres de columnas diferentes:")
merge_diff_names = pd.merge(left_df2, right_df2, 
                           left_on='left_key', right_on='right_key')
print(merge_diff_names)

# Merge por índice
print("\nMerge por índice:")
merge_index = pd.merge(left_df2.set_index('left_key'), 
                      right_df2.set_index('right_key'), 
                      left_index=True, right_index=True)
print(merge_index)

## GroupBy - Agrupación de Datos

In [None]:
# Crear DataFrame para ejemplos de groupby
np.random.seed(42)
df_group = pd.DataFrame({
    'Grupo': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Categoria': ['X', 'X', 'Y', 'Y', 'X', 'X', 'Y', 'Y'],
    'Valor1': np.random.randint(1, 100, 8),
    'Valor2': np.random.randn(8)
})

print("DataFrame para groupby:")
print(df_group)

In [None]:
# Agrupación simple
print("Agrupación por 'Grupo':")
grupo_simple = df_group.groupby('Grupo')
print(grupo_simple.sum())

print("\nMedia por grupo:")
print(grupo_simple.mean())

print("\nConteo por grupo:")
print(grupo_simple.count())

print("\nEstadísticas descriptivas por grupo:")
print(grupo_simple.describe())

In [None]:
# Agrupación por múltiples columnas
print("Agrupación por 'Grupo' y 'Categoria':")
grupo_multiple = df_group.groupby(['Grupo', 'Categoria'])
print(grupo_multiple.sum())

print("\nMedia por grupos múltiples:")
print(grupo_multiple.mean())

print("\nTamaño de cada grupo:")
print(grupo_multiple.size())

In [None]:
# Aplicar diferentes funciones a diferentes columnas
print("Funciones específicas por columna:")
agg_especifico = df_group.groupby('Grupo').agg({
    'Valor1': ['sum', 'mean', 'count'],
    'Valor2': ['min', 'max', 'std']
})
print(agg_especifico)

print("\nFunciones múltiples:")
agg_multiple = df_group.groupby('Grupo').agg(['sum', 'mean', 'count'])
print(agg_multiple)

In [None]:
# Transform - mantiene el tamaño original
print("Transform - normalización por grupo:")
df_transform = df_group.copy()
df_transform['Valor1_normalizado'] = df_group.groupby('Grupo')['Valor1'].transform(
    lambda x: (x - x.mean()) / x.std()
)
print(df_transform)

print("\nTransform - ranking dentro del grupo:")
df_transform['Ranking'] = df_group.groupby('Grupo')['Valor1'].rank(method='dense')
print(df_transform[['Grupo', 'Valor1', 'Ranking']])

In [None]:
# Filter - filtrar grupos completos
print("Filter - grupos con más de 3 elementos:")
grupos_grandes = df_group.groupby('Grupo').filter(lambda x: len(x) > 3)
print(grupos_grandes)

print("\nFilter - grupos donde la media de Valor1 > 50:")
grupos_alto_valor = df_group.groupby('Grupo').filter(lambda x: x['Valor1'].mean() > 50)
print(grupos_alto_valor)

# Apply - aplicar función personalizada
print("\nApply - función personalizada:")
def resumen_grupo(grupo):
    return pd.Series({
        'count': len(grupo),
        'valor1_sum': grupo['Valor1'].sum(),
        'valor2_mean': grupo['Valor2'].mean()
    })

resultado_apply = df_group.groupby('Grupo').apply(resumen_grupo)
print(resultado_apply)