# Combinación y Agrupación de Datos

Este notebook cubre concat, merge, join y operaciones groupby en pandas.

In [1]:
import numpy as np
import pandas as pd

# Crear DataFrames de ejemplo para combinaciones
df1 = pd.DataFrame({
    'A': ['A0', 'A1', 'A2', 'A3'],
    'B': ['B0', 'B1', 'B2', 'B3'],
    'key': ['K0', 'K1', 'K2', 'K3']
})

df2 = pd.DataFrame({
    'C': ['C0', 'C1', 'C2', 'C3'],
    'D': ['D0', 'D1', 'D2', 'D3'],
    'key': ['K0', 'K1', 'K2', 'K3']
})

print("DataFrame 1:")
print(df1)
print("\nDataFrame 2:")
print(df2)

DataFrame 1:
    A   B key
0  A0  B0  K0
1  A1  B1  K1
2  A2  B2  K2
3  A3  B3  K3

DataFrame 2:
    C   D key
0  C0  D0  K0
1  C1  D1  K1
2  C2  D2  K2
3  C3  D3  K3


## Concatenación con concat()

In [2]:
# Concatenación vertical (apilar filas)
print("Concatenación vertical:")
concat_vertical = pd.concat([df1, df2])
print(concat_vertical)

print("\nConcatenación vertical con keys:")
concat_con_keys = pd.concat([df1, df2], keys=['primera', 'segunda'])
print(concat_con_keys)

print("\nConcatenación vertical ignorando índices:")
concat_ignore_index = pd.concat([df1, df2], ignore_index=True)
print(concat_ignore_index)

Concatenación vertical:
     A    B key    C    D
0   A0   B0  K0  NaN  NaN
1   A1   B1  K1  NaN  NaN
2   A2   B2  K2  NaN  NaN
3   A3   B3  K3  NaN  NaN
0  NaN  NaN  K0   C0   D0
1  NaN  NaN  K1   C1   D1
2  NaN  NaN  K2   C2   D2
3  NaN  NaN  K3   C3   D3

Concatenación vertical con keys:
             A    B key    C    D
primera 0   A0   B0  K0  NaN  NaN
        1   A1   B1  K1  NaN  NaN
        2   A2   B2  K2  NaN  NaN
        3   A3   B3  K3  NaN  NaN
segunda 0  NaN  NaN  K0   C0   D0
        1  NaN  NaN  K1   C1   D1
        2  NaN  NaN  K2   C2   D2
        3  NaN  NaN  K3   C3   D3

Concatenación vertical ignorando índices:
     A    B key    C    D
0   A0   B0  K0  NaN  NaN
1   A1   B1  K1  NaN  NaN
2   A2   B2  K2  NaN  NaN
3   A3   B3  K3  NaN  NaN
4  NaN  NaN  K0   C0   D0
5  NaN  NaN  K1   C1   D1
6  NaN  NaN  K2   C2   D2
7  NaN  NaN  K3   C3   D3


In [3]:
# Concatenación horizontal (agregar columnas)
print("Concatenación horizontal:")
concat_horizontal = pd.concat([df1, df2], axis=1)
print(concat_horizontal)

# Manejar columnas duplicadas
print("\nConcatenación horizontal con sufijos:")
concat_sufijos = pd.concat([df1, df2], axis=1, keys=['izq', 'der'])
print(concat_sufijos)

Concatenación horizontal:
    A   B key   C   D key
0  A0  B0  K0  C0  D0  K0
1  A1  B1  K1  C1  D1  K1
2  A2  B2  K2  C2  D2  K2
3  A3  B3  K3  C3  D3  K3

Concatenación horizontal con sufijos:
  izq         der        
    A   B key   C   D key
0  A0  B0  K0  C0  D0  K0
1  A1  B1  K1  C1  D1  K1
2  A2  B2  K2  C2  D2  K2
3  A3  B3  K3  C3  D3  K3


In [4]:
# Concatenación con DataFrames de diferentes tamaños
df3 = pd.DataFrame({
    'A': ['A4', 'A5'],
    'E': ['E4', 'E5']
})

print("DataFrame 3 (diferente estructura):")
print(df3)

print("\nConcatenación con estructuras diferentes:")
concat_diferentes = pd.concat([df1, df3], sort=False)
print(concat_diferentes)

print("\nConcatenación solo con columnas comunes (join='inner'):")
concat_inner = pd.concat([df1, df3], join='inner')
print(concat_inner)

DataFrame 3 (diferente estructura):
    A   E
0  A4  E4
1  A5  E5

Concatenación con estructuras diferentes:
    A    B  key    E
0  A0   B0   K0  NaN
1  A1   B1   K1  NaN
2  A2   B2   K2  NaN
3  A3   B3   K3  NaN
0  A4  NaN  NaN   E4
1  A5  NaN  NaN   E5

Concatenación solo con columnas comunes (join='inner'):
    A
0  A0
1  A1
2  A2
3  A3
0  A4
1  A5


## Merge - Uniones tipo SQL

In [5]:
# Inner Join (intersección)
print("Inner Join:")
inner_join = pd.merge(df1, df2, on='key')
print(inner_join)

# Crear DataFrames con keys diferentes para otros tipos de join
left_df = pd.DataFrame({
    'key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

right_df = pd.DataFrame({
    'key': ['K0', 'K1', 'K3'],
    'B': ['B0', 'B1', 'B3']
})

print("\nDataFrame izquierdo:")
print(left_df)
print("\nDataFrame derecho:")
print(right_df)

Inner Join:
    A   B key   C   D
0  A0  B0  K0  C0  D0
1  A1  B1  K1  C1  D1
2  A2  B2  K2  C2  D2
3  A3  B3  K3  C3  D3

DataFrame izquierdo:
  key   A
0  K0  A0
1  K1  A1
2  K2  A2

DataFrame derecho:
  key   B
0  K0  B0
1  K1  B1
2  K3  B3


In [6]:
# Diferentes tipos de join
print("Inner Join:")
print(pd.merge(left_df, right_df, on='key', how='inner'))

print("\nLeft Join:")
print(pd.merge(left_df, right_df, on='key', how='left'))

print("\nRight Join:")
print(pd.merge(left_df, right_df, on='key', how='right'))

print("\nOuter Join (unión completa):")
print(pd.merge(left_df, right_df, on='key', how='outer'))

Inner Join:
  key   A   B
0  K0  A0  B0
1  K1  A1  B1

Left Join:
  key   A    B
0  K0  A0   B0
1  K1  A1   B1
2  K2  A2  NaN

Right Join:
  key    A   B
0  K0   A0  B0
1  K1   A1  B1
2  K3  NaN  B3

Outer Join (unión completa):
  key    A    B
0  K0   A0   B0
1  K1   A1   B1
2  K2   A2  NaN
3  K3  NaN   B3


In [7]:
# Merge con diferentes nombres de columnas
left_df2 = pd.DataFrame({
    'left_key': ['K0', 'K1', 'K2'],
    'A': ['A0', 'A1', 'A2']
})

right_df2 = pd.DataFrame({
    'right_key': ['K0', 'K1', 'K3'],
    'B': ['B0', 'B1', 'B3']
})

print("Merge con nombres de columnas diferentes:")
merge_diff_names = pd.merge(left_df2, right_df2, 
                           left_on='left_key', right_on='right_key')
print(merge_diff_names)

# Merge por índice
print("\nMerge por índice:")
merge_index = pd.merge(left_df2.set_index('left_key'), 
                      right_df2.set_index('right_key'), 
                      left_index=True, right_index=True)
print(merge_index)

Merge con nombres de columnas diferentes:
  left_key   A right_key   B
0       K0  A0        K0  B0
1       K1  A1        K1  B1

Merge por índice:
     A   B
K0  A0  B0
K1  A1  B1


## GroupBy - Agrupación de Datos

In [8]:
# Crear DataFrame para ejemplos de groupby
np.random.seed(42)
df_group = pd.DataFrame({
    'Grupo': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'Categoria': ['X', 'X', 'Y', 'Y', 'X', 'X', 'Y', 'Y'],
    'Valor1': np.random.randint(1, 100, 8),
    'Valor2': np.random.randn(8)
})

print("DataFrame para groupby:")
print(df_group)

DataFrame para groupby:
  Grupo Categoria  Valor1    Valor2
0     A         X      52  1.579213
1     B         X      93  0.767435
2     A         Y      15 -0.469474
3     B         Y      72  0.542560
4     A         X      61 -0.463418
5     B         X      21 -0.465730
6     A         Y      83  0.241962
7     B         Y      87 -1.913280


In [10]:
# Agrupación simple
print("Agrupación por 'Grupo':")
grupo_simple = df_group.groupby('Grupo')
print(grupo_simple.sum())

print("\nMedia por grupo:")
print(grupo_simple.mean(numeric_only=True))

print("\nConteo por grupo:")
print(grupo_simple.count())

print("\nEstadísticas descriptivas por grupo:")
print(grupo_simple.describe())

Agrupación por 'Grupo':
      Categoria  Valor1    Valor2
Grupo                            
A          XYXY     211  0.888283
B          XYXY     273 -1.069015

Media por grupo:
       Valor1    Valor2
Grupo                  
A       52.75  0.222071
B       68.25 -0.267254

Conteo por grupo:
       Categoria  Valor1  Valor2
Grupo                           
A              4       4       4
B              4       4       4

Estadísticas descriptivas por grupo:
      Valor1                                                  Valor2  \
       count   mean        std   min    25%   50%   75%   max  count   
Grupo                                                                  
A        4.0  52.75  28.335784  15.0  42.75  56.5  66.5  83.0    4.0   
B        4.0  68.25  32.714676  21.0  59.25  79.5  88.5  93.0    4.0   

                                                                             
           mean       std       min       25%       50%       75%       max  
Grupo               

In [11]:
# Agrupación por múltiples columnas
print("Agrupación por 'Grupo' y 'Categoria':")
grupo_multiple = df_group.groupby(['Grupo', 'Categoria'])
print(grupo_multiple.sum())

print("\nMedia por grupos múltiples:")
print(grupo_multiple.mean())

print("\nTamaño de cada grupo:")
print(grupo_multiple.size())

Agrupación por 'Grupo' y 'Categoria':
                 Valor1    Valor2
Grupo Categoria                  
A     X             113  1.115795
      Y              98 -0.227512
B     X             114  0.301705
      Y             159 -1.370720

Media por grupos múltiples:
                 Valor1    Valor2
Grupo Categoria                  
A     X            56.5  0.557898
      Y            49.0 -0.113756
B     X            57.0  0.150852
      Y            79.5 -0.685360

Tamaño de cada grupo:
Grupo  Categoria
A      X            2
       Y            2
B      X            2
       Y            2
dtype: int64


In [13]:
# Aplicar diferentes funciones a diferentes columnas
print("Funciones específicas por columna:")
agg_especifico = df_group.groupby('Grupo').agg({
    'Valor1': ['sum', 'mean', 'count'],
    'Valor2': ['min', 'max', 'std']
})
print(agg_especifico)

print("\nFunciones múltiples (solo columnas numéricas):")
agg_multiple = df_group.groupby('Grupo')[['Valor1', 'Valor2']].agg(['sum', 'mean', 'count'])
print(agg_multiple)

Funciones específicas por columna:
      Valor1                 Valor2                    
         sum   mean count       min       max       std
Grupo                                                  
A        211  52.75     4 -0.469474  1.579213  0.964427
B        273  68.25     4 -1.913280  0.767435  1.221362

Funciones múltiples (solo columnas numéricas):
      Valor1                 Valor2                
         sum   mean count       sum      mean count
Grupo                                              
A        211  52.75     4  0.888283  0.222071     4
B        273  68.25     4 -1.069015 -0.267254     4


In [14]:
# Transform - mantiene el tamaño original
print("Transform - normalización por grupo:")
df_transform = df_group.copy()
df_transform['Valor1_normalizado'] = df_group.groupby('Grupo')['Valor1'].transform(
    lambda x: (x - x.mean()) / x.std()
)
print(df_transform)

print("\nTransform - ranking dentro del grupo:")
df_transform['Ranking'] = df_group.groupby('Grupo')['Valor1'].rank(method='dense')
print(df_transform[['Grupo', 'Valor1', 'Ranking']])

Transform - normalización por grupo:
  Grupo Categoria  Valor1    Valor2  Valor1_normalizado
0     A         X      52  1.579213           -0.026468
1     B         X      93  0.767435            0.756541
2     A         Y      15 -0.469474           -1.332238
3     B         Y      72  0.542560            0.114627
4     A         X      61 -0.463418            0.291151
5     B         X      21 -0.465730           -1.444306
6     A         Y      83  0.241962            1.067555
7     B         Y      87 -1.913280            0.573137

Transform - ranking dentro del grupo:
  Grupo  Valor1  Ranking
0     A      52      2.0
1     B      93      4.0
2     A      15      1.0
3     B      72      2.0
4     A      61      3.0
5     B      21      1.0
6     A      83      4.0
7     B      87      3.0


In [None]:
# Filter - filtrar grupos completos
print("Filter - grupos con más de 3 elementos:")
grupos_grandes = df_group.groupby('Grupo').filter(lambda x: len(x) > 3)
print(grupos_grandes)

print("\nFilter - grupos donde la media de Valor1 > 50:")
grupos_alto_valor = df_group.groupby('Grupo').filter(lambda x: x['Valor1'].mean() > 50)
print(grupos_alto_valor)

# Apply - aplicar función personalizada
print("\nApply - función personalizada:")
def resumen_grupo(grupo):
    return pd.Series({
        'count': len(grupo),
        'valor1_sum': grupo['Valor1'].sum(),
        'valor2_mean': grupo['Valor2'].mean()
    })

resultado_apply = df_group.groupby('Grupo').apply(resumen_grupo)
print(resultado_apply)

Filter - grupos con más de 3 elementos:
  Grupo Categoria  Valor1    Valor2
0     A         X      52  1.579213
1     B         X      93  0.767435
2     A         Y      15 -0.469474
3     B         Y      72  0.542560
4     A         X      61 -0.463418
5     B         X      21 -0.465730
6     A         Y      83  0.241962
7     B         Y      87 -1.913280

Filter - grupos donde la media de Valor1 > 50:
Empty DataFrame
Columns: [Grupo, Categoria, Valor1, Valor2]
Index: []

Apply - función personalizada:
       count  valor1_sum  valor2_mean
Grupo                                
A        4.0       211.0     0.222071
B        4.0       273.0    -0.267254


  resultado_apply = df_group.groupby('Grupo').apply(resumen_grupo)
