# Pandas - Manipulación de Datos

Este notebook cubre la manipulación de datos en Pandas: agregar/eliminar columnas, merge y join, groupby, y transformaciones con pivot y reshape.

## Agregar y Eliminar Columnas


In [1]:
import pandas as pd

# Crear DataFrame inicial
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})

# Añadir columna
df['C'] = [7, 8, 9]
df['D'] = df['A'] + df['B']  # Columna calculada

# Eliminar columnas
df_sin_c = df.drop('C', axis=1)              # Retorna nuevo DataFrame

# Para modificar in-place, crear nuevo DataFrame
df2 = df.copy()
df2.drop('C', axis=1, inplace=True)  # Modifica in-place

# Eliminar múltiples columnas
df_sin_cd = df.drop(['C', 'D'], axis=1)       # Múltiples columnas

# Eliminar filas
df_sin_fila0 = df.drop(0)                        # Eliminar fila por índice
df_sin_filas = df.drop([0, 1], axis=0)           # Múltiples filas


## Merge y Join


In [2]:
df1 = pd.DataFrame({'key': ['A', 'B', 'C'], 'value1': [1, 2, 3]})
df2 = pd.DataFrame({'key': ['B', 'C', 'D'], 'value2': [4, 5, 6]})

# Merge (similar a SQL JOIN)
pd.merge(df1, df2, on='key')                    # Inner join
pd.merge(df1, df2, on='key', how='left')        # Left join
pd.merge(df1, df2, on='key', how='right')      # Right join
pd.merge(df1, df2, on='key', how='outer')      # Outer join

# Join por índice (requiere que los índices coincidan o usar set_index)
df1_indexed = df1.set_index('key')
df2_indexed = df2.set_index('key')
df1_indexed.join(df2_indexed, how='inner')

# Concatenar
pd.concat([df1, df2], axis=0)    # Apilar verticalmente
pd.concat([df1, df2], axis=1)    # Apilar horizontalmente


Unnamed: 0,key,value1,key.1,value2
0,A,1,B,4
1,B,2,C,5
2,C,3,D,6


## GroupBy


In [3]:
df = pd.DataFrame({
    'categoria': ['A', 'A', 'B', 'B', 'A'],
    'valor': [10, 20, 30, 40, 50]
})

# Agrupación básica
grupo = df.groupby('categoria')
grupo.sum()           # Suma por grupo
grupo.mean()          # Media por grupo
grupo.count()         # Conteo por grupo

# Múltiples funciones de agregación
grupo.agg(['sum', 'mean', 'count'])

# Agrupar por múltiples columnas (ejemplo con DataFrame que tiene múltiples columnas)
df2 = pd.DataFrame({
    'categoria': ['A', 'A', 'B', 'B', 'A'],
    'subcategoria': ['X', 'Y', 'X', 'Y', 'X'],
    'valor': [10, 20, 30, 40, 50]
})
df2.groupby(['categoria', 'subcategoria']).sum()

# Aplicar función personalizada
grupo.apply(lambda x: x.max() - x.min())


Unnamed: 0_level_0,valor
categoria,Unnamed: 1_level_1
A,40
B,10


## Pivot y Reshape


In [4]:
df = pd.DataFrame({
    'fecha': ['2024-01', '2024-01', '2024-02', '2024-02'],
    'producto': ['A', 'B', 'A', 'B'],
    'ventas': [100, 200, 150, 250]
})

# Pivot
df.pivot(index='fecha', columns='producto', values='ventas')

# Pivot table (permite duplicados)
df.pivot_table(values='ventas', index='fecha', columns='producto', aggfunc='sum')

# Melt (inverso de pivot)
df.melt(id_vars='fecha', value_vars=['producto', 'ventas'])

# Stack y Unstack
df.set_index(['fecha', 'producto']).unstack()


Unnamed: 0_level_0,ventas,ventas
producto,A,B
fecha,Unnamed: 1_level_2,Unnamed: 2_level_2
2024-01,100,200
2024-02,150,250
