# Manipulación y Modificación de Datos

Este notebook cubre cómo modificar, agregar y manipular datos en pandas.

In [None]:
import numpy as np
import pandas as pd

# Crear DataFrame de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=6)
df = pd.DataFrame({
    'A': np.random.randn(6),
    'B': np.random.randn(6),
    'C': np.random.randint(1, 100, 6),
    'D': ['alto', 'bajo', 'medio', 'alto', 'bajo', 'medio']
}, index=fechas)

print("DataFrame original:")
print(df)

## Modificación de Valores Existentes

In [None]:
# Hacer una copia para no modificar el original
df_modificado = df.copy()

# Modificar un valor específico
df_modificado.at[fechas[0], 'A'] = 999
print("Después de modificar un valor específico:")
print(df_modificado.head(2))

# Modificar usando iloc
df_modificado.iat[1, 1] = -999
print("\nDespués de modificar con iloc:")
print(df_modificado.head(2))

In [None]:
# Modificar toda una columna
df_modificado['C'] = df_modificado['C'] * 2
print("Después de duplicar valores de columna C:")
print(df_modificado)

# Modificar con array de NumPy
df_modificado.loc[:, 'B'] = np.array([10, 20, 30, 40, 50, 60])
print("\nDespués de asignar array a columna B:")
print(df_modificado)

## Agregar Nuevas Columnas

In [None]:
# Agregar columna con valor constante
df_modificado['E'] = 100
print("Después de agregar columna E con valor constante:")
print(df_modificado)

# Agregar columna calculada
df_modificado['F'] = df_modificado['A'] + df_modificado['B']
print("\nDespués de agregar columna F (A + B):")
print(df_modificado)

In [None]:
# Agregar columna con Series (se alinea automáticamente por índice)
serie_nueva = pd.Series([1, 2, 3, 4, 5, 6], index=fechas)
df_modificado['G'] = serie_nueva
print("Después de agregar Serie como columna G:")
print(df_modificado)

# Agregar columna con fechas desalineadas
fechas_nuevas = pd.date_range('20240102', periods=6)
serie_desalineada = pd.Series([10, 20, 30, 40, 50, 60], index=fechas_nuevas)
df_modificado['H'] = serie_desalineada
print("\nDespués de agregar Serie desalineada (nota los NaN):")
print(df_modificado)

## Modificación Condicional

In [None]:
# Crear nuevo DataFrame para ejemplos de modificación condicional
df_condicional = df.copy()

# Modificar valores que cumplen una condición
df_condicional.loc[df_condicional['A'] > 0, 'A'] = 'POSITIVO'
print("Después de cambiar valores positivos de A:")
print(df_condicional)

# Restaurar para siguiente ejemplo
df_condicional = df.copy()

# Usar numpy.where para modificación condicional
df_condicional['A_categoria'] = np.where(df_condicional['A'] > 0, 'Positivo', 'Negativo')
print("\nUsando np.where para crear columna categórica:")
print(df_condicional)

In [None]:
# Múltiples condiciones con np.select
condiciones = [
    df_condicional['C'] < 30,
    (df_condicional['C'] >= 30) & (df_condicional['C'] < 70),
    df_condicional['C'] >= 70
]
valores = ['Bajo', 'Medio', 'Alto']
df_condicional['C_categoria'] = np.select(condiciones, valores, default='Desconocido')

print("Usando np.select para múltiples condiciones:")
print(df_condicional)

# Modificar usando mask
df_mask = df.copy()
df_mask = df_mask.mask(df_mask < 0, 'NEGATIVO')
print("\nUsando mask para reemplazar valores negativos:")
print(df_mask)

## Operaciones con Where

In [None]:
# Crear DataFrame para ejemplos de where
df_where = df.copy()

# Where conserva valores que cumplen condición, reemplaza otros
df_where_resultado = df_where.where(df_where > 0, 'REEMPLAZADO')
print("Usando where - conserva positivos, reemplaza negativos:")
print(df_where_resultado)

# Where con otra condición
df_where2 = df_where.copy()
df_where2['A'] = df_where2['A'].where(df_where2['A'] > 0, df_where2['A'] * -1)
print("\nConvertir valores negativos de A en positivos:")
print(df_where2)

## Eliminación de Datos

In [None]:
# Eliminar columnas
df_sin_columnas = df_modificado.drop(['E', 'F'], axis=1)
print("Después de eliminar columnas E y F:")
print(df_sin_columnas)

# Eliminar filas
df_sin_filas = df.drop(fechas[0:2])
print("\nDespués de eliminar primeras 2 filas:")
print(df_sin_filas)

# Eliminar con del (modifica el DataFrame original)
df_temp = df.copy()
del df_temp['D']
print("\nDespués de usar del para eliminar columna D:")
print(df_temp)

## Reindexación y Reorganización

In [None]:
# Reindexar con nuevos índices
nuevas_fechas = pd.date_range('20231230', periods=10)
df_reindexado = df.reindex(nuevas_fechas)
print("Después de reindexar con fechas extendidas:")
print(df_reindexado)

# Reindexar con valor de relleno
df_reindexado_relleno = df.reindex(nuevas_fechas, fill_value=0)
print("\nReindexado con valor de relleno 0:")
print(df_reindexado_relleno)

In [None]:
# Reindexar columnas
nuevas_columnas = ['D', 'C', 'B', 'A', 'Nueva']
df_cols_reindexado = df.reindex(columns=nuevas_columnas)
print("Reindexado de columnas:")
print(df_cols_reindexado)

# Reset del índice
df_reset = df.reset_index()
print("\nDespués de reset_index():")
print(df_reset)

# Set index desde una columna
df_nuevo_index = df_reset.set_index('index')
print("\nDespués de set_index('index'):")
print(df_nuevo_index)