# Manipulación y Modificación de Datos

Este notebook cubre cómo modificar, agregar y manipular datos en pandas.

In [8]:
import numpy as np
import pandas as pd

# Crear DataFrame de ejemplo
np.random.seed(42)
fechas = pd.date_range('20240101', periods=6)
df = pd.DataFrame({
    'A': np.random.randn(6),
    'B': np.random.randn(6),
    'C': np.random.randint(1, 100, 6),
    'D': ['alto', 'bajo', 'medio', 'alto', 'bajo', 'medio']
}, index=fechas)

print("DataFrame original:")
print(df)

DataFrame original:
                   A         B   C      D
2024-01-01  0.496714  1.579213  76   alto
2024-01-02 -0.138264  0.767435  58   bajo
2024-01-03  0.647689 -0.469474  22  medio
2024-01-04  1.523030  0.542560  89   alto
2024-01-05 -0.234153 -0.463418  49   bajo
2024-01-06 -0.234137 -0.465730  91  medio


## Modificación de Valores Existentes

In [9]:
# Hacer una copia para no modificar el original
df_modificado = df.copy()

# Modificar un valor específico
df_modificado.at[fechas[0], 'A'] = 999
print("Después de modificar un valor específico:")
print(df_modificado.head(2))

# Modificar usando iloc
df_modificado.iat[1, 1] = -999
print("\nDespués de modificar con iloc:")
print(df_modificado.head(2))

Después de modificar un valor específico:
                     A         B   C     D
2024-01-01  999.000000  1.579213  76  alto
2024-01-02   -0.138264  0.767435  58  bajo

Después de modificar con iloc:
                     A           B   C     D
2024-01-01  999.000000    1.579213  76  alto
2024-01-02   -0.138264 -999.000000  58  bajo


In [10]:
# Modificar toda una columna
df_modificado['C'] = df_modificado['C'] * 2
print("Después de duplicar valores de columna C:")
print(df_modificado)

# Modificar con array de NumPy
df_modificado.loc[:, 'B'] = np.array([10, 20, 30, 40, 50, 60])
print("\nDespués de asignar array a columna B:")
print(df_modificado)

Después de duplicar valores de columna C:
                     A           B    C      D
2024-01-01  999.000000    1.579213  152   alto
2024-01-02   -0.138264 -999.000000  116   bajo
2024-01-03    0.647689   -0.469474   44  medio
2024-01-04    1.523030    0.542560  178   alto
2024-01-05   -0.234153   -0.463418   98   bajo
2024-01-06   -0.234137   -0.465730  182  medio

Después de asignar array a columna B:
                     A     B    C      D
2024-01-01  999.000000  10.0  152   alto
2024-01-02   -0.138264  20.0  116   bajo
2024-01-03    0.647689  30.0   44  medio
2024-01-04    1.523030  40.0  178   alto
2024-01-05   -0.234153  50.0   98   bajo
2024-01-06   -0.234137  60.0  182  medio


## Agregar Nuevas Columnas

In [11]:
# Agregar columna con valor constante
df_modificado['E'] = 100
print("Después de agregar columna E con valor constante:")
print(df_modificado)

# Agregar columna calculada
df_modificado['F'] = df_modificado['A'] + df_modificado['B']
print("\nDespués de agregar columna F (A + B):")
print(df_modificado)

Después de agregar columna E con valor constante:
                     A     B    C      D    E
2024-01-01  999.000000  10.0  152   alto  100
2024-01-02   -0.138264  20.0  116   bajo  100
2024-01-03    0.647689  30.0   44  medio  100
2024-01-04    1.523030  40.0  178   alto  100
2024-01-05   -0.234153  50.0   98   bajo  100
2024-01-06   -0.234137  60.0  182  medio  100

Después de agregar columna F (A + B):
                     A     B    C      D    E            F
2024-01-01  999.000000  10.0  152   alto  100  1009.000000
2024-01-02   -0.138264  20.0  116   bajo  100    19.861736
2024-01-03    0.647689  30.0   44  medio  100    30.647689
2024-01-04    1.523030  40.0  178   alto  100    41.523030
2024-01-05   -0.234153  50.0   98   bajo  100    49.765847
2024-01-06   -0.234137  60.0  182  medio  100    59.765863


In [12]:
# Agregar columna con Series (se alinea automáticamente por índice)
serie_nueva = pd.Series([1, 2, 3, 4, 5, 6], index=fechas)
df_modificado['G'] = serie_nueva
print("Después de agregar Serie como columna G:")
print(df_modificado)

# Agregar columna con fechas desalineadas
fechas_nuevas = pd.date_range('20240102', periods=6)
serie_desalineada = pd.Series([10, 20, 30, 40, 50, 60], index=fechas_nuevas)
df_modificado['H'] = serie_desalineada
print("\nDespués de agregar Serie desalineada (nota los NaN):")
print(df_modificado)

Después de agregar Serie como columna G:
                     A     B    C      D    E            F  G
2024-01-01  999.000000  10.0  152   alto  100  1009.000000  1
2024-01-02   -0.138264  20.0  116   bajo  100    19.861736  2
2024-01-03    0.647689  30.0   44  medio  100    30.647689  3
2024-01-04    1.523030  40.0  178   alto  100    41.523030  4
2024-01-05   -0.234153  50.0   98   bajo  100    49.765847  5
2024-01-06   -0.234137  60.0  182  medio  100    59.765863  6

Después de agregar Serie desalineada (nota los NaN):
                     A     B    C      D    E            F  G     H
2024-01-01  999.000000  10.0  152   alto  100  1009.000000  1   NaN
2024-01-02   -0.138264  20.0  116   bajo  100    19.861736  2  10.0
2024-01-03    0.647689  30.0   44  medio  100    30.647689  3  20.0
2024-01-04    1.523030  40.0  178   alto  100    41.523030  4  30.0
2024-01-05   -0.234153  50.0   98   bajo  100    49.765847  5  40.0
2024-01-06   -0.234137  60.0  182  medio  100    59.765863  6  

## Modificación Condicional

In [13]:
# Crear nuevo DataFrame para ejemplos de modificación condicional
df_condicional = df.copy()

# Modificar valores que cumplen una condición
df_condicional.loc[df_condicional['A'] > 0, 'A'] = 'POSITIVO'
print("Después de cambiar valores positivos de A:")
print(df_condicional)

# Restaurar para siguiente ejemplo
df_condicional = df.copy()

# Usar numpy.where para modificación condicional
df_condicional['A_categoria'] = np.where(df_condicional['A'] > 0, 'Positivo', 'Negativo')
print("\nUsando np.where para crear columna categórica:")
print(df_condicional)

Después de cambiar valores positivos de A:
                   A         B   C      D
2024-01-01  POSITIVO  1.579213  76   alto
2024-01-02 -0.138264  0.767435  58   bajo
2024-01-03  POSITIVO -0.469474  22  medio
2024-01-04  POSITIVO  0.542560  89   alto
2024-01-05 -0.234153 -0.463418  49   bajo
2024-01-06 -0.234137 -0.465730  91  medio

Usando np.where para crear columna categórica:
                   A         B   C      D A_categoria
2024-01-01  0.496714  1.579213  76   alto    Positivo
2024-01-02 -0.138264  0.767435  58   bajo    Negativo
2024-01-03  0.647689 -0.469474  22  medio    Positivo
2024-01-04  1.523030  0.542560  89   alto    Positivo
2024-01-05 -0.234153 -0.463418  49   bajo    Negativo
2024-01-06 -0.234137 -0.465730  91  medio    Negativo


  df_condicional.loc[df_condicional['A'] > 0, 'A'] = 'POSITIVO'


In [15]:
# Múltiples condiciones con np.select
condiciones = [
    df_condicional['C'] < 30,
    (df_condicional['C'] >= 30) & (df_condicional['C'] < 70),
    df_condicional['C'] >= 70
]
valores = ['Bajo', 'Medio', 'Alto']
df_condicional['C_categoria'] = np.select(condiciones, valores, default='Desconocido')

print("Usando np.select para múltiples condiciones:")
print(df_condicional)

# Modificar usando mask
df_mask = df.copy()
# Aplicar mask solo a columnas numéricas para evitar errores de tipo
numeric_cols = df_mask.select_dtypes(include=[np.number]).columns
df_mask[numeric_cols] = df_mask[numeric_cols].mask(df_mask[numeric_cols] < 0, 'NEGATIVO')
print("\nUsando mask para reemplazar valores negativos:")
print(df_mask)

Usando np.select para múltiples condiciones:
                   A         B   C      D A_categoria C_categoria
2024-01-01  0.496714  1.579213  76   alto    Positivo        Alto
2024-01-02 -0.138264  0.767435  58   bajo    Negativo       Medio
2024-01-03  0.647689 -0.469474  22  medio    Positivo        Bajo
2024-01-04  1.523030  0.542560  89   alto    Positivo        Alto
2024-01-05 -0.234153 -0.463418  49   bajo    Negativo       Medio
2024-01-06 -0.234137 -0.465730  91  medio    Negativo        Alto

Usando mask para reemplazar valores negativos:
                   A         B   C      D
2024-01-01  0.496714  1.579213  76   alto
2024-01-02  NEGATIVO  0.767435  58   bajo
2024-01-03  0.647689  NEGATIVO  22  medio
2024-01-04   1.52303   0.54256  89   alto
2024-01-05  NEGATIVO  NEGATIVO  49   bajo
2024-01-06  NEGATIVO  NEGATIVO  91  medio


## Operaciones con Where

In [19]:
# Crear DataFrame para ejemplos de where
df_where = df.copy()

# Where conserva valores que cumplen condición, reemplaza otros
# Aplicar solo a columnas numéricas para evitar errores de tipo
df_where_resultado = df_where.copy()
numeric_cols_where = df_where.select_dtypes(include=[np.number]).columns
df_where_resultado[numeric_cols_where] = df_where[numeric_cols_where].where(df_where[numeric_cols_where] > 0, 'REEMPLAZADO')
print("Usando where - conserva positivos, reemplaza negativos:")
print(df_where_resultado)

# Where con otra condición
df_where2 = df_where.copy()
df_where2['A'] = df_where2['A'].where(df_where2['A'] > 0, df_where2['A'] * -1)
print("\nConvertir valores negativos de A en positivos:")
print(df_where2)

Usando where - conserva positivos, reemplaza negativos:
                      A            B   C      D
2024-01-01     0.496714     1.579213  76   alto
2024-01-02  REEMPLAZADO     0.767435  58   bajo
2024-01-03     0.647689  REEMPLAZADO  22  medio
2024-01-04      1.52303      0.54256  89   alto
2024-01-05  REEMPLAZADO  REEMPLAZADO  49   bajo
2024-01-06  REEMPLAZADO  REEMPLAZADO  91  medio

Convertir valores negativos de A en positivos:
                   A         B   C      D
2024-01-01  0.496714  1.579213  76   alto
2024-01-02  0.138264  0.767435  58   bajo
2024-01-03  0.647689 -0.469474  22  medio
2024-01-04  1.523030  0.542560  89   alto
2024-01-05  0.234153 -0.463418  49   bajo
2024-01-06  0.234137 -0.465730  91  medio


## Eliminación de Datos

In [20]:
# Eliminar columnas
df_sin_columnas = df_modificado.drop(['E', 'F'], axis=1)
print("Después de eliminar columnas E y F:")
print(df_sin_columnas)

# Eliminar filas
df_sin_filas = df.drop(fechas[0:2])
print("\nDespués de eliminar primeras 2 filas:")
print(df_sin_filas)

# Eliminar con del (modifica el DataFrame original)
df_temp = df.copy()
del df_temp['D']
print("\nDespués de usar del para eliminar columna D:")
print(df_temp)

Después de eliminar columnas E y F:
                     A     B    C      D  G     H
2024-01-01  999.000000  10.0  152   alto  1   NaN
2024-01-02   -0.138264  20.0  116   bajo  2  10.0
2024-01-03    0.647689  30.0   44  medio  3  20.0
2024-01-04    1.523030  40.0  178   alto  4  30.0
2024-01-05   -0.234153  50.0   98   bajo  5  40.0
2024-01-06   -0.234137  60.0  182  medio  6  50.0

Después de eliminar primeras 2 filas:
                   A         B   C      D
2024-01-03  0.647689 -0.469474  22  medio
2024-01-04  1.523030  0.542560  89   alto
2024-01-05 -0.234153 -0.463418  49   bajo
2024-01-06 -0.234137 -0.465730  91  medio

Después de usar del para eliminar columna D:
                   A         B   C
2024-01-01  0.496714  1.579213  76
2024-01-02 -0.138264  0.767435  58
2024-01-03  0.647689 -0.469474  22
2024-01-04  1.523030  0.542560  89
2024-01-05 -0.234153 -0.463418  49
2024-01-06 -0.234137 -0.465730  91


## Reindexación y Reorganización

In [21]:
# Reindexar con nuevos índices
nuevas_fechas = pd.date_range('20231230', periods=10)
df_reindexado = df.reindex(nuevas_fechas)
print("Después de reindexar con fechas extendidas:")
print(df_reindexado)

# Reindexar con valor de relleno
df_reindexado_relleno = df.reindex(nuevas_fechas, fill_value=0)
print("\nReindexado con valor de relleno 0:")
print(df_reindexado_relleno)

Después de reindexar con fechas extendidas:
                   A         B     C      D
2023-12-30       NaN       NaN   NaN    NaN
2023-12-31       NaN       NaN   NaN    NaN
2024-01-01  0.496714  1.579213  76.0   alto
2024-01-02 -0.138264  0.767435  58.0   bajo
2024-01-03  0.647689 -0.469474  22.0  medio
2024-01-04  1.523030  0.542560  89.0   alto
2024-01-05 -0.234153 -0.463418  49.0   bajo
2024-01-06 -0.234137 -0.465730  91.0  medio
2024-01-07       NaN       NaN   NaN    NaN
2024-01-08       NaN       NaN   NaN    NaN

Reindexado con valor de relleno 0:
                   A         B   C      D
2023-12-30  0.000000  0.000000   0      0
2023-12-31  0.000000  0.000000   0      0
2024-01-01  0.496714  1.579213  76   alto
2024-01-02 -0.138264  0.767435  58   bajo
2024-01-03  0.647689 -0.469474  22  medio
2024-01-04  1.523030  0.542560  89   alto
2024-01-05 -0.234153 -0.463418  49   bajo
2024-01-06 -0.234137 -0.465730  91  medio
2024-01-07  0.000000  0.000000   0      0
2024-01-08  0.00

In [22]:
# Reindexar columnas
nuevas_columnas = ['D', 'C', 'B', 'A', 'Nueva']
df_cols_reindexado = df.reindex(columns=nuevas_columnas)
print("Reindexado de columnas:")
print(df_cols_reindexado)

# Reset del índice
df_reset = df.reset_index()
print("\nDespués de reset_index():")
print(df_reset)

# Set index desde una columna
df_nuevo_index = df_reset.set_index('index')
print("\nDespués de set_index('index'):")
print(df_nuevo_index)

Reindexado de columnas:
                D   C         B         A  Nueva
2024-01-01   alto  76  1.579213  0.496714    NaN
2024-01-02   bajo  58  0.767435 -0.138264    NaN
2024-01-03  medio  22 -0.469474  0.647689    NaN
2024-01-04   alto  89  0.542560  1.523030    NaN
2024-01-05   bajo  49 -0.463418 -0.234153    NaN
2024-01-06  medio  91 -0.465730 -0.234137    NaN

Después de reset_index():
       index         A         B   C      D
0 2024-01-01  0.496714  1.579213  76   alto
1 2024-01-02 -0.138264  0.767435  58   bajo
2 2024-01-03  0.647689 -0.469474  22  medio
3 2024-01-04  1.523030  0.542560  89   alto
4 2024-01-05 -0.234153 -0.463418  49   bajo
5 2024-01-06 -0.234137 -0.465730  91  medio

Después de set_index('index'):
                   A         B   C      D
index                                    
2024-01-01  0.496714  1.579213  76   alto
2024-01-02 -0.138264  0.767435  58   bajo
2024-01-03  0.647689 -0.469474  22  medio
2024-01-04  1.523030  0.542560  89   alto
2024-01-05 -0.