In [11]:
import numpy as np
import pandas as pd

def eliminar_datos_corruptos_numpy(datos, columna_x, columna_y, ventana=5, umbral_desviacion=3):
    """
    Elimina los datos corruptos que no siguen la tendencia general de un conjunto de datos usando NumPy.

    Args:
        datos (pd.DataFrame): DataFrame con los datos a procesar.
        columna_x (str): Nombre de la columna de la variable independiente (e.g., Longitud de onda).
        columna_y (str): Nombre de la columna de la variable dependiente (e.g., Intensidad).
        ventana (int): Tamaño de la ventana para el cálculo de la media móvil.
        umbral_desviacion (float): Factor para detectar desviaciones significativas (en desviaciones estándar).

    Returns:
        pd.DataFrame: DataFrame con los datos limpios, sin valores corruptos.
    """
    # Convertir las columnas en arreglos NumPy
    x = datos[columna_x].values
    y = datos[columna_y].values

    # Calcular la media móvil para suavizar la tendencia
    suavizado = np.convolve(y, np.ones(ventana)/ventana, mode='same')

    # Calcular la desviación absoluta entre los valores originales y la tendencia suavizada
    desviacion = np.abs(y - suavizado)

    # Calcular el límite de desviación aceptable
    limite_desviacion = umbral_desviacion * np.std(desviacion)

    # Filtrar los datos que no superen el límite de desviación
    mascara = desviacion <= limite_desviacion
    x_limpio = x[mascara]
    y_limpio = y[mascara]

    # Crear un DataFrame limpio con los datos restantes
    datos_limpios = pd.DataFrame({columna_x: x_limpio, columna_y: y_limpio})
    return datos_limpios
# Filtrar los datos corruptos
datos_limpios = eliminar_datos_corruptos_numpy(
    datos,
    columna_x="Longitud_de_onda",
    columna_y="Intensidad",
    ventana=5,
    umbral_desviacion=3
)

# Mostrar los datos limpios
print(datos_limpios)

# Graficar los datos limpios
import matplotlib.pyplot as plt

plt.figure(figsize=(12, 6))
plt.plot(datos_limpios["Longitud_de_onda"], datos_limpios["Intensidad"], label="Datos limpios", color="blue")
plt.xlabel("Longitud de onda (pm)")
plt.ylabel("Intensidad (mJy)")
plt.title("Datos limpios usando NumPy")
plt.legend()
plt.grid(True)
plt.show()


SyntaxError: (unicode error) 'unicodeescape' codec can't decode bytes in position 2-3: truncated \UXXXXXXXX escape (3828847582.py, line 41)