## Módulo 2: Importación y limpieza de datos

### Importación de datos

#### Cargar datos desde un archivo excel

Vamos a proceder a importar datos obtenidos a partir de un experimento. Para esto utilizaremos las siguientes librerías:

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

In [None]:
# Cargar los datos desde el archivo Excel
archivo_excel = "datos_excel/experimentos.xlsx"
datos = pd.read_excel(archivo_excel,sheet_name="hoja1")

In [None]:
# Mostrar las primeras filas del archivo para verificar
print(datos.head())

In [None]:
# Extraer columnas específicas
tiempo = datos["Tiempo (horas)"]
luz_blanca = datos["Luz Blanca"]
luz_roja = datos["Luz Roja"]
luz_azul = datos["Luz Azul"]

#print(luz_blanca)
#print(tiempo[3])

In [None]:
# Graficar los datos
plt.figure(figsize=(8, 6))
plt.plot(tiempo, luz_blanca, label="Luz Blanca", marker="o")
plt.plot(tiempo, luz_roja, label="Luz Roja", marker="s")
plt.plot(tiempo, luz_azul, label="Luz Azul", marker="^")
plt.legend()
plt.show()

In [None]:
# Graficar los datos y configurar
plt.figure(figsize=(6, 5))
plt.plot(tiempo, luz_blanca, label="Luz Blanca", marker="o", color="gray")
plt.plot(tiempo, luz_roja, label="Luz Roja", marker="s",color="red")
plt.plot(tiempo, luz_azul, label="Luz Azul", marker="^",color="blue")

# Configuración de la gráfica
plt.xlabel("Tiempo (horas)")
plt.ylabel("Densidad Óptica (DO)")
plt.title("Crecimiento de Microalgas bajo Diferentes Condiciones de Luz")
#plt.legend()
plt.grid(True)
plt.show()

### Limpieza de datos

En esta sección vamos a manipular los datos que se encuentran en la segunda hoja del excel.

In [None]:
# Cargar los datos desde el archivo Excel (hoja 2)
archivo_excel = "datos_excel/experimentos.xlsx"
datos_2 = pd.read_excel(archivo_excel,sheet_name="hoja2")

# Mostrar los datos originales
print("Datos originales:\n")
print(datos_2)

In [None]:
plt.figure(figsize=(8, 4))
plt.plot(datos_2["pH"], datos_2["Concentracion (U/mL)"], marker='o', label='Datos originales')
plt.xlabel("pH")
plt.ylabel("Concentracion (U/mL)")
plt.title("Actividad Enzimática vs pH")
plt.grid(True)
plt.legend()
plt.show()

In [None]:
#Eliminar filas duplicadas
datos_2 = datos_2.drop_duplicates(subset='pH')
print("Después de eliminar duplicados:")
print(datos_2)

In [None]:
# Manejar valores faltantes (rellenar con la media)
datos_2["Concentracion (U/mL)"] = datos_2["Concentracion (U/mL)"].fillna(datos_2["Concentracion (U/mL)"].mean())
print("Después de manejar valores faltantes:")
print(datos_2)

In [None]:
# Eliminar valores fuera de rango (outliers)
# Suponemos que la actividad enzimática debe estar entre 0 y 35 U/mL
datos_2 = datos_2[(datos_2["Concentracion (U/mL)"] >= 0) & (datos_2["Concentracion (U/mL)"] <= 35)]
#print("Después de eliminar outliers:")
#print(datos_2)

In [None]:
# Normalizar la columna de actividad
datos_2["Concentracion Normalizada"] = datos_2["Concentracion (U/mL)"] / datos_2["Concentracion (U/mL)"].max()
#print("Datos con actividad normalizada:")
#print(datos_2)

### Guardar los resultados obtenidos en un nuevo archivo.

In [None]:
# Guardar los datos limpios en un nuevo archivo
archivo_limpio = "actividad_enzimatica_limpia.xlsx"
datos_2.to_excel(archivo_limpio, index=False)

In [None]:
plt.figure(figsize=(8, 4))
plt.plot(datos_2["pH"], datos_2["Concentracion (U/mL)"], marker='o', label='Datos Limpios')
plt.xlabel("pH")
plt.ylabel("Concentracion (U/mL)")
plt.title("Concentracion Enzimática vs pH")
plt.grid(True)
plt.legend()
plt.show()