# 12. Manipulación de Datos con Pandas y Vistazo a SciPy

- *Autor*: [Dr. Mario Abarca](https://www.knkillname.org/)
- *Objetivo*: Introducir la manipulación de datos estructurados con Pandas y explorar algunas funcionalidades clave de SciPy para cómputo científico avanzado.

<a href="https://colab.research.google.com/github/knkillname/uaem.notas.introcomp/blob/master/cuadernos/12.PandasYSciPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

¡Qué onda, futuros científicos de datos! Ya que dominamos NumPy para los números y Matplotlib para las gráficas chidas, es hora de conocer a **Pandas**, la navaja suiza para manipular datos tabulares. Y para rematar, le echaremos un ojo a **SciPy**, que nos dará superpoderes para cálculos científicos más especializados. ¡Abróchense los cinturones!

## 12.1. Pandas: El Maestro de las Tablas de Datos

**Pandas** es una biblioteca de Python que proporciona estructuras de datos de alto rendimiento y fáciles de usar, así como herramientas de análisis de datos. Es fundamental para cualquiera que trabaje con datos estructurados o tabulares (piensen en hojas de cálculo, bases de datos SQL, etc.).

¿Por qué Pandas es tan popular?
- **Estructuras de datos intuitivas:** Principalmente `Series` (1D) y `DataFrame` (2D).
- **Manejo de datos faltantes:** Herramientas robustas para tratar con NaN (Not a Number).
- **Funcionalidad de E/S (Entrada/Salida):** Fácil lectura y escritura de diversos formatos de archivo (CSV, Excel, SQL, JSON, etc.).
- **Potentes operaciones de datos:** Agrupación, combinación, remodelación, filtrado, etc.
- **Optimizado para rendimiento:** Aunque no tan rápido como NumPy para operaciones numéricas puras en arreglos homogéneos, Pandas está bien optimizado para muchas tareas de manipulación de datos.

### 12.1.1. Importando Pandas
Por convención, Pandas se importa con el alias `pd`:

In [None]:
import pandas as pd
import numpy as np # A menudo se usa junto con NumPy

### 12.1.2. Estructuras de Datos de Pandas

**a) Series:**
Una `Serie` es un arreglo unidimensional etiquetado capaz de contener cualquier tipo de dato (enteros, cadenas, flotantes, objetos de Python, etc.). Las etiquetas de los ejes se conocen colectivamente como el **índice**.

In [None]:
# Creando una Serie desde una lista
datos_serie = [10, 20, 30, 40, 50]
indices_serie = ['a', 'b', 'c', 'd', 'e']
serie1 = pd.Series(data=datos_serie, index=indices_serie)
print("Serie 1:\n", serie1)

# Accediendo a elementos
print("\nElemento en índice 'c':", serie1['c'])
print("Primeros dos elementos:\n", serie1[:2])

In [None]:
# Creando una Serie desde un diccionario
datos_dict_serie = {'Matemáticas': 9.5, 'Física': 8.0, 'Química': 7.5}
serie2 = pd.Series(datos_dict_serie)
print("\nSerie 2 (desde diccionario):\n", serie2)
print("Calificación de Física:", serie2['Física'])

**b) DataFrame:**
Un `DataFrame` es una estructura de datos tabular bidimensional, etiquetada y de tamaño variable, con columnas que pueden ser de diferentes tipos. Puedes pensarlo como una hoja de cálculo, una tabla SQL o un diccionario de Series.
Es la estructura de datos más comúnmente utilizada en Pandas.

**Creación de DataFrames:**

1.  **Desde un diccionario de listas o arreglos de NumPy:**

In [None]:
datos_df = {
    'Estudiante': ['Ana', 'Luis', 'Elena', 'Pedro'],
    'Edad': [20, 22, 21, 23],
    'Carrera': ['Física', 'Matemáticas', 'Química', 'Física']
}

df1 = pd.DataFrame(datos_df)
print("DataFrame 1 (desde diccionario de listas):\n", df1)

2.  **Desde un arreglo de NumPy:**

In [None]:
datos_np = np.array([
    [1, 'Agua', 10.5],
    [2, 'Sodio', 23.0],
    [3, 'Cloro', 35.5]
])

df2 = pd.DataFrame(data=datos_np, columns=['ID', 'Elemento', 'MasaAtomica'])
print("\nDataFrame 2 (desde arreglo NumPy):\n", df2)

### 12.1.3. Selección y Filtrado de Datos

Pandas ofrece varias formas de seleccionar y filtrar datos de un DataFrame.

In [None]:
# Usaremos df1 para los ejemplos
print("DataFrame original (df1):\n", df1)

**a) Selección de columnas:**

In [None]:
print("\nColumna 'Estudiante':\n", df1['Estudiante']) # Devuelve una Serie
print("\nColumnas 'Estudiante' y 'Carrera':\n", df1[['Estudiante', 'Carrera']]) # Devuelve un DataFrame

**b) Selección de filas por etiqueta (índice) usando `.loc`:**

In [None]:
# Primero, asignemos un índice más significativo a df1
df1_idx = df1.set_index('Estudiante')
print("\nDataFrame con índice 'Estudiante':\n", df1_idx)

In [None]:
print("\nFila de 'Luis' usando .loc:\n", df1_idx.loc['Luis']) # Devuelve una Serie
print("\nFilas de 'Ana' y 'Pedro' usando .loc:\n", df1_idx.loc[['Ana', 'Pedro']]) # Devuelve un DataFrame

**c) Selección de filas por posición entera usando `.iloc`:**

In [None]:
print("\nPrimera fila (posición 0) usando .iloc:\n", df1.iloc[0]) # Devuelve una Serie
print("\nPrimeras dos filas usando .iloc:\n", df1.iloc[0:2]) # Devuelve un DataFrame
print("\nFilas en posiciones 0 y 2, y columnas en posiciones 0 y 1:\n", df1.iloc[[0, 2], [0, 1]])

**d) Filtrado Booleano (condiciones):**

In [None]:
print("\nEstudiantes con Edad > 21:\n", df1[df1['Edad'] > 21])

print("\nEstudiantes de la carrera de 'Física':\n", df1[df1['Carrera'] == 'Física'])

**Ejercicio 12.1.1: Creación y Selección de Datos**
1. Crea un DataFrame llamado `experimentos` con los siguientes datos:
   - `ID_Muestra`: ['M01', 'M02', 'M03', 'M04', 'M05']
   - `pH`: [7.0, 6.5, 8.1, 7.3, 6.8]
   - `Temperatura_C`: [25, 30, 22, 28, 26]
   - `Concentracion_mM`: [10, 15, 8, 12, 11]
2. Muestra las primeras 3 filas del DataFrame.
3. Selecciona y muestra solo las columnas `ID_Muestra` y `Concentracion_mM`.
4. Filtra y muestra las muestras donde la `Temperatura_C` sea mayor a 25.
5. Filtra y muestra las muestras donde el `pH` sea menor a 7.0 Y la `Concentracion_mM` sea mayor a 10.

In [None]:
# Espacio para el Ejercicio 12.1.1
# 1. Crear DataFrame 'experimentos'
datos_experimentos = {
    'ID_Muestra': ['M01', 'M02', 'M03', 'M04', 'M05'],
    'pH': [7.0, 6.5, 8.1, 7.3, 6.8],
    'Temperatura_C': [25, 30, 22, 28, 26],
    'Concentracion_mM': [10, 15, 8, 12, 11]
}
experimentos = pd.DataFrame(datos_experimentos)
print("1. DataFrame 'experimentos':\n", experimentos)

# 2. Primeras 3 filas
print("\n2. Primeras 3 filas:\n", experimentos.head(3))

# 3. Columnas 'ID_Muestra' y 'Concentracion_mM'
print("\n3. Columnas seleccionadas:\n", experimentos[['ID_Muestra', 'Concentracion_mM']])

# 4. Muestras con Temperatura_C > 25
print("\n4. Muestras con Temperatura > 25°C:\n", experimentos[experimentos['Temperatura_C'] > 25])

# 5. Muestras con pH < 7.0 Y Concentracion_mM > 10
print("\n5. Muestras con pH < 7.0 y Concentración > 10 mM:\n", 
      experimentos[(experimentos['pH'] < 7.0) & (experimentos['Concentracion_mM'] > 10)])

### 12.1.4. Lectura y Escritura de Archivos CSV
Pandas facilita enormemente trabajar con archivos CSV (Valores Separados por Comas).

**a) Escribir un DataFrame a un archivo CSV:**

In [None]:
# Usaremos el DataFrame 'experimentos' del ejercicio anterior
experimentos.to_csv('datos_experimentos.csv', index=False) # index=False para no escribir el índice del DataFrame al archivo
print("DataFrame 'experimentos' guardado en 'datos_experimentos.csv'")

**b) Leer un archivo CSV a un DataFrame:**

In [None]:
df_desde_csv = pd.read_csv('datos_experimentos.csv')
print("\nDataFrame leído desde 'datos_experimentos.csv':\n", df_desde_csv)

**Nota:** En Google Colab, el archivo CSV se guardará en el sistema de archivos temporal de la sesión. Si quieres descargarlo, puedes usar el panel de archivos a la izquierda.

### 12.1.5. Operaciones Básicas y Estadísticas Descriptivas

In [None]:
print("DataFrame original (df_desde_csv):\n", df_desde_csv)

**a) `df.info()`:** Muestra un resumen conciso del DataFrame, incluyendo el tipo de dato de cada columna y el uso de memoria.

In [None]:
print("\nInformación del DataFrame:")
df_desde_csv.info()

**b) `df.describe()`:** Genera estadísticas descriptivas de las columnas numéricas (conteo, media, desviación estándar, mínimo, máximo, cuartiles).

In [None]:
print("\nEstadísticas descriptivas:\n", df_desde_csv.describe())

**c) `df.mean()`, `df.sum()`, `df.min()`, `df.max()`, etc.:**

In [None]:
print("\nMedia de las temperaturas:", df_desde_csv['Temperatura_C'].mean())
print("Suma de las concentraciones:", df_desde_csv['Concentracion_mM'].sum())

**d) `df.groupby()`:** Permite agrupar filas basándose en los valores de una o más columnas y luego aplicar funciones de agregación a cada grupo.

In [None]:
# Agreguemos una columna de 'Tipo_Experimento' para demostrar groupby
df_desde_csv['Tipo_Experimento'] = ['A', 'B', 'A', 'B', 'A']
print("\nDataFrame con 'Tipo_Experimento':\n", df_desde_csv)

In [None]:
print("\nMedia de pH por Tipo_Experimento:\n", df_desde_csv.groupby('Tipo_Experimento')['pH'].mean())

**Ejercicio 12.1.2: Operaciones y Estadísticas**
Usando el DataFrame `experimentos` (o `df_desde_csv` si lo cargaste):
1. Calcula la temperatura máxima y mínima registrada.
2. Agrega una nueva columna llamada `pH_Acido` que sea `True` si el pH es menor a 7.0, y `False` en caso contrario.
3. Cuenta cuántas muestras son de `Tipo_Experimento` 'A' y cuántas son de 'B' (puedes usar `groupby()` y `size()`, o `value_counts()`).
4. Calcula la concentración promedio para las muestras con `pH_Acido` igual a `True`.

In [None]:
# Espacio para el Ejercicio 12.1.2
df_ejercicio = df_desde_csv.copy() # Trabajaremos sobre una copia para no modificar el original

# 1. Temperatura máxima y mínima
temp_max = df_ejercicio['Temperatura_C'].max()
temp_min = df_ejercicio['Temperatura_C'].min()
print(f"1. Temperatura Máxima: {temp_max}°C, Temperatura Mínima: {temp_min}°C")

# 2. Nueva columna 'pH_Acido'
df_ejercicio['pH_Acido'] = df_ejercicio['pH'] < 7.0
print("\n2. DataFrame con columna 'pH_Acido':\n", df_ejercicio)

# 3. Conteo de muestras por Tipo_Experimento
conteo_tipo = df_ejercicio['Tipo_Experimento'].value_counts()
# Alternativa: conteo_tipo = df_ejercicio.groupby('Tipo_Experimento').size()
print("\n3. Conteo de muestras por tipo:\n", conteo_tipo)

# 4. Concentración promedio para muestras con pH_Acido == True
concentracion_promedio_acido = df_ejercicio[df_ejercicio['pH_Acido'] == True]['Concentracion_mM'].mean()
print(f"\n4. Concentración promedio para muestras ácidas: {concentracion_promedio_acido:.2f} mM")

**Discusión 12.1: El Poder de Pandas**
   - Imagina que tienes un archivo CSV con datos de mediciones de un sensor (tiempo, valor1, valor2) con miles de filas. ¿Qué operaciones de Pandas serían las primeras que aplicarías para entender los datos?
   - Pide a tu asistente IA que te explique cómo Pandas maneja los datos faltantes (NaN) y qué estrategias comunes existen para tratarlos.

## 12.2. SciPy: Herramientas Científicas Avanzadas

**SciPy** (Scientific Python) es una biblioteca que se construye sobre NumPy y proporciona una gran colección de algoritmos y funciones para matemáticas, ciencia e ingeniería. Mientras NumPy se centra en la estructura de arreglo y operaciones fundamentales, SciPy ofrece funcionalidades más especializadas.

SciPy está organizada en submódulos, cada uno dedicado a un área específica del cómputo científico. Algunos de los más importantes son:
- `scipy.stats`: Funciones estadísticas y distribuciones de probabilidad.
- `scipy.optimize`: Algoritmos de optimización (minimización, ajuste de curvas).
- `scipy.integrate`: Integración numérica.
- `scipy.linalg`: Álgebra lineal extendida (más allá de lo básico de NumPy).
- `scipy.signal`: Procesamiento de señales.
- `scipy.interpolate`: Interpolación.
- `scipy.fft`: Transformadas de Fourier.

### 12.2.1. `scipy.stats`: Estadísticas y Distribuciones
Este módulo es muy útil para trabajar con distribuciones de probabilidad y realizar pruebas estadísticas.

In [None]:
from scipy import stats
import matplotlib.pyplot as plt # Para graficar

**a) Distribución Normal (Gaussiana):**
Podemos generar números aleatorios de una distribución normal, calcular su función de densidad de probabilidad (PDF) y su función de distribución acumulada (CDF).

In [None]:
# Parámetros de la distribución normal: media (loc) y desviación estándar (scale)
media = 0
desv_est = 1

# Generar 1000 muestras aleatorias
muestras_normales = stats.norm.rvs(loc=media, scale=desv_est, size=1000)

# Graficar el histograma de las muestras
plt.figure(figsize=(8,5))
plt.hist(muestras_normales, bins=30, density=True, alpha=0.6, label='Histograma de muestras')

# Graficar la PDF teórica
x_normal = np.linspace(-4, 4, 100)
pdf_normal = stats.norm.pdf(x_normal, loc=media, scale=desv_est)
plt.plot(x_normal, pdf_normal, 'r-', lw=2, label='PDF teórica')

plt.title('Distribución Normal')
plt.xlabel('Valor')
plt.ylabel('Densidad')
plt.legend()
plt.grid(True)
plt.show()

# Calcular la probabilidad de que una variable aleatoria sea menor que 1 (CDF)
prob_menor_que_1 = stats.norm.cdf(1, loc=media, scale=desv_est)
print(f"P(X < 1) para una N(0,1): {prob_menor_que_1:.4f}")

**b) Prueba de hipótesis simple (t-test de una muestra):**
Supongamos que tenemos un conjunto de mediciones y queremos probar si la media de estas mediciones es significativamente diferente de un valor conocido (hipótesis nula).

In [None]:
# Datos de ejemplo: mediciones de la longitud de un componente (en cm)
mediciones_longitud = np.array([10.1, 9.8, 10.3, 10.0, 9.9, 10.2, 9.7, 10.1, 10.0, 9.9])
media_conocida = 10.0 # Hipótesis nula: la media verdadera es 10.0 cm

t_statistic, p_value = stats.ttest_1samp(mediciones_longitud, media_conocida)

print(f"Estadístico t: {t_statistic:.4f}")
print(f"Valor p: {p_value:.4f}")

alpha = 0.05 # Nivel de significancia
if p_value < alpha:
    print(f"Como p ({p_value:.4f}) < alpha ({alpha}), rechazamos la hipótesis nula.")
    print("La media de las mediciones es significativamente diferente de 10.0 cm.")
else:
    print(f"Como p ({p_value:.4f}) >= alpha ({alpha}), no podemos rechazar la hipótesis nula.")
    print("No hay evidencia suficiente para decir que la media es diferente de 10.0 cm.")

### 12.2.2. `scipy.optimize`: Optimización y Ajuste de Curvas
Este módulo ofrece herramientas para encontrar mínimos de funciones, resolver ecuaciones y ajustar curvas a datos.

**a) Encontrar el mínimo de una función:**

In [None]:
from scipy.optimize import minimize

# Definimos una función cuadrática simple: f(x) = (x-3)^2
def funcion_cuadratica(x):
    return (x - 3)**2

# Valor inicial para la búsqueda del mínimo
x_inicial = 0.0

resultado_min = minimize(funcion_cuadratica, x_inicial)

print("Resultado de la minimización:", resultado_min)
print(f"El mínimo de la función se encuentra en x = {resultado_min.x[0]:.4f}")
print(f"El valor mínimo de la función es f(x) = {resultado_min.fun:.4f}")

**b) Ajuste de curvas (Curve Fitting):**
Supongamos que tenemos datos experimentales que creemos que siguen un modelo funcional, y queremos encontrar los parámetros del modelo que mejor se ajustan a los datos.

In [None]:
from scipy.optimize import curve_fit

# Datos experimentales (simulados): crecimiento exponencial y = a * exp(b*x)
x_datos = np.array([0.0, 1.0, 2.0, 3.0, 4.0, 5.0])
y_datos = np.array([1.0, 2.7, 7.4, 20.1, 54.6, 148.4]) # Aproximadamente exp(x)

# Definimos la función del modelo
def modelo_exponencial(x, a, b):
    return a * np.exp(b * x)

# Realizamos el ajuste de curva
params_opt, params_cov = curve_fit(modelo_exponencial, x_datos, y_datos, p0=[1,1]) # p0 son valores iniciales para a y b

a_opt, b_opt = params_opt
print(f"Parámetros óptimos: a = {a_opt:.4f}, b = {b_opt:.4f}")

# Graficamos los datos y la curva ajustada
plt.figure(figsize=(8,5))
plt.scatter(x_datos, y_datos, label='Datos experimentales')
x_ajuste = np.linspace(0, 5, 100)
y_ajuste = modelo_exponencial(x_ajuste, a_opt, b_opt)
plt.plot(x_ajuste, y_ajuste, 'r-', label=f'Ajuste: y = {a_opt:.2f} * exp({b_opt:.2f}*x)')
plt.title('Ajuste de Curva Exponencial')
plt.xlabel('x')
plt.ylabel('y')
plt.legend()
plt.grid(True)
plt.show()

**Ejercicio 12.2.1: Explorando SciPy**
1. **Distribución de Poisson:** La distribución de Poisson modela el número de eventos que ocurren en un intervalo fijo de tiempo o espacio, si estos eventos ocurren con una tasa media conocida e independientemente del tiempo desde el último evento (ej. número de partículas alfa emitidas por una fuente radiactiva en un segundo).
   - Investiga la función `stats.poisson` en SciPy.
   - Si una fuente emite en promedio $\lambda = 3$ partículas por segundo, genera 1000 muestras aleatorias de esta distribución.
   - Grafica un histograma de tus muestras.
   - Calcula la probabilidad de observar exactamente 2 partículas en un segundo usando `stats.poisson.pmf()` (Función de Masa de Probabilidad).
   - Calcula la probabilidad de observar 2 o menos partículas en un segundo usando `stats.poisson.cdf()`.

2. **Optimización (Opcional Avanzado):** La función de Rosenbrock es una función no convexa utilizada como prueba de rendimiento para algoritmos de optimización: $f(x, y) = (a-x)^2 + b(y-x^2)^2$. Usualmente $a=1$ y $b=100$.
   - Define la función de Rosenbrock en Python.
   - Usa `scipy.optimize.minimize` para encontrar su mínimo. El mínimo global está en $(x,y) = (a, a^2)$, que para $a=1$ es $(1,1)$ donde $f(1,1)=0$.
   - Prueba con diferentes puntos iniciales (ej. `x0 = [0,0]` o `x0 = [-1, 2]`).

In [None]:
# Espacio para el Ejercicio 12.2.1

# 1. Distribución de Poisson
lambda_poisson = 3
muestras_poisson = stats.poisson.rvs(mu=lambda_poisson, size=1000)

plt.figure(figsize=(8,5))
plt.hist(muestras_poisson, bins=range(0, np.max(muestras_poisson) + 2), density=True, alpha=0.7, edgecolor='black', align='left')
plt.title(f'Distribución de Poisson ($\lambda$={lambda_poisson})')
plt.xlabel('Número de eventos')
plt.ylabel('Probabilidad / Frecuencia relativa')
plt.grid(axis='y')
plt.show()

prob_exact_2 = stats.poisson.pmf(2, mu=lambda_poisson)
print(f"Probabilidad de observar exactamente 2 partículas: {prob_exact_2:.4f}")

prob_2_o_menos = stats.poisson.cdf(2, mu=lambda_poisson)
print(f"Probabilidad de observar 2 o menos partículas: {prob_2_o_menos:.4f}")

# 2. Optimización de la función de Rosenbrock (Opcional Avanzado)
def rosenbrock(p):
    a = 1.0
    b = 100.0
    x, y = p
    return (a - x)**2 + b * (y - x**2)**2

x0_1 = [0.0, 0.0]
resultado_rosen1 = minimize(rosenbrock, x0_1, method='Nelder-Mead') # Nelder-Mead es un método común que no requiere gradientes
print(f"\nResultado de minimizar Rosenbrock desde {x0_1}:")
print(f"  Punto mínimo encontrado: {resultado_rosen1.x}")
print(f"  Valor mínimo encontrado: {resultado_rosen1.fun:.4e}") # Usamos notación científica para valores pequeños

x0_2 = [-1.0, 2.0]
resultado_rosen2 = minimize(rosenbrock, x0_2, method='Nelder-Mead')
print(f"\nResultado de minimizar Rosenbrock desde {x0_2}:")
print(f"  Punto mínimo encontrado: {resultado_rosen2.x}")
print(f"  Valor mínimo encontrado: {resultado_rosen2.fun:.4e}")

**Discusión 12.2: El Universo de SciPy**
   - SciPy es vasto. Pide a tu asistente IA que te dé un ejemplo de cómo se podría usar `scipy.integrate` para calcular el área bajo una curva (una integral definida) de una función que no se puede integrar analíticamente fácilmente (ej. $e^{-x^2}$).
   - ¿En qué tipo de problemas científicos o de ingeniería crees que los módulos de SciPy como `signal` (procesamiento de señales) o `fft` (transformada rápida de Fourier) serían indispensables?