# 12. Pandas y SciPy: Ciencia de Datos y C√≥mputo Avanzado üêºüî¨

- *Autor*: [Dr. Mario Abarca](https://www.knkillname.org/)
- *Objetivo*: Dominar la manipulaci√≥n de datos con **Pandas** y explorar el vasto universo de herramientas cient√≠ficas de **SciPy**.

<a href="https://colab.research.google.com/github/knkillname/uaem.notas.introcomp/blob/master/cuadernos/12.PandasYSciPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

¬°Bienvenidos al laboratorio de datos! ü•º
Si NumPy es el motor de un Ferrari üèéÔ∏è, **Pandas** es el volante y el tablero de control. Nos permite manejar datos complejos, sucios y reales con una elegancia incre√≠ble. Y **SciPy**... bueno, SciPy es la caja de herramientas del ingeniero: tiene desde integrales hasta procesamiento de se√±ales.

¬°Hoy analizaremos **Pok√©mon** üëæ y procesaremos se√±ales de radio üìª!

## 12.1. Pandas: Domando Datos Reales üêº

En el mundo real, los datos no vienen en arreglos perfectos. Vienen en tablas con nombres, fechas, textos y... ¬°huecos vac√≠os! (NaN). Pandas es la herramienta est√°ndar en la industria para lidiar con esto.

Sus dos armas principales son:
1.  **Series**: Como una lista vitaminada (1D).
2.  **DataFrame**: Una hoja de c√°lculo con superpoderes (2D).

### 12.1.1. Cargando la Pokedex üì±

Vamos a trabajar con un archivo CSV real que contiene estad√≠sticas de Pok√©mon. Si seguiste el curso, deber√≠as tener el archivo `pokedex.csv` en tu carpeta. Si no, ¬°no te preocupes! Pandas puede leer archivos locales o incluso desde internet.

Importaremos `pandas` como `pd`, la convenci√≥n universal.

In [None]:
import pandas as pd
import numpy as np

# Leemos el archivo CSV local
# Aseg√∫rate de que 'pokedex.csv' est√© en la misma carpeta que este cuaderno
try:
    df = pd.read_csv('pokedex.csv')
    print("¬°Pokedex cargada exitosamente!")
except FileNotFoundError:
    # Si no existe, creamos uno peque√±o al vuelo para que el c√≥digo funcione
    print("No se encontr√≥ pokedex.csv, creando uno temporal...")
    data = {
        'Pokemon': ['Bulbasaur', 'Charmander', 'Squirtle', 'Pikachu', 'Mewtwo'],
        'Tipo': ['Planta', 'Fuego', 'Agua', 'El√©ctrico', 'Ps√≠quico'],
        'HP': [45, 39, 44, 35, 106],
        'Ataque': [49, 52, 48, 55, 110],
        'Defensa': [49, 43, 65, 40, 90],
        'Velocidad': [45, 65, 43, 90, 130],
        'Legendario': [False, False, False, False, True]
    }
    df = pd.DataFrame(data)

# ¬°Veamos los primeros 5 Pok√©mon!
df.head()

### 12.1.2. Exploraci√≥n de Datos üîç

Antes de entrenar a nuestros Pok√©mon, necesitamos conocer sus estad√≠sticas.
Pandas nos permite:
1.  Ver informaci√≥n general (`info`).
2.  Obtener un resumen estad√≠stico (`describe`).
3.  Verificar si hay datos extra√±os.

In [None]:
# Informaci√≥n r√°pida sobre tipos de datos
print("--- Info del DataFrame ---")
df.info()

# Estad√≠sticas de combate (Media, M√≠nimo, M√°ximo, etc.)
print("\n--- Estad√≠sticas de Combate ---")
print(df.describe())

### 12.1.3. Filtrado: Buscando al Campe√≥n üèÜ

Supongamos que quieres armar un equipo. Necesitas Pok√©mon que cumplan ciertos criterios:
1.  Que sean muy r√°pidos (Velocidad > 100).
2.  O que sean del tipo "Fuego" para quemar obst√°culos.

In [None]:
# Filtramos los Pok√©mon r√°pidos
rapidos = df[ df['Velocidad'] > 100 ]
print("--- Pok√©mon R√°pidos ---")
print(rapidos[['Pokemon', 'Velocidad', 'Tipo']])

# Filtramos Pok√©mon de Fuego con buen ataque
fuego_fuerte = df[ (df['Tipo'] == 'Fuego') & (df['Ataque'] > 50) ]
print("\n--- Pok√©mon de Fuego Fuertes ---")
print(fuego_fuerte[['Pokemon', 'Ataque']])

### 12.1.4. Agrupaci√≥n y An√°lisis üìä

¬øQu√© tipo de Pok√©mon es m√°s fuerte en promedio? ¬øLos de Agua tienen m√°s defensa que los de Fuego?
`groupby` nos permite agrupar datos por categor√≠as y aplicar operaciones matem√°ticas.

In [None]:
# Agrupar por Tipo y contar cu√°ntos hay
print(df.groupby('Tipo')['Pokemon'].count())

print("\n--- Promedio de Ataque por Tipo ---")
# Agrupar por Tipo y calcular la media del Ataque
print(df.groupby('Tipo')['Ataque'].mean())

### Ejercicios Pandas üêºüß†

1.  **El Tanque**: Encuentra el Pok√©mon con la mayor **Defensa** en el DataFrame.
2.  **Legendarios**: Filtra y muestra solo los Pok√©mon que son **Legendarios**.
3.  **Gr√°fica de Poder**: Investiga c√≥mo usar `df.plot.scatter(x='Ataque', y='Defensa')` para ver si los Pok√©mon que atacan fuerte tambi√©n defienden bien.

### Discusi√≥n con tu IA ü§ñ
1.  **Formatos de Archivo**: Preg√∫ntale a tu asistente qu√© ventajas tiene el formato **Parquet** o **HDF5** sobre el CSV cuando manejamos millones de datos.
2.  **Big Data**: ¬øQu√© pasa si mis datos no caben en la memoria RAM? Pregunta por herramientas como **Dask** o **Polars**.

## 12.2. SciPy: La Caja de Herramientas Cient√≠fica üß∞

SciPy se construye sobre NumPy y a√±ade m√≥dulos para casi cualquier cosa que un cient√≠fico necesite:
*   `scipy.optimize`: Minimizar funciones (¬°como entrenar una IA!).
*   `scipy.integrate`: Integrales que no salen a mano.
*   `scipy.interpolate`: Unir puntos con curvas suaves.
*   `scipy.signal`: Procesar audio e im√°genes.
*   `scipy.fft`: Transformada de Fourier (ver frecuencias).

### 12.2.1. Ajuste de Curvas: El Crecimiento de una Colonia Bacteriana ü¶†

Imagina que mides el √°rea cubierta por bacterias en una placa de Petri cada hora. Los datos son ruidosos, pero sabes que deber√≠an seguir un crecimiento exponencial.
¬øC√≥mo encuentras la curva perfecta? ¬°`curve_fit` al rescate!

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

# 1. Datos experimentales (simulados)
tiempo = np.array([0, 1, 2, 3, 4, 5])
# Crecimiento real + un poco de ruido aleatorio
area_bacterias = np.array([10, 15, 28, 55, 105, 210]) + np.random.normal(0, 5, 6)

# 2. Definimos nuestro modelo (Funci√≥n Exponencial)
def modelo_crecimiento(t, a, b):
    return a * np.exp(b * t)

# 3. ¬°Magia! SciPy encuentra 'a' y 'b'
parametros_optimos, covarianza = curve_fit(modelo_crecimiento, tiempo, area_bacterias)
a_opt, b_opt = parametros_optimos

print(f"Modelo ajustado: Area = {a_opt:.2f} * e^({b_opt:.2f} * t)")

# 4. Graficamos
t_suave = np.linspace(0, 5, 100)
plt.scatter(tiempo, area_bacterias, color='red', label='Datos Reales (Ruidosos)')
plt.plot(t_suave, modelo_crecimiento(t_suave, a_opt, b_opt), label='Ajuste SciPy')
plt.legend()
plt.title("Crecimiento Bacteriano")
plt.show()

### 12.2.2. Interpolaci√≥n: Recuperando Datos Perdidos üì°

Imagina que el Rover Curiosity en Marte env√≠a datos de temperatura, pero debido a una tormenta solar, se pierden algunos paquetes. Tienes huecos en tus datos.
`scipy.interpolate` puede rellenar esos huecos suavemente.

In [None]:
from scipy.interpolate import interp1d

# Datos incompletos (horas del d√≠a y temperatura)
horas = np.array([0, 4, 8, 12, 16, 20, 24])
temp = np.array([-70, -75, -50, -5, -10, -60, -72])

# Creamos una funci√≥n de interpolaci√≥n C√öBICA (suave)
f_interp = interp1d(horas, temp, kind='cubic')

# Generamos horas intermedias para ver la curva completa
horas_finas = np.linspace(0, 24, 100)
temp_estimada = f_interp(horas_finas)

plt.plot(horas, temp, 'o', label='Datos Recibidos', markersize=10)
plt.plot(horas_finas, temp_estimada, '-', label='Reconstrucci√≥n (C√∫bica)')
plt.title("Temperatura en Marte (Reconstrucci√≥n)")
plt.legend()
plt.show()

### 12.3. Caso de Estudio: El Sonido de la Ciencia (FFT) üéµüåä

Todas las se√±ales (audio, luz, radio) est√°n compuestas de ondas. La **Transformada R√°pida de Fourier (FFT)** es un algoritmo legendario que descompone cualquier se√±al compleja en sus frecuencias puras originales. Es como tener un prisma que separa la luz blanca en colores, ¬°pero para datos!

Vamos a generar una se√±al de audio "sucia" y descubrir qu√© notas musicales la componen.

In [None]:
from scipy.fft import fft, fftfreq

# 1. Crear la se√±al
N = 600  # N√∫mero de muestras
T = 1.0 / 800.0  # Frecuencia de muestreo
x = np.linspace(0.0, N*T, N, endpoint=False)
# Se√±al: Una nota de 50 Hz + una de 80 Hz + RUIDO
y = np.sin(50.0 * 2.0*np.pi*x) + 0.5*np.sin(80.0 * 2.0*np.pi*x) + np.random.normal(0, 0.5, N)

# 2. Aplicar FFT
yf = fft(y)
xf = fftfreq(N, T)[:N//2]

# 3. Graficar
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(8, 6))
ax1.plot(x, y)
ax1.set_title('Se√±al Ruidosa (Dominio del Tiempo)')
ax1.grid()

ax2.plot(xf, 2.0/N * np.abs(yf[0:N//2]))
ax2.set_title('Espectro de Frecuencias (FFT)')
ax2.set_xlabel('Frecuencia (Hz)')
ax2.grid()
plt.tight_layout()
plt.show()

print("¬øVes los picos en 50 Hz y 80 Hz? ¬°La FFT ignor√≥ el ruido y encontr√≥ la m√∫sica!")

### Reto Final: Procesamiento de Im√°genes üñºÔ∏è

SciPy tambi√©n tiene `scipy.ndimage` para manipular im√°genes.
1.  Crea una matriz 2D con ceros y pon un cuadrado de unos en el centro.
2.  A√±ade ruido aleatorio.
3.  Usa `scipy.ndimage.gaussian_filter` para "desenfocar" y limpiar el ruido.
4.  Grafica el antes y el despu√©s.

¬°Es la base de c√≥mo Instagram o Photoshop aplican filtros! üì∏