# 12. Pandas y SciPy: Ciencia de Datos y C√≥mputo Avanzado üêºüî¨

- *Autor*: [Dr. Mario Abarca](https://www.knkillname.org/)
- *Objetivo*: Dominar la manipulaci√≥n de datos con **Pandas** y explorar el vasto universo de herramientas cient√≠ficas de **SciPy**.

<a href="https://colab.research.google.com/github/knkillname/uaem.notas.introcomp/blob/master/cuadernos/12.PandasYSciPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

¬°Bienvenidos al laboratorio de datos! ü•º
Si NumPy es el motor de un Ferrari üèéÔ∏è, **Pandas** es el volante y el tablero de control. Nos permite manejar datos complejos, sucios y reales con una elegancia incre√≠ble. Y **SciPy**... bueno, SciPy es la caja de herramientas del ingeniero: tiene desde integrales hasta procesamiento de se√±ales.

¬°Hoy analizaremos **Pok√©mon** üëæ y procesaremos se√±ales de radio üìª!

## 12.1. Pandas: Domando Datos Reales üêº

En el mundo real, los datos no vienen en arreglos perfectos. Vienen en tablas con nombres, fechas, textos y... ¬°huecos vac√≠os! (NaN). Pandas es la herramienta est√°ndar en la industria para lidiar con esto.

Sus dos armas principales son:
1.  **Series**: Como una lista vitaminada (1D).
2.  **DataFrame**: Una hoja de c√°lculo con superpoderes (2D).

### 12.1.1. Intermezzo: El Ecosistema de Datos (Pip, Kaggle y la Terminal) üõ†Ô∏è

Antes de sumergirnos en Pandas, hagamos una pausa t√©cnica. En la vida real, los datos no aparecen m√°gicamente; hay que buscarlos e instalar herramientas para leerlos. Y a veces, vienen "sucios".

1.  **PIP**: Es el instalador de paquetes de Python. Es como la "App Store" de las librer√≠as. Si necesitas algo que Python no trae por defecto (como la librer√≠a `opendatasets` que usaremos hoy), usas `pip install`.
2.  **Kaggle**: Es la comunidad de ciencia de datos m√°s grande del mundo. Un lugar donde la gente comparte datasets (como el de Pok√©mon que usaremos) y compite por resolver problemas.
3.  **La Terminal en Jupyter**: Normalmente escribimos c√≥digo Python en las celdas, pero si empezamos una l√≠nea con `!`, Jupyter sabe que queremos enviar ese comando directo al sistema operativo (la terminal), no a Python.
4.  **Encodings y Formatos**: No todos los archivos de texto son iguales. La mayor√≠a usa **UTF-8**, pero a veces te encontrar√°s con archivos antiguos o de otros sistemas (como Windows) que usan **UTF-16** o **Latin-1**. Si ves caracteres extra√±os (ÔøΩ) al leer un archivo, ¬°es un problema de encoding!

Vamos a usar estos conceptos para preparar nuestro entorno y descargar los datos:

In [None]:
# 1. Usamos '!' para decirle a la terminal que instale la librer√≠a 'opendatasets'
!pip install opendatasets --upgrade

In [None]:
# 2. Importamos la librer√≠a que acabamos de instalar
import opendatasets as od

In [None]:
# 3. Descargamos el dataset. 
dataset_url = "https://www.kaggle.com/datasets/cristobalmitchell/pokedex"

# IMPORTANTE: Al ejecutar esto, se te pedir√° tu usuario y API Key de Kaggle.
# Cons√≠guelos en: Kaggle -> Settings -> API -> Create New Token
od.download(dataset_url)

### 12.1.2. Cargando la Pokedex üì±

¬°Listo! Ya tenemos las herramientas y los datos. Cerramos el par√©ntesis y volvemos a nuestra programaci√≥n habitual con **Pandas**.

Vamos a cargar el archivo CSV que acabamos de descargar en un **DataFrame**. Importaremos `pandas` como `pd`, la convenci√≥n universal.

In [None]:
import pandas as pd

# Cargamos el DataFrame
# NOTA DE APRENDIZAJE:
# 1. Este archivo no usa comas (CSV), usa tabuladores (TSV), por eso sep='\t'
# 2. No est√° en el formato est√°ndar UTF-8, sino en UTF-16 (com√∫n en exports de Excel viejos), por eso encoding='utf-16le'

df = pd.read_csv('pokedex/pokemon.csv', sep='\t', encoding='utf-16le')
print("¬°Pokedex cargada exitosamente!")

# ¬°Veamos los primeros 5 Pok√©mon!
df.head()

### 12.1.3. Exploraci√≥n de Datos y Estad√≠stica Descriptiva üîç

Antes de entrenar a nuestros Pok√©mon, necesitamos conocer sus estad√≠sticas. Pero cuidado: **el promedio miente**.

Imagina que tienes dos Pok√©mon: uno con ataque 0 y otro con ataque 200. El promedio es 100.
Ahora imagina dos Pok√©mon con ataque 100 cada uno. El promedio tambi√©n es 100.
¬°Pero son situaciones muy diferentes!

Por eso necesitamos m√°s herramientas:
1.  **Desviaci√≥n Est√°ndar (std)**: Nos dice qu√© tan "dispersos" est√°n los datos. Si es baja, todos se parecen al promedio. Si es alta, hay mucha variedad (unos muy d√©biles y otros muy fuertes).
2.  **Cuartiles (25%, 50%, 75%)**: Nos ayudan a entender la distribuci√≥n. El 50% es la **Mediana** (el valor justo en medio).

Pandas nos da todo esto con un solo comando: `describe()`.

In [None]:
# Informaci√≥n r√°pida sobre tipos de datos y nulos
df.info()

In [None]:
# Estad√≠sticas de combate (Media, M√≠nimo, M√°ximo, etc.)
# describe() nos da un resumen estad√≠stico de las columnas num√©ricas
df[['hp', 'attack', 'defense', 'speed']].describe()

### Discusi√≥n con tu IA ü§ñ
1.  **Promedio vs Mediana**: Preg√∫ntale a tu asistente cu√°ndo es mejor usar la mediana en lugar del promedio (pista: piensa en los salarios de un pa√≠s donde vive un multimillonario).
2.  **Outliers**: Pregunta c√≥mo detectar "valores at√≠picos" o errores en los datos usando la desviaci√≥n est√°ndar.

### 12.1.4. Entendiendo la Correlaci√≥n üìâ

Antes de calcular n√∫meros, veamos los datos. ¬øCrees que un Pok√©mon con mucho **Ataque** tambi√©n tiene mucha **Defensa**? ¬øO mucha **Velocidad**?

La **Correlaci√≥n** mide qu√© tan fuerte es la relaci√≥n lineal entre dos variables.
*   **+1**: Correlaci√≥n positiva perfecta (si uno sube, el otro sube exactamente igual).
*   **0**: No hay relaci√≥n (caos total).
*   **-1**: Correlaci√≥n negativa perfecta (si uno sube, el otro baja).

**La F√≥rmula de Pearson ($r$):**
Es la medida m√°s com√∫n. Matem√°ticamente se ve intimidante, pero es intuitiva:
$$ r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \sum(y_i - \bar{y})^2}} $$
B√°sicamente: "Multiplica qu√© tan lejos est√° cada punto del promedio en X por qu√© tan lejos est√° en Y, y normal√≠zalo".

Ahora, ve√°moslo en Python:

In [None]:
# 1. Visualizar primero: Scatter Plot
# ¬øVes alguna l√≠nea imaginaria que suba o baje?
df.plot.scatter(x='attack', y='defense', alpha=0.5, title='Ataque vs Defensa')

In [None]:
# 2. Calcular el n√∫mero m√°gico (Coeficiente de Pearson)
correlacion = df['attack'].corr(df['defense'])
print(f"Correlaci√≥n entre Ataque y Defensa: {correlacion:.2f}")

üéÆ **Reto**: ¬øQu√© tan bueno eres detectando correlaciones a ojo? Juega [Guess The Correlation](https://www.guessthecorrelation.com/) un rato.

In [None]:
# 3. Ver la matriz completa para todas las variables
df[['hp', 'attack', 'defense', 'speed']].corr()

### Discusi√≥n con tu IA ü§ñ
1.  **Tipos de Correlaci√≥n**: Pearson solo mide relaciones *lineales* (l√≠neas rectas). Preg√∫ntale a tu asistente: "¬øQu√© es la correlaci√≥n de **Spearman** o **Kendall** y cu√°ndo debo usarlas?".
2.  **Causalidad**: La frase m√°s famosa en estad√≠stica es "Correlaci√≥n no implica causalidad". P√≠dele ejemplos divertidos de "correlaciones espurias" (como la venta de helados y los ataques de tiburones).

### 12.1.5. Filtrado: Buscando al Campe√≥n üèÜ

Supongamos que quieres armar un equipo. Necesitas Pok√©mon que cumplan ciertos criterios:
1.  Que sean muy r√°pidos (`speed` > 100).
2.  O que sean del tipo "Fuego" (`primary_type` == 'fire') para quemar obst√°culos.

In [None]:
# Filtramos los Pok√©mon r√°pidos
rapidos = df[ df['speed'] > 100 ]
rapidos[['english_name', 'speed', 'primary_type']]


In [None]:
# Filtramos Pok√©mon de Fuego con buen ataque
# Nota: En este dataset los tipos est√°n en ingl√©s y min√∫sculas ('fire')
fuego_fuerte = df[ (df['primary_type'] == 'fire') & (df['attack'] > 50) ]
fuego_fuerte[['english_name', 'attack']].sort_values(by='attack', ascending=False)

### 12.1.6. Agrupaci√≥n y An√°lisis üìä

¬øQu√© tipo de Pok√©mon es m√°s fuerte en promedio? ¬øLos de Agua tienen m√°s defensa que los de Fuego?
`groupby` nos permite agrupar datos por categor√≠as y aplicar operaciones matem√°ticas.

In [None]:
# Agrupar por Tipo y contar cu√°ntos hay
print(df.groupby('primary_type')['english_name'].count())

print("\n--- Promedio de Ataque por Tipo ---")
# Agrupar por Tipo y calcular la media del Ataque
print(df.groupby('primary_type')['attack'].mean())

### 12.1.7. Visualizaci√≥n de Datos: Viendo la Distribuci√≥n üé®

Los n√∫meros resumen, pero las gr√°ficas revelan.
Una **Distribuci√≥n** es simplemente la "forma" que tienen tus datos. ¬øEst√°n todos amontonados en el centro (como una campana)? ¬øO hay dos grupos separados?

Vamos a usar tres herramientas cl√°sicas:
1.  **Histogramas**: La mejor forma de ver una distribuci√≥n. Divide los datos en "cubetas" (bins) y cuenta cu√°ntos caen en cada una.
2.  **Scatter Plots (Dispersi√≥n)**: Para ver relaciones. ¬øSi sube X, sube Y?
3.  **Boxplots (Cajas)**: Resumen visual de la mediana y los cuartiles. Ideal para comparar grupos.

In [None]:
import matplotlib.pyplot as plt

# 1. Histograma de la Velocidad
# bins=20 divide los datos en 20 "cubetas"
df['speed'].plot(kind='hist', bins=20, title='Distribuci√≥n de la Velocidad', color='skyblue', edgecolor='black')
plt.xlabel('Velocidad')

In [None]:
# 2. Scatter Plot: Ataque vs Defensa
# alpha=0.5 hace los puntos semitransparentes para ver d√≥nde se amontonan
df.plot.scatter(x='attack', y='defense', alpha=0.5, title='Ataque vs Defensa', color='red')

In [None]:
# 3. Boxplot: Comparando HP de los Legendarios vs No Legendarios
# by='is_legendary' agrupa los datos por esa columna
df.boxplot(column='hp', by='is_legendary', grid=False)
plt.title('Puntos de Salud (HP): Normales vs Legendarios')
plt.suptitle('') # Elimina el t√≠tulo autom√°tico extra que pone pandas

### Discusi√≥n con tu IA ü§ñ
1.  **Tipos de Gr√°ficas**: Preg√∫ntale a tu asistente: "¬øQu√© gr√°fica debo usar si quiero ver c√≥mo cambia algo a trav√©s del tiempo?" o "¬øC√≥mo comparo porcentajes de un total?".
2.  **Librer√≠as Avanzadas**: Matplotlib es b√°sico. Pregunta por **Seaborn** (para gr√°ficas estad√≠sticas hermosas) o **Plotly** (para gr√°ficas interactivas).

### Ejercicios Pandas üêºüß†

Como ya hicimos el scatter plot de Ataque vs Defensa, ¬°te toca explorar nuevas relaciones!

1.  **El Tanque**: Encuentra el nombre del Pok√©mon con la mayor **Defensa** (`defense`) en todo el DataFrame.
2.  **Peso Pesado**: ¬øCrees que los Pok√©mon m√°s altos son tambi√©n los m√°s pesados? Calcula la **correlaci√≥n** entre `height_m` y `weight_kg` y genera un **Scatter Plot** para comprobarlo.
3.  **El Tipo m√°s Veloz**: Usa `groupby` para encontrar cu√°l es el `primary_type` que tiene, en promedio, la mayor **Velocidad** (`speed`). Ord√©nalos para ver el top 5.

### Discusi√≥n con tu IA ü§ñ
1.  **Formatos de Archivo**: Preg√∫ntale a tu asistente qu√© ventajas tiene el formato **Parquet** o **HDF5** sobre el CSV cuando manejamos millones de datos.
2.  **Big Data**: ¬øQu√© pasa si mis datos no caben en la memoria RAM? Pregunta por herramientas como **Dask** o **Polars**.

## 12.2. SciPy: La Caja de Herramientas Cient√≠fica üß∞

SciPy se construye sobre NumPy y a√±ade m√≥dulos para casi cualquier cosa que un cient√≠fico necesite:
*   `scipy.optimize`: Minimizar funciones (¬°como entrenar una IA!).
*   `scipy.integrate`: Integrales que no salen a mano.
*   `scipy.interpolate`: Unir puntos con curvas suaves.
*   `scipy.signal`: Procesar audio e im√°genes.
*   `scipy.fft`: Transformada de Fourier (ver frecuencias).

### 12.2.1. Ajuste de Curvas: El Crecimiento de una Colonia Bacteriana ü¶†

Imagina que mides el √°rea cubierta por bacterias en una placa de Petri cada hora. Los datos son ruidosos, pero sabes que deber√≠an seguir un crecimiento exponencial.
¬øC√≥mo encuentras la curva perfecta? ¬°`curve_fit` al rescate!

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.optimize import curve_fit

# 1. Datos experimentales (simulados)
tiempo = np.array([0, 1, 2, 3, 4, 5])
# Crecimiento real + un poco de ruido aleatorio
area_bacterias = np.array([10, 15, 28, 55, 105, 210]) + np.random.normal(0, 5, 6)

# 2. Definimos nuestro modelo (Funci√≥n Exponencial)
def modelo_crecimiento(t, a, b):
    return a * np.exp(b * t)

# 3. ¬°Magia! SciPy encuentra 'a' y 'b'
parametros_optimos, covarianza = curve_fit(modelo_crecimiento, tiempo, area_bacterias)
a_opt, b_opt = parametros_optimos

print(f"Modelo ajustado: Area = {a_opt:.2f} * e^({b_opt:.2f} * t)")

# 4. Graficamos
t_suave = np.linspace(0, 5, 100)
plt.scatter(tiempo, area_bacterias, color='red', label='Datos Reales (Ruidosos)')
plt.plot(t_suave, modelo_crecimiento(t_suave, a_opt, b_opt), label='Ajuste SciPy')
plt.legend()
plt.title("Crecimiento Bacteriano")
plt.show()

### 12.2.2. Interpolaci√≥n: Recuperando Datos Perdidos üì°

Imagina que el Rover Curiosity en Marte env√≠a datos de temperatura, pero debido a una tormenta solar, se pierden algunos paquetes. Tienes huecos en tus datos.
`scipy.interpolate` puede rellenar esos huecos suavemente.

In [None]:
from scipy.interpolate import interp1d

# Datos incompletos (horas del d√≠a y temperatura)
horas = np.array([0, 4, 8, 12, 16, 20, 24])
temp = np.array([-70, -75, -50, -5, -10, -60, -72])

# Creamos una funci√≥n de interpolaci√≥n C√öBICA (suave)
f_interp = interp1d(horas, temp, kind='cubic')

# Generamos horas intermedias para ver la curva completa
horas_finas = np.linspace(0, 24, 100)
temp_estimada = f_interp(horas_finas)

plt.plot(horas, temp, 'o', label='Datos Recibidos', markersize=10)
plt.plot(horas_finas, temp_estimada, '-', label='Reconstrucci√≥n (C√∫bica)')
plt.title("Temperatura en Marte (Reconstrucci√≥n)")
plt.legend()
plt.show()

### 12.3. Caso de Estudio: El Sonido de la Ciencia (FFT) üéµüåä

Todas las se√±ales (audio, luz, radio) est√°n compuestas de ondas. La **Transformada R√°pida de Fourier (FFT)** es un algoritmo legendario que descompone cualquier se√±al compleja en sus frecuencias puras originales. Es como tener un prisma que separa la luz blanca en colores, ¬°pero para datos!

Vamos a generar una se√±al de audio "sucia" y descubrir qu√© notas musicales la componen.

In [None]:
from scipy.fft import fft, fftfreq

# 1. Crear la se√±al
N = 600  # N√∫mero de muestras
T = 1.0 / 800.0  # Frecuencia de muestreo
x = np.linspace(0.0, N*T, N, endpoint=False)
# Se√±al: Una nota de 50 Hz + una de 80 Hz + RUIDO
y = np.sin(50.0 * 2.0*np.pi*x) + 0.5*np.sin(80.0 * 2.0*np.pi*x) + np.random.normal(0, 0.5, N)

# 2. Aplicar FFT
yf = fft(y)
xf = fftfreq(N, T)[:N//2]

# 3. Graficar
fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(8, 6))
ax1.plot(x, y)
ax1.set_title('Se√±al Ruidosa (Dominio del Tiempo)')
ax1.grid()

ax2.plot(xf, 2.0/N * np.abs(yf[0:N//2]))
ax2.set_title('Espectro de Frecuencias (FFT)')
ax2.set_xlabel('Frecuencia (Hz)')
ax2.grid()
plt.tight_layout()
plt.show()

print("¬øVes los picos en 50 Hz y 80 Hz? ¬°La FFT ignor√≥ el ruido y encontr√≥ la m√∫sica!")

### Reto Final: Procesamiento de Im√°genes üñºÔ∏è

SciPy tambi√©n tiene `scipy.ndimage` para manipular im√°genes.
1.  Crea una matriz 2D con ceros y pon un cuadrado de unos en el centro.
2.  A√±ade ruido aleatorio.
3.  Usa `scipy.ndimage.gaussian_filter` para "desenfocar" y limpiar el ruido.
4.  Grafica el antes y el despu√©s.

¬°Es la base de c√≥mo Instagram o Photoshop aplican filtros! üì∏