# Librerias en Python (NumPy y Pandas)
---

Python tiene muchas funcionalidades, pero hay muchas cosas que no puede hacer. Sin embargo, como otros tantos, es un **lenguaje vivo**, con una amplia comunidad que expande el lenguaje día a día. Y cuando alguien desarrolla una nueva funcionalidad de interés puede decidir hacerla pública para que otros se beneficien (y no tengan que hacerlo de nuevo). A esto lo llamamos **librerias**.

Hoy usaremos dos de las librerias más utilizadas, que nos permitirán desbloquear todo el protencial de Python, y usarlo como **laboratorio de física eingeniería**. 

1. **NumPy:** Cálculos matemáticos masivos (gracias al uso de **los vectores y la paralelización**).
2. **Pandas:** Analisis de datos (a través de lo que llamamos **tablas**, el componente básico de toda **base de datos**).

Al usar librerias, lo primero es inicializarlas (**import** ...), y opcionalmente darles una abreviatura (**as** ...).

In [None]:
import numpy as np # importamos numpy y usamos la abreviatura np
import pandas as pd # importamos pandas y lo denominamos pd

A partir de ahora, para llamar a cualquiera de los métodos de las librerias importadas, usaremos la abreviatura asociada (seguida del método en particular)

## NumPy: Vectores y Funciones Matemáticas
NumPy usa **vectores**, lo que permite hacer cálculos en paralelo, lo que es cientos de veces más rápido.

In [None]:
import time # Libreria extra, la usaremos para algunos calculos de tiempos de ejecución

# Comparativa: Sumar 1 a un millón de números
lista = list(range(1000000))
array_np = np.array(lista)

# Tiempo en Python puro
start = time.time()
lista_nueva = [x + 1 for x in lista]
intervalo_lista = time.time() - start
print(f"Tiempo Python: {intervalo_lista:.4f} seg")

# Tiempo en NumPy
start = time.time()
array_nuevo = array_np + 1
intervalo_numpy = time.time() - start
print(f"Tiempo NumPy: {intervalo_numpy:.4f} seg")

# Comparación Velocidades
print(f"NumPy tarda {intervalo_lista/intervalo_numpy:.2f} menos gracias al uso de vectores y la paralelización")

### Funciones Matemáticas
La librería de NumPy también tiene una gran cantidad de funciones matemáticas predefinidas, y nos permite definir cualquier otra que queramos.

NumPy también permite crear mapas discretos de puntos con la funcion **linspace**, que usaremos como "eje X" a la hora de trabajar con funciones o representarlas.

Definamos, por ejemplo, una función trigonométrica y su equivalente, y veamos si se cumple. Partamos por ejemplo de:   
$\sin(2\alpha) = 2 \cdot \sin(\alpha) \cdot \cos(\alpha)$

In [None]:
alpha = np.linspace(0, 2*np.pi, 100) # 100 "puntos" o ángulos separados regularmente entre 0 a 360 grados (en realidad, de 0 a 2*pi radianes)

identidad_trigonometrica = np.sin(2 * alpha)
equivalente_trigonométrica = 2 * np.sin(alpha) * np.cos(alpha)

# Si restamos ambos y da casi 0, la fórmula es correcta
print("Diferencia máxima:", (identidad_trigonometrica - equivalente_trigonométrica).max())

### Matemáticas y Gráficas

Sabiendo definir funciones matemáticas compljas, no solo podemos hacer cálculos complicados, también podemos representar su gráfica para visualizarlas.

In [None]:
import matplotlib.pyplot as plt # Importamos la libreria de gestión de gráficas por excelencia "matplotlib"

t = np.linspace(0, 1, 1000)  # Tiempo de 0 a 1 segundo
onda = np.sin(2 * np.pi * t) # Onda de 1Hz

plt.plot(t, onda) # Una sola línea y ya tienen la gráfica

## Pandas: Tablas y Bases de Datos
Pandas representa una de las funcionalidades más importante de Python. Permite, utilizando todo el potencial de la vectorización y paralelización de NumPy, organizar datos en `DataFrames` (tablas), y así ser la principal herramienta para el **análisis de datos** y el trabajo con **bases de datos**. 

Un DataFrame de Pandas es una **tabla**, como la de un excel, con sus filas y columnas. Pero en esta tabla cada columna es, en realidad, un vector de NumPy con "nombre".

Partamos, por ejemplo, de los datos de altitud y temperatura para un satelite, a lo largo del tiempo. Y analicémoslo utilizando el potencial de Pandas:

In [None]:
# Creamos datos de de altura y temperatura del satelite
data = {
    "Tiempo_s": np.arange(0, 100), # "tiempo" del 0 al 99
    "Altitud_km": np.linspace(300, 150, 100) + np.random.normal(0, 5, 100), # 100 datos entre el 300 y el 150, con una variabilidad aleatoria de entre 0 y 5
    "Temperatura_C": np.linspace(25, 100, 100) + np.random.normal(0, 5, 100)  # 100 datos entre 25 y 100, de nuevo con una variabilidad aleatoria de entre 0 y 5
}
df = pd.DataFrame(data) # A partir de los datos del diccionario "data", podemos crear la tabla. Las tablas sin embargo suelen venir de bases de datos reales

# Ahora que la tabla está en un DataFrame de Python, podemos llevar a cabo un análisis mucho más potente con poco esfuerzo
print(50*"-") # Podemos ver el tamaño de la tabla
print("Tamaño de la tabla:")
print(df.shape)
print(50*"-") # Podemos ver las primeras filas
print("Primeras 10 filas de la telemetría:")
print(df.head(10))
print(50*"-") # Podemos ver también las últimas
print("Últimas 10 filas de la telemetría:")
print(df.tail(10))


### Filtros, Análisis y Transformaciones

Pero el mayor potencial de Pandas es la agilidad que proporciona a la hora de **filtrar, transformar y analizar** datos en "bloque".

In [None]:
print(50*"-") # Podemos filtrar las filas que cumplan una condición
print("Filas con Altitud menor de 160")
print(df[df["Altitud_km"]<160])

print(50*"-") # Y varais condiciones... con & en vez de "and", | en vez de "or" y ~ en vez de "not", porque son comparaciones "vectorizadas"
print("Filas con Altitud menor de 160, y Temperatura mayor que 100")
print(df[(df["Altitud_km"]<160) & (df["Temperatura_C"]>100)]) 

print(50*"-") # Podemos incluso analizar estadísticamente los datos de forma rápida
print("Principales métricas estadísticas de los datos:")
print(df.describe())

print(50*"-") # Y generar nuevas columnas, mediante transformaciones u operaciones de muchos tipos
df["Altitud_m"] = 1000*df["Altitud_km"]
df["Altitud*Temperatura"] = df["Altitud_km"]*df["Altitud_km"]
print("Tabla con nuevas columnas:")
print(df.head(10))

### Tablas y Gráficas

Y para terminar, Pandas permite también la creación sencilla de **gráficos** con los que **analizar la información de forma mucho más visual**.

In [None]:
# Usamos el método ".loc" para filtrar las columnas que queremos, y pintamos la gráfica
df.loc[:,["Altitud_km","Temperatura_C"]].plot(title="Alturas vs Temperaturas", grid=True)

--- 
## Retos

### 1. El Teorema de Pitágoras (NumPy)

Tienes dos listas de números que representan los catetos de 5 triángulos: a = [3, 5, 8, 10, 12] y b = [4, 7, 15, 20, 5].

Calcula la hipotenusa ($h = \sqrt{a^2 + b^2}$) para todos los triángulos en una sola línea de código.


In [None]:
cateto_a = np.array([3, 5, 8, 10, 12])
cateto_b = np.array([4, 7, 15, 20, 5])

### DESARROLLA AQUÍ TU PROGRAMA ###


### 2. Conversión de Grados a Radianes (Numpy)

Convierte los ángulos [0, 45, 90, 180, 270] a radianes usando la constante **np.pi** (NumPy tiene muchas constantes físico-metmáticas predefinidas). 

$\text{rad} = \text{grados} \cdot \frac{\pi}{180}$

In [None]:
grados = np.array([0, 45, 90, 180, 270])

### DESARROLLA AQUÍ TU PROGRAMA ###


### 3. El Filtro de Seguridad (Pandas)
Partiendo de un DataFrame de temperaturas, crea un nuevo DataFrame llamado `alerta` que solo contenga los registros con temperatura mayor a 70.

In [None]:
df = pd.DataFrame({"temp": [25, 30, 45, 80, 22, 95, 40]})

### DESARROLLA AQUÍ TU PROGRAMA ###


### 4. De Celsius a Fahrenheit (Pandas)
Calcula la temperatura en Fahrenheit ($F = C \cdot 1.8 + 32$) y muestra el gráfico final.

In [None]:
### DESARROLLA AQUÍ TU PROGRAMA ###


# Para terminar, visualiza los datos:
df.plot(title="Comparativa de Temperaturas", grid=True)