# 📊 Notebook 2: NumPy y Pandas en profundidad

Este notebook te introduce a las bibliotecas más utilizadas en ciencia de datos: **NumPy** y **Pandas**.


### 🎯 Objetivos de Aprendizaje
- Comprender la estructura y ventajas de los arrays de NumPy
- Manipular datos en estructuras `Series` y `DataFrames` de Pandas
- Aplicar operaciones estadísticas, de filtrado y transformación de datos
- Cargar y explorar archivos CSV reales


### 📦 Producto Final
- Un conjunto de técnicas para explorar, transformar y resumir datasets científicos con Pandas y NumPy


## 1️⃣ Introducción a NumPy

In [None]:
import numpy as np

# Creamos un array de 10 números enteros
array = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])

# Mostramos el array
print("Array original:", array)

# Operaciones vectorizadas: sumamos 5 a cada elemento
print("Array + 5:", array + 5)

# Media y desviación estándar
print("Media:", np.mean(array))
print("Desviación estándar:", np.std(array))


## 2️⃣ Introducción a Pandas

In [None]:
import pandas as pd

# Creamos una Serie de temperaturas
serie = pd.Series([22.5, 23.1, 21.9, 24.3])

# Mostramos la serie
print("Serie de temperaturas:")
print(serie)

# Creamos un DataFrame con datos simulados
datos = {
    "Estación": ["A", "B", "C", "D"],
    "Temperatura": [22.5, 23.1, 21.9, 24.3],
    "Humedad": [85, 78, 90, 70]
}
df = pd.DataFrame(datos)

# Mostramos el DataFrame
print("DataFrame de datos climáticos:")
print(df)


## 3️⃣ Selección y filtrado de datos

In [None]:
# Accedemos a una columna
print("Temperaturas:", df["Temperatura"])

# Filtramos por condición: temperatura mayor a 23
print("Filtrado - Temperatura > 23:")
print(df[df["Temperatura"] > 23])

# Accedemos a una fila por índice
print("Primera fila:")
print(df.iloc[0])


## 4️⃣ Estadísticas y resumen de datos

In [None]:
# Estadísticas descriptivas
print("Resumen estadístico:")
print(df.describe())

# Media por columna
print("Media de cada columna numérica:")
print(df.mean(numeric_only=True))


## 5️⃣ Carga y exploración de un archivo CSV
Puedes descargar un dataset real desde [OpenAQ CSV Export](https://openaq.org/#/datasets)

In [None]:
# Cargar un archivo CSV (usa tu propio archivo o descarga uno real)
# df_calidad_aire = pd.read_csv("datos_calidad_aire.csv")

# Vista previa de los primeros registros
# df_calidad_aire.head()


## 🎯 Mini proyecto: Análisis de estaciones meteorológicas simuladas

In [None]:
# Simulamos un dataset con 100 observaciones
np.random.seed(0)
df_meteo = pd.DataFrame({
    "Estación": np.random.choice(["A", "B", "C", "D"], size=100),
    "Temperatura": np.random.normal(loc=23, scale=2, size=100),
    "Humedad": np.random.uniform(low=60, high=100, size=100)
})

# Calculamos promedios por estación
promedios = df_meteo.groupby("Estación").mean(numeric_only=True)
print("Promedios por estación:")
print(promedios)

# Contamos cuántas observaciones hay por estación
conteo = df_meteo["Estación"].value_counts()
print("Conteo por estación:")
print(conteo)


---
✅ **Notebook completo.** Ya puedes trabajar con NumPy y Pandas para cargar, transformar y explorar datos científicos. En el siguiente notebook exploraremos cómo limpiar y preparar datos para análisis más avanzados.