# UT3 - Fundamentos del Análisis Tabular con Pandas

Análisis de datos con Python

# UT3: Pandas - El dialecto de los datos

> **Cuaderno de trabajo — UT3: Pandas - El dialecto de los datos**
>
> Este notebook contiene los ejercicios de la unidad. Para la teoría
> completa consulta el libro (PDF).

**Manos a la Obra**

### `Series` vs. listas

**Objetivo:** Aplicar operaciones vectorizadas y acceso por etiquetas
sobre una `Serie` de Pandas.

**Contexto profesional:** Trabas en una estación meteorológica y has
recibido las temperaturas máximas de la última semana. Necesitas
convertirlas de Celsius a Fahrenheit para un reporte internacional.

**Instrucciones:**

1.  Crea una `Serie` llamada `temperaturas` con los valores
    `[22.5, 25.0, 19.8, 27.3, 21.0, 24.5, 23.0]`.
2.  Asigna como índice los nombres de los días de la semana (Lunes a
    Domingo).
3.  Convierte toda la `Serie` a Fahrenheit usando la fórmula:
    $F = (C \times 9/5) + 32$.
4.  Selecciona y muestra solo las temperaturas del fin de semana (Sábado
    y Domingo).
5.  Calcula la temperatura media de la semana en Fahrenheit.

**Criterio de éxito:** El código debe mostrar la `Serie` convertida
(valor máximo ≈ 81.0°F) y el valor escalar de la media ≈ 73.94°F.

**Tiempo estimado:** 5 minutos

In [6]:
# TU TURNO: Crea una Serie con los precios de 3 productos de tu elección
# Aplica un descuento del 15% e imprime el resultado
# tu_serie_precios = pd.Series(...)

**Reflexión:** ¿Cuál de las dos formas te parece más legible? ¿Qué pasa
si en lugar de 4 productos tienes 10,000? La ventaja de Pandas se hace
evidente en datasets reales.

**Manos a la Obra**

### creando tu primer `DataFrame`

**Objetivo:** Crear un `DataFrame` desde un diccionario y aplicar el
“ritual HID” de inspección.

**Contexto profesional:** Estás organizando el catálogo de una
plataforma de streaming local y necesitas estructurar la información
básica de sus títulos más vistos.

**Instrucciones:**

1.  Crea un diccionario con los datos de 5 películas. Debe incluir las
    columnas: `Titulo`, `Año`, `Director`, `Puntuacion` (0-10) y
    `Genero`.
2.  Convierte el diccionario en un `DataFrame` llamado `df_peliculas`.
3.  Ejecuta el **ritual HID** completo e interpreta la salida de
    `.info()`: ¿hay algún nulo? ¿son los tipos de datos correctos?
4.  Muestra las dimensiones del `DataFrame` (`shape`).

**Criterio de éxito:** El `DataFrame` debe mostrarse correctamente y el
ritual HID debe revelar que la puntuación es de tipo float y el año es
int.

**Criterio de Éxito:** Tu `DataFrame` debe tener al menos una columna
numérica y una categórica. Al ejecutar `.info()` debes ver los tipos de
datos correctos (int64/float64 para números, object para texto).

**Tiempo estimado:** 10 minutos

In [11]:
print("DataFrame de ventas:")
print(df_ventas)

# Practiquemos los métodos de inspección
print("\nShape:", df_ventas.shape)
print("\nInfo:")
df_ventas.info()
print("\nDescribe:")
print(df_ventas.describe())

# TU TURNO: Crea tu propio DataFrame con al menos 3 columnas y 5 filas
# Tema sugerido: películas (Título, Director, Año, Valoración)
# o productos (Nombre, Categoría, Precio, Stock)
# tu_dataframe = pd.DataFrame({...})

**Manos a la Obra**

### cargando datos reales

**Objetivo:** Practicar la carga de datos desde una URL externa y
realizar una inspección de calidad inicial.

**Contexto profesional:** Como analista de datos para una ONG, necesitas
procesar información sobre la población de diferentes países para
identificar regiones que requieren mayor atención.

**Instrucciones:**

1.  Carga el dataset de países del mundo desde la siguiente URL:

`https://raw.githubusercontent.com/lukes/ISO-3166-Countries-with-Regional-Codes/master/all/all.csv`

1.  Muestra las primeras 5 filas para verificar que se cargó
    correctamente.
2.  Usa `.info()` para identificar cuántas columnas tiene el dataset y
    si hay valores nulos evidentes.
3.  ¿Cuántos países (filas) incluye este dataset?

**Criterio de éxito:** El `DataFrame` debe cargarse sin errores y
mostrarse una tabla con nombres de países y sus códigos geográficos. El
dataset contiene **249 países** (estándar ISO 3166). Debes poder
responder cuántas observaciones hay, qué tipos de datos tiene cada
columna, y si hay valores nulos, SIN mirar la documentación del dataset.

**Tiempo estimado:** 5 minutos

In [14]:
# Escribe tu codigo aqui

**Manos a la Obra**

### selección precisa

**Objetivo:** Dominar el acceso a datos mediante etiquetas (`.loc`) y
posiciones (`.iloc`) en un `DataFrame` con índice personalizado.

**Contexto profesional:** Gestionas el inventario de una tienda de
electrónica. Cada producto tiene un código único que actúa como
identificador (índice).

**Instrucciones:**

1.  Crea un `DataFrame` llamado `df_inventario` con 6 productos.
    Columnas: `Producto`, `Categoria`, `Precio` y `Stock`.
2.  Establece como índice una lista de códigos:
    `['P001', 'P002', 'P003', 'P004', 'P005', 'P006']`.
3.  Selecciona el precio del producto `'P003'` usando `.loc`.
4.  Selecciona las filas desde `'P002'` hasta `'P004'` (inclusive)
    usando `.loc`.
5.  Selecciona las primeras 3 filas y las 2 primeras columnas usando
    `.iloc`.
6.  **Reto:** Cambia el stock del producto `'P005'` a 0 usando `.loc`.

**Criterio de éxito:** El código debe devolver exactamente los
subconjuntos pedidos (P002-P004 = 3 filas, .iloc\[:3, :2\] = 3 filas × 2
columnas). Verifica que el rango en `.loc` sea inclusivo.

**Criterio de Éxito:** Todas tus selecciones deben ejecutarse sin
errores. Presta especial atención a si obtienes una `Serie` o un
`DataFrame` en cada caso.

**Tiempo estimado:** 10 minutos

In [17]:
# Escribe tu codigo aqui

**Manos a la Obra**

### filtrado avanzado

**Objetivo:** dominar el filtrado con condiciones simples y múltiples.

**Contexto:** Trabajas en RRHH y necesitas segmentar tu base de
empleados.

**Criterio de Éxito:** Para cada filtro, debes poder explicar: ¿Cuántas
filas cumple la condición? ¿Tiene sentido el resultado? En un contexto
real, ¿qué decisión de negocio podrías tomar con esta información?

**Tiempo estimado:** 15 minutos

In [24]:
print("=== EJERCICIO: FILTRADO DE EMPLEADOS ===")

# Dataset de ejemplo
datos_empleados = {
    'Nombre': ['Ana López', 'Carlos Martín', 'Elena García', 'Diego Ruiz', 'Sofía Hernández', 'Javier Torres'],
    'Departamento': ['IT', 'Marketing', 'IT', 'Ventas', 'Marketing', 'IT'],
    'Salario': [45000, 38000, 52000, 41000, 48000, 43000],
    'Años_Empresa': [3, 5, 2, 7, 4, 6]
}
df_empleados = pd.DataFrame(datos_empleados)

print("DataFrame de empleados:")
print(df_empleados)

# TU TAREA:
# 1. Filtra empleados del departamento 'IT'
# 2. Filtra empleados con salario mayor a 45000
# 3. Filtra empleados con más de 5 años en la empresa Y salario menor a 50000
# 4. Filtra empleados de IT O Marketing
# 5. Filtra empleados cuyo salario esté entre 40000 y 50000 (usa .between())
# 6. Filtra empleados cuyo nombre contiene 'García' o 'López' (usa .str.contains() con regex)

# Escribe tu código aquí

**Manos a la Obra**

### practicando `.query()`

**Objetivo:** Convertir filtros booleanos complejos a una sintaxis más
legible y compacta usando el método `.query()`.

**Instrucciones:**

1.  Utiliza el `DataFrame` `df_inventario` creado en el ejercicio 4.
2.  Filtra los productos que tengan un precio superior a 100€ y un stock
    mayor que 5 usando la sintaxis tradicional de corchetes.
3.  Realiza la misma consulta anterior pero usando el método `.query()`.
4.  **Consulta dinámica:** Define una variable `limite_stock = 10` y usa
    `.query()` para encontrar productos cuyo stock sea inferior a ese
    valor (recuerda usar `@` para referenciar variables externas).

**Criterio de éxito:** El resultado de ambos métodos (tradicional y
query) debe ser idéntico. La consulta dinámica debe devolver los
productos con bajo stock.

**Tiempo estimado:** 10 minutos

In [27]:
# 2. Filtro tradicional (precio > 100 y stock > 5)
df_trad = df_inventario[
    (df_inventario['Precio'] > 100) &
    (df_inventario['Stock'] > 5)
]
print(df_trad)

# 3. Tu versión con .query() — debe dar el mismo resultado:
# df_query = df_inventario.query("Precio > 100 and Stock > 5")
# print(df_trad.equals(df_query))

# 4. Consulta dinámica con variable externa
limite_stock = 10
# df_bajo_stock = df_inventario.query("Stock < @limite_stock")
# print(df_bajo_stock)

Aunque `.query()` es más elegante, NO es estrictamente necesario. Si te
sientes más cómodo con la sintaxis tradicional, úsala. Lo importante es
escribir código que TÚ entiendas y que funcione correctamente. Con la
práctica, irás adoptando `.query()` naturalmente.

**Manos a la Obra**

### Análisis de rentabilidad con `groupby`

**Objetivo:** Extraer información agregada compleja de un dataset de
transacciones usando agrupaciones múltiples.

**Contexto profesional:** Como analista junior en una cadena de retail,
se te pide un informe rápido sobre el desempeño de diferentes categorías
de productos en distintas regiones.

**Instrucciones:**

1.  Crea un `DataFrame` llamado `df_ventas_tienda` con al menos 10 filas
    y las columnas: `Region` (Norte, Sur, Este), `Categoria`
    (Electrónica, Hogar, Ropa), `Venta` (€) y `Costo` (€).
2.  Calcula el **beneficio** de cada transacción (Venta - Costo).
3.  Agrupa por `Region` y calcula la **venta total** y el **beneficio
    medio**.
4.  Agrupa por `Categoria` y obtén un resumen estadístico completo
    (count, mean, std, min, max) de las ventas usando un solo método.
5.  **Doble agrupación:** Calcula la suma de ventas agrupando
    simultáneamente por `Region` y `Categoria`.

**Criterio de éxito:** El código debe mostrar claramente los resúmenes
por región y categoría. El resultado de la doble agrupación debe ser una
`Serie` con índice multinivel.

**Tiempo estimado:** 15 minutos

In [31]:
# Escribe tu código aquí

**Reflexión:** Basándote en tus resultados, ¿qué factores parecen haber
influido más en la supervivencia? ¿Clase social? ¿Sexo? ¿Edad? En un
proyecto real, estos serían tus primeros insights antes de construir un
modelo predictivo.

**Manos a la Obra**

### limpieza de datos con nulos

**Objetivo:** Aplicar estrategias apropiadas de manejo de nulos según el
contexto del análisis.

**Instrucciones:**

1.  Crea una copia del `DataFrame` `df_titanic` con `.copy()`.
2.  Identifica las columnas con nulos y calcula qué porcentaje del total
    representan.
3.  **Imputación inteligente:** Para la columna `Age`, imputa los nulos
    con la **mediana** de edad calculada **por cada clase de pasajero**
    (`Pclass`).
4.  **Imputación simple:** Para la columna `Embarked`, imputa los nulos
    con el valor más frecuente (la moda).
5.  **Ingeniería binaria:** Para la columna `Cabin`, crea una nueva
    columna `Has_Cabin` que sea 1 si el dato existe y 0 si es nulo.
    Luego, elimina la columna `Cabin` original.
6.  Verifica que el dataset final no contiene ningún nulo.

**Pistas:**

**Criterio de éxito:** El `DataFrame` resultante tiene 0 valores nulos y
las columnas imputadas preservan su dtype original.

**Tiempo estimado:** 15 minutos

In [35]:
# Escribe tu código aquí

**Reflexión Crítica:**

-   ¿Por qué es mejor imputar la edad por clase que usar la mediana
    global?
-   ¿Qué información se pierde al eliminar la columna Cabin?
-   ¿En qué escenarios NUNCA deberías imputar valores y en su lugar
    eliminar las filas?

**Manos a la Obra**

### ingeniería de *features*

**Objetivo:** Crear nuevas variables (*features*) que puedan ser útiles
para análisis o predicción.

**Instrucciones:**

1.  Utiliza el dataset `df_titanic`.
2.  Crea una columna `Family_Size` que sume `SibSp + Parch + 1` (la
    persona misma).
3.  Crea una columna `Is_Alone` que sea 1 si `Family_Size == 1`, y 0 en
    caso contrario.
4.  Extrae el título del nombre (Mr., Mrs., Miss., etc.) en una columna
    `Title`.
5.  Crea una columna `Title_Simple` que agrupe los títulos menos
    comunes:
    -   Mantén: Mr, Mrs, Miss, Master.
    -   Agrupa el resto como ‘Other’ (Pista: Usa `.isin()` y
        `np.where()`).
6.  Crea una columna `Fare_Category` con 4 categorías usando `pd.cut()`
    o `np.select()`:
    -   ‘Muy_Baja’, ‘Baja’, ‘Media’, ‘Alta’ (elige tú los umbrales
        razonables).

**Criterio de éxito:** El `DataFrame` debe tener las 4 nuevas columnas
correctamente calculadas. Verifica con `.value_counts()` la distribución
de `Title_Simple`.

**Tiempo estimado:** 20 minutos

In [45]:
# TU TAREA:
# 1. Crea una columna 'Family_Size' que sume SibSp + Parch + 1 (la persona misma)
# 2. Crea una columna 'Is_Alone' que sea 1 si Family_Size == 1, 0 si no
# 3. Extrae el título del nombre (Mr., Mrs., Miss., etc.) en una columna 'Title'
# 4. Crea una columna 'Title_Simple' que agrupe los títulos menos comunes:
#    - Mantén: Mr, Mrs, Miss, Master
#    - Agrupa el resto como 'Other'
#    Pista: Usa .isin() y np.where()
# 5. Crea una columna 'Fare_Category' con 4 categorías usando np.select():
#    - 'Muy_Baja': Fare < 10
#    - 'Baja': 10 <= Fare < 30
#    - 'Media': 30 <= Fare < 100
#    - 'Alta': Fare >= 100

# Escribe tu código aquí

**Reflexión:** En Machine Learning, esta fase se llama “Feature
Engineering” y es donde un Data Scientist pasa la mayor parte de su
tiempo. Las features que crees pueden ser la diferencia entre un modelo
mediocre y uno excelente.

**Pregunta de Reflexión:** De las features que creaste, ¿cuál crees que
podría ser más predictiva de la supervivencia y por qué?

**Manos a la Obra**

### Combinando Datasets

**Objetivo:** Practicar la combinación de `DataFrames` para enriquecer
tus datos.

**Criterio de éxito:** Has generado un `DataFrame` unificado que integra
libros, stock y ventas agregadas. El DataFrame final debe tener 4 filas
(tantos como libros). El libro “El Quijote” (ISBN 978-0-4) debe aparecer
con 0 ventas.

**Tiempo estimado:** 20 minutos

In [48]:
print("=== EJERCICIO: COMBINACIÓN DE DATOS ===")

# Datasets de ejemplo: sistema de una librería
df_libros = pd.DataFrame({
    'ISBN': ['978-0-1', '978-0-2', '978-0-3', '978-0-4'],
    'Titulo': ['1984', 'Cien años de soledad', 'El Quijote', 'Rayuela'],
    'Autor': ['Orwell', 'García Márquez', 'Cervantes', 'Cortázar']
})

df_ventas = pd.DataFrame({
    'VentaID': [1, 2, 3, 4, 5],
    'ISBN': ['978-0-1', '978-0-1', '978-0-2', '978-0-5', '978-0-3'],  # Nota: 978-0-5 no existe
    'Cantidad': [2, 1, 3, 1, 2],
    'Precio': [15, 15, 20, 10, 18]
})

df_inventario = pd.DataFrame({
    'ISBN': ['978-0-1', '978-0-2', '978-0-3', '978-0-4'],
    'Stock': [10, 5, 8, 12]
})

print("DataFrame Libros:")
print(df_libros)
print("\nDataFrame Ventas:")
print(df_ventas)
print("\nDataFrame Inventario:")
print(df_inventario)

# TU TAREA:
# 1. Haz un LEFT JOIN entre df_ventas y df_libros. ¿Cuántas filas tiene el resultado?
#    ¿Qué pasa con la venta del ISBN '978-0-5' que no existe en df_libros?
# 2. Haz un INNER JOIN entre df_libros y df_ventas. ¿Cuántas filas tiene ahora?
# 3. Crea un DataFrame completo que combine:
#    - df_libros (base)
#    - df_inventario (left join)
#    - Agregado de df_ventas: total de unidades vendidas y total de ingresos por ISBN
#    Pistas:
#    a) Agrupa df_ventas por ISBN y suma Cantidad y calcula Ingresos (Cantidad * Precio)
#    b) Haz merge del resultado con df_libros
#    c) Haz merge con df_inventario
# 4. Del DataFrame final, responde:
#    - ¿Qué libro tiene más unidades vendidas?
#    - ¿Qué libro generó más ingresos?
#    - ¿Hay algún libro sin ventas?

In [49]:
# Escribe tu código aquí

**Reflexión:** En un sistema de e-commerce real, este tipo de joins son
pan de cada día. ¿Qué insights adicionales podrías extraer si tuvieras
también una tabla de clientes?

**Manos a la Obra**

### Refactorizar a *method chaining*

**Objetivo:** Mejorar la legibilidad y mantenibilidad del código
eliminando variables intermedias innecesarias mediante el encadenamiento
de métodos.

**Instrucciones:**

1.  Toma como base el código “paso a paso” proporcionado en el ejemplo
    anterior (el cual crea 5 variables temporales).
2.  Reescríbelo completamente usando *method chaining* en una única
    expresión encerrada entre paréntesis.
3.  Asegúrate de incluir el filtrado, la agrupación, la agregación y el
    redondeo final.
4.  **Bonus:** Intenta integrar `.query()` dentro de la cadena para los
    pasos de filtrado.

**Criterio de éxito:** El código resultante es una única sentencia (o
bloque entre paréntesis) sin variables intermedias que produce
exactamente el mismo resultado que la versión paso a paso.

**Tiempo estimado:** 10 minutos

In [55]:
# BONUS: Reescríbelo usando .query() y .pipe() con funciones reutilizables

El method chaining es como escribir en prosa: “Toma los datos del
Titanic, elimina nulos de edad, filtra adultos, selecciona clases altas,
agrupa por clase y sexo, y muestra las estadísticas redondeadas.” Se lee
de arriba a abajo, como una historia.

No abuses del chaining. Si una cadena se vuelve difícil de entender
incluso para ti, probablemente necesita refactorización. La legibilidad
siempre es más importante que la “elegancia”.

## Resumen y Cheat Sheet

### Guía Rápida de Comandos

Para facilitar tu trabajo diario, hemos consolidado todos los comandos
técnicos de Pandas en una guía de referencia rápida centralizada.

**Referencia Técnica:** Consulta el **Apéndice C: Guía Rápida de
Referencia (Cheat Sheet)** al final de este libro para ver el listado
completo y compacto de funciones de carga, limpieza, filtrado y
transformación de Pandas.

### Conexiones con Conocimientos Previos

Recordemos cómo Pandas se conecta con lo que ya sabías:

**De Python básico a Pandas:**

-   Listas de Python -\> `Series` de Pandas (con índice y operaciones
    vectorizadas)
-   Diccionarios de Python -\> `DataFrames` de Pandas (estructurados y
    optimizados)
-   Loops for -\> Operaciones vectorizadas (mucho más rápidas)

**De NumPy a Pandas:**

-   Arrays 1D -\> `Series` (arrays con etiquetas)
-   Arrays 2D -\> `DataFrames` (arrays con etiquetas en filas y
    columnas + tipos heterogéneos)
-   Funciones NumPy -\> Métodos Pandas (mean, max, std, etc.)

### Próximos Pasos

Con Pandas dominado, estás listo para:

1.  **Visualización de Datos:** Usar Matplotlib y Seaborn para crear
    gráficos desde `DataFrames`
2.  **Análisis Estadístico:** Aplicar pruebas estadísticas y
    correlaciones
3.  **Machine Learning:** Preparar datos para scikit-learn (el 70% del
    trabajo de ML es Pandas)
4.  **Análisis de `Series` Temporales:** Trabajar con fechas y datos
    temporales

## Ejemplos de referencia: sintaxis y patrones comunes

En esta sección se agrupan los patrones de código fundamentales para la
manipulación de datos con Pandas. Consúltala cuando necesites verificar
la estructura de un comando o una operación específica.

### Creación y anatomía de objetos

In [57]:
import pandas as pd
import numpy as np

# 1. Serie con índice personalizado
serie = pd.Series([10, 20, 30], index=['A', 'B', 'C'], name="MiSerie")

# 2. DataFrame desde diccionario
df = pd.DataFrame({
    'Nombre': ['Ana', 'Carlos'],
    'Edad': [25, 30],
    'Ciudad': ['Madrid', 'Barcelona']
})

# 3. Métodos de inspección (HID)
df.head()      # Primeras filas
df.info()      # Resumen técnico
df.describe()  # Estadísticas descriptivas

### Selección y Filtrado

In [58]:
# Selección por etiquetas (.loc)
# Filas 'ID1' a 'ID3', columnas 'A' y 'B'
df.loc['ID1':'ID3', ['A', 'B']]

# Selección por posición (.iloc)
# Primeras 5 filas, columnas 0 a 2
df.iloc[:5, 0:3]

# Filtrado booleano (Máscaras)
df[(df['Edad'] > 20) & (df['Ciudad'] == 'Madrid')]

# Uso de .query() (más legible)
df.query("Edad > 20 and Ciudad == 'Madrid'")

### Agrupación y Transformación

In [59]:
# GroupBy con múltiples agregaciones
stats = df.groupby('Ciudad')['Edad'].agg(['mean', 'max', 'min'])

# Imputación por grupos (evita distorsiones)
df['Edad'] = df.groupby('Ciudad')['Edad'].transform(lambda x: x.fillna(x.mean()))

# Ingeniería de características básica
df['Rango_Edad'] = pd.cut(df['Edad'], bins=[0, 18, 65, 100], labels=['Joven', 'Adulto', 'Senior'])

### Combinación de Datos

In [60]:
# Concatenación (unir por filas o columnas)
df_total = pd.concat([df1, df2], axis=0)

# Merge (tipo SQL JOIN)
# Une por columna común 'id', manteniendo todas las filas de la izquierda
df_final = pd.merge(df_ventas, df_productos, on='id', how='left')

## Conceptos Clave

-   **Pandas:** Librería construida sobre NumPy para la manipulación y
    análisis de datos tabulares (filas y columnas).
-   **`DataFrame`:** Estructura de datos bidimensional con etiquetas en
    ejes (filas y columnas), similar a una hoja de cálculo o tabla SQL.
-   **`Series`:** Estructura unidimensional de Pandas, similar a una
    columna de un `DataFrame`.
-   **Indexación:** Acceso a datos mediante etiquetas (`loc`) o
    posiciones enteras (`iloc`).
-   **Merge/Join:** Operaciones para combinar múltiples `DataFrames`
    basándose en columnas comunes.

### Checklist de Autoevaluación

Antes de pasar a la práctica, asegúrate de que puedes:

-   [ ] Cargar un dataset y diagnosticar tipos de datos y valores nulos.
-   [ ] Realizar filtrados complejos combinando múltiples condiciones.
-   [ ] Explicar la diferencia entre un `merge` (tipo SQL) y un
    `concat`.
-   [ ] Calcular estadísticas agrupadas por categorías usando `groupby`.

## Fuentes y Lecturas Recomendadas

**¿Quieres profundizar más?** Consulta la bibliografía detallada, los
enlaces a la documentación oficial y los recursos de aprendizaje para
esta unidad en el **Apéndice B: Fuentes y Lecturas Recomendadas** al
final de este libro.

¡Pandas es tu herramienta principal como Data Analyst! Practica
constantemente.

La documentación oficial de Pandas es excelente pero extensa. Cuando
busques cómo hacer algo específico, usa la fórmula: “pandas + \[lo que
quieres hacer\]” en Google. Stack Overflow será tu mejor amigo.

En la próxima unidad (**UT4: Adquisición de Datos**), aprenderemos a
salir de la comodidad del CSV local. Veremos cómo conectar nuestro
“dialecto” (Pandas) con fuentes externas como APIs y bases de datos SQL
para integrar información de todo el ecosistema empresarial.