# UT4: Adquisición de Datos

Análisis de datos con Python

# UT4: Adquisición de Datos

> **Cuaderno de trabajo — UT4: Adquisición de Datos**
>
> Este notebook contiene los ejercicios de la unidad. Para la teoría
> completa consulta el libro (PDF).

**Manos a la Obra**

**CSV con formato europeo**

**Objetivo:** Resolver problemas comunes de carga de archivos CSV con
delimitadores y formatos decimales no estándar.

**Contexto profesional:** Has recibido un archivo de sensores
meteorológicos alemanes (`sensores_berlin.csv`) que utiliza punto y coma
como separador y la coma como separador decimal.

**Instrucciones:**

1.  Crea el archivo localmente con el siguiente contenido:

    ``` csv
    sensor_id;fecha;temp_max
    S001;2025-01-01;12,5
    S002;2025-01-01;14,8
    S003;2025-01-01;11,2
    ```

2.  Cárgalo en Pandas asegurándote de que la columna `temp_max` sea
    reconocida como un número (`float64`), no como texto.

3.  Calcula la temperatura media de la muestra.

4.  **Verificación:** Ejecuta `df.info()` para confirmar los tipos de
    datos.

**Criterio de éxito:** La media calculada debe ser exactamente 12.83
(aprox). La columna `temp_max` debe aparecer como `float64` en el
resumen técnico.

**Tiempo estimado:** 10 minutos

Consulta el **Apéndice C** para ver todos los parámetros disponibles en
`pd.read_csv()`.

``` python
# Introduce aquí el código
```

**Manos a la Obra**

**Integrando CSV y Excel**

Imagina que tienes:

-   `clientes.csv`: id_cliente, nombre, email
-   `ordenes.xlsx` (hoja “Compras”): id_orden, id_cliente, producto,
    precio

1.  Carga ambos archivos.
2.  Usa `merge()` para combinarlos (recordarás `merge()` de UT3).
3.  Calcula el gasto total por cliente.
4.  Guarda el resultado en `reporte_clientes.xlsx`.
5.  ¿Qué tipo de JOIN usaste? ¿Inner, left, right? ¿Por qué elegiste
    ese?

Si no recuerdas la sintaxis de `merge()`, tienes una tabla comparativa
en el **Apéndice C.3**.

``` python
# Introduce aquí el código
```

**Criterio de éxito:** Generación de un archivo `reporte_clientes.xlsx`
que contenga una tabla combinada con el gasto total calculado por cada
cliente.

**Tiempo estimado:** 15 minutos

**Manos a la Obra**

**Aplanando una biblioteca JSON**

**Objetivo:** Convertir una estructura JSON jerárquica y anidada en un
DataFrame tabular limpio.

**Contexto profesional:** Has exportado el catálogo de una biblioteca
municipal en formato JSON. Los autores y los detalles de edición están
anidados dentro de cada libro.

**Instrucciones:**

1.  Crea un archivo `biblioteca.json` con la siguiente estructura:

    ``` json
    {
      "seccion": "Ciencia Ficcion",
      "libros": [
        {"id": 1, "titulo": "Dune", "detalles": {"autor": "F. Herbert", "paginas": 412}},
        {"id": 2, "titulo": "Neuromante", "detalles": {"autor": "W. Gibson", "paginas": 271}},
        {"id": 3, "titulo": "Solaris", "detalles": {"autor": "S. Lem", "paginas": 204}}
      ]
    }
    ```

2.  Carga el archivo y usa `pd.json_normalize()` para aplanar los datos
    de la lista `libros`.

3.  Asegúrate de que el DataFrame final tenga columnas separadas para
    `detalles.autor` y `detalles.paginas`.

4.  Calcula el total de páginas de toda la sección.

**Criterio de éxito:** El DataFrame final tiene 3 filas y las columnas
‘detalles.autor’ y ‘detalles.paginas’ están correctamente aplanadas.

La función `pd.json_normalize()` es fundamental para trabajar con APIs.
Tienes un recordatorio de su uso en el **Apéndice C.3**.

**Tiempo estimado:** 15 minutos

``` python
# Escribe tu codigo aqui
```

**Manos a la Obra**

**Consumiendo tu primera API REST**

**Objetivo:** Interactuar con una API real, validar la conexión y
procesar la respuesta JSON para convertirla en un DataFrame.

**Contexto profesional:** Necesitas automatizar la recuperación de
información de usuarios externos para tu sistema de gestión. Usarás una
API de pruebas profesional (JSONPlaceholder).

**Instrucciones:**

**Pista:** La respuesta es una lista con un diccionario. Usa `data[0]`
para acceder al primer elemento.

**Criterio de éxito:** El DataFrame debe tener 10 filas (usuarios) y las
columnas solicitadas deben ser claramente legibles.

**Tiempo estimado:** 20 minutos

``` python
# Escribe tu codigo aqui
```

**Manos a la Obra**

**Creando tu primera base de datos SQLite**

**Objetivo:** Establecer una conexión con una base de datos local y
poblar tablas a partir de datos externos.

**Contexto profesional:** Necesitas migrar un pequeño catálogo de
productos y sus ventas desde una estructura manual a una base de datos
SQLite para asegurar la integridad de los datos.

**Instrucciones:**

**Pista:** Aún no has aprendido la sintaxis SQL completa. Por ahora, usa
`pd.read_sql_query("SELECT * FROM empleados", con)` y luego filtra con
Pandas (métodos que ya conoces de UT3).

**Criterio de éxito:** Debes poder listar el contenido de la tabla
`productos` directamente desde la conexión SQL. El resumen de `ventas`
debe mostrar 3 transacciones.

**Tiempo estimado:** 15 minutos

``` python
# Escribe tu codigo aqui
```

**Manos a la Obra**

**Consultas Básicas**

Usando las tablas `empleados` y `departamentos` creadas anteriormente:

1.  Selecciona nombre y salario de empleados con antigüedad \>= 5 años.
2.  Encuentra todos los empleados cuyo nombre contiene “García” o
    “López”.
3.  Lista los 2 empleados mejor pagados.
4.  Ordena empleados por departamento y luego por salario (descendente).
5.  ¿En qué situación preferirías usar SQL en lugar de Pandas para
    filtrar datos?

**Criterio de éxito:** Escribe la consulta SQL primero, luego verifica
que obtienes el mismo resultado con Pandas.

Consulta el **Apéndice C.3** para una chuleta rápida de las cláusulas
`SELECT`, `WHERE` y `ORDER BY`.

``` python
# Introduce aquí tu código
```

**Tiempo estimado:** 15 minutos

**Manos a la Obra**

**Agregaciones**

Usa las tablas `empleados` y `departamentos`.

1.  Calcula el gasto total en salarios por departamento.
2.  Encuentra la antigüedad promedio por departamento.
3.  Identifica departamentos con más de 2 empleados.
4.  Calcula el salario promedio solo de empleados con antigüedad \>= 5
    años, agrupado por departamento.
5.  Recuerda el dataset income de UT3. ¿Podrías reescribir tus análisis
    de agrupación usando SQL en lugar de Pandas? ¿Cuál preferirías?

**Criterio de éxito:** Escribe consultas SQL con `GROUP BY` y verifica
resultados con `.groupby()` de Pandas.

`GROUP BY` y `HAVING` son herramientas potentes. Tienes ejemplos de su
sintaxis en el **Apéndice C.3**.

``` python
# Introduce aquí tu código
```

**Tiempo estimado:** 15 minutos

**Manos a la Obra**

**Practicando `JOIN`s**

**Objetivo:** Integrar información distribuida en múltiples tablas
relacionales mediante consultas SQL.

**Instrucciones:**

Utiliza las tablas `empleados` y `departamentos` creadas en las
secciones teóricas anteriores para resolver:

**Pista para la tarea 4:**

**Pistas:**

-   Para la tarea 4, recuerda que `LEFT JOIN` incluye todas las filas de
    la tabla de la izquierda (departamentos), incluso si no encuentran
    coincidencia en la derecha (empleados).
-   Usa `COUNT(columna)` para contar registros agrupados.

**Criterio de éxito:** La consulta del punto 4 debe mostrar los 4
departamentos originales, incluyendo ‘Marketing’ con 0 empleados (o nulo
según tu implementación).

**Tiempo estimado:** 15 minutos

``` python
# Escribe tu codigo aqui
```

**Manos a la Obra**

**Enriquecimiento Completo**

**Objetivo:** Diseñar y ejecutar un flujo de trabajo completo que
integre datos provenientes de tres fuentes heterogéneas (CSV, SQL y
API).

**Contexto profesional:** Eres el responsable de datos de una
universidad. Para generar el informe anual, debes cruzar los datos
básicos de los alumnos (en CSV), sus calificaciones académicas (en una
base de datos SQL) y su información de contacto actualizada (proveniente
de una API externa).

**Tu Misión:**

1.  **Datos Base (CSV):** Crea un archivo `alumnos.csv` con las columnas
    `id_alumno`, `nombre` y `carrera`.
2.  **Datos Académicos (SQL):** Crea una tabla en SQLite llamada
    `calificaciones` con `id_alumno`, `asignatura` y `nota`.
3.  **Enriquecimiento (API):** Simula una respuesta de API (usando un
    diccionario o JSONPlaceholder) que contenga la `ciudad` y el `email`
    de cada `id_alumno`.
4.  **Integración:** Carga las tres fuentes y combínalas en un único
    DataFrame maestro usando `pd.merge()`.
5.  **Análisis:** Calcula la nota media final de cada alumno y filtra a
    aquellos que residen en una ciudad específica.

**Criterio de éxito:** El DataFrame final debe ser “ancho”, conteniendo
toda la información cruzada sin pérdida de registros (Inner Join) y con
una columna calculada de `nota_promedio`.

**Tiempo estimado:** 20 minutos

**Criterio de éxito:** DataFrame final con columnas: id, nombre,
carrera, nota_promedio, ciudad, edad.

Integrar fuentes heterogéneas es la tarea más común de un analista.
Consulta el **Apéndice C.3** para ver cómo combinar `requests`,
`sqlite3` y `pandas`.

``` python
# Introduce aquí tu código
```