# Sprint 5 · Webinar 15 · Introducción a Python y Pandas (Sesión práctica)

**Programa:** Introducción a la Analítica de Datos  
**Duración:** 100 minutos  
**Formato:** Sesión práctica guiada + trabajo en grupos (breakout rooms)

En esta sesión pondremos en práctica lo visto en la clase teórica:

- Python básico en Jupyter Notebook  
- Carga de datos con **pandas**  
- Exploración de datos con `.head()`, `.info()`, `.shape`, `.describe()`  
- Filtrado de filas, selección de columnas y slicing

Trabajaremos con un pequeño dataset de ejemplo sobre canciones y reproducciones en plataformas de streaming.


## Fecha

Completa la información de la sesión:

- **Fecha:** `____ / ____ / 2025`  
- **Instructor/a:** `Tu nombre aquí`  
- **Grupo / Cohorte:** `Nombre del grupo`


## Objetivos de la sesión práctica

Al finalizar esta sesión, la persona estudiante será capaz de:

1. Crear y organizar un notebook en Jupyter con secciones claras y celdas bien documentadas.
2. Importar la librería **pandas** y cargar un dataset desde un archivo `.csv`.
3. Aplicar métodos básicos de inspección de datos: `.head()`, `.tail()`, `.info()`, `.shape`, `.describe()`.
4. Interpretar la estructura (esquema) de un `DataFrame` y proponer mejoras en los nombres de columnas.
5. Aplicar filtros con condiciones y seleccionar subconjuntos de filas y columnas usando pandas.
6. Utilizar slicing (`iloc`, rangos de filas) para explorar partes específicas del dataset.


## Agenda sugerida (100 minutos)

| Tiempo | Bloque | Contenido |
|--------|--------|-----------|
| 0–10 min  | Bienvenida rápida | Recordatorio teórico + explicación de la dinámica práctica. |
| 10–25 min | Ejercicio 0 (Breakout rooms) | Estructura de notebook + Python básico. |
| 25–40 min | Ejercicio 1 | Crear y cargar un nuevo dataset con pandas. |
| 40–65 min | Ejercicio 2 | Explorar el dataset y mejorar los nombres de columnas. |
| 65–90 min | Ejercicio 3 | Filtrar, seleccionar y hacer slicing sobre el dataset. |
| 90–100 min| Take aways y cierre | Puesta en común, dudas y próximos pasos. |

> Ajusta los tiempos según el ritmo del grupo y el nivel de familiaridad con Python.


## Ejercicio 0 · Calentamiento en breakout rooms (10–15 min)

**Objetivo:** Reforzar conceptos básicos de Jupyter Notebook y Python vistos en la clase teórica.

### En grupos (breakout rooms):

1. Una persona de cada grupo comparte pantalla y crea un **nuevo notebook** en Jupyter.
2. Organicen el notebook con al menos **tres secciones** usando celdas de Markdown:
   - `# Cargar datos`
   - `# Limpiar datos`
   - `# Explorar datos`
3. En cada sección, creen al menos **una celda de código** que:
   - Imprima un mensaje usando `print()`.
   - Haga una operación numérica simple (por ejemplo, una suma o promedio).
   - Use una variable con un nombre descriptivo (por ejemplo, `ventas_enero`, `total_streams`).

> Pueden inspirarse en el notebook teórico, pero intenten escribir el código desde cero.

### Pista

- Recuerden que los títulos en Markdown se escriben así:

```markdown
# Título nivel 1
## Título nivel 2
### Título nivel 3
```

- Un comentario en código Python se escribe con `#`.


In [None]:
# Espacio sugerido para el Ejercicio 0 (pueden modificar libremente)

# Mensaje de bienvenida
print("Bienvenid@ al ejercicio 0 de la sesión práctica de Python & Pandas")

# Operación numérica simple
ventas_enero = 1500
ventas_febrero = 1800
promedio_ventas = (ventas_enero + ventas_febrero) / 2
print("Promedio de ventas Jan-Feb:", promedio_ventas)


## Ejercicio 1 · Crear y cargar un nuevo dataset con pandas

Para la parte práctica usaremos un **nuevo dataset** sobre reproducciones de canciones en plataformas de streaming.

Cada fila representa un pequeño resumen agregado por canción y país:

- `song_title`: título de la canción  
- `album`: nombre del álbum  
- `country`: país  
- `platform`: plataforma de streaming (`Spotify`, `Apple Music`, etc.)  
- `streams_millions`: número de reproducciones (en millones)  
- `release_year`: año de lanzamiento de la canción  

Primero vamos a **crear** este dataset dentro del notebook y guardarlo como archivo `.csv`. Luego lo cargaremos con `pandas` como si viniera de una fuente externa.


In [None]:
import pandas as pd

# 1. Crear el dataset desde un diccionario de Python
data = {
    "song_title": [
        "Midnight City Lights", "Summer Haze", "Evergreen Heart",
        "Golden Hour Echoes", "Midnight City Lights", "Summer Haze",
        "Evergreen Heart", "Golden Hour Echoes"
    ],
    "album": [
        "Neon Dreams", "Neon Dreams", "Forest Tales",
        "Sunset Stories", "Neon Dreams", "Neon Dreams",
        "Forest Tales", "Sunset Stories"
    ],
    "country": [
        "USA", "USA", "Canada", "Canada",
        "Mexico", "Mexico", "Brazil", "Brazil"
    ],
    "platform": [
        "Spotify", "Apple Music", "Spotify", "Spotify",
        "Apple Music", "Spotify", "Apple Music", "Spotify"
    ],
    "streams_millions": [
        120.5, 98.2, 45.7, 60.3,
        35.1, 80.0, 22.4, 55.9
    ],
    "release_year": [
        2022, 2022, 2021, 2020,
        2022, 2022, 2021, 2020
    ]
}

df_streams = pd.DataFrame(data)

# 2. Guardar el dataset como archivo CSV (solo necesitas ejecutar esto una vez)
df_streams.to_csv("streams_practice_dataset.csv", index=False)

df_streams

### 1.1. Cargar el archivo `.csv` con pandas

Ahora simulemos que recibimos el archivo desde un equipo de negocio o un data engineer.

1. Carga el archivo `streams_practice_dataset.csv` usando `pd.read_csv(...)`.  
2. Guarda el resultado en una variable llamada `df`.  
3. Muestra las primeras filas del `DataFrame` con `.head()`.


In [None]:
# Cargar el dataset desde el archivo CSV que acabamos de crear
df = pd.read_csv("streams_practice_dataset.csv")

# Ver las primeras filas
df.head()

### Preguntas guiadas para el Ejercicio 1

1. ¿Cuántas filas y columnas tiene el dataset? Usa `df.shape`.  
2. ¿Qué tipo de dato tiene cada columna? Usa `df.info()`.  
3. ¿Qué información numérica te da `df.describe()` sobre `streams_millions` y `release_year`?  

> Escribe tus respuestas (aunque sea de forma breve) en una celda de Markdown debajo de tus resultados.


In [None]:
# Ayuda: métodos útiles para explorar el DataFrame

df.shape        # (n_filas, n_columnas)
df.info()       # información de columnas y tipos
df.describe()   # estadísticas descriptivas de columnas numéricas

## Ejercicio 2 · Explorar el esquema y mejorar los nombres de columnas

**Objetivo:** Practicar la lectura del esquema del dataset y aplicar buenas prácticas de nombres de columnas.

### Parte A · Leer el esquema

1. Usa `df.columns` para listar los nombres de las columnas.  
2. Identifica, en voz alta o en una nota, qué representa cada columna y qué unidad tiene.

### Parte B · Crear una versión "limpia" de la tabla

1. Crea una copia del DataFrame original:

```python
df_clean = df.copy()
```

2. Cambia los nombres de las columnas para que:

- Estén en minúsculas.  
- No tengan espacios.  
- Sean lo más explícitas posible.

Por ejemplo: `streams_millions` podría convertirse en `streams_millions_total` si quieres enfatizar que es el total de streams.

3. Vuelve a imprimir `df_clean.columns` para revisar el resultado.


In [None]:
# Parte A: inspeccionar columnas
df.columns

# Parte B: crear copia y renombrar columnas
df_clean = df.copy()

df_clean = df_clean.rename(columns={
    "song_title": "song_title",
    "album": "album",
    "country": "country",
    "platform": "platform",
    "streams_millions": "streams_millions_total",
    "release_year": "release_year"
})

df_clean.columns

> **Preguntas para discusión rápida:**  
> - Si este dataset lo fueran a leer personas de negocio, ¿cambiarías algún nombre más?  
> - ¿Qué columnas pondrías primero si tuvieras que presentar un resumen en una diapositiva?  
> - ¿Te gustaría agregar alguna columna derivada (por ejemplo, una categoría por año: reciente vs antiguo)?


## Ejercicio 3 · Filtrar, seleccionar y hacer slicing

**Objetivo:** Practicar filtros con condiciones, selección de columnas y slicing en pandas.

Trabajaremos sobre el DataFrame `df_clean` que construiste en el ejercicio anterior.


### Parte A · Filtrar por condiciones

1. Crea un DataFrame `df_spotify` con solo las filas donde la plataforma sea `"Spotify"`.  
2. Crea un DataFrame `df_mexico` con las filas donde el país sea `"Mexico"`.  
3. Crea un DataFrame `df_spotify_mexico` con canciones que sean de `"Spotify"` **y** de `"Mexico"`.  

Pista de sintaxis:

```python
df_spotify = df_clean[df_clean["platform"] == "Spotify"]

df_spotify_mexico = df_clean[
    (df_clean["platform"] == "Spotify") & 
    (df_clean["country"] == "Mexico")
]
```


In [None]:
# Parte A: filtros por condición

df_spotify = df_clean[df_clean["platform"] == "Spotify"]
df_spotify

df_mexico = df_clean[df_clean["country"] == "Mexico"]
df_mexico

df_spotify_mexico = df_clean[
    (df_clean["platform"] == "Spotify") &
    (df_clean["country"] == "Mexico")
]
df_spotify_mexico

### Parte B · Seleccionar columnas clave

1. Crea un DataFrame `df_resumen` que tenga solo estas columnas:

- `song_title`  
- `country`  
- `platform`  
- `streams_millions_total`  

2. Muestra las primeras filas de `df_resumen`.

Recuerda que puedes seleccionar columnas pasando una lista de nombres:

```python
columnas = ["song_title", "country", "platform", "streams_millions_total"]
df_resumen = df_clean[columnas]
```


In [None]:
# Parte B: selección de columnas clave

columnas = ["song_title", "country", "platform", "streams_millions_total"]
df_resumen = df_clean[columnas]
df_resumen.head()

### Parte C · Slicing por posición

1. Muestra solo las filas de la 0 a la 3 (4 filas) de `df_resumen` usando slicing simple: `df_resumen[0:4]`.  
2. Usa `.iloc` para mostrar:

   - Filas de la 2 a la 5  
   - Solo las columnas de posición 0 y 3 (`song_title` y `streams_millions_total`)

Ejemplo de sintaxis:

```python
df_resumen.iloc[2:6, [0, 3]]
```


In [None]:
# Parte C: slicing

# Filas 0 a 3
df_resumen[0:4]

# Filas 2 a 5, columnas 0 y 3
df_resumen.iloc[2:6, [0, 3]]

### Preguntas de reflexión sobre el Ejercicio 3

- ¿Qué ventajas tiene escribir filtros en pandas frente a usar filtros manuales en una hoja de cálculo?  
- ¿Qué riesgos hay si olvidamos usar paréntesis en las condiciones con `&` y `|`?  
- ¿Qué patrón de filtrado usaste hoy que crees que repetirás mucho en otros análisis?


## 6. Take aways de la sesión práctica

1. Sabes crear y organizar un notebook con secciones claras para un flujo de análisis de datos.  
2. Practicaste la creación de un dataset pequeño dentro de Python y su exportación a `.csv`.  
3. Reforzaste métodos clave de exploración de datos: `.head()`, `.info()`, `.shape`, `.describe()`.  
4. Aplicaste buenas prácticas para nombrar columnas de un `DataFrame`.  
5. Ganaste soltura escribiendo filtros con condiciones y seleccionando subconjuntos de datos con pandas.  
6. Usaste slicing para trabajar con rangos específicos de filas y columnas.


## 7. Cierre y próximos pasos

Para seguir mejorando tu fluidez con Python y pandas, te recomiendo:

- Repetir estos ejercicios **sin mirar** el código de apoyo, intentando reconstruirlo de memoria.  
- Inventar tu propio dataset pequeño (por ejemplo, de series, libros, juegos, o entrenamientos deportivos) y replicar el flujo: crear → guardar `.csv` → cargar con pandas → explorar → filtrar.  
- Escribir en una celda de Markdown un mini–resumen de **3 cosas que aprendiste hoy** y **1 duda** que quieras resolver en el próximo webinar.

En la siguiente sesión profundizaremos en más transformaciones de datos y conexión con preguntas de negocio.


## 8. Información complementaria y recursos

- Documentación de pandas sobre indexado y selección de datos: <https://pandas.pydata.org/docs/user_guide/indexing.html>  
- Guía de referencia rápida de pandas (cheat sheet): busca “pandas cheat sheet” y descárgala para tenerla a mano.  
- Tutorial interactivo (en inglés) para practicar filtros y groupby con pandas: <https://www.kaggle.com/learn/pandas>

> Sugerencia: guarda este notebook con un nombre descriptivo, por ejemplo:  
> `sprint5_webinar15_practica_python_pandas.ipynb`
