# Sprint 5 · Webinar 15 · Introducción a Python y Pandas (Sesión teórica)

**Programa:** Introducción a la Analítica de Datos  
**Duración:** 100 minutos  
**Formato:** Clase teórica con pequeñas demostraciones en vivo  
**Dataset de referencia:** `taylor_swift_songs.csv` (canciones de Taylor Swift)

> Usa este notebook como guía de clase. La idea es ir recorriendo las secciones en orden, combinando explicación con pequeñas demostraciones de código.


- **Fecha:** `11 / 11 / 2025`
- **Instructor/a:** `Leyton Castro`

<div style="text-align: center">
    <img src="https://raw.githubusercontent.com/ljpiere/tpdata_python/main/images/w2s1.jpg" width="500">
</div>

## Objetivos de la sesión

Al finalizar este webinar, la persona estudiante será capaz de:

1. Explicar qué es Python y por qué es tan usado en analítica de datos.
2. Reconocer la interfaz de Jupyter Notebook y diferenciar entre celdas de código y de texto.
3. Ejecutar código Python básico en un notebook (impresiones, operaciones numéricas, texto).
4. Importar la librería **pandas** y cargar un archivo `.csv` en un `DataFrame`.
5. Explorar un conjunto de datos usando métodos como `.head()`, `.tail()`, `.info()`, `.shape` y `.describe()`.
6. Interpretar el esquema de un `DataFrame` (columnas, tipos de datos) y la importancia del contexto de negocio.
7. Aplicar filtros simples y slicing para seleccionar subconjuntos de filas y columnas con pandas.


## Agenda sugerida (100 minutos)

| Tiempo | Bloque | Contenido |
|--------|--------|-----------|
| 0–10 min | Bienvenida & encuadre | Presentación, reglas básicas, visión del sprint y del rol de Python & Pandas. |
| 10–25 min | 1. Python para Analítica | ¿Qué es Python? Ecosistema, ejemplos rápidos. |
| 25–40 min | 2. Jupyter Notebook | Interfaz, tipos de celdas, flujo de trabajo reproducible. |
| 40–65 min | 3. Introducción a Pandas & carga de datos | `import pandas`, `read_csv`, primeros métodos de exploración. |
| 65–85 min | 4. Exploración, filtrado y slicing | Filtrar filas, seleccionar columnas, slicing por índices. |
| 85–95 min | 5. Take aways & recap | Resumen de ideas clave, conexión con sesiones futuras. |
| 95–100 min | 6. Cierre & próximos pasos | Preguntas finales, recomendaciones y recursos. |

> Esta agenda es una guía. Puedes ajustar los tiempos según el ritmo del grupo.


## 1. Python para Analítica de Datos

**Python** es un lenguaje de programación:

- De propósito general (sirve para muchas cosas, no solo datos).
- Simple de leer y escribir comparado con otros lenguajes.
- Con una comunidad enorme y miles de librerías, entre ellas:
  - `pandas` para manipular datos en tablas.
  - `numpy` para cálculo numérico.
  - `matplotlib` / `seaborn` para visualización.

En el contexto de este sprint, usaremos Python principalmente como **herramienta para:**
- Cargar datos desde archivos (CSV, Excel).
- Transformar columnas, limpiar valores y estandarizar formatos.
- Filtrar, agrupar y resumir información para responder preguntas de negocio.


In [None]:
# Ejemplos muy básicos de Python puro (sin pandas)

# 1. Imprimir un mensaje
print("Hola, Sprint 5")

# 2. Operaciones numéricas simples
a = 10
b = 3
print("Suma:", a + b)
print("División:", a / b)

# 3. Trabajar con texto (strings)
artista = "Taylor Swift"
cancion = "Love Story"
mensaje = f"La canción {cancion} es de {artista}."
print(mensaje)

# 4. Listas
numeros = [3, 5, 7, 9]
print("Lista:", numeros)
print("Primer elemento:", numeros[0])


> **Reflexión rápida (para discusión):**  
> ¿Qué diferencias encuentras entre escribir fórmulas en una hoja de cálculo y escribir código Python para hacer operaciones similares?


## 2. Jupyter Notebook: nuestro cuaderno interactivo

**Jupyter Notebook** es la herramienta principal que usaremos para interactuar con Python:

- Un notebook está compuesto por **celdas**.
- Hay dos tipos de celdas principales:
  - **Celdas de código:** donde escribes y ejecutas Python.
  - **Celdas de Markdown (texto):** donde documentas, explicas, agregas títulos y notas.
- Permite mezclar explicación con código y resultados en un mismo documento.

Buenas prácticas desde el inicio:

- Usar títulos y subtítulos claros (`#`, `##`, `###`).
- Agregar comentarios en el código (líneas que empiezan con `#`).
- Usar nombres de variables **descriptivos**, no genéricos (`ventas_2024` en lugar de `x`).

En esta clase, este notebook ya viene estructurado. En la sesión práctica, tú crearás tu propio notebook con secciones como:

- **Cargar datos**
- **Limpiar datos**
- **Explorar datos**


In [None]:
# Ejemplo: diferencia entre comentario y código ejecutable

# Esto es un comentario: sirve para explicar, no se ejecuta.
mensaje_bienvenida = "Bienvenid@ al webinar 15 de Python & Pandas"
print(mensaje_bienvenida)

# Si esta línea tuviera un error de sintaxis, el notebook lo marcaría.


## 3. Introducción a Pandas y DataFrames

**Pandas** es la librería estándar de Python para trabajar con datos tabulares, muy similar a una hoja de cálculo pero con superpoderes:

- La estructura básica es el **`DataFrame`**, que puedes imaginar como una tabla con filas y columnas.
- Cada columna tiene un **nombre** y un **tipo de dato** (número, texto, fecha, etc.).
- Pandas nos permite:
  - Cargar datos desde diferentes fuentes: CSV, Excel, bases de datos, etc.
  - Filtrar filas y seleccionar columnas.
  - Agrupar y resumir información.
  - Limpiar y transformar valores.

En esta sesión usaremos un dataset de canciones de Taylor Swift para explorar estos conceptos.


In [None]:
import pandas as pd

# Opcional: configurar la visualización de pandas para más columnas/filas
pd.set_option("display.max_columns", 20)
pd.set_option("display.precision", 2)

print("Versión de pandas:", pd.__version__)

### 3.1. Cargar un archivo CSV en un DataFrame

Vamos a cargar el archivo `taylor_swift_songs.csv` que contiene información de varias canciones:

- Título de la canción
- Álbum
- Año de lanzamiento
- Duración
- Género
- Streams en Spotify
- Posición máxima en Billboard
- Compositores, productores y premios

En la sesión en vivo, asegúrate de que el archivo `.csv` esté en la **misma carpeta** del notebook.


In [None]:
# Cargar el dataset desde un archivo CSV
df = pd.read_csv("taylor_swift_songs.csv")

# Ver las primeras filas de la tabla
df.head()

### 3.2. Exploración básica del DataFrame

Algunos métodos clave para empezar a entender un dataset:

- `df.head(n)`: primeras `n` filas (por defecto 5).
- `df.tail(n)`: últimas `n` filas.
- `df.shape`: tupla con (n_filas, n_columnas).
- `df.info()`: resumen de columnas, cantidad de valores no nulos y tipos de datos.
- `df.describe()`: estadísticas descriptivas de las columnas numéricas (media, desviación, percentiles, etc.).

Conecta `df.describe()` con lo visto en la parte de estadística: media, mediana, percentiles, mínimo, máximo...


In [None]:
# Número de filas y columnas
df.shape

In [None]:
# Información general del DataFrame
df.info()

In [None]:
# Estadísticas descriptivas de las columnas numéricas
df.describe()

> **Discusión guiada:**  
> - ¿Qué información útil obtenemos de `df.describe()` para este dataset?  
> - ¿Qué limitaciones ves cuando aplicamos `.describe()` a columnas que representan texto o categorías (por ejemplo, `Genre` o `Album`)?  
>   - Pista: ¿por qué `describe()` para texto no muestra media ni desviación estándar?


## 4. Esquema de datos y diccionario de columnas

Antes de limpiar o transformar, es clave entender **qué significa cada columna** y cómo se usará en el negocio.

Preguntas útiles:

- ¿Qué representa cada fila? (en este caso, una canción).
- ¿Qué unidad tiene cada columna numérica? (minutos, millones, posiciones en ranking, etc.)
- ¿Qué columnas son candidatas a identificador (ID único)?
- ¿Qué columnas son numéricas, cuáles categóricas, cuáles fechas?

Podemos inspeccionar las columnas y sus nombres:


In [None]:
# Ver los nombres de las columnas
df.columns

### 4.1. Buenas prácticas al nombrar columnas

Algunas buenas prácticas:

- Evitar espacios en blanco: usar guiones bajos `_` o `camelCase`.
- Ser explícitos: un nombre largo pero claro suele ser mejor que uno corto y ambiguo.
- Mantener un estilo consistente (todo minúsculas, por ejemplo).

Ejemplo: podemos crear una copia del DataFrame con nombres de columnas más uniformes.


In [None]:
# Crear una copia para manipular sin alterar el original
df_clean = df.copy()

# Renombrar algunas columnas para seguir buenas prácticas
df_clean = df_clean.rename(columns={
    "Title": "title",
    "Album": "album",
    "Release Year": "release_year",
    "Duration (mins)": "duration_mins",
    "Genre": "genre",
    "Spotify Streams (millions)": "spotify_streams_millions",
    "Peak Billboard Position": "peak_billboard_position",
    "Songwriter(s)": "songwriters",
    "Producer(s)": "producers",
    "Awards": "awards"
})

# Verificar el cambio
df_clean.columns

> **Para conversar:**  
> - ¿Qué nombres de columnas usarías tú para que el dataset sea más legible para el equipo de negocio?  
> - ¿Qué columnas pondrías primero si tuvieras que presentar una tabla resumida? (por ejemplo: `title`, `album`, `release_year`, `genre`, `spotify_streams_millions`).


## 5. Filtrado de datos y slicing con Pandas

En analítica, rara vez trabajamos con **toda** la tabla al mismo tiempo. Casi siempre necesitamos:

- Filtrar filas que cumplan ciertas condiciones (por ejemplo, solo canciones Pop).
- Seleccionar un subconjunto de columnas relevantes.
- Tomar rangos de filas por posición (slicing).

Pandas nos permite hacer esto de forma muy expresiva.


### 5.1. Filtrar filas con condiciones

Sintaxis básica con corchetes:

```python
df_filtrado = df_clean[df_clean["genre"] == "Pop"]
```

También podemos combinar condiciones:

- `&` para **Y** lógico (AND).
- `|` para **O** lógico (OR).
- Siempre usar paréntesis alrededor de cada condición.


In [None]:
# Ejemplo: canciones Pop
df_pop = df_clean[df_clean["genre"] == "Pop"]
df_pop.head()

# Ejemplo: canciones Pop con más de 1500 millones de streams
df_pop_hits = df_clean[
    (df_clean["genre"] == "Pop") & 
    (df_clean["spotify_streams_millions"] > 1500)
]

df_pop_hits

### 5.2. Slicing: seleccionar rangos de filas

El slicing por posición funciona de forma similar a las listas de Python:

- `df_clean[0:5]` → filas de la 0 a la 4.
- `df_clean[10:15]` → filas de la 10 a la 14.

También podemos usar `.loc` y `.iloc`:

- `.loc` → selección por **índice/etiqueta**.
- `.iloc` → selección por **posición numérica**.


In [None]:
# Primeras 3 filas usando slicing
df_clean[0:3]

# Usando .iloc para seleccionar filas específicas y columnas por posición
# Filas 0 a 4, columnas 0 a 3
df_clean.iloc[0:5, 0:4]

### 5.3. Seleccionar columnas específicas

Muchas veces no necesitamos todas las columnas. Podemos seleccionar solo las que importan para una pregunta concreta:

```python
columnas_clave = ["title", "album", "genre", "spotify_streams_millions"]
df_clave = df_clean[columnas_clave]
```


In [None]:
# Seleccionar un subconjunto de columnas
columnas_clave = ["title", "album", "genre", "spotify_streams_millions"]
df_clave = df_clean[columnas_clave]
df_clave.head()

> **Actividad guiada (discusión en plenaria):**  
> - Escribe (o dicta) una regla de filtrado en lenguaje natural, por ejemplo:  
>   *"Canciones del álbum '1989' con más de 2000 millones de streams"*  
> - Luego, traduce esa regla a código usando pandas.  
> - ¿Cómo escribirías esa misma condición en un filtro de Google Sheets o Excel?


## 6. Take aways de la sesión

Ideas clave que debes llevarte de este webinar:

1. Python es un lenguaje flexible, legible y con un ecosistema muy rico para analítica de datos.
2. Jupyter Notebook permite combinar explicación, código y resultados en un mismo documento, ideal para explorar y documentar análisis.
3. Pandas introduce la estructura `DataFrame`, que se comporta como una tabla potente para trabajar con datos.
4. Métodos como `.head()`, `.info()`, `.shape` y `.describe()` son la base para entender rápidamente cualquier dataset.
5. Antes de transformar datos, es fundamental entender el **esquema** y el **contexto de negocio** de cada columna.
6. El filtrado y el slicing con pandas te permiten enfocarte en subconjuntos relevantes de datos, similar a filtros avanzados en hojas de cálculo pero con más control.


## 7. Cierre y conexión con la sesión práctica

En la **sesión práctica (Webinar 16)** pondrás en acción todo lo visto hoy:

- Crearás tu propio notebook desde cero.
- Cargarás datasets reales.
- Practicarás la exploración inicial, la lectura del esquema y el filtrado básico.

Antes de la próxima clase, te puede ayudar:

- Repasar este notebook y ejecutar de nuevo las celdas clave.
- Anotar dudas sobre funciones de pandas que te hayan resultado confusas.
- Pensar en un dataset de tu vida cotidiana (música, series, compras, etc.) y qué preguntas te gustaría responder con él.


## 8. Información complementaria y recursos

Algunos recursos recomendados (puedes abrirlos en el navegador):

- Documentación oficial de pandas (en inglés): <https://pandas.pydata.org/docs/>
- Tutorial introductorio de Jupyter Notebook (Project Jupyter): <https://jupyter.org/>
- Guía rápida de Markdown para formatear texto en notebooks: <https://www.markdownguide.org/cheat-sheet/>

**Sugerencia didáctica:**  
Agrega al final del notebook una sección de "Notas personales" donde los estudiantes puedan escribir, en sus propias palabras, qué entendieron de cada bloque.
