```{image} ../images/logos/pandas_secondary.svg
:width: 230px
:align: center
```

# Introducci√≥n a Pandas
---

`Pandas` es una librer√≠a de c√≥digo abierto en Python dise√±ada para facilitar la manipulaci√≥n y an√°lisis de datos estructurados, especialmente aquellos en formato tabular (como hojas de c√°lculo o bases de datos).  
Proporciona estructuras de datos potentes y flexibles, como `DataFrame` y `Series`, que permiten trabajar de forma eficiente con informaci√≥n num√©rica y etiquetada.


## üéØ Objetivo

Este cuadernillo tiene como objetivo introducir los conceptos fundamentales del uso de la biblioteca `Pandas` en Python, una herramienta esencial para el an√°lisis de datos. Aprender√°s a cargar, explorar, filtrar y visualizar conjuntos de datos en formato tabular de forma pr√°ctica y reproducible.


## üìö ¬øQu√© vas a aprender?

Al finalizar este cuadernillo, ser√°s capaz de:

- Entender las estructuras de datos clave en Pandas: `Series` y `DataFrame`
- Cargar datos desde archivos externos (como `.csv`)
- Acceder, seleccionar y filtrar datos usando etiquetas o posiciones
- Realizar an√°lisis exploratorio y estad√≠sticas b√°sicas
- Generar visualizaciones r√°pidas con los datos

## ‚úÖ Requisitos previos

| Concepto | Importancia | Notas |
| --- | --- | --- |
| [Introducci√≥n a Python](./1.1Fundamentos-python.ipynb) | Necesario | Tipos de datos, funciones, operadores |
| [Introducci√≥n a JupyterLab](./1.1Fundamentos-python.ipynb) | Necesario | Navegaci√≥n y ejecuci√≥n de celdas |
| [Fundamentos de NumPy](./1.2Numpy-Pandas-Xarray.ipynb) | Necesario | Arrays, operaciones vectorizadas |


‚è±Ô∏è **Tiempo estimado de aprendizaje**: 20‚Äì25 minutos  
‚úçÔ∏è **Formato**: interactivo, ejecuta y modifica el c√≥digo a medida que avanzas

## 1. üêº ¬øQu√© es Pandas?
---
**Pandas** es una biblioteca de Python para el an√°lisis y manipulaci√≥n de datos estructurados.  
Su nombre viene de *"Panel Data"*, un t√©rmino utilizado en econom√≠a para referirse a conjuntos de datos multidimensionales.

Est√° dise√±ada para facilitar el trabajo con:

- Tablas similares a hojas de c√°lculo (como archivos `.csv`, Excel, SQL, etc.)
- Series temporales
- Datos con etiquetas (columnas y filas con nombres)

Pandas proporciona dos estructuras de datos principales:

| Objeto | Descripci√≥n |
|--------|-------------|
| `Series` | Columna de datos con √≠ndice (unidimensional) |
| `DataFrame` | Tabla de datos con filas y columnas (bidimensional) |

Estas estructuras permiten trabajar con datos de manera intuitiva, utilizando **etiquetas** en lugar de posiciones num√©ricas.

Importamos Pandas

In [None]:
import pandas as pd

### 1.1. Crear una `Series` üî§

Una `Series` es como una columna en Excel. Cada elemento tiene un √≠ndice asociado:

In [None]:
numeros = pd.Series([10, 20, 30, 40])
print(numeros)

üìù ¬øQu√© significa esto?

- A la **izquierda** se muestra el √≠ndice (por defecto empieza en 0).
- A la **derecha** est√° el valor asociado a cada √≠ndice.
- La √∫ltima l√≠nea `dtype: int64` indica que los valores son enteros de 64 bits (`int64`), un tipo de dato num√©rico com√∫n en an√°lisis de datos.

> ‚úÖ Las `Series` permiten usar √≠ndices personalizados, filtrar datos y aplicar operaciones matem√°ticas, lo que las hace muy √∫tiles para trabajar con columnas individuales en un `DataFrame`.

### 1.2. Crear un `DataFrame` üìÑ 

Un `DataFrame` es una tabla de datos con filas y columnas:

In [None]:
datos = {
    "Pa√≠s": ["Colombia", "Brasil", "M√©xico"],
    "Poblaci√≥n (millones)": [51.52, 212.6, 126.7]
}
df = pd.DataFrame(datos)

In [None]:
print(df)

La salida del `DataFrame` es una tabla que contiene:

- Una **columna de √≠ndice** a la izquierda: en este caso, Pandas ha asignado autom√°ticamente los √≠ndices `0`, `1` y `2` para cada fila.
- La **columna "Pa√≠s"**, que contiene cadenas de texto (`str`), con los nombres de los pa√≠ses.
- La **columna "Poblaci√≥n (millones)"**, que contiene valores num√©ricos con decimales (`float`), indicando la poblaci√≥n en millones para cada pa√≠s.

Esta estructura es muy similar a una hoja de c√°lculo de Excel, donde:

- Cada **fila** representa una entrada o registro.
- Cada **columna** representa una variable o caracter√≠stica de los datos.

> ‚úÖ Los √≠ndices de fila (0, 1, 2) pueden personalizarse m√°s adelante para que usen, por ejemplo, los nombres de los pa√≠ses.

Puedes acceder a esta tabla como conjunto completo o trabajar con columnas y filas espec√≠ficas, como veremos en las siguientes secciones.


## 2. üóÉÔ∏è Trabajando con DataFrames
---
El objeto `DataFrame` es la estructura central de Pandas. Nos permite trabajar con datos tabulares de forma eficiente y expresiva.



### 2.1. ¬øC√≥mo se ve un DataFrame? üß± 

Podemos construir un `DataFrame` f√°cilmente a partir de un diccionario de Python. Aqu√≠ un ejemplo con temperaturas promedio de algunas ciudades en enero:

In [None]:
ciudades = {
    "Ciudad": [
        "Bogot√°", "Medell√≠n", "Barranquilla", "Cali", "Pereira",
        "Manizales", "Santa Marta", "Cartagena", "Tunja", "Bucaramanga"
    ],
    "Temp. Promedio (¬∞C)": [14.5, 22.3, 27.6, 24.0, 22.0, 18.0, 28.5, 28.0, 13.0, 23.5],
    "Altitud (msnm)": [2640, 1475, 18, 1000, 1341, 2150, 6, 2, 2820, 959]
}

df = pd.DataFrame(ciudades)

In [None]:
df

<img src="../images/01_table_dataframe.svg" width=500 alt="Dataframe"></img> 

üîé En esta imagen (inspirada en *Pythia Foundations*) puedes ver c√≥mo:

- Cada **fila** representa una observaci√≥n (una ciudad).
- Cada **columna** representa una variable (temperatura, altitud).
- La columna gris a la izquierda representa el **√≠ndice** de las filas.

‚úÖ Este formato es muy √∫til para trabajar con datos tabulares como archivos `.csv`, bases de datos o resultados experimentales.


### 2.2. Propiedades del DataFrame üîç

Pandas proporciona varios atributos para entender r√°pidamente la estructura de un `DataFrame`.

**üî¢ √çndices de las filas**  
Muestra el rango o tipo de √≠ndice que se est√° utilizando para las filas. Por defecto, es un rango num√©rico.

In [None]:
df.index        # √çndices de fila

**üè∑Ô∏è Nombres de las columnas**  
Devuelve una lista con los nombres de todas las columnas del DataFrame.

In [None]:
df.columns      # Nombres de columnas

**üìê Dimensiones del DataFrame**  
Nos dice cu√°ntas filas y columnas tiene el DataFrame.

In [None]:
df.shape        # Tama√±o: (n√∫mero de filas, columnas)

**üß™ Tipos de datos por columna**  
Nos permite ver el tipo de datos (enteros, flotantes, texto, etc.) de cada columna. Muy √∫til para asegurarnos de que los datos se cargaron correctamente.


In [None]:
df.dtypes       # Tipo de dato de cada columna

## 3. üìà Series dentro de un DataFrame
---
Ya vimos que una `Series` es una estructura unidimensional con √≠ndice, similar a una columna de Excel. En un `DataFrame`, cada columna es internamente una `Series`.

Veamos c√≥mo podemos trabajar con ellas:

### 3.1. Acceder a una columna (como Series) üß™
Podemos acceder a una columna usando su nombre, lo que nos devuelve una `Series`:

In [None]:
df["Temp. Promedio (¬∞C)"]

Tambi√©n se puede usar la notaci√≥n de atributo si el nombre no tiene espacios:

In [None]:
df.Ciudad  # Igual a df["Ciudad"]

### 3.2. Acceder a una fila espec√≠fica üîç

En Pandas, cada **fila** de un `DataFrame` representa una observaci√≥n, como un registro en una base de datos o una fila de Excel. Para acceder a estas observaciones completas, usamos dos m√©todos muy √∫tiles:

#### üß≠ `.loc[]`: acceso por **etiqueta**

In [None]:
df.loc[0]      # Por etiqueta (funciona bien si el √≠ndice es texto)

üü° Este m√©todo es √∫til si tu √≠ndice no es num√©rico, por ejemplo:

In [None]:
df.index = ["bog", "med", "bar", "cal", "per", "man", "sam", "car", "tun", "buc"]
df.loc["med"]

#### üìè `.iloc[]`: acceso por **posici√≥n entera**

Usamos `.iloc[]` cuando queremos acceder a una fila por su **posici√≥n** (sin importar el valor del √≠ndice).


In [None]:
df.iloc[0]     # Por posici√≥n

üí° Este m√©todo siempre funciona, independientemente del tipo de √≠ndice que tenga tu `DataFrame`.

### 3.3. Filtrar y seleccionar datos por condiciones üéØ

Una de las fortalezas de Pandas es la facilidad para **seleccionar subconjuntos** de datos usando condiciones l√≥gicas. A esto se le llama "filtrado".


#### ‚úÖ Filtrar filas que cumplan una condici√≥n

Por ejemplo, si queremos ver solo las ciudades con temperatura mayor a 20¬∞C:

In [None]:
df[df["Temp. Promedio (¬∞C)"] > 20]

üìå Esto devuelve un nuevo `DataFrame` con las filas que cumplen la condici√≥n.

#### üîç Filtrar usando m√∫ltiples condiciones

Si queremos ver ciudades con temperatura mayor a 20¬∞C **y** altitud menor a 2000 msnm:


In [None]:
df[
    (df["Temp. Promedio (¬∞C)"] > 20) &
    (df["Altitud (msnm)"] < 2000)
]

‚ö†Ô∏è Las condiciones m√∫ltiples deben ir entre par√©ntesis  
Y usamos `&` (y), `|` (o), `~` (no).

####  Filtrar y seleccionar columnas espec√≠ficas üóÇÔ∏è

Si adem√°s queremos ver **solo algunas columnas**, lo combinamos con doble corchete:

In [None]:
df[
    (df["Temp. Promedio (¬∞C)"] > 20)
][["Ciudad", "Altitud (msnm)"]]

#### Tambi√©n puedes usar `.loc[]` üß† 

`.loc` permite combinar condiciones con selecci√≥n expl√≠cita de columnas:


In [None]:
df.loc[
    df["Temp. Promedio (¬∞C)"] > 20,
    ["Ciudad", "Temp. Promedio (¬∞C)"]
]

‚úÖ **Resumen r√°pido**:

| Acci√≥n | Ejemplo |
|-------|---------|
| Filtrar filas | `df[df["col"] > valor]` |
| Varias condiciones | `(cond1) & (cond2)` |
| Filtrar y seleccionar columnas | `df[cond][["col1", "col2"]]` |
| Con `.loc[]` | `df.loc[cond, ["col1", "col2"]]` |

### 3.4 üìä Estad√≠sticas b√°sicas y resumen de datos

Una vez cargamos nuestros datos, es importante poder **resumirlos estad√≠sticamente** para tener una idea general de su distribuci√≥n, tendencias y valores at√≠picos.


#### üìå Resumen estad√≠stico r√°pido

Usa `.describe()` para obtener un resumen estad√≠stico de todas las columnas num√©ricas:


In [None]:
df.describe()

üìã Incluye: media, desviaci√≥n est√°ndar, m√≠nimo, m√°ximos y cuartiles.

#### üìà Estad√≠sticas comunes

Puedes calcular medidas espec√≠ficas sobre una columna (o Series):


In [None]:
df["Temp. Promedio (¬∞C)"].mean()    # Media

In [None]:
df["Temp. Promedio (¬∞C)"].std()     # Desviaci√≥n est√°ndar

In [None]:
df["Temp. Promedio (¬∞C)"].min()     # M√≠nimo

In [None]:
df["Temp. Promedio (¬∞C)"].max()     # M√°ximo

In [None]:
df["Temp. Promedio (¬∞C)"].median()  # Mediana

Tambi√©n puedes hacerlo sobre todo el `DataFrame`:
```python
df.mean()
TypeError: Could not convert ['Bogot√°Medell√≠nBarranquilla'] to numeric
```

<div class="alert alert-danger">
‚ö†Ô∏è <strong>Advertencia cr√≠tica:</strong><br>
Las funciones estad√≠sticas como <code>.mean()</code>, <code>.std()</code> o <code>.sum()</code> <strong>solo funcionan con columnas num√©ricas</strong>.<br><br>
</div>

Si tu <code>DataFrame</code> contiene columnas con texto (por ejemplo, nombres de ciudades), deber√≠as filtrar las columnas antes de aplicar operaciones estad√≠sticas:<br>
<pre><code>df.select_dtypes(include="number")</code></pre>
Esto previene errores y asegura que las operaciones matem√°ticas se realicen correctamente.
</div>

In [None]:
df.select_dtypes(include="number").mean()

## 4. üìä An√°lisis exploratorio de datos
---
Una vez que tienes tus datos cargados en un `DataFrame`, Pandas ofrece muchas herramientas para explorarlos r√°pidamente.


### üß† 4.1. Ver las primeras y √∫ltimas filas

Es com√∫n empezar viendo un vistazo general de los datos. Para esto usamos `.head()` y `.tail()`, que nos permiten inspeccionar las primeras y √∫ltimas filas del `DataFrame`.


In [None]:
df.head()   # Muestra las primeras 5 filas

In [None]:
df.tail()   # Muestra las √∫ltimas 5 filas

Puedes pasar un n√∫mero como argumento para ver m√°s o menos filas:

In [None]:
df.head(2)  # Primeras 2 filas

### üìè 4.2. Informaci√≥n general del DataFrame

Esta funci√≥n es √∫til para entender la estructura del `DataFrame`: cu√°ntas columnas hay, qu√© tipos de datos contiene, si hay valores nulos, etc.


In [None]:
df.info()


Este comando te muestra:
- El n√∫mero de entradas (filas)
- El n√∫mero de columnas
- El tipo de dato de cada columna
- Cu√°ntos datos no nulos tiene cada columna


### üìê 4.3. Estad√≠sticas r√°pidas

`describe()` te da una descripci√≥n estad√≠stica de las columnas num√©ricas, ideal para tener una idea de la distribuci√≥n de los datos.



In [None]:
df.describe()

Devuelve:
- Conteo (`count`)
- Media (`mean`)
- Desviaci√≥n est√°ndar (`std`)
- M√≠nimo, percentiles (25%, 50%, 75%) y m√°ximo

### üìé 4.4. Media, m√≠nimo, m√°ximo y m√°s

Puedes aplicar funciones estad√≠sticas espec√≠ficas como la media, m√≠nimo, m√°ximo y desviaci√≥n est√°ndar a columnas individuales:


In [None]:
df["Temp. Promedio (¬∞C)"].mean()

In [None]:
df["Temp. Promedio (¬∞C)"].min()

In [None]:
df["Temp. Promedio (¬∞C)"].max()

In [None]:
df["Temp. Promedio (¬∞C)"].std()

## üìä 5. Visualizaciones r√°pidas

Una de las ventajas de Pandas es que permite crear visualizaciones r√°pidas sin necesidad de importar expl√≠citamente librer√≠as de gr√°ficos como `matplotlib`.

### üìà 5.1. Gr√°fico de l√≠neas

Ideal para observar series temporales o tendencias.

In [None]:
df["Temp. Promedio (¬∞C)"].plot(title="Temperatura promedio por ciudad", marker="o");

### üìä 5.2. Histograma

√ötil para ver la **distribuci√≥n** de los datos num√©ricos.


In [None]:
df["Temp. Promedio (¬∞C)"].plot.hist(bins=5, title="Distribuci√≥n de temperaturas");


### üß± 5.3. Diagrama de cajas (Boxplot)

Muestra estad√≠sticas como **mediana**, cuartiles y posibles **valores at√≠picos**.


In [None]:
df[["Temp. Promedio (¬∞C)"]].plot.box(title="Resumen estad√≠stico");

### üìä 5.4. Gr√°fico de barras

Perfecto para comparar valores **entre categor√≠as**, como ciudades.

In [None]:
df["Temp. Promedio (¬∞C)"].plot.bar(title="Temperatura promedio por ciudad");

Si prefieres que se muestre **horizontal**, puedes usar `.barh()`:

In [None]:
df["Temp. Promedio (¬∞C)"].plot.barh(title="Temperatura promedio por ciudad");

### üåÄ 5.5. Gr√°fico de dispersi√≥n (Scatter)

Cuando quieres analizar la relaci√≥n entre dos variables num√©ricas.

In [None]:
df.plot.scatter(x="Altitud (msnm)", y="Temp. Promedio (¬∞C)", title="Temperatura vs Altitud");

---

## üèÅ Conclusi√≥n y recursos √∫tiles

En este cuadernillo aprendiste los fundamentos del uso de **Pandas** para trabajar con datos tabulares:

- Qu√© son las `Series` y los `DataFrame`
- C√≥mo acceder y filtrar datos usando etiquetas o posiciones
- C√≥mo realizar an√°lisis exploratorio y estad√≠sticas b√°sicas
- C√≥mo generar visualizaciones r√°pidas con tus datos

Pandas es una herramienta **poderosa y flexible** que se utiliza ampliamente en ciencia de datos, investigaci√≥n, an√°lisis financiero y muchas otras disciplinas. Con esta base, ya est√°s listo para realizar an√°lisis m√°s complejos.

### üìö Recursos adicionales

- [Documentaci√≥n oficial de Pandas](https://pandas.pydata.org/docs/)
- [Fundamentos de Pandas - Project Pythia](https://foundations.projectpythia.org/core/pandas.html)
- [10 minutos con Pandas (tutorial oficial)](https://pandas.pydata.org/docs/user_guide/10min.html)

---

¬øQuieres seguir aprendiendo? En el pr√≥ximo cuadernillo veremos c√≥mo trabajar con datos **multidimensionales** usando `Xarray`. üì¶üåé


## Fuentes y Referencias

* Rose, B. E. J., Kent, J., Tyle, K., Clyne, J., Banihirwe, A., Camron, D., May, R., Grover, M., Ford, R. R., Paul, K., Morley, J., Eroglu, O., Kailyn, L., & Zacharias, A. (2023). Pythia Foundations (Version v2023.05.01) https://doi.org/10.5281/zenodo.7884572