# Introducción a Pandas

```{epigraph}
"En el pasado, la censura funcionaba bloqueando el flujo de información. En el siglo XXI, la censura funciona inundando a la gente con información irrelevante. Ya no sabemos a qué prestar atención."

-- Yuval Noah Harari, *Homo Deus* (2016)
```

## Objetivos de Aprendizaje

```{admonition} Al finalizar este capítulo, serás capaz de:
:class: tip

1. Comprender qué es Pandas y por qué es fundamental para el análisis de datos
2. Crear y manipular **Series** (estructuras unidimensionales)
3. Crear y manipular **DataFrames** (tablas de datos)
4. Cargar datos desde archivos CSV
5. Realizar operaciones básicas de exploración de datos
6. Aplicar estos conocimientos a datos históricos reales sobre religiones del mundo
```

## ¿Qué es Pandas?

**Pandas** es una biblioteca de Python diseñada para el análisis y manipulación de datos. Su nombre proviene de "Panel Data", un término de econometría que se refiere a datos multidimensionales.

### Analogía Histórica: El Archivo Nacional

Imagina que eres un historiador trabajando en el **Archivo Nacional de Chile**. Tienes miles de documentos sobre la población, censos y registros históricos. Sin un sistema de organización, encontrar información sería imposible.

Pandas es como tener un sistema de catalogación digital que te permite:
- **Organizar** datos en tablas estructuradas
- **Buscar** información específica rápidamente
- **Filtrar** registros según criterios
- **Calcular** estadísticas automáticamente

### Las Dos Estructuras Fundamentales

| Estructura | Descripción | Analogía |
|------------|-------------|----------|
| **Series** | Columna única de datos | Una lista de censos de un solo año |
| **DataFrame** | Tabla con filas y columnas | Una hoja de cálculo completa |

## Importando Pandas

Por convención, Pandas se importa con el alias `pd`:

In [1]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np

# Verificamos la versión
print(f"Versión de Pandas: {pd.__version__}")

Versión de Pandas: 2.0.3


## Series: La Estructura Unidimensional

Una **Serie** es como una columna de una tabla: tiene valores y un índice que identifica cada valor.

### Crear una Serie desde una Lista

In [2]:
# Población de Chile en millones (datos históricos aproximados)
poblacion_chile = [6.1, 7.6, 9.5, 11.1, 13.2, 15.4, 17.1]

# Crear una Serie básica
serie_poblacion = pd.Series(poblacion_chile)
print("Serie básica:")
print(serie_poblacion)

Serie básica:
0     6.1
1     7.6
2     9.5
3    11.1
4    13.2
5    15.4
6    17.1
dtype: float64


In [3]:
# Crear una Serie con índices personalizados (años)
años = [1950, 1960, 1970, 1980, 1990, 2000, 2010]

serie_poblacion = pd.Series(poblacion_chile, index=años)
print("Serie con índices de años:")
print(serie_poblacion)

Serie con índices de años:
1950     6.1
1960     7.6
1970     9.5
1980    11.1
1990    13.2
2000    15.4
2010    17.1
dtype: float64


In [4]:
# Acceder a elementos de la Serie
print(f"Población en 1970: {serie_poblacion[1970]} millones")
print(f"Población en 2000: {serie_poblacion[2000]} millones")

Población en 1970: 9.5 millones
Población en 2000: 15.4 millones


### Atributos de una Serie

In [5]:
# Explorar atributos de la Serie
print(f"Valores: {serie_poblacion.values}")
print(f"Índices: {serie_poblacion.index.tolist()}")
print(f"Tamaño: {serie_poblacion.size}")
print(f"Tipo de dato: {serie_poblacion.dtype}")

Valores: [ 6.1  7.6  9.5 11.1 13.2 15.4 17.1]
Índices: [1950, 1960, 1970, 1980, 1990, 2000, 2010]
Tamaño: 7
Tipo de dato: float64


### Crear una Serie desde un Diccionario

In [6]:
# Religiones principales y su porcentaje aproximado en Chile (2010)
religiones_chile = {
    "Católicos": 66.7,
    "Evangélicos": 16.4,
    "Sin religión": 11.5,
    "Otras": 5.4
}

serie_religiones = pd.Series(religiones_chile)
print("Distribución religiosa en Chile (%)")
print(serie_religiones)

Distribución religiosa en Chile (%)
Católicos       66.7
Evangélicos     16.4
Sin religión    11.5
Otras            5.4
dtype: float64


## DataFrame: La Estructura Bidimensional

Un **DataFrame** es una tabla de datos con filas y columnas, similar a una hoja de cálculo de Excel o una tabla de base de datos.

### Crear un DataFrame desde un Diccionario

In [7]:
# Datos históricos de batallas de la Independencia de Chile
datos_batallas = {
    "Batalla": ["Rancagua", "Chacabuco", "Cancha Rayada", "Maipú"],
    "Año": [1814, 1817, 1818, 1818],
    "Resultado": ["Derrota", "Victoria", "Derrota", "Victoria"],
    "Comandante": ["O'Higgins", "San Martín", "San Martín", "San Martín"]
}

df_batallas = pd.DataFrame(datos_batallas)
print("Batallas de la Independencia de Chile:")
df_batallas

Batallas de la Independencia de Chile:


Unnamed: 0,Batalla,Año,Resultado,Comandante
0,Rancagua,1814,Derrota,O'Higgins
1,Chacabuco,1817,Victoria,San Martín
2,Cancha Rayada,1818,Derrota,San Martín
3,Maipú,1818,Victoria,San Martín


## Cargando Datos desde un Archivo CSV

En la práctica, los datos suelen venir en archivos. El formato **CSV** (Comma Separated Values) es uno de los más comunes.

### El Dataset de Religiones del Mundo (WRP)

Vamos a trabajar con el **World Religion Project**, un conjunto de datos académicos que registra la distribución religiosa mundial desde 1945 hasta 2010.

```{admonition} Fuente de los Datos
:class: note

**Zeev Maoz y Errol A. Henderson (2013)**. "The World Religion Dataset, 1945-2010: Logic, Estimates, and Trends". *International Interactions*, 39: 265-291.

Disponible en: https://correlatesofwar.org/data-sets/world-religion-data/
```

In [8]:
# Cargar el dataset de religiones mundiales (datos globales agregados)
df = pd.read_csv("WRP_global.csv")

# Ver las primeras filas
print("Primeras 5 filas del dataset:")
df.head()

Primeras 5 filas del dataset:


Unnamed: 0,year,chrstprot,chrstcat,chrstorth,chrstang,chrstothr,chrstgen,judorth,jdcons,judref,...,taogenpct,jaingenpct,confgenpct,syncgenpct,anmgenpct,nonreligpct,othrgenpct,sumreligpct,ptctotal,version
0,1945,160887585,391332035,98501171,36955033,13674466,701350290,856827,1426350,1929388,...,0.0001,0.0,0.0,0.2666,0.0207,0.0955,0.0061,1.012061,0.718667,1.1
1,1950,133301043,401935856,106610911,38307544,16324768,696480122,2204231,1860297,2528641,...,0.0004,0.0008,0.0012,0.1945,0.04,0.0869,0.0055,1.011166,0.802432,1.1
2,1955,189347338,474378130,111661338,38177572,22437724,836002102,2496432,1653007,2225241,...,0.0005,0.0006,0.0012,0.1521,0.037,0.1199,0.0084,1.011792,0.834366,1.1
3,1960,220293770,541957872,118268109,41846700,44601144,966967595,2818847,1716903,2300405,...,0.0005,0.0007,0.0012,0.1113,0.0465,0.1488,0.0065,1.013598,0.873137,1.1
4,1965,234437703,614115021,125954494,45086639,55119929,1074713786,3295632,1760345,2348076,...,0.0005,0.0007,0.0014,0.1094,0.0491,0.1446,0.0126,1.006728,0.884908,1.1


### Entendiendo las Columnas del Dataset

El dataset contiene información sobre diferentes grupos religiosos:

| Código | Significado |
|--------|-------------|
| `chrstgen` | Cristianos (total general) |
| `chrstcat` | Católicos |
| `chrstprot` | Protestantes |
| `islmgen` | Musulmanes (total) |
| `budgen` | Budistas |
| `hindgen` | Hindúes |
| `judgen` | Judíos |
| `nonrelig` | Sin religión |
| `pop` | Población mundial total |

## Explorando los Datos

Pandas ofrece varias funciones para explorar rápidamente un dataset.

In [9]:
# Información general del DataFrame
print("Información del dataset:")
print(df.info())

Información del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 77 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   year          14 non-null     int64  
 1   chrstprot     14 non-null     object 
 2   chrstcat      14 non-null     object 
 3   chrstorth     14 non-null     object 
 4   chrstang      14 non-null     object 
 5   chrstothr     14 non-null     object 
 6   chrstgen      14 non-null     object 
 7   judorth       14 non-null     object 
 8   jdcons        14 non-null     object 
 9   judref        14 non-null     object 
 10  judothr       14 non-null     object 
 11  judgen        14 non-null     object 
 12  islmsun       14 non-null     object 
 13  islmshi       14 non-null     object 
 14  islmibd       14 non-null     object 
 15  islmnat       14 non-null     int64  
 16  islmalw       14 non-null     object 
 17  islmahm       14 non-null     object 
 18  islmoth

In [10]:
# Dimensiones del DataFrame
print(f"Filas: {df.shape[0]}")
print(f"Columnas: {df.shape[1]}")

Filas: 14
Columnas: 77


In [11]:
# Ver las últimas filas
print("Últimas 3 filas:")
df.tail(3)

Últimas 3 filas:


Unnamed: 0,year,chrstprot,chrstcat,chrstorth,chrstang,chrstothr,chrstgen,judorth,jdcons,judref,...,taogenpct,jaingenpct,confgenpct,syncgenpct,anmgenpct,nonreligpct,othrgenpct,sumreligpct,ptctotal,version
11,2000,443610594,978633933,264356291,68291261,136031105,1890923184,5433428,1849587,2306902,...,0.0016,0.0007,0.0006,0.0925,0.0274,0.1286,0.0055,1.009635,0.999342,1.1
12,2005,490942837,1013883916,255124896,69037503,161742315,1990731467,6271171,1778851,2342301,...,0.0019,0.0007,0.0006,0.0885,0.0266,0.1156,0.0061,1.00892,0.995949,1.1
13,2010,557830085,1049709823,268783851,71770419,163818774,2111912953,6637406,1899567,2509660,...,0.0014,0.0007,0.0006,0.0865,0.0255,0.1154,0.0039,1.008162,0.999792,1.1


In [12]:
# Lista de todas las columnas
print("Columnas disponibles:")
print(df.columns.tolist()[:20])  # Primeras 20 columnas

Columnas disponibles:
['year', 'chrstprot', 'chrstcat', 'chrstorth', 'chrstang', 'chrstothr', 'chrstgen', 'judorth', 'jdcons', 'judref', 'judothr', 'judgen', 'islmsun', 'islmshi', 'islmibd', 'islmnat', 'islmalw', 'islmahm', 'islmothr', 'islmgen']


## Seleccionando Columnas

Podemos seleccionar columnas específicas para trabajar con datos más manejables.

In [13]:
# Seleccionar una sola columna (retorna una Serie)
años = df["year"]
print("Años en el dataset:")
print(años.values)

Años en el dataset:
[1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010]


In [14]:
# Seleccionar múltiples columnas (retorna un DataFrame)
# Usamos las columnas de porcentajes para mejor visualización
columnas_interes = ["year", "chrstgenpct", "islmgenpct", "budgenpct", "hindgenpct", "nonreligpct"]

df_seleccion = df[columnas_interes]
print("Porcentajes de las principales religiones por año:")
df_seleccion

Porcentajes de las principales religiones por año:


Unnamed: 0,year,chrstgenpct,islmgenpct,budgenpct,hindgenpct,nonreligpct
0,1945,0.4362,0.0813,0.0723,0.0034,0.0955
1,1950,0.3136,0.1325,0.0716,0.1357,0.0869
2,1955,0.3297,0.1357,0.0707,0.1296,0.1199
3,1960,0.3311,0.149,0.0686,0.1237,0.1488
4,1965,0.3277,0.1569,0.0648,0.1213,0.1446
5,1970,0.3219,0.162,0.0626,0.1231,0.1611
6,1975,0.3232,0.165,0.0647,0.1215,0.1716
7,1980,0.3264,0.1517,0.07,0.126,0.173
8,1985,0.3227,0.16,0.0723,0.1289,0.1688
9,1990,0.3191,0.1882,0.0706,0.1242,0.1578


### Renombrando Columnas para Mayor Claridad

In [15]:
# Crear una copia y renombrar columnas
df_religiones = df_seleccion.copy()

df_religiones = df_religiones.rename(columns={
    "year": "Año",
    "chrstgenpct": "Cristianos %",
    "islmgenpct": "Musulmanes %",
    "budgenpct": "Budistas %",
    "hindgenpct": "Hindúes %",
    "nonreligpct": "Sin Religión %"
})

print("Dataset con nombres más claros:")
df_religiones

Dataset con nombres más claros:


Unnamed: 0,Año,Cristianos %,Musulmanes %,Budistas %,Hindúes %,Sin Religión %
0,1945,0.4362,0.0813,0.0723,0.0034,0.0955
1,1950,0.3136,0.1325,0.0716,0.1357,0.0869
2,1955,0.3297,0.1357,0.0707,0.1296,0.1199
3,1960,0.3311,0.149,0.0686,0.1237,0.1488
4,1965,0.3277,0.1569,0.0648,0.1213,0.1446
5,1970,0.3219,0.162,0.0626,0.1231,0.1611
6,1975,0.3232,0.165,0.0647,0.1215,0.1716
7,1980,0.3264,0.1517,0.07,0.126,0.173
8,1985,0.3227,0.16,0.0723,0.1289,0.1688
9,1990,0.3191,0.1882,0.0706,0.1242,0.1578


## Estadísticas Descriptivas

Pandas facilita calcular estadísticas básicas sobre los datos.

In [16]:
# Estadísticas descriptivas
print("Estadísticas del dataset:")
df_religiones.describe()

Estadísticas del dataset:


Unnamed: 0,Año,Cristianos %,Musulmanes %,Budistas %,Hindúes %,Sin Religión %
count,14.0,14.0,14.0,14.0,14.0,14.0
mean,1977.5,0.328264,0.167943,0.069243,0.121757,0.137793
std,20.916501,0.03195,0.040281,0.003703,0.035354,0.028074
min,1945.0,0.3092,0.0813,0.0626,0.0034,0.0869
25%,1961.25,0.313925,0.149675,0.06575,0.12325,0.116675
50%,1977.5,0.3223,0.161,0.07065,0.1266,0.14305
75%,1993.75,0.327375,0.199825,0.072125,0.134175,0.160275
max,2010.0,0.4362,0.2277,0.0737,0.1489,0.173


In [17]:
# Calcular estadísticas específicas
print(f"Porcentaje promedio de cristianos: {df_religiones['Cristianos %'].mean():.2%}")
print(f"Porcentaje máximo de musulmanes: {df_religiones['Musulmanes %'].max():.2%}")
print(f"Porcentaje mínimo sin religión: {df_religiones['Sin Religión %'].min():.2%}")

Porcentaje promedio de cristianos: 32.83%
Porcentaje máximo de musulmanes: 22.77%
Porcentaje mínimo sin religión: 8.69%


## Accediendo a Filas y Celdas Específicas

Pandas ofrece dos métodos principales para acceder a datos:

- **`.loc[]`**: Acceso por etiquetas (nombres de índice)
- **`.iloc[]`**: Acceso por posición numérica

In [18]:
# Acceder a una fila por posición
print("Primera fila (1945):")
print(df_religiones.iloc[0])

Primera fila (1945):
Año               1945.0000
Cristianos %         0.4362
Musulmanes %         0.0813
Budistas %           0.0723
Hindúes %            0.0034
Sin Religión %       0.0955
Name: 0, dtype: float64


In [19]:
# Acceder a un rango de filas
print("Filas del índice 0 al 2 (primeras 3 décadas):")
df_religiones.iloc[0:3]

Filas del índice 0 al 2 (primeras 3 décadas):


Unnamed: 0,Año,Cristianos %,Musulmanes %,Budistas %,Hindúes %,Sin Religión %
0,1945,0.4362,0.0813,0.0723,0.0034,0.0955
1,1950,0.3136,0.1325,0.0716,0.1357,0.0869
2,1955,0.3297,0.1357,0.0707,0.1296,0.1199


In [20]:
# Acceder a una celda específica [fila, columna]
print(f"Porcentaje de cristianos en 1945: {df_religiones.iloc[0, 1]:.2%}")
print(f"Porcentaje de musulmanes en 2010: {df_religiones.iloc[-1, 2]:.2%}")

Porcentaje de cristianos en 1945: 43.62%
Porcentaje de musulmanes en 2010: 22.77%


## Valores Únicos y Conteos

Para explorar datos categóricos, usamos `unique()` y `value_counts()`.

In [21]:
# Valores únicos en la columna Año
print("Años disponibles:")
print(df_religiones["Año"].unique())

Años disponibles:
[1945 1950 1955 1960 1965 1970 1975 1980 1985 1990 1995 2000 2005 2010]


In [22]:
# Cantidad de valores únicos
print(f"Cantidad de años registrados: {df_religiones['Año'].nunique()}")

Cantidad de años registrados: 14


## Ejercicio Práctico: Análisis de Tendencias Religiosas

```{admonition} Ejercicio
:class: hint

Usando el dataset de religiones mundiales:

1. ¿En qué año el porcentaje de personas sin religión fue mayor?
2. ¿Cuál fue el cambio porcentual de cristianos entre 1945 y 2010?
3. ¿Cuál fue el promedio de población musulmana en el período?
```

In [23]:
# Solución Ejercicio 1: Año con mayor porcentaje sin religión
idx_max = df_religiones["Sin Religión %"].idxmax()
año_max_sin_religion = df_religiones.loc[idx_max, "Año"]
porcentaje_max = df_religiones.loc[idx_max, "Sin Religión %"]

print(f"El año con mayor porcentaje sin religión fue {año_max_sin_religion}")
print(f"Con un {porcentaje_max:.2%} de la población mundial")

El año con mayor porcentaje sin religión fue 1980
Con un 17.30% de la población mundial


In [24]:
# Solución Ejercicio 2: Cambio porcentual de cristianos
cristianos_1945 = df_religiones.iloc[0]["Cristianos %"]
cristianos_2010 = df_religiones.iloc[-1]["Cristianos %"]

cambio = cristianos_2010 - cristianos_1945

print(f"Cristianos en 1945: {cristianos_1945:.2%}")
print(f"Cristianos en 2010: {cristianos_2010:.2%}")
print(f"Cambio: {cambio:.2%}")

Cristianos en 1945: 43.62%
Cristianos en 2010: 30.92%
Cambio: -12.70%


In [25]:
# Solución Ejercicio 3: Promedio de musulmanes
promedio_musulmanes = df_religiones["Musulmanes %"].mean()
print(f"Porcentaje promedio de musulmanes (1945-2010): {promedio_musulmanes:.2%}")

Porcentaje promedio de musulmanes (1945-2010): 16.79%


## Resumen del Capítulo

| Concepto | Función/Método | Descripción |
|----------|----------------|-------------|
| Importar Pandas | `import pandas as pd` | Cargar la biblioteca |
| Crear Serie | `pd.Series(datos, index)` | Estructura 1D |
| Crear DataFrame | `pd.DataFrame(diccionario)` | Estructura 2D |
| Leer CSV | `pd.read_csv("archivo.csv")` | Cargar datos externos |
| Ver primeras filas | `df.head(n)` | Primeras n filas |
| Ver últimas filas | `df.tail(n)` | Últimas n filas |
| Información | `df.info()` | Tipos de datos y memoria |
| Dimensiones | `df.shape` | (filas, columnas) |
| Columnas | `df.columns` | Lista de columnas |
| Estadísticas | `df.describe()` | Resumen estadístico |
| Seleccionar columna | `df["columna"]` | Retorna Serie |
| Seleccionar múltiples | `df[["col1", "col2"]]` | Retorna DataFrame |
| Acceso por posición | `df.iloc[fila, col]` | Por índice numérico |
| Acceso por etiqueta | `df.loc[fila, col]` | Por nombre |
| Valores únicos | `df["col"].unique()` | Lista de valores únicos |
| Contar únicos | `df["col"].nunique()` | Cantidad de valores únicos |

## Referencias

```{bibliography}
:filter: docname in docnames
```

- {cite}`maoz2013worldreligion`
- {cite}`pandas2024documentation`
- {cite}`mckinney2022python`