# Capítulo 5. Introducción a Pandas: Datas Frames para Datos Económicos

### 5.1 Introducción a la Biblioteca de Pandas

Pandas es una biblioteca esencial en Python para el análisis de datos, especialmente en el ámbito económico, donde se manejan grandes volúmenes de datos tabulares como series temporales, indicadores financieros o estadísticas macroeconómicas. Este capítulo introduce los fundamentos de Pandas, centrándose en sus estructuras principales: Series y DataFrames. Aprenderás a crear, manipular y analizar datos con ejemplos prácticos aplicados a contextos económicos.

#### 5.1.1 ¿Por qué Pandas para Datos Económicos?

En economía, los datos suelen presentarse en formatos tabulares (como hojas de cálculo) con variables como PIB, tasas de interés, precios o desempleo. Pandas ofrece ventajas clave para este tipo de datos:

- Flexibilidad: Permite trabajar con datos de diversas fuentes, como archivos CSV, Excel o bases de datos.
- Eficiencia: Facilita operaciones complejas (filtrado, agregación, unión de datos) en pocas líneas de código.
- Series temporales: Soporta índices temporales, ideales para analizar datos económicos como inflación o crecimiento del PIB.
- Manejo de datos faltantes: Proporciona herramientas para tratar valores nulos, comunes en datasets económicos.

Por ejemplo, un economista puede usar Pandas para analizar el crecimiento del PIB de varios países o calcular promedios móviles de tasas de interés, todo con un código claro y eficiente.


#### 5.1.2 Importación de la Biblioteca de Pandas (import pandas as pd).

Para usar Pandas, primero debemos instalarlo y posteriormente importarlo, para instalarlo se usa el siguiente comando:

`!pip install pandas`

La convención estándar es importar Pandas con el alias "pd" de igual forma que como lo hicimos NumPy

In [None]:
import pandas as pd

### 5.2 Series de Pandas: Vectores Etiquetados

Una Serie en Pandas es una estructura de datos unidimensional similar a una lista o un array, pero con etiquetas (índices) asociadas a cada valor. Esto las hace ideales para representar series de datos económicos, como precios de acciones o tasas de inflación.

#### 5.2.1 Creación de Series desde Listas, NumPy, Arrays y Diccionarios

Se puede crear una Serie de varias formas:
- Desde una lista:

In [None]:
import pandas as pd

lista = [100, 105, 110]

#Representa los precios del bien x en los diferentes meses del año
precios = pd.Series(lista, index = ['Ene','Febr','Mar'])

precios

Unnamed: 0,0
Ene,100
Febr,105
Mar,110


- Desde un array de NumPy:

In [None]:
import pandas as pd
import numpy as np

# Representa tasas de interés anuales
tasas = pd.Series(np.array([2.5,2.7,2.4]), index = ['2022', '2023', '2024'])

tasas

Unnamed: 0,0
2022,2.5
2023,2.7
2024,2.4


- Desde un diccionario:

In [None]:
# Representa tasas de inflación por año
import pandas as pd

inflacion = pd.Series({'2019': 3.2, '2020': 2.8, '2021': 4.1})

inflacion

Unnamed: 0,0
2019,3.2
2020,2.8
2021,4.1


En cada caso, el índice (como 'Ene', '2022' o '2019') actúa como una etiqueta que identifica cada valor, facilitando el análisis.

#### 5.2.2 Indexación y Selección en Series (por etiqueta y posición)

Una de las características más potentes de una Serie de Pandas es su índice explícito, que nos permite acceder a los datos de dos maneras principales: por la etiqueta del índice o por la posición numérica del elemento (empezando desde cero, como en las listas).

A continuación, crearemos una única Serie que usaremos para todos los ejemplos:  

In [None]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Enero', 'Febrero', 'Marzo', 'Abril']
)

print(precios['Enero'])

100


**Ejemplos 1. Selección por Etiqueta con “.loc”**

Este método se utiliza cuando conocemos la etiqueta del índice que queremos consultar, el siguiente código selecciona un solo elemento.  

In [None]:
# Obtener el precio del mes de 'Enero'
precio_enero = precios.loc['Enero']


print(f"Precio en Enero: {precio_enero}")

Precio en Enero: 100


A continuación, seleccionamos múltiples elementos.  

In [None]:
# Obtener los precios de 'Enero' y 'Marzo'
precios_ene_mar = precios.loc[['Enero', 'Marzo']]


print("Precios en Enero y Marzo:", precios_ene_mar, sep="")

Precios en Enero y Marzo:Enero    100
Marzo     90
dtype: int64


**Ejemplos 2. Selección por posición Numérica con “.iloc”**

Este método se utiliza para acceder a los datos como si la Serie fuera una lista normal de Python, usando su posición numérica (que siempre empieza en 0). El siguiente código muestra como seleccionar un solo elemento.    

In [None]:
import pandas as pd


# Obtener el segundo elemento (posición 1) que corresponde a Febrero
precio_febrero = precios.iloc[1]


print(f"Precio en la posición 1 (Febrero): {precio_febrero}")

Precio en la posición 1 (Febrero): 120


También podemos usar índices negativos, igual que en las listas de Python.

In [None]:
# Obtener el último precio de la Serie
ultimo_precio = precios.iloc[-1]


print(f"Último precio de la Serie (Abril): {ultimo_precio}")

Último precio de la Serie (Abril): 150


**Ejemplos 3. Slicing: Selección de Rangos**

También podemos seleccionar un rango de la Serie. Aquí, el comportamiento es ligeramente diferente entre .loc y .iloc. Al usar etiquetas, el rango **incluye tanto el inicio como el final.**

In [None]:
# Seleccionar desde 'Febrero' hasta 'Abril' (ambos incluidos)
rango_precios = precios.loc['Febrero':'Abril']


print("Precios desde Febrero hasta Abril:", rango_precios, sep="")

Precios desde Febrero hasta Abril:Febrero    120
Marzo       90
Abril      150
dtype: int64


También podemos usar posiciones, en el siguiente ejemplo, el rango incluye el inicio pero excluye el final.  

In [None]:
# Seleccionar los elementos desde la posición 1 hasta la 3
rango_posicion = precios.iloc[1:4]


print("Precios de la posición 1 a la 3:", rango_posicion, sep="")


Precios de la posición 1 a la 3:Febrero    120
Marzo       90
Abril      150
dtype: int64


Es importante mencionar que se puede acceder a los datos de una Serie usando directamente los corchetes [ ], sin .loc o .iloc. Por ejemplo, para hacer una selección por etiqueta, a menudo funciona igual que “.iloc”.

In [None]:
# Esto funciona perfectamente porque el índice no es numérico
print(precios['Enero']) # Resultado: 100

100


Para hacer slicing, se comporta como .iloc (por posición)

In [None]:
# Esto selecciona desde la posición 0 hasta la 1 (el 2 es exclusivo)
print(precios[0:2])

Enero      100
Febrero    120
dtype: int64


#### 5.2.2 Operaciones Básicas con Series(aritméticas, comparativas).

Al igual que los arrays de NumPy, las Series de Pandas están diseñadas para realizar operaciones de forma vectorizada. Esto significa que podemos aplicar operaciones aritméticas y de comparación directamente sobre toda la Serie, y Pandas se encargará de realizar el cálculo elemento a elemento.


Vamos a utilizar la siguiente Serie para nuestros ejemplos:

In [None]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Enero', 'Febrero', 'Marzo', 'Abril']

)

precios.head()

Unnamed: 0,0
Enero,100
Febrero,120
Marzo,90
Abril,150


**Ejemplos 1. Operaciones Aritméticas**

Podemos aplicar operadores aritméticos (+, -, *, /) a una Serie, ya sea con un solo número (un escalar) o con otra Serie.  

In [None]:
#Aumentar todos los precios en un 10%
precios_aumentados = precios * 1.1


print("Precios originales:\n", precios, sep="")
print("Precios aumentados en un 10%:", precios_aumentados, sep="\n")

Precios originales:
Enero      100
Febrero    120
Marzo       90
Abril      150
dtype: int64
Precios aumentados en un 10%:
Enero      110.0
Febrero    132.0
Marzo       99.0
Abril      165.0
dtype: float64


Podemos realizar operaciones entre dos Series, en este caso, Pandas primero alinea los datos por su índice y luego realiza la operación elemento por elemento para los índices que coinciden.

In [None]:
import pandas as pd

costos = pd.Series(
    [80, 95, 70, 110],
    index=['Enero', 'Febrero', 'Marzo', 'Abril'] )


# Calcular el margen de ganancia para cada mes
margen_ganancia = precios - costos


print("Margen de ganancia mensual:", margen_ganancia, sep="\n")

Margen de ganancia mensual:
Enero      20
Febrero    25
Marzo      20
Abril      40
dtype: int64


**Ejemplos 2. Operaciones de Comparación y Filtrado Booleano**

Las operaciones de comparación (>, <, ==, etc.) también son vectorizadas. Su resultado es uno de los conceptos más importantes en Pandas: una **Serie booleana**. Al aplicar una condición a una Serie, el resultado no es un único valor, sino una nueva Serie donde cada elemento es True o False, indicando si el elemento original cumplió o no con la condición.

In [None]:
# Identificar los meses con precios mayores a 100
precios_altos_mask = precios > 100


print("Precios mayores a 100:", precios_altos_mask, sep="\n")

Precios mayores a 100:
Enero      False
Febrero     True
Marzo      False
Abril       True
dtype: bool


También podemos usar la Serie booleana para seleccionar datos de la Serie original.

In [None]:
#Usamos la máscara para filtrar y obtener solo los precios
# que cumplen la condición

print("Precios que son mayores a 100:")
print(precios[precios_altos_mask])

Precios que son mayores a 100:
Febrero    120
Abril      150
dtype: int64


### 5.3 DataFrames de Pandas: La Estructura de Datos Tabular

Un DataFrame es una estructura bidimensional en Pandas, similar a una tabla o una hoja de cálculo, con filas y columnas etiquetadas. Es ideal para representar datasets económicos, como registros de ventas, indicadores macroeconómicos o balances financieros.

#### 5.3.1 Creación de DataFrames desde diferentes fuentes (diccionarios de listas o Series, listas de diccionarios, arrays de NumPY).

Pandas es muy flexible y nos permite crear DataFrames a partir de casi cualquier estructura de datos de Python. A continuación, vemos los métodos más comunes.

**1. Desde un Diccionario de Listas**

Este es el método más común cuando se construye un dataset desde cero. Cada llave del diccionario se convierte en un nombre de columna, y cada lista asociada se convierte en los valores de esa columna.

In [None]:
import pandas as pd


# Cada clave es una columna, cada lista son sus valores
datos = { 'País': ['EEUU', 'China', 'India'], 'PIB_2023': [25400, 18300, 3400], 'Crecimiento': [2.1, 5.2, 6.8]}

df = pd.DataFrame(datos)
df

Unnamed: 0,País,PIB_2023,Crecimiento
0,EEUU,25400,2.1
1,China,18300,5.2
2,India,3400,6.8


**2. Desde una Lista de Diccionarios**

En este caso, cada diccionario de la lista representa una fila o una observación completa. Pandas infiere los nombres de las columnas a partir de las claves de los diccionarios. Esta estructura es muy común cuando se trabaja con datos provenientes de “APIs web” o bases de datos “NoSQL” (como JSON), donde cada registro es un objeto.

In [None]:
# Cada diccionario es una fila
datos = [
    {'País': 'EEUU', 'PIB_2023': 25400, 'Crecimiento': 2.1},
    {'País': 'China', 'PIB_2023': 18300, 'Crecimiento':5.2},
    {'País': 'India', 'PIB_2023': 3400, 'Crecimiento': 6.8}

]

df = pd.DataFrame(datos)
df

Unnamed: 0,País,PIB_2023,Crecimiento
0,EEUU,25400,2.1
1,China,18300,5.2
2,India,3400,6.8


**3. Desde un Array de NumPy**

Cuando los datos provienen de cálculos numéricos, es común tenerlos en un array de NumPy. Como los arrays no tienen etiquetas de filas o columnas, debemos proporcionarlas explícitamente al crear el DataFrame.  

In [None]:
import numpy as np
import pandas as pd

# Ahora hay 3 filas de datos (una por país)
array_datos = np.array([
    [25400, 2.1],
    [18300, 5.2],
    [3400, 6.1]
])

# Creamos el DataFrame con nombres de columnas e índices
df = pd.DataFrame(array_datos, columns=['PIB_2023', 'Crecimiento'], index=['EEUU', 'China', 'India'])

df


Unnamed: 0,PIB_2023,Crecimiento
EEUU,25400.0,2.1
China,18300.0,5.2
India,3400.0,6.1


#### 5.3.2 Inspección básica de DataFrames (.head(), .tail(), .describe()).
Cuando nos enfrentamos a un nuevo conjunto de datos, ya sea cargado desde un archivo o recién creado, el primer paso es siempre realizar una inspección básica. El objetivo es obtener un "reconocimiento" rápido para entender su estructura, tamaño, tipos de datos y características estadísticas principales. Pandas ofrece un conjunto de métodos esenciales para esta tarea.  

In [None]:
import pandas as pd
import numpy as np



# Generar un DataFrame con datos simulados
np.random.seed(42)  # Para reproducibilidad


# Crear 100 registros simulados
n = 100


# Generar el DataFrame
datos = {

    'ID': range(1, n+1),
    'Producto': np.random.choice(['A', 'B', 'C', 'D'], n),
    'Precio': np.random.randint(50, 300, n),
    'Cantidad': np.random.randint(1, 100, n),
    'Fecha': pd.date_range(start='2024-01-01', periods=n, freq='D')
}

df = pd.DataFrame(datos)
df.head()

Unnamed: 0,ID,Producto,Precio,Cantidad,Fecha
0,1,C,240,52,2024-01-01
1,2,D,195,96,2024-01-02
2,3,A,267,4,2024-01-03
3,4,C,93,94,2024-01-04
4,5,C,211,23,2024-01-05


Estos son los primeros comandos para tener una idea visual del DataFrame.

  - .head(): Muestra las primeras 5 filas del DataFrame por defecto.

  - .tail(): Muestra las últimas 5 filas.

In [None]:
# Muestra las primeras 5 filas
print("--- Primeras 5 filas con .head() ---")
print(df.head())



# Muestra las últimas 3 filas (podemos pasar un número como argumento
print("\n--- Últimas 3 filas con .tail(3) ---")
print(df.tail(3))

--- Primeras 5 filas con .head() ---
   ID Producto  Precio  Cantidad      Fecha
0   1        C     240        52 2024-01-01
1   2        D     195        96 2024-01-02
2   3        A     267         4 2024-01-03
3   4        C      93        94 2024-01-04
4   5        C     211        23 2024-01-05

--- Últimas 3 filas con .tail(3) ---
     ID Producto  Precio  Cantidad      Fecha
97   98        D     112        93 2024-04-07
98   99        B     145         3 2024-04-08
99  100        A     280        20 2024-04-09


**Resumen Técnico de la Estructura: .info()**

Este método es un potente diagnóstico que nos da una radiografía completa de la estructura del DataFrame. No muestra los datos, sino información sobre los datos.

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   ID        100 non-null    int64         
 1   Producto  100 non-null    object        
 2   Precio    100 non-null    int64         
 3   Cantidad  100 non-null    int64         
 4   Fecha     100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 4.0+ KB


**Resumen Estadístico ( .describe())**

Este método calcula un resumen de las principales estadísticas descriptivas, pero únicamente para las columnas numéricas (int64 y float64).

In [None]:
df.describe()

Unnamed: 0,ID,Precio,Cantidad,Fecha
count,100.0,100.0,100.0,100
mean,50.5,180.15,50.94,2024-02-19 12:00:00
min,1.0,50.0,1.0,2024-01-01 00:00:00
25%,25.75,108.75,27.75,2024-01-25 18:00:00
50%,50.5,185.0,54.5,2024-02-19 12:00:00
75%,75.25,255.0,73.5,2024-03-15 06:00:00
max,100.0,299.0,98.0,2024-04-09 00:00:00
std,29.011492,77.833333,29.840255,


#### 5.3.3 Selección y Filtrado de Datos en DataFrames

Una vez que tenemos un DataFrame, la tarea más común es seleccionar subconjuntos de datos para nuestro análisis: a veces queremos una columna entera, otras veces un grupo de filas, o incluso un valor específico en la intersección de una fila y una columna. Al igual que con las Series de Pandas, la práctica recomendada es utilizar “.loc” y “.iloc”, sin embargo, mostraremos también ejemplos sin el uso de estas dos funciones.  

A continuación, generaremos un DataFrame para todos nuestros ejemplos de selección. Es importante mencionar que, en el siguiente código, se genera un índice personalizado con IDs de empleado.

In [None]:
import pandas as pd
import numpy as np


# Creación del DataFrame de Ejemplo
n_empleados = 20
np.random.seed(42) # Para reproducibilidad


# Generar los IDs de los empleados
ids = [f'EMP{i:03d}' for i in range(1, n_empleados + 1)]
datos = {
    'Nombre': [f'Empleado_{i:02d}' for i in range(1, n_empleados + 1)],
    'Departamento': np.random.choice(['TI', 'Ventas', 'Marketing', 'RRHH'], n_empleados),
    'Salario': np.random.randint(30000, 80000, n_empleados),
    'Antigüedad': np.random.randint(1, 15, n_empleados)
}

df_empleados = pd.DataFrame(datos, index=ids)

**Selección de Columnas**

La forma más común y directa es usar corchetes con el nombre de la columna para seleccionar columnas, en el siguiente ejemplo, seleccionamos una sola columna.

In [None]:
# Seleccionar la columna 'Salario'
salarios_series = df_empleados['Salario']

print(type(salarios_series))
print(salarios_series.head())

<class 'pandas.core.series.Series'>
EMP001    31685
EMP002    30769
EMP003    32433
EMP004    35311
EMP005    67819
Name: Salario, dtype: int64


Para seleccionar varias columnas, pasamos una lista de nombres de columnas dentro de los corchetes.

In [None]:
# Seleccionar las columnas 'Nombre' y 'Salario'
subset = df_empleados[['Nombre', 'Salario']]

subset.head()

Unnamed: 0,Nombre,Salario
EMP001,Empleado_01,31685
EMP002,Empleado_02,30769
EMP003,Empleado_03,32433
EMP004,Empleado_04,35311
EMP005,Empleado_05,67819


**Selección de Filas**

Aquí el uso de ”.loc” e “.iloc” se vuelve fundamental, el siguiente código muestra la selección por etiqueta con “.loc”.  

In [None]:
# Seleccionar una sola fila por la etiqueta de su índice
empleado_5 = df_empleados.loc['EMP005']
print("--- Fila del Empleado 5 ---\n", empleado_5, sep="")

# Seleccionar un rango de filas por sus etiquetas (slicing)
# Nota: Con .loc, el slicing INCLUYE el final del rango.
rango_empleados = df_empleados.loc['EMP003':'EMP006']
print("\n--- Rango de Empleados ---\n", rango_empleados, sep="")

--- Fila del Empleado 5 ---
Nombre          Empleado_05
Departamento      Marketing
Salario               67819
Antigüedad                5
Name: EMP005, dtype: object

--- Rango de Empleados ---
             Nombre Departamento  Salario  Antigüedad
EMP003  Empleado_03           TI    32433           9
EMP004  Empleado_04    Marketing    35311           3
EMP005  Empleado_05    Marketing    67819           5
EMP006  Empleado_06         RRHH    69188           3


A continuación, realizamos una selección por posición numérica con “.iloc”.

In [None]:
# Seleccionar la primera fila (posición 0)
primer_empleado = df_empleados.iloc[0]
print("--- Primer Empleado (Posición 0) ---\n", primer_empleado, sep="")


# Seleccionar las primeras 5 filas (desde la posición 0 hasta la 4)
# Nota: Con .iloc, el slicing EXCLUYE el final del rango.
primeros_cinco = df_empleados.iloc[0:5]
print("\n--- Primeros 5 Empleados ---\n", primeros_cinco, sep="")

--- Primer Empleado (Posición 0) ---
Nombre          Empleado_01
Departamento      Marketing
Salario               31685
Antigüedad                7
Name: EMP001, dtype: object

--- Primeros 5 Empleados ---
             Nombre Departamento  Salario  Antigüedad
EMP001  Empleado_01    Marketing    31685           7
EMP002  Empleado_02         RRHH    30769           4
EMP003  Empleado_03           TI    32433           9
EMP004  Empleado_04    Marketing    35311           3
EMP005  Empleado_05    Marketing    67819           5


**Selección Simultánea de Filas y Columnas**

El verdadero poder de “.loc” e “.iloc” es su capacidad para seleccionar filas y columnas a la vez, usando el formato df.loc[filas, columnas]. A continuación, seleccionamos un valor único.

In [None]:
# Obtener el Departamento del empleado 'EMP010'
depto_emp10 = df_empleados.loc['EMP010', 'Departamento']

print(f"\nEl departamento del empleado EMP010 es: {depto_emp10}")


El departamento del empleado EMP010 es: Ventas


También podemos seleccionar una parte del DataFrame.  

In [None]:
# Para los empleados de EMP005 a EMP007, queremos ver
# solo su Salario y Antigüedad
slice_df = df_empleados.loc['EMP005':'EMP007', ['Salario', 'Antigüedad']]

print("Slice específico del DataFrame", slice_df, sep="\n")

Slice específico del DataFrame
        Salario  Antigüedad
EMP005    67819           5
EMP006    69188           3
EMP007    47568           7


##5.4 Importación y exportación de archivos  

Una de las tareas más comunes al trabajar con datos es importar archivos externos para su análisis. En Python, podemos trabajar con distintos formatos (CSV, TXT, XSLX, TSV, JSON, etc..), sin embargo, los archivos CSV (Comma-Separated Values) son uno de los formatos más populares debido a su simplicidad y compatibilidad con hojas de cálculo como Excel y Google Sheets.

**5.4.1 Importación de archivos CSV con Python nativo**

Python incluye una biblioteca estándar llamada “csv” que permite trabajar con archivos delimitados por comas sin necesidad de instalar librerías externas. Esta es una forma básica de leer archivos CSV, útil para casos simples donde no se requiere manipulación compleja de los datos.

In [None]:
import os
print(os.getcwd())

/content


Una vez que tenemos un archivo de datos (.csv) en el directorio de nuestro sistema, el primer paso es cargarlo al entorno de Python para poder analizarlo. Aunque librerías como Pandas ofrecen formas muy directas de hacer esto (como veremos más adelante), es útil entender el método fundamental que utiliza el módulo “csv”, el cual viene incorporado por defecto en Python. Este enfoque nos da un mayor control sobre el proceso de lectura, línea por línea.

In [None]:
import csv



# Definimos la ruta donde se encuentra nuestro archivo.

# Es buena práctica terminar la ruta con un "/"

path_archivos = '/Documentos/proyecto1/'



# Usamos 'with open' para abrir el archivo de forma segura

with open(path_archivos + 'step14.csv', mode = 'r', newline='', encoding='utf-8') as f:



    # Creamos un objeto "lector" que sabe cómo interpretar un CSV

    lector = csv.reader(f)

    for fila in lector:

        print(fila)

FileNotFoundError: [Errno 2] No such file or directory: '/Documentos/proyecto1/step14.csv'

**5.4.2 Importación y exportación de archivos con Pandas**

Para importar archivos con Pandas, hacemos uso de la función “read_csv()”, que permite importar archivos CSV de manera rápida, sencilla y eficiente.

In [None]:
import pandas as pd



path_archivos = '/Documentos/proyecto1/' # colocar el “path” correspondiente



# Carga el archivo CSV como un DataFrame

df = pd.read_csv(path_archivos + 'step14.csv')

df.head()

FileNotFoundError: [Errno 2] No such file or directory: '/Documentos/proyecto1/step14.csv'