# Capítulo 5. Introducción a Pandas: Datas Frames para Datos Económicos

### 5.1 Introducción a la Biblioteca de Pandas

Pandas es una biblioteca esencial en Python para el análisis de datos, especialmente en el ámbito económico, donde se manejan grandes volúmenes de datos tabulares como series temporales, indicadores financieros o estadísticas macroeconómicas. Este capítulo introduce los fundamentos de Pandas, centrándose en sus estructuras principales: Series y DataFrames. Aprenderás a crear, manipular y analizar datos con ejemplos prácticos aplicados a contextos económicos.

#### 5.1.1 ¿Por qué Pandas para Datos Económicos?

En economía, los datos suelen presentarse en formatos tabulares (como hojas de cálculo) con variables como PIB, tasas de interés, precios o desempleo. Pandas ofrece ventajas clave para este tipo de datos:

- Flexibilidad: Permite trabajar con datos de diversas fuentes, como archivos CSV, Excel o bases de datos.
- Eficiencia: Facilita operaciones complejas (filtrado, agregación, unión de datos) en pocas líneas de código.
- Series temporales: Soporta índices temporales, ideales para analizar datos económicos como inflación o crecimiento del PIB.
- Manejo de datos faltantes: Proporciona herramientas para tratar valores nulos, comunes en datasets económicos.
-
Por ejemplo, un economista puede usar Pandas para analizar el crecimiento del PIB de varios países o calcular promedios móviles de tasas de interés, todo con un código claro y eficiente.


#### 5.1.2 Importación de la Biblioteca de Pandas (import pandas as pd).

Para usar Pandas, primero debemos instalarlo y posteriormente importarlo, para instalarlo se usa el siguiente comando:

`pip install pandas`

La convención estándar es importar Pandas con el alias "pd" de igual forma que como lo hicimos NumPy

In [None]:
import pandas as pd

### 5.2 Series de Pandas: Vectores Etiquetados

Una Serie en Pandas es una estructura de datos unidimensional similar a una lista o un array, pero con etiquetas (índices) asociadas a cada valor. Esto las hace ideales para representar series de datos económicos, como precios de acciones o tasas de inflación.

#### 5.2.1 Creación de Series desde Listas, NumPy, Arrays y Diccionarios

Se puede crear una Serie de varias formas:
- Desde una lista:

In [27]:
import pandas as pd

lista = [100, 105, 110]

#Representa los precios del bien x en los diferentes meses del año
precios = pd.Series(lista, index = ['Ene','Febr','Mar'])

precios

Unnamed: 0,0
Ene,100
Febr,105
Mar,110


- Desde un array de NumPy:

In [28]:
import pandas as pd
import numpy as np

# Representa tasas de interés anuales
tasas = pd.Series(np.array([2.5,2.7,2.4]), index = ['2022', '2023', '2024'])

tasas

Unnamed: 0,0
2022,2.5
2023,2.7
2024,2.4


- Desde un diccionario:

In [None]:
import pandas as pd

inflacion = pd.Series({'2019': 3.2, '2020': 2.8, '2021': 4.1})

inflacion

2019    3.2
2020    2.8
2021    4.1
dtype: float64

En cada caso, el índice (como 'Ene', '2022' o '2019') actúa como una etiqueta que identifica cada valor, facilitando el análisis.

#### 5.2.2 Indexación y Selección en Series (por etiqueta y posición)

Al igual que con las listas y arrays, se puede acceder a los elementos de una Serie usando su índice (etiqueta) o posición numérica

- Por etiqueta:

In [2]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Enero', 'Febrero', 'Marzo', 'Abril']
)

print(precios['Enero'])

100


- Por posición (usando .iloc):

In [3]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Enero', 'Febrero', 'Marzo', 'Abril']
)

print(precios.iloc[1])

120


- También puedes seleccionar múltiples elementos:

In [5]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Ene', 'Feb', 'Mar', 'Abr']
)

print(precios[['Ene','Mar']])

Ene    100
Mar     90
dtype: int64


#### 5.2.3 Operaciones Básicas con Series(aritméticas, comparativas).

Las series permiten realizar operaciones aritméticas y comparativas directamente:

- Aritméticas:

In [7]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Ene', 'Feb', 'Mar', 'Abr']
)

precios_aumentados = precios * 1.1 # Aumenta los precios en un 10%
print(precios_aumentados)

Ene    110.0
Feb    132.0
Mar     99.0
Abr    165.0
dtype: float64


- Comparativas

In [8]:
import pandas as pd

precios = pd.Series(
    [100, 120, 90, 150],
    index=['Ene', 'Feb', 'Mar', 'Abr']
)

altos_precios = precios > 103 # Identifica meses con precios mayores a 103
print(altos_precios)

Ene    False
Feb     True
Mar    False
Abr     True
dtype: bool


### 5.3 DataFrames de Pandas: La Estructura de Datos Tabular

Un DataFrame es una estructura bidimensional en Pandas, similar a una tabla o una hoja de cálculo, con filas y columnas etiquetadas. Es ideal para representar datasets económicos, como registros de ventas, indicadores macroeconómicos o balances financieros.

#### 5.3.1 Creación de DataFrames desde diferentes fuentes (diccionarios de listas o Series, listas de diccionarios, arrays de NumPY).

Se puede crar un DataFrame desde:

- Diccionario de listas o Series:

In [9]:
datos = {
    'País': ['EEUU','China','India'],
    'PIB_2023':[25400, 18300, 3400], #En billones de USD
    'Crecimiento':[2.1,5.2,6.8] # Tasa de crecimiento
}

df = pd.DataFrame(datos)
df

Unnamed: 0,País,PIB_2023,Crecimiento
0,EEUU,25400,2.1
1,China,18300,5.2
2,India,3400,6.8


- Lista de diciconarios:

In [10]:
datos = [
    {'País':'EEUU', 'PIB_2023':25400, 'Crecimiento':2.1},
    {'País':'China', 'PIB_2023':18300, 'Crecimiento':5.2},
    {'País':'India', 'PIB_2023':3400, 'Crecimiento':6.8}
]

df = pd.DataFrame(datos)

df

Unnamed: 0,País,PIB_2023,Crecimiento
0,EEUU,25400,2.1
1,China,18300,5.2
2,India,3400,6.8


- Array de NumPy:

In [11]:
import numpy as np
import pandas as pd

array = np.array([[245400, 2.1], [18300, 5.2], [3400, 6.8]])
df= pd.DataFrame(array, columns = ['PIB_2023','Crecimiento'], index= ['EEUU','China','India'])

df

Unnamed: 0,PIB_2023,Crecimiento
EEUU,245400.0,2.1
China,18300.0,5.2
India,3400.0,6.8


#### 5.3.2 Inspección básica de DataFrames (.head(), .tail(), .describe()).

Pandas ofrece métodos para explorar rápidamente un DataFrame:

- head(): Muestra las primeras n filas (por defecto, 5)

In [19]:
import pandas as pd
import numpy as np

# Generar un DataFrame más grande con datos simulados
np.random.seed(42)  # Para reproducibilidad

# Crear 100 registros simulados
n = 100
datos = {
    'ID': range(1, n+1),
    'Producto': np.random.choice(['A', 'B', 'C', 'D'], n),
    'Precio': np.random.randint(50, 300, n),
    'Cantidad': np.random.randint(1, 100, n),
    'Fecha': pd.date_range(start='2024-01-01', periods=n, freq='D')
}

df = pd.DataFrame(datos)
df.head()

Unnamed: 0,ID,Producto,Precio,Cantidad,Fecha
0,1,C,240,52,2024-01-01
1,2,D,195,96,2024-01-02
2,3,A,267,4,2024-01-03
3,4,C,93,94,2024-01-04
4,5,C,211,23,2024-01-05


- tail(): Muestra las las últimas n filas (por defecto, 5)

In [20]:
import pandas as pd
import numpy as np

# Generar un DataFrame más grande con datos simulados
np.random.seed(42)  # Para reproducibilidad

# Crear 100 registros simulados
n = 100
datos = {
    'ID': range(1, n+1),
    'Producto': np.random.choice(['A', 'B', 'C', 'D'], n),
    'Precio': np.random.randint(50, 300, n),
    'Cantidad': np.random.randint(1, 100, n),
    'Fecha': pd.date_range(start='2024-01-01', periods=n, freq='D')
}

df = pd.DataFrame(datos)
df.tail()

Unnamed: 0,ID,Producto,Precio,Cantidad,Fecha
95,96,B,254,70,2024-04-05
96,97,B,228,80,2024-04-06
97,98,D,112,93,2024-04-07
98,99,B,145,3,2024-04-08
99,100,A,280,20,2024-04-09


- info():

In [21]:
import pandas as pd
import numpy as np

# Generar un DataFrame más grande con datos simulados
np.random.seed(42)  # Para reproducibilidad

# Crear 100 registros simulados
n = 100
datos = {
    'ID': range(1, n+1),
    'Producto': np.random.choice(['A', 'B', 'C', 'D'], n),
    'Precio': np.random.randint(50, 300, n),
    'Cantidad': np.random.randint(1, 100, n),
    'Fecha': pd.date_range(start='2024-01-01', periods=n, freq='D')
}

df = pd.DataFrame(datos)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   ID        100 non-null    int64         
 1   Producto  100 non-null    object        
 2   Precio    100 non-null    int64         
 3   Cantidad  100 non-null    int64         
 4   Fecha     100 non-null    datetime64[ns]
dtypes: datetime64[ns](1), int64(3), object(1)
memory usage: 4.0+ KB


- describe ()

In [22]:
import pandas as pd
import numpy as np

# Generar un DataFrame más grande con datos simulados
np.random.seed(42)  # Para reproducibilidad

# Crear 100 registros simulados
n = 100
datos = {
    'ID': range(1, n+1),
    'Producto': np.random.choice(['A', 'B', 'C', 'D'], n),
    'Precio': np.random.randint(50, 300, n),
    'Cantidad': np.random.randint(1, 100, n),
    'Fecha': pd.date_range(start='2024-01-01', periods=n, freq='D')
}

df = pd.DataFrame(datos)
df.describe()


Unnamed: 0,ID,Precio,Cantidad,Fecha
count,100.0,100.0,100.0,100
mean,50.5,180.15,50.94,2024-02-19 12:00:00
min,1.0,50.0,1.0,2024-01-01 00:00:00
25%,25.75,108.75,27.75,2024-01-25 18:00:00
50%,50.5,185.0,54.5,2024-02-19 12:00:00
75%,75.25,255.0,73.5,2024-03-15 06:00:00
max,100.0,299.0,98.0,2024-04-09 00:00:00
std,29.011492,77.833333,29.840255,


#### 5.3.3 Selección de Columnas

Se pueden seleccionar una o más columnas por su etiqueta:

- Una columna (devuelve una Serie):

In [25]:
import pandas as pd

# Crear un DataFrame de ejemplo
datos = {
    'Producto': ['A', 'B', 'C', 'D', 'E'],
    'Precio': [100, 150, 200, 120, 180],
    'Cantidad': [30, 45, 10, 60, 15]
}

df = pd.DataFrame(datos)
df['Precio']

Unnamed: 0,Precio
0,100
1,150
2,200
3,120
4,180


- Múltiples columnas (devuelve un DataFrame):

In [26]:
import pandas as pd

# Crear un DataFrame de ejemplo
datos = {
    'Producto': ['A', 'B', 'C', 'D', 'E'],
    'Precio': [100, 150, 200, 120, 180],
    'Cantidad': [30, 45, 10, 60, 15]
}

df = pd.DataFrame(datos)
df[['Producto', 'Cantidad']]

Unnamed: 0,Producto,Cantidad
0,A,30
1,B,45
2,C,10
3,D,60
4,E,15


#### 5.3.4 Indexación y selección de flias (.loc[], iloc[]).

Pandas permite seleccionar filas usando .loc[] (por etiquetas) y .iloc[] (por posición):
- Usando .loc[] (selección por etiqueta del índice):


In [55]:
import pandas as pd
import numpy as np

# Número de empleados
n_empleados = 20

# Generar datos
nombres = [f'Empleado_{i:02d}' for i in range(1, n_empleados + 1)]
departamentos = np.random.choice(['TI', 'Ventas', 'Marketing', 'RRHH', 'Finanzas'], size=n_empleados)
salarios = np.random.randint(30000, 80000, size=n_empleados)
antiguedad = np.random.randint(1, 21, size=n_empleados)
desempeno = np.round(np.random.uniform(1.0, 5.0, size=n_empleados), 2)  # Evaluación de desempeño

# Crear índice tipo ID
ids = [f'EMP{i:03d}' for i in range(1, n_empleados + 1)]

# Crear DataFrame
df = pd.DataFrame({
    'Nombre': nombres,
    'Departamento': departamentos,
    'Salario': salarios,
    'Antigüedad (años)': antiguedad,
    'Desempeño': desempeno
}, index=ids)

df.head()

Unnamed: 0,Nombre,Departamento,Salario,Antigüedad (años),Desempeño
EMP001,Empleado_01,Marketing,47047,17,3.05
EMP002,Empleado_02,Marketing,34309,6,2.85
EMP003,Empleado_03,Marketing,42133,6,3.65
EMP004,Empleado_04,RRHH,70893,7,2.87
EMP005,Empleado_05,Finanzas,46859,10,4.49


In [58]:
df.loc['EMP010':'EMP015']

Unnamed: 0,Nombre,Departamento,Salario,Antigüedad (años),Desempeño
EMP010,Empleado_10,Finanzas,40464,18,3.96
EMP011,Empleado_11,Marketing,54684,13,1.54
EMP012,Empleado_12,RRHH,70499,6,3.37
EMP013,Empleado_13,Marketing,65184,5,4.13
EMP014,Empleado_14,Ventas,32420,1,4.01
EMP015,Empleado_15,Marketing,52994,10,1.84


- Usando .iloc[] (selección por posición): índice numérico

In [59]:
import pandas as pd
import numpy as np

# Número de empleados
n_empleados = 20

# Generar datos
nombres = [f'Empleado_{i:02d}' for i in range(1, n_empleados + 1)]
departamentos = np.random.choice(['TI', 'Ventas', 'Marketing', 'RRHH', 'Finanzas'], size=n_empleados)
salarios = np.random.randint(30000, 80000, size=n_empleados)
antiguedad = np.random.randint(1, 21, size=n_empleados)
desempeno = np.round(np.random.uniform(1.0, 5.0, size=n_empleados), 2)  # Evaluación de desempeño

# Crear DataFrame
df = pd.DataFrame({
    'Nombre': nombres,
    'Departamento': departamentos,
    'Salario': salarios,
    'Antigüedad (años)': antiguedad,
    'Desempeño': desempeno
})

df.head()

Unnamed: 0,Nombre,Departamento,Salario,Antigüedad (años),Desempeño
0,Empleado_01,Marketing,34571,19,2.14
1,Empleado_02,Marketing,48607,1,4.12
2,Empleado_03,Marketing,64549,20,3.31
3,Empleado_04,RRHH,42086,9,4.29
4,Empleado_05,TI,32584,12,2.39


In [63]:
df.iloc[[0]] # Selecciona la primera fila

Unnamed: 0,Nombre,Departamento,Salario,Antigüedad (años),Desempeño
0,Empleado_01,Marketing,34571,19,2.14


- También se pueden combinar filas y columnas:

In [67]:
df.loc[0, 'Departamento']  # Selecciona un valor específico

'Marketing'