# 02.03 - Módulos y Paquetes

**Autor:** Miguel Angel Vazquez Varela  
**Nivel:** Fundamentos  
**Tiempo estimado:** 30 min

---

## ¿Qué aprenderás?

- Qué es un módulo y cómo importarlo
- Formas de importar: `import`, `from...import`, `as`
- Módulos útiles de la stdlib: `math`, `random`, `datetime`, `os`, `pathlib`
- `collections`: herramientas de datos avanzadas
- Crear tu propio módulo reutilizable

---

## 1. ¿Qué es un módulo?

Un **módulo** es simplemente un archivo `.py` con definiciones (funciones, clases, constantes)  
que puedes reutilizar en otros archivos. Python incluye cientos de módulos en su **stdlib**.

In [1]:
# Forma 1: importar el modulo completo
import math

radio = 50  # metros
area = math.pi * radio ** 2
print(f"Area de cobertura: {area:.2f} m²")
print(f"Diagonal maxima: {math.sqrt(2) * radio:.2f} m")

Area de cobertura: 7853.98 m²
Diagonal maxima: 70.71 m


In [2]:
# Forma 2: importar solo lo que necesitas
from math import pi, sqrt, ceil

capacidad_real = 47.3
print(f"Bicis necesarias (redondeando arriba): {ceil(capacidad_real)}")
print(f"Pi = {pi:.6f}")

Bicis necesarias (redondeando arriba): 48
Pi = 3.141593


In [3]:
# Forma 3: alias con 'as'
import numpy as np          # convencion universal
import pandas as pd         # convencion universal
import datetime as dt       # alias propio

hoy = dt.date.today()
print(f"Hoy: {hoy}")

Hoy: 2026-02-18


---

## 2. `random` — Aleatoriedad controlada

Fundamental para generar datos de prueba.

In [4]:
import random

random.seed(42)  # reproducibilidad

stations = ["Sol", "Atocha", "Cibeles", "Retiro", "Opera"]

# Elegir uno al azar
print("Estacion aleatoria:", random.choice(stations))

# Numero entero en rango
print("Bicis disponibles:", random.randint(1, 30))

# Numero decimal
print("Duracion simulada:", round(random.uniform(5.0, 60.0), 1), "min")

# Muestra sin repeticion
sample = random.sample(stations, k=3)
print("Ruta aleatoria:", " → ".join(sample))

Estacion aleatoria: Sol
Bicis disponibles: 1
Duracion simulada: 45.8 min
Ruta aleatoria: Atocha → Opera → Sol


In [5]:
import pandas as pd
import numpy as np

# Generar dataset de prueba
random.seed(0)
np.random.seed(0)

n = 200
df = pd.DataFrame({
    'trip_id': range(1, n + 1),
    'station': random.choices(stations, k=n),
    'duration_min': np.random.randint(3, 90, size=n),
    'user_type': random.choices(['subscriber', 'casual'], weights=[0.7, 0.3], k=n)
})

print(f"Dataset generado: {df.shape}")
df.head()

Dataset generado: (200, 4)


Unnamed: 0,trip_id,station,duration_min,user_type
0,1,Opera,47,subscriber
1,2,Retiro,50,subscriber
2,3,Cibeles,67,subscriber
3,4,Atocha,70,subscriber
4,5,Cibeles,70,subscriber


---

## 3. `datetime` — Fechas y horas

El módulo `datetime` (stdlib) da control total sobre objetos de fecha/hora.

In [6]:
from datetime import datetime, date, timedelta

# Crear fechas
inicio_servicio = date(2020, 6, 15)
hoy = date.today()

dias_activo = (hoy - inicio_servicio).days
print(f"Dias en servicio: {dias_activo}")

Dias en servicio: 2074


In [7]:
# timedelta: operar con fechas
ahora = datetime.now()
print(f"Ahora: {ahora:%Y-%m-%d %H:%M}")

hace_30_dias = ahora - timedelta(days=30)
print(f"Hace 30 dias: {hace_30_dias:%Y-%m-%d}")

proxima_revision = ahora + timedelta(weeks=4)
print(f"Proxima revision: {proxima_revision:%Y-%m-%d}")

Ahora: 2026-02-18 19:33
Hace 30 dias: 2026-01-19
Proxima revision: 2026-03-18


In [8]:
# Parsear fechas desde strings
raw_dates = ["2024-03-15 08:23", "2024-03-15 17:45", "2024-03-16 09:10"]

parsed = [datetime.strptime(d, "%Y-%m-%d %H:%M") for d in raw_dates]
for p in parsed:
    print(f"{p}  → dia semana: {p.strftime('%A')}, hora: {p.hour}h")

2024-03-15 08:23:00  → dia semana: Friday, hora: 8h
2024-03-15 17:45:00  → dia semana: Friday, hora: 17h
2024-03-16 09:10:00  → dia semana: Saturday, hora: 9h


---

## 4. `pathlib` — Rutas de archivos modernas

`pathlib.Path` es la forma moderna (Python 3.4+) de trabajar con rutas.  
Es multiplataforma y orientada a objetos.

In [9]:
from pathlib import Path

# Ruta del notebook actual
current = Path.cwd()
print(f"Directorio actual: {current}")
print(f"Nombre: {current.name}")
print(f"Padre: {current.parent}")

Directorio actual: c:\TMP\tests\New folder\labs\python\02_functions_and_modules
Nombre: 02_functions_and_modules
Padre: c:\TMP\tests\New folder\labs\python


In [10]:
# Construir rutas de forma limpia (no concatenar strings)
data_dir = current / "data" / "raw"
file_path = data_dir / "trips_2024.csv"

print(f"Ruta destino: {file_path}")
print(f"Extension: {file_path.suffix}")
print(f"Nombre sin extension: {file_path.stem}")
print(f"Existe: {file_path.exists()}")

Ruta destino: c:\TMP\tests\New folder\labs\python\02_functions_and_modules\data\raw\trips_2024.csv
Extension: .csv
Nombre sin extension: trips_2024
Existe: False


In [11]:
# Listar archivos con glob
notebooks_dir = current.parent  # subir un nivel
notebooks = sorted(notebooks_dir.glob("**/*.ipynb"))

print(f"Notebooks encontrados en directorio padre: {len(notebooks)}")
for nb in notebooks[:5]:
    print(f"  {nb.name}")

Notebooks encontrados en directorio padre: 34
  01_01_variables_and_types.ipynb
  01_02_data_structures.ipynb
  02_01_functions_basics.ipynb
  02_02_advanced_functions.ipynb
  02_03_modules_and_packages.ipynb


---

## 5. `collections` — Contenedores especializados

Extiende los tipos built-in con estructuras más expresivas.

In [12]:
from collections import Counter

trip_stations = random.choices(stations, k=500)

# Contar ocurrencias automaticamente
counts = Counter(trip_stations)
print("Viajes por estacion:")
for station, n_trips in counts.most_common():
    bar = '█' * (n_trips // 5)
    print(f"  {station:<10} {n_trips:3d} {bar}")

Viajes por estacion:
  Retiro     119 ███████████████████████
  Sol        108 █████████████████████
  Atocha      99 ███████████████████
  Cibeles     96 ███████████████████
  Opera       78 ███████████████


In [13]:
from collections import defaultdict

# defaultdict evita el KeyError al acceder a claves inexistentes
trips_by_station = defaultdict(list)

for _ in range(20):
    station = random.choice(stations)
    duration = random.randint(5, 60)
    trips_by_station[station].append(duration)

print("Duraciones promedio:")
for st, durs in sorted(trips_by_station.items()):
    avg = sum(durs) / len(durs)
    print(f"  {st}: {avg:.1f} min ({len(durs)} viajes)")

Duraciones promedio:
  Atocha: 34.0 min (5 viajes)
  Cibeles: 23.0 min (2 viajes)
  Opera: 27.2 min (5 viajes)
  Retiro: 39.3 min (3 viajes)
  Sol: 39.4 min (5 viajes)


In [14]:
from collections import namedtuple

# namedtuple: tupla con nombres de campo (inmutable y ligera)
Trip = namedtuple('Trip', ['origin', 'destination', 'duration_min', 'user_type'])

trip1 = Trip('Sol', 'Atocha', 22, 'subscriber')
trip2 = Trip('Retiro', 'Opera', 35, 'casual')

print(f"Viaje 1: {trip1.origin} → {trip1.destination} ({trip1.duration_min} min)")
print(f"Usuario: {trip2.user_type}")
print(f"Como dict: {trip1._asdict()}")

Viaje 1: Sol → Atocha (22 min)
Usuario: casual
Como dict: {'origin': 'Sol', 'destination': 'Atocha', 'duration_min': 22, 'user_type': 'subscriber'}


---

## 6. Crear tu propio módulo

Cualquier archivo `.py` es un módulo importable.  
Vamos a crear uno con funciones de utilidad para análisis de viajes.

In [15]:
# Creamos el modulo trip_utils.py
module_code = '''
"""Utilidades para analisis de datos de bicicletas compartidas."""

def classify_duration(minutes):
    """Clasifica un viaje por duracion."""
    if minutes < 10:
        return 'corto'
    elif minutes <= 30:
        return 'medio'
    return 'largo'

def speed_kmh(distance_km, duration_min):
    """Calcula velocidad en km/h."""
    if duration_min <= 0:
        raise ValueError("La duracion debe ser positiva")
    return distance_km / (duration_min / 60)

def summarize(values):
    """Devuelve estadisticas basicas de una lista numerica."""
    n = len(values)
    return {
        'n': n,
        'mean': sum(values) / n,
        'min': min(values),
        'max': max(values),
    }

STATION_ZONES = {
    'Sol': 'centro',
    'Atocha': 'centro',
    'Retiro': 'este',
    'Opera': 'centro',
    'Cibeles': 'centro',
}
'''

# Escribir el archivo en la misma carpeta que este notebook
module_path = Path("trip_utils.py")
module_path.write_text(module_code, encoding='utf-8')
print(f"Modulo creado: {module_path.resolve()}")

Modulo creado: C:\TMP\tests\New folder\labs\python\02_functions_and_modules\trip_utils.py


In [16]:
# Importar y usar el modulo propio
import importlib, sys

# Nos aseguramos que Python busque en el directorio actual
if '' not in sys.path:
    sys.path.insert(0, '')

import trip_utils
importlib.reload(trip_utils)  # util durante desarrollo en notebooks

# Usar las funciones
durations = [5, 18, 42, 9, 31, 7, 25]

for d in durations:
    print(f"{d} min → {trip_utils.classify_duration(d)}")

5 min → corto
18 min → medio
42 min → largo
9 min → corto
31 min → largo
7 min → corto
25 min → medio


In [17]:
# Aplicar al DataFrame
df['category'] = df['duration_min'].apply(trip_utils.classify_duration)
df['zone'] = df['station'].map(trip_utils.STATION_ZONES)

stats = trip_utils.summarize(df['duration_min'].tolist())
print("Estadisticas globales:")
for k, v in stats.items():
    print(f"  {k}: {v:.1f}" if isinstance(v, float) else f"  {k}: {v}")

print()
print(df[['trip_id', 'station', 'duration_min', 'category', 'zone']].head(8))

Estadisticas globales:
  n: 200
  mean: 46.2
  min: 3
  max: 89

   trip_id  station  duration_min category    zone
0        1    Opera            47    largo  centro
1        2   Retiro            50    largo    este
2        3  Cibeles            67    largo  centro
3        4   Atocha            70    largo  centro
4        5  Cibeles            70    largo  centro
5        6  Cibeles            12    medio  centro
6        7   Retiro            86    largo    este
7        8   Atocha            24    medio  centro


### El bloque `if __name__ == '__main__'`

Permite que un archivo funcione tanto como módulo importable  
como script ejecutable directamente.

In [18]:
# __name__ en un modulo importado es el nombre del modulo
print(f"__name__ de trip_utils: {trip_utils.__name__}")

# __name__ en el script principal (o notebook) es '__main__'
print(f"__name__ aqui: {__name__}")

# Por eso en un .py se usa:
# if __name__ == '__main__':
#     # codigo que solo se ejecuta al lanzar el script directamente

__name__ de trip_utils: trip_utils
__name__ aqui: __main__


---

## Resumen

| Módulo / Herramienta | Uso principal |
|----------------------|---------------|
| `math` | Operaciones matemáticas avanzadas |
| `random` | Generar datos aleatorios / muestras |
| `datetime` | Crear y operar con fechas y horas |
| `pathlib.Path` | Gestión de rutas de archivos multiplataforma |
| `collections.Counter` | Contar frecuencias |
| `collections.defaultdict` | Dicts con valor por defecto |
| `collections.namedtuple` | Tuplas con nombres de campo |
| Módulo propio (`.py`) | Reutilizar código entre proyectos |

---

## Ejercicio

Extiende `trip_utils.py` con una función `peak_hours(df, time_col)` que  
reciba un DataFrame con una columna de timestamps y devuelva las 3 horas  
del día con más viajes.

In [19]:
def peak_hours(df, time_col, top=3):
    """
    Devuelve las horas del dia con mas actividad.
    
    Parameters
    ----------
    df : pd.DataFrame
    time_col : str
        Nombre de la columna con timestamps
    top : int
        Numero de horas pico a devolver
        
    Returns
    -------
    pd.Series
    """
    hours = pd.to_datetime(df[time_col]).dt.hour
    return hours.value_counts().head(top)

# Datos de prueba
import numpy as np
np.random.seed(1)

test_df = pd.DataFrame({
    'timestamp': pd.date_range('2024-01-01', periods=500, freq='30min')
})

print("Horas pico:")
print(peak_hours(test_df, 'timestamp'))

Horas pico:
timestamp
0    22
2    22
3    22
Name: count, dtype: int64


---

**Anterior:** [02.02 - Funciones Avanzadas](./02_02_advanced_functions.ipynb)  
**Siguiente:** [03.01 - NumPy: Arrays Básicos](../03_numpy_essentials/03_01_arrays_basics.ipynb)