# Fundamentos de Python — En Profundidad

<a href="https://colab.research.google.com/github/sonder-art/fdd_p26/blob/main/clase/09_python/code/02_fundamentos.ipynb" target="_blank" rel="noopener noreferrer"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"></a>

Este notebook cubre los fundamentos de Python con **profundidad técnica**. No solo *qué* hace el código, sino *qué está pasando por dentro*: memoria, referencias, el intérprete, y patrones eficientes.

Ya tomaste un curso introductorio de Python. Aquí vamos a entender **por qué** las cosas funcionan como funcionan.

---

## Cómo usar este notebook (sin sufrir)

- **Ejecútalo de arriba hacia abajo**. Si algo se comporta raro: `Kernel → Restart` y luego `Run all`.
- **Antes de correr una celda**, intenta **predecir** el output. (Ese “micro-esfuerzo” acelera el aprendizaje.)
- Si una sección se siente muy técnica, salta al siguiente encabezado `##` y regresa después.
- Al final hay una sección de **Ejercicios** para practicar.

## Mapa rápido (qué viene)

- **1. Todo es un objeto** (identidad / tipo / valor)
- **2. Mutabilidad e inmutabilidad**
- **3. Memoria: ¿cuánto pesa cada tipo?**
- **4–7. Tipos por dentro** (números, strings, listas, diccionarios)
- **8–10. Referencias y patrones** (copias, argumentos, control de flujo)
- **11–13. CPython por dentro** (bytecode, GC, GIL)
- **14–15. Patrones y resumen de eficiencia**

---
## ¿Qué es un notebook?

Un **Jupyter Notebook** (archivo `.ipynb`) es un documento interactivo que mezcla **texto** (Markdown) y **código ejecutable** en celdas individuales. Lo que estás viendo ahora es un notebook.

Hay dos tipos de celdas:
- **Markdown** — texto, explicaciones, fórmulas. Esta celda es de Markdown.
- **Code** — código Python que puedes ejecutar. El resultado aparece justo debajo.

La ventaja sobre un script `.py` es que puedes ejecutar el código **por partes**, ver resultados intermedios, y tener las explicaciones al lado del código.

### ¿Qué es el kernel?

El **kernel** es el proceso de Python que ejecuta tu código. Cuando abres un notebook, se levanta un kernel (un intérprete de Python) que:
- **Mantiene estado** — las variables que defines en una celda siguen vivas para las siguientes
- **Ejecuta celdas** — cuando presionas `Shift+Enter`, el kernel ejecuta esa celda y guarda el resultado

El orden importa: si defines `x = 5` en la celda 3 y luego ejecutas la celda 1 que usa `x`, funciona — porque el kernel recuerda `x`. Pero si reinicias el kernel (`Kernel → Restart`), se pierde todo el estado.

> **Tip**: si algo se comporta raro, reinicia el kernel y ejecuta todo desde arriba. Muchos bugs en notebooks son por ejecutar celdas en desorden.

### Atajos esenciales

| Atajo | Qué hace |
|-------|----------|
| `Shift + Enter` | **Ejecutar** celda actual y avanzar a la siguiente |
| `Ctrl + Enter` | **Ejecutar** celda actual (sin avanzar) |
| `Alt + Enter` | **Ejecutar** celda actual e insertar una nueva abajo |
| `Esc` | Salir al **modo comando** (borde azul) |
| `Enter` | Entrar al **modo edición** (borde verde) |
| `A` (en modo comando) | Insertar celda **arriba** |
| `B` (en modo comando) | Insertar celda **abajo** |
| `DD` (en modo comando) | **Eliminar** celda |
| `M` (en modo comando) | Convertir celda a **Markdown** |
| `Y` (en modo comando) | Convertir celda a **Code** |
| `Ctrl + S` | **Guardar** notebook |
| `Ctrl + Shift + P` | **Paleta de comandos** (buscar cualquier acción) |

En **Google Colab** los atajos son casi iguales. La diferencia principal: `Ctrl+M` seguido de otra tecla (ej: `Ctrl+M B` para insertar celda abajo).

---
## 1. Todo es un objeto

En Python, **absolutamente todo** es un objeto: números, strings, listas, funciones, clases, módulos. Cada objeto tiene tres cosas:

| Propiedad | Qué es | Cómo verla |
|-----------|--------|------------|
| **Identidad** | Dirección en memoria (fija de por vida) | `id(x)` |
| **Tipo** | Qué operaciones soporta | `type(x)` |
| **Valor** | El dato en sí | `print(x)` |

Cuando escribes `x = 42`, Python:
1. Crea un **objeto** `int` con valor `42` en algún lugar de la memoria
2. Crea una **etiqueta** (nombre) `x` que **apunta** a ese objeto

La variable `x` **no contiene** el 42. Es un **post-it** pegado al objeto.

In [None]:
x = 42
print(f"Valor:     {x}")
print(f"Tipo:      {type(x)}")
print(f"Identidad: {id(x)}")
print(f"Tamaño:    {x.__sizeof__()} bytes")

### Variables son etiquetas, no cajas

En otros lenguajes (C, Java), una variable es una **caja** que contiene un valor. En Python, una variable es una **etiqueta** pegada a un objeto. Dos etiquetas pueden apuntar al **mismo objeto**:

In [None]:
a = [1, 2, 3]
b = a  # b apunta al MISMO objeto que a

print(f"id(a) = {id(a)}")
print(f"id(b) = {id(b)}")
print(f"¿Mismo objeto? {a is b}")  # True

In [None]:
# Si modificas a través de una etiqueta, la otra lo ve
a.append(4)
print(f"a = {a}")  # [1, 2, 3, 4]
print(f"b = {b}")  # [1, 2, 3, 4] — ¡b también cambió!

> **Esto no es un bug.** `a` y `b` son dos etiquetas pegadas al mismo objeto en memoria. Modificar el objeto a través de cualquiera de las dos etiquetas afecta al mismo objeto.
>
> Esto se llama **aliasing** y es fuente de muchos bugs cuando no se entiende.

### `is` vs `==`

- `==` compara **valores** — ¿tienen el mismo contenido?
- `is` compara **identidad** — ¿son el mismo objeto en memoria?

In [None]:
lista1 = [1, 2, 3]
lista2 = [1, 2, 3]  # misma contenido, objeto DIFERENTE
lista3 = lista1       # MISMO objeto

print(f"lista1 == lista2: {lista1 == lista2}")  # True  (mismo valor)
print(f"lista1 is lista2: {lista1 is lista2}")  # False (objetos diferentes)
print(f"lista1 is lista3: {lista1 is lista3}")  # True  (mismo objeto)

print(f"\nid(lista1) = {id(lista1)}")
print(f"id(lista2) = {id(lista2)}")
print(f"id(lista3) = {id(lista3)}")

---
## 2. Mutabilidad e inmutabilidad

Esta es la distinción más importante en Python.

| Inmutables | Mutables |
|------------|----------|
| `int`, `float`, `str`, `bool`, `tuple` | `list`, `dict`, `set` |
| No se pueden modificar después de crearse | Se pueden modificar in-place |
| Reasignar = crear nuevo objeto | Modificar = mismo objeto cambia |

¿Qué significa en la práctica?

In [None]:
# Inmutable: reasignar crea un NUEVO objeto
x = 10
print(f"Antes: x = {x}, id = {id(x)}")

x = x + 1  # NO modifica el 10 — crea un NUEVO objeto 11
print(f"Después: x = {x}, id = {id(x)}")  # id diferente

In [None]:
# Mutable: modificar cambia el MISMO objeto
nums = [1, 2, 3]
print(f"Antes: nums = {nums}, id = {id(nums)}")

nums.append(4)  # modifica el objeto existente
print(f"Después: nums = {nums}, id = {id(nums)}")  # MISMO id

### Integer caching (curiosidad del intérprete)

CPython cachea los enteros pequeños (-5 a 256). Esto significa que dos variables con el mismo entero pequeño apuntan al **mismo objeto**:

In [None]:
a = 256
b = 256
print(f"256: a is b = {a is b}")  # True — objeto cacheado

a = 257
b = 257
print(f"257: a is b = {a is b}")  # Puede ser False — objetos separados

# Por eso NUNCA uses 'is' para comparar valores. Usa '=='.

---
## 3. Memoria: ¿cuánto pesa cada tipo?

Python es un lenguaje de **alto nivel**, y eso tiene un costo en memoria. Cada objeto tiene overhead por metadata (tipo, conteo de referencias, etc.).

Usamos `sys.getsizeof()` para ver el tamaño **directo** de un objeto (sin contar lo que referencia).

In [None]:
import sys

# Tipos escalares
print("=== Tipos escalares ===")
print(f"int(0):        {sys.getsizeof(0)} bytes")
print(f"int(42):       {sys.getsizeof(42)} bytes")
print(f"int(2**30):    {sys.getsizeof(2**30)} bytes")
print(f"int(2**100):   {sys.getsizeof(2**100)} bytes")  # ¡crece!
print(f"float(3.14):   {sys.getsizeof(3.14)} bytes")
print(f"bool(True):    {sys.getsizeof(True)} bytes")
print(f"str(''):       {sys.getsizeof('')} bytes")
print(f"str('hola'):   {sys.getsizeof('hola')} bytes")
print(f"None:          {sys.getsizeof(None)} bytes")

**¿De dónde salen esos números?**

Cada objeto Python tiene un **header** mínimo de 16 bytes:

| Campo del header | Tamaño | Propósito |
|------------------|--------|-----------|
| Reference count | 8 bytes | Cuántas variables apuntan a este objeto (para garbage collection) |
| Type pointer | 8 bytes | Puntero al tipo (`int`, `str`, etc.) para saber qué operaciones soporta |

Entonces:

- **`None`** = 16 bytes → solo el header, sin datos. Es el objeto más simple.
- **`int(0)`** = 24 bytes → header (16) + metadata de tamaño (4) + padding (4). Cero no necesita dígitos.
- **`int(42)`** = 28 bytes → header (16) + metadata (4) + 1 "dígito" de 30 bits (4 bytes) + padding (4). CPython almacena enteros como arrays de dígitos de 30 bits.
- **`int(2**30)`** = 32 bytes → necesita 2 dígitos de 30 bits (2³⁰ desborda un dígito).
- **`int(2**100)`** = 40 bytes → necesita 4 dígitos. Los ints **crecen dinámicamente** — así Python soporta precisión arbitraria.
- **`float(3.14)`** = 24 bytes → header (16) + un `double` de C (8 bytes). Siempre fijo — los floats no crecen.
- **`bool(True)`** = 28 bytes → ¡mismo tamaño que `int(42)`! Porque `bool` es subclase de `int`. `True` es literalmente `int(1)`.
- **`str('')`** = 49 bytes → header (16) + metadata de string (~33 bytes: hash cache, longitud, encoding, flags) + 0 caracteres.
- **`str('hola')`** = 53 bytes → 49 + 4 caracteres ASCII (1 byte cada uno). Cada carácter ASCII adicional suma 1 byte. Caracteres Unicode (acentos, emoji) pueden usar 2 o 4 bytes.

**En resumen**: un `int` de C son 4 bytes de valor puro. Un `int` de Python son **28+ bytes** porque incluye toda esta metadata. Este es el precio de "todo es un objeto" — **flexibilidad por memoria**. Para ciencia de datos usamos `numpy`/`pandas` que almacenan datos en arrays nativos de C, sin este overhead.

In [None]:
# Colecciones
print("=== Colecciones ===")
print(f"list([]):         {sys.getsizeof([])} bytes")
print(f"list([1,2,3]):    {sys.getsizeof([1,2,3])} bytes")
print(f"dict({{}}):         {sys.getsizeof({})} bytes")
print(f"dict(3 items):    {sys.getsizeof({'a':1,'b':2,'c':3})} bytes")
print(f"tuple(()):        {sys.getsizeof(())} bytes")
print(f"tuple((1,2,3)):   {sys.getsizeof((1,2,3))} bytes")
print(f"set():            {sys.getsizeof(set())} bytes")
print(f"set({{1,2,3}}):     {sys.getsizeof({1,2,3})} bytes")

> **`sys.getsizeof` mide solo el contenedor**, no los objetos dentro. Una lista de 1000 enteros reportará el tamaño del array de punteros, no el tamaño de los 1000 ints. Para medir memoria real necesitas herramientas como `pympler` o `tracemalloc`.

In [None]:
# getsizeof NO cuenta contenido referenciado
lista_chica = [1]
lista_grande = [1] * 1000

print(f"Lista 1 elem:    {sys.getsizeof(lista_chica)} bytes (contenedor)")
print(f"Lista 1000 elem: {sys.getsizeof(lista_grande)} bytes (contenedor)")

# Memoria REAL aproximada (contenedor + contenido)
mem_real = sys.getsizeof(lista_grande) + sum(sys.getsizeof(x) for x in lista_grande)
print(f"Memoria real aprox: {mem_real:,} bytes ({mem_real/1024:.1f} KB)")
print(f"\nEn C, 1000 ints = {1000 * 4:,} bytes (4 KB)")
print(f"En Python, 1000 ints ≈ {mem_real:,} bytes ({mem_real/1024:.1f} KB)")
print(f"Overhead: ~{mem_real / (1000*4):.0f}x")

### ¿Por qué Python usa tanta memoria?

Cada objeto Python tiene un **header** con:
- **Conteo de referencias** (8 bytes) — para el garbage collector
- **Puntero al tipo** (8 bytes) — para saber qué operaciones soporta
- **El valor** — tamaño variable

Un `int` de C son 4 bytes de valor puro. Un `int` de Python son **28+ bytes** porque incluye toda esta metadata.

Este es el precio de "todo es un objeto". Es un tradeoff: **flexibilidad por memoria**. Para ciencia de datos usamos `numpy`/`pandas` que almacenan datos en arrays de C, no objetos Python.

---
## 4. Tipos numéricos por dentro

### int: precisión arbitraria

Los enteros en Python no tienen límite de tamaño. Internamente, CPython los almacena como un array de "dígitos" de 30 bits. El tamaño crece según se necesite:

In [None]:
# Los ints crecen dinámicamente
for exp in [0, 10, 30, 100, 1000]:
    n = 2 ** exp
    print(f"2^{exp:>4}: {sys.getsizeof(n):>4} bytes | dígitos: {len(str(n)):>4}")

In [None]:
# Python puede calcular esto sin problemas
grande = 2 ** 1000
print(f"2^1000 tiene {len(str(grande))} dígitos decimales")
print(f"Primeros 50: {str(grande)[:50]}...")

# En C, esto sería un overflow silencioso → resultado incorrecto

### float: IEEE 754 y sus sorpresas

Los floats en Python son `double` de C: **64 bits** (8 bytes) siguiendo el estándar IEEE 754.

- 1 bit de signo
- 11 bits de exponente
- 52 bits de mantisa (fracción)

Esto da ~15-17 dígitos significativos de precisión. **No pueden representar todos los números decimales exactamente.**

In [None]:
# El clásico
print(f"0.1 + 0.2 = {0.1 + 0.2}")
print(f"¿Es 0.3?   {0.1 + 0.2 == 0.3}")

# ¿Por qué? Porque 0.1 en binario es periódico (como 1/3 en decimal)
print(f"\n0.1 realmente es: {0.1:.55f}")
print(f"0.2 realmente es: {0.2:.55f}")
print(f"La suma es:       {0.1+0.2:.55f}")
print(f"0.3 realmente es: {0.3:.55f}")

In [None]:
# Solución: comparar con tolerancia
import math

# Mal
print(f"0.1 + 0.2 == 0.3:           {0.1 + 0.2 == 0.3}")

# Bien
print(f"math.isclose(0.1+0.2, 0.3): {math.isclose(0.1 + 0.2, 0.3)}")

# Para dinero: usar Decimal
from decimal import Decimal
print(f"Decimal: {Decimal('0.1') + Decimal('0.2')}")

### bool es un int

`bool` es literalmente una **subclase** de `int`. `True` es `1`, `False` es `0`:

In [None]:
print(f"True + True = {True + True}")
print(f"True * 10 = {True * 10}")
print(f"False + 42 = {False + 42}")
print(f"isinstance(True, int) = {isinstance(True, int)}")

# Esto es útil para contar condiciones verdaderas:
datos = [3, -1, 4, -1, 5, -9, 2, 6]
positivos = sum(x > 0 for x in datos)
print(f"\nPositivos en {datos}: {positivos}")

---
## 5. Strings por dentro

Los strings en Python son **inmutables** y **secuencias de caracteres Unicode**.

In [None]:
s = "Hola"

# Puedes leer caracteres individuales
print(f"s[0] = '{s[0]}'")

# Pero NO puedes modificarlos
try:
    s[0] = "h"
except TypeError as e:
    print(f"Error: {e}")

# Para "modificar" un string, creas uno nuevo
s2 = "h" + s[1:]
print(f"Nuevo string: '{s2}'")
print(f"Original intacto: '{s}'")

### String interning

CPython cachea ciertos strings (identificadores simples) para ahorrar memoria. Dos variables con el mismo string literal pueden apuntar al mismo objeto:

In [None]:
# Strings cortos/simples se internan
a = "hello"
b = "hello"
print(f"'hello': a is b = {a is b}")  # True (interned)

# Strings con espacios o caracteres especiales: depende
a = "hello world"
b = "hello world"
print(f"'hello world': a is b = {a is b}")  # puede ser True o False

# Recuerda: usa == para comparar valores, no 'is'

### Concatenación de strings: bueno vs malo

Porque los strings son inmutables, concatenar en un loop crea un **nuevo string en cada iteración**:

In [None]:
import time

n = 50_000

# MAL: concatenación con +
start = time.perf_counter()
resultado = ""
for i in range(n):
    resultado += "a"  # crea un NUEVO string cada vez
t_concat = time.perf_counter() - start

# BIEN: join
start = time.perf_counter()
resultado = "".join("a" for i in range(n))
t_join = time.perf_counter() - start

print(f"Concatenación (+): {t_concat*1000:.2f} ms")
print(f"join():            {t_join*1000:.2f} ms")
print(f"join es {t_concat/t_join:.1f}x más rápido")

> **¿Por qué?** Con `+=`, Python crea un nuevo string de tamaño 1, luego de tamaño 2, luego 3... copiando todo el contenido cada vez. Eso es O(n²). Con `join()`, Python calcula el tamaño total primero y copia todo una sola vez: O(n).

---
## 6. Listas por dentro

Una lista de Python es un **array dinámico de punteros**. No almacena los valores directamente — almacena punteros a objetos Python.

```
lista = [10, "hola", 3.14]

Lista (array de punteros)         Objetos en memoria
┌─────────┐
│ ptr[0] ─┼──────────────────→  int(10)      [28 bytes]
│ ptr[1] ─┼──────────────────→  str("hola")  [53 bytes]
│ ptr[2] ─┼──────────────────→  float(3.14)  [24 bytes]
└─────────┘
  ~88 bytes                       ~105 bytes
```

Por eso una lista puede mezclar tipos — cada puntero simplemente apunta a un objeto diferente.

### append vs insert: costo de operaciones

| Operación | Complejidad | ¿Por qué? |
|-----------|-------------|------------|
| `lista[i]` | O(1) | Acceso directo por índice en el array |
| `lista.append(x)` | O(1) amortizado | Agrega al final, a veces necesita redimensionar |
| `lista.insert(0, x)` | O(n) | Tiene que mover **todos** los elementos una posición |
| `lista.pop()` | O(1) | Quita el último |
| `lista.pop(0)` | O(n) | Tiene que mover todos los elementos |
| `x in lista` | O(n) | Recorre toda la lista buscando |

In [None]:
import time

n = 50_000

# append: O(1) amortizado
start = time.perf_counter()
lista = []
for i in range(n):
    lista.append(i)
t_append = time.perf_counter() - start

# insert al inicio: O(n) por operación → O(n²) total
start = time.perf_counter()
lista = []
for i in range(n):
    lista.insert(0, i)
t_insert = time.perf_counter() - start

print(f"append (al final):  {t_append*1000:.1f} ms")
print(f"insert (al inicio): {t_insert*1000:.1f} ms")
print(f"insert es {t_insert/t_append:.0f}x más lento")

### List comprehensions vs loops

Las list comprehensions no son solo "syntactic sugar" — son **más rápidas** porque:
1. Se ejecutan en código C optimizado dentro del intérprete
2. No necesitan buscar y llamar al método `.append()` en cada iteración

In [None]:
n = 500_000

# Loop con append
start = time.perf_counter()
cuadrados_loop = []
for i in range(n):
    cuadrados_loop.append(i ** 2)
t_loop = time.perf_counter() - start

# List comprehension
start = time.perf_counter()
cuadrados_comp = [i ** 2 for i in range(n)]
t_comp = time.perf_counter() - start

print(f"Loop + append:      {t_loop*1000:.1f} ms")
print(f"List comprehension: {t_comp*1000:.1f} ms")
print(f"Comprehension es {t_loop/t_comp:.1f}x más rápido")

# Verificar que dan el mismo resultado
assert cuadrados_loop == cuadrados_comp

---
## 7. Diccionarios por dentro: hash tables

Un diccionario es una **tabla hash** (hash table). Esto es lo que la hace tan rápida para búsquedas.

Cuando haces `d["clave"]`, Python:
1. Calcula el **hash** de la clave: `hash("clave")` → un número
2. Usa ese número como **índice** en un array interno
3. Accede directamente a la posición → **O(1)**, sin importar el tamaño del diccionario

In [None]:
# Los hashes son deterministas para la misma sesión
print(f"hash('hola')   = {hash('hola')}")
print(f"hash('mundo')  = {hash('mundo')}")
print(f"hash(42)       = {hash(42)}")
print(f"hash((1, 2))   = {hash((1, 2))}")  # tuplas son hashables

# Las listas NO son hashables (porque son mutables)
try:
    hash([1, 2, 3])
except TypeError as e:
    print(f"\nError: {e}")
    print("→ No puedes usar una lista como clave de un diccionario")

### dict vs list para búsquedas

Buscar si un elemento existe: `x in lista` es O(n), `x in dict` es O(1).

In [None]:
n = 100_000

# Crear una lista y un set con los mismos datos
datos_lista = list(range(n))
datos_set = set(range(n))
datos_dict = {i: True for i in range(n)}

# Buscar el ÚLTIMO elemento (peor caso para lista)
buscar = n - 1

# Lista: O(n)
start = time.perf_counter()
for _ in range(1000):
    _ = buscar in datos_lista
t_lista = time.perf_counter() - start

# Set: O(1)
start = time.perf_counter()
for _ in range(1000):
    _ = buscar in datos_set
t_set = time.perf_counter() - start

# Dict: O(1)
start = time.perf_counter()
for _ in range(1000):
    _ = buscar in datos_dict
t_dict = time.perf_counter() - start

print(f"'x in list': {t_lista*1000:.1f} ms (×1000 búsquedas)")
print(f"'x in set':  {t_set*1000:.1f} ms")
print(f"'x in dict': {t_dict*1000:.1f} ms")
print(f"\nset/dict es ~{t_lista/t_set:.0f}x más rápido para membership testing")

> **Regla práctica:** si necesitas verificar si algo "está en" una colección muchas veces, convierte a `set`. El costo de convertir es O(n), pero cada búsqueda después es O(1).

---
## 8. Referencias, copias y mutabilidad

Este es probablemente el concepto que más bugs causa en Python.

### Asignación NO copia

Ya vimos que `b = a` crea un **alias**, no una copia. Para copiar necesitas ser explícito:

In [None]:
import copy

original = [1, 2, [3, 4]]

# Asignación: alias (NO copia)
alias = original

# Shallow copy: copia la lista exterior, pero las referencias internas apuntan a los mismos objetos
shallow = original.copy()        # equivalente: list(original) o original[:]

# Deep copy: copia TODO recursivamente
deep = copy.deepcopy(original)

print("Antes de modificar:")
print(f"  original = {original}")
print(f"  alias    = {alias}")
print(f"  shallow  = {shallow}")
print(f"  deep     = {deep}")

In [None]:
# Modificamos la sublista del original
original[2].append(5)

print("Después de original[2].append(5):")
print(f"  original = {original}")   # [1, 2, [3, 4, 5]]
print(f"  alias    = {alias}")      # [1, 2, [3, 4, 5]] ← cambió (es el mismo objeto)
print(f"  shallow  = {shallow}")    # [1, 2, [3, 4, 5]] ← ¡TAMBIÉN cambió!
print(f"  deep     = {deep}")       # [1, 2, [3, 4]]    ← no cambió

### ¿Por qué shallow copy no fue suficiente?

```
original     shallow       deep
┌───┐       ┌───┐         ┌───┐
│ → 1 │     │ → 1 │       │ → 1 │  (inmutable: compartir está bien)
│ → 2 │     │ → 2 │       │ → 2 │  (inmutable: compartir está bien)
│ → ┼─┼─┐   │ → ┼─┼─┐     │ → ┼─┼──→ [3, 4] (COPIA SEPARADA)
└───┘ │   └───┘ │     └───┘
      └────→ [3, 4, 5] ←──┘
              (MISMO objeto)
```

**Shallow copy** copia el array de punteros, pero los punteros apuntan a los **mismos objetos**. Para inmutables (int, str) esto no importa. Para mutables (listas anidadas) es un problema.

**Regla**: si tu estructura tiene objetos mutables adentro (listas de listas, dicts de listas), usa `copy.deepcopy()`.

---
## 9. Paso de argumentos a funciones

Python no es "pass by value" ni "pass by reference". Es **pass by object reference** (también llamado "pass by assignment").

Cuando llamas `f(x)`, el parámetro de la función apunta al **mismo objeto** que `x`. Lo que pasa después depende de si el objeto es mutable o inmutable.

In [None]:
# Con inmutables: parece "pass by value" (pero no lo es)
def incrementar(n):
    print(f"  Dentro, antes: n = {n}, id = {id(n)}")
    n = n + 1  # n ahora apunta a un NUEVO objeto
    print(f"  Dentro, después: n = {n}, id = {id(n)}")
    return n

x = 10
print(f"Antes: x = {x}, id = {id(x)}")
resultado = incrementar(x)
print(f"Después: x = {x}")  # x no cambió
print(f"Resultado: {resultado}")

In [None]:
# Con mutables: parece "pass by reference"
def agregar_elemento(lista, elem):
    print(f"  Dentro, antes: id = {id(lista)}")
    lista.append(elem)  # modifica el MISMO objeto
    print(f"  Dentro, después: id = {id(lista)}")

mi_lista = [1, 2, 3]
print(f"Antes: {mi_lista}, id = {id(mi_lista)}")
agregar_elemento(mi_lista, 4)
print(f"Después: {mi_lista}")  # ¡la lista cambió!

### El gotcha de los argumentos mutables por defecto

Este es un bug **clásico** de Python. Los valores por defecto se evalúan **una sola vez** cuando se define la función, no cada vez que se llama:

In [None]:
# MAL: lista mutable como valor por defecto
def agregar_mal(elem, lista=[]):
    lista.append(elem)
    return lista

print(agregar_mal(1))  # [1]          — ok
print(agregar_mal(2))  # [1, 2]       — ¡¿qué?! se acumuló
print(agregar_mal(3))  # [1, 2, 3]    — la misma lista persiste

In [None]:
# BIEN: usar None como valor por defecto
def agregar_bien(elem, lista=None):
    if lista is None:
        lista = []  # nueva lista en cada llamada
    lista.append(elem)
    return lista

print(agregar_bien(1))  # [1]
print(agregar_bien(2))  # [2]  — cada llamada es independiente
print(agregar_bien(3))  # [3]

> **Regla**: **NUNCA** uses un objeto mutable (lista, dict, set) como valor por defecto de un argumento. Usa `None` y crea el objeto dentro de la función.

---
## 10. Control de flujo: patrones eficientes

### Short-circuit evaluation

`and` y `or` son **lazy** — no evalúan el segundo operando si no es necesario:
- `A and B`: si `A` es False, no evalúa `B` (ya sabe que el resultado es False)
- `A or B`: si `A` es True, no evalúa `B` (ya sabe que el resultado es True)

In [None]:
# Short-circuit evita errores
lista = []

# Esto NO da error gracias al short-circuit
if lista and lista[0] > 5:
    print("primer elemento > 5")
else:
    print("lista vacía o primer elemento <= 5")

# Sin short-circuit, lista[0] daría IndexError

### Early return: simplificar funciones

En vez de anidar condicionales, retorna temprano:

In [None]:
# MAL: anidamiento excesivo
def procesar_mal(datos):
    if datos is not None:
        if len(datos) > 0:
            if isinstance(datos[0], int):
                return sum(datos)
            else:
                return "no son enteros"
        else:
            return "lista vacía"
    else:
        return "sin datos"

# BIEN: early return
def procesar_bien(datos):
    if datos is None:
        return "sin datos"
    if len(datos) == 0:
        return "lista vacía"
    if not isinstance(datos[0], int):
        return "no son enteros"
    return sum(datos)

# Mismo resultado, mucho más legible
print(procesar_bien(None))
print(procesar_bien([]))
print(procesar_bien(["a"]))
print(procesar_bien([1, 2, 3]))

### Unpacking: evitar índices

Python soporta *destructuring* (unpacking) para asignar varios valores a la vez:

In [None]:
# MAL: acceso por índice
punto = (3, 4)
x = punto[0]
y = punto[1]

# BIEN: unpacking
x, y = (3, 4)
print(f"x={x}, y={y}")

# Swap sin variable temporal
a, b = 1, 2
a, b = b, a
print(f"Después del swap: a={a}, b={b}")

# Unpacking con *
primero, *resto = [1, 2, 3, 4, 5]
print(f"primero={primero}, resto={resto}")

# En loops sobre diccionarios
config = {"host": "localhost", "port": 8080, "debug": True}
for clave, valor in config.items():
    print(f"  {clave}: {valor}")

---
## 11. El intérprete CPython: ¿qué pasa cuando ejecutas código?

Cuando ejecutas `python3 script.py`, pasan varias cosas:

1. **Lexer/Parser**: el código fuente se convierte en un AST (Abstract Syntax Tree)
2. **Compilador**: el AST se compila a **bytecode** (archivos `.pyc`)
3. **VM**: la máquina virtual de Python ejecuta el bytecode instrucción por instrucción

Python **no es interpretado directamente**. Es compilado a bytecode y luego interpretado. Es como Java (bytecode → JVM) pero sin JIT por defecto.

Podemos ver el bytecode con el módulo `dis`:

In [None]:
import dis

def sumar(a, b):
    return a + b

print("Bytecode de sumar(a, b):")
dis.dis(sumar)

**Leyendo el bytecode:**
- `LOAD_FAST` — carga una variable local al stack
- `BINARY_ADD` (o `BINARY_OP`) — saca dos valores del stack, los suma, pone el resultado
- `RETURN_VALUE` — retorna el tope del stack

La VM de Python es una **stack machine** — todas las operaciones ponen y sacan valores de un stack.

In [None]:
# Comparar el bytecode de un loop vs comprehension
def con_loop():
    result = []
    for i in range(10):
        result.append(i ** 2)
    return result

def con_comprehension():
    return [i ** 2 for i in range(10)]

print("=== Loop ===")
dis.dis(con_loop)
print(f"\nInstrucciones loop: {len(list(dis.get_instructions(con_loop)))}")

In [None]:
print("=== Comprehension ===")
dis.dis(con_comprehension)
print(f"\nInstrucciones comprehension: {len(list(dis.get_instructions(con_comprehension)))}")

La comprehension genera **menos instrucciones de bytecode** y la operación LIST_APPEND está optimizada en C. Por eso es más rápida.

---
## 12. Reference counting y garbage collection

¿Cómo sabe Python cuándo liberar la memoria de un objeto? Con **conteo de referencias**.

Cada objeto tiene un contador: cuántas variables/estructuras apuntan a él. Cuando el contador llega a **cero**, el objeto se destruye inmediatamente.

In [None]:
import sys

a = [1, 2, 3]  # refcount = 1 (solo 'a' apunta)
print(f"Después de a = [...]: refcount = {sys.getrefcount(a) - 1}")
# Nota: getrefcount suma 1 por la referencia temporal del argumento

b = a  # refcount = 2
print(f"Después de b = a:     refcount = {sys.getrefcount(a) - 1}")

c = a  # refcount = 3
print(f"Después de c = a:     refcount = {sys.getrefcount(a) - 1}")

del b  # refcount = 2
print(f"Después de del b:     refcount = {sys.getrefcount(a) - 1}")

del c  # refcount = 1
print(f"Después de del c:     refcount = {sys.getrefcount(a) - 1}")

# Si hiciéramos del a → refcount = 0 → objeto destruido

### Ciclos de referencia

El conteo de referencias no puede manejar **ciclos** (A apunta a B y B apunta a A). Para eso Python tiene un **garbage collector** adicional que detecta ciclos periódicamente.

In [None]:
import gc

# Crear un ciclo de referencias
a = []
b = []
a.append(b)  # a → b
b.append(a)  # b → a (ciclo)

# Incluso si eliminamos las variables, los objetos no se liberan
# porque sus refcounts no llegan a 0 (se referencian mutuamente)
del a, b

# El garbage collector detecta y limpia estos ciclos
collected = gc.collect()
print(f"Objetos recolectados: {collected}")

---
## 13. El GIL (Global Interpreter Lock)

El **GIL** es un mutex que protege el intérprete de CPython. Solo permite que **un thread** ejecute bytecode Python a la vez.

### ¿Por qué existe?

El conteo de referencias no es thread-safe. Si dos threads incrementan/decrementan el refcount de un objeto al mismo tiempo, el contador puede corromperse → memory leaks o crashes. El GIL evita esto de la forma más simple: solo un thread a la vez.

### ¿Qué implica?

- **Threads NO dan paralelismo real** para código CPU-bound en Python
- Threads **SÍ** sirven para I/O-bound (esperar red, disco, etc.) porque liberan el GIL durante la espera
- Para paralelismo CPU real: usa `multiprocessing` (procesos separados, cada uno con su propio GIL)

In [None]:
import threading
import time

def trabajo_cpu(n):
    """Trabajo CPU-bound: contar hasta n"""
    total = 0
    for i in range(n):
        total += i
    return total

N = 5_000_000

# Secuencial: dos tareas una después de otra
start = time.perf_counter()
trabajo_cpu(N)
trabajo_cpu(N)
t_secuencial = time.perf_counter() - start

# Con threads: dos tareas "en paralelo"
start = time.perf_counter()
t1 = threading.Thread(target=trabajo_cpu, args=(N,))
t2 = threading.Thread(target=trabajo_cpu, args=(N,))
t1.start(); t2.start()
t1.join(); t2.join()
t_threads = time.perf_counter() - start

print(f"Secuencial: {t_secuencial:.3f}s")
print(f"2 Threads:  {t_threads:.3f}s")
print(f"Speedup:    {t_secuencial/t_threads:.2f}x")
print("\n→ Con GIL, threads NO aceleran trabajo CPU-bound")
print("  (el speedup es ~1x o incluso peor por overhead de context switching)")

### Resumen del GIL

| Escenario | Threads | Multiprocessing |
|-----------|---------|------------------|
| **CPU-bound** (cálculos) | No ayuda (GIL) | Sí, paralelismo real |
| **I/O-bound** (red, disco) | Sí, GIL se libera durante I/O | También, pero más overhead |

En ciencia de datos normalmente no necesitas preocuparte por el GIL directamente, porque `numpy`, `pandas` y similares **liberan el GIL** internamente cuando ejecutan operaciones en C.

> **Nota**: Python 3.13+ introdujo un modo experimental "free-threaded" (sin GIL). Es el futuro, pero todavía no es estable.

---
## 14. Buenos y malos patrones

### Patrón 1: Membership testing

In [None]:
# MAL: buscar en una lista
colores_validos = ["rojo", "verde", "azul", "amarillo"]
if "verde" in colores_validos:  # O(n) — recorre la lista
    print("válido")

# BIEN: buscar en un set
colores_validos = {"rojo", "verde", "azul", "amarillo"}
if "verde" in colores_validos:  # O(1) — hash lookup
    print("válido")

# Para pocos elementos no importa, pero para miles la diferencia es enorme

### Patrón 2: Construir strings

In [None]:
nombres = ["Ana", "Luis", "María", "Carlos"]

# MAL: concatenar con +
resultado = ""
for nombre in nombres:
    resultado += nombre + ", "
print(f"Malo: '{resultado[:-2]}'")

# BIEN: usar join
resultado = ", ".join(nombres)
print(f"Bien: '{resultado}'")

### Patrón 3: LBYL vs EAFP

- **LBYL** (Look Before You Leap): verificar antes de actuar
- **EAFP** (Easier to Ask Forgiveness than Permission): intentar y capturar el error

Python favorece **EAFP**:

In [None]:
persona = {"nombre": "Ana", "edad": 25}

# LBYL (estilo C/Java)
if "telefono" in persona:
    tel = persona["telefono"]
else:
    tel = "no disponible"
print(f"LBYL: {tel}")

# EAFP (estilo Python)
try:
    tel = persona["telefono"]
except KeyError:
    tel = "no disponible"
print(f"EAFP: {tel}")

# Aún mejor para dicts: .get()
tel = persona.get("telefono", "no disponible")
print(f"get(): {tel}")

### Patrón 4: Iterar con índice

In [None]:
frutas = ["manzana", "naranja", "plátano"]

# MAL: iterar con range(len(...))
for i in range(len(frutas)):
    print(f"{i}: {frutas[i]}")

print()

# BIEN: usar enumerate
for i, fruta in enumerate(frutas):
    print(f"{i}: {fruta}")

### Patrón 5: Iterar sobre dos listas

In [None]:
nombres = ["Ana", "Luis", "María"]
edades = [25, 30, 28]

# MAL
for i in range(len(nombres)):
    print(f"{nombres[i]} tiene {edades[i]} años")

print()

# BIEN: usar zip
for nombre, edad in zip(nombres, edades):
    print(f"{nombre} tiene {edad} años")

### Patrón 6: Condicional para asignar

In [None]:
edad = 20

# Funcional pero verboso
if edad >= 18:
    estado = "adulto"
else:
    estado = "menor"

# Ternary expression (cuando es simple)
estado = "adulto" if edad >= 18 else "menor"
print(estado)

# PERO no abuses — si es complejo, usa if/else normal

### Patrón 7: Contar elementos

In [None]:
from collections import Counter

palabras = ["hola", "mundo", "hola", "python", "mundo", "hola"]

# MAL: manual con dict
conteo = {}
for p in palabras:
    if p in conteo:
        conteo[p] += 1
    else:
        conteo[p] = 1
print(f"Manual: {conteo}")

# BIEN: Counter
conteo = Counter(palabras)
print(f"Counter: {conteo}")
print(f"Más comunes: {conteo.most_common(2)}")

---
## 15. Tabla resumen: eficiencia

| Operación | Malo | Bueno | ¿Por qué? |
|-----------|------|-------|------------|
| Construir string | `s += "x"` en loop | `"".join(lista)` | O(n²) vs O(n) |
| Crear lista | loop + `.append()` | List comprehension | Menos bytecode, C interno |
| Buscar en colección | `x in list` | `x in set` | O(n) vs O(1) |
| Agregar al inicio | `list.insert(0, x)` | `collections.deque.appendleft(x)` | O(n) vs O(1) |
| Iterar con índice | `range(len(x))` | `enumerate(x)` | Más legible, mismo rendimiento |
| Iterar dos listas | `range(len(x))` | `zip(x, y)` | Más legible, mismo rendimiento |
| Default mutable | `def f(x=[])` | `def f(x=None)` | Bug vs correcto |
| Copiar lista anidada | `lista.copy()` | `copy.deepcopy(lista)` | Shallow vs deep |

---
## Ejercicios

### Ejercicio 1: Investigar la memoria

Usa `sys.getsizeof()` para responder:
1. ¿Cuántos bytes ocupa una lista vacía vs una tupla vacía? ¿Por qué la diferencia?
2. ¿Cuántos bytes ocupa el string `"a"` vs `"a" * 1000`? ¿Es proporcional?
3. ¿Cuántos bytes extras agrega cada elemento a una lista?

In [None]:
# Tu código aquí
import sys



### Ejercicio 2: Aliasing y copias

**Predice** el output de cada bloque ANTES de ejecutar. Después verifica.

In [None]:
# Bloque A
x = [1, 2, 3]
y = x
y.append(4)
print(f"x = {x}")  # ¿qué imprime?

In [None]:
# Bloque B
x = [1, 2, 3]
y = x[:]
y.append(4)
print(f"x = {x}")  # ¿qué imprime?

In [None]:
# Bloque C
x = [[1, 2], [3, 4]]
y = x.copy()
y[0].append(999)
print(f"x = {x}")  # ¿qué imprime?

In [None]:
# Bloque D
import copy
x = [[1, 2], [3, 4]]
y = copy.deepcopy(x)
y[0].append(999)
print(f"x = {x}")  # ¿qué imprime?

### Ejercicio 3: Medir y comparar

Escribe código que mida cuánto tarda:
1. Crear una lista de 1,000,000 números con un loop + `append` vs con list comprehension
2. Buscar si el número 999,999 está en esa lista vs en un set con esos números

Usa `time.perf_counter()` para medir.

In [None]:
# Tu código aquí
import time



### Ejercicio 4: Bytecode

Usa `dis.dis()` para comparar el bytecode de estas dos funciones. ¿Cuál tiene menos instrucciones? ¿Cuál crees que es más rápida?

In [None]:
import dis

def version_a(n):
    resultado = []
    for i in range(n):
        if i % 2 == 0:
            resultado.append(i)
    return resultado

def version_b(n):
    return [i for i in range(n) if i % 2 == 0]

# Desensambla ambas
print("=== version_a ===")
dis.dis(version_a)
print(f"\n=== version_b ===")
dis.dis(version_b)

In [None]:
# Ahora mide cuál es más rápida
import time

n = 1_000_000

start = time.perf_counter()
version_a(n)
t_a = time.perf_counter() - start

start = time.perf_counter()
version_b(n)
t_b = time.perf_counter() - start

print(f"version_a (loop):          {t_a*1000:.1f} ms")
print(f"version_b (comprehension): {t_b*1000:.1f} ms")
print(f"Ratio: {t_a/t_b:.2f}x")

### Ejercicio 5: El bug del mutable default

Esta función tiene un bug. Encuéntralo, explica por qué pasa, y corrígelo.

In [None]:
def registrar_alumno(nombre, materias=[]):
    materias.append("Fuentes de Datos")
    return {"nombre": nombre, "materias": materias}

alumno1 = registrar_alumno("Ana")
alumno2 = registrar_alumno("Luis")
alumno3 = registrar_alumno("María")

print(f"Ana: {alumno1}")
print(f"Luis: {alumno2}")
print(f"María: {alumno3}")

# ¿Por qué María tiene 3 materias?
# Escribe la versión corregida abajo:

In [None]:
# Versión corregida:

