# introdución a python (previo a pandas)

este caderno contén **explicacións teóricas profundas**, **sintaxe básica** e **exemplos executables** en celas pequenas e ben estruturadas. está pensado para dotar o alumnado das bases necesarias **antes de pandas**. non se inclúen contornos, markdown nin visualización (que se tratarán noutros módulos).

---
## índice
1. sintaxe básica e tipos primitivos  
2. cadeas de texto  
3. estruturas de datos: list, tuple, set, dict  
4. control de fluxo  
5. comprensións e utilidades funcionais  
6. funcións e ámbito (parámetros, docstrings, *args/**kwargs, closures)  
7. erros e excepcións (try/except/else/finally, raise, custom)  
8. biblioteca estándar (math, statistics, random)  
9. ficheiros e rutas (pathlib, open, csv/json con stdlib)  
10. datas e horas (datetime, timezone)  
11. expresións regulares (re)  
12. numpy imprescindible para pandas  
13. boas prácticas e estilo

## 1) sintaxe básica e tipos primitivos

**definicións**
- **tipo**: categoría de dato que determina representación e operacións dispoñibles.
- **primitivos en python**: `int`, `float`, `bool`, `NoneType`.
- **expresión**: combinación de valores/variables/operadores que produce un resultado.
- **sentenza**: instrución que o intérprete executa (p. ex., `if`, `for`, definición de función).

**ideas clave**
- `bool` é un subtipo de `int` (`True == 1`, `False == 0`), máis non o uses para aritmética salvo que teña sentido.
- `/` → división real; `//` → división enteira por **chan** (floor), coidado con negativos.
- `is` compara **identidade** (mesmo obxecto); `==` compara **igualdade de valor**.
- **truthiness**: moitos valores teñen verdade/false implícito (`0`, `''`, `[]`, `None` → *False*).

In [None]:
# números e operacións
a, b = 7, 3
print('a + b =', a + b)
print('a / b =', a / b)     # división real
print('a // b =', a // b)   # división enteira (chan)
print('a % b =', a % b)     # módulo (resto)
print('(-7) // 3 =', -7 // 3)  # cuidado: floor division -> -3
print('(-7) % 3 =', -7 % 3)    # resto sempre co signo do divisor -> 2

In [None]:
# bool como subtipo de int
print(True + True, False + 10, int(True), int(False))

In [None]:
# igualdade vs identidade
x = 256
y = 256
print('x == y?', x == y, '| x is y?', x is y)
s1 = ''.join(['py', 'thon'])
s2 = 'python'
print('s1 == s2?', s1 == s2, '| s1 is s2?', s1 is s2)

In [None]:
# truthiness e curtocircuito
items = []
if not items:
    print('lista baleira é falsey')
# curtocircuito: a segunda parte non se avalía se a primeira xa decide
def caro():
    print('función chamada'); return True
print('False and caro() ->', False and caro())  # non chama caro()

## 2) cadeas de texto (strings)

**teoría**
- **inmutables**: toda “modificación” devolve unha nova cadea.
- **índices** base 0; *slicing* `s[inicio:fin:paso]` non inclúe `fin`.
- principais **métodos**: `strip`, `lower/upper`, `title`, `replace`, `split/join`, `startswith/endswith`, `find`.
- **f-strings**: interpolación clara, especificadores como `:.2f` para formato numérico.

In [None]:
s = '  datos LIMPOS  '
print(s.strip().lower())        # eliminar espazos e pasar a minúsculas
print('abcde'[1:4], 'abcde'[::-1])  # slicing: 'bcd' e inversión

In [None]:
# f-strings e formato
pi = 3.14159265
print(f'pi ≈ {pi:.3f}')
nome, nota = 'ana', 8.75
print(f'alumna: {nome!r}, nota: {nota:.1f}')  # !r -> repr()

In [None]:
# split/join e substitucións
texto = 'maza, pera, uva'
tokens = [t.strip() for t in texto.split(',')]
res = ' | '.join(tokens)
print(tokens, '→', res)
print('código-abc-123'.replace('-', ':'))

## 3) estruturas de datos: list, tuple, set, dict

**list**
- ordenada, **mutable**, admite duplicados. métodos: `append`, `extend`, `insert`, `pop`, `remove`, `sort`, `reverse`.
- copia **superficial**: `lst.copy()` ou `lst[:]`. coidado con listas anidadas.

**tuple**
- ordenada, **inmutable**. útil para **desempaquetado** e como clave de `dict`.

**set**
- colección **sen duplicados**, non ordenada. operacións: unión `|`, intersección `&`, diferenza `-`, simétrica `^`.

**dict**
- mapeo clave→valor, mantén orde de inserción (desde 3.7). métodos: `get`, `setdefault`, `update`, `pop`, operador unión `|`.

In [None]:
# list: mutabilidade e copia
lst = [1, 2, 2, 3]
alias = lst             # referencia ao mesmo obxecto
copia = lst[:]          # copia superficial
lst.append(99)
print('lst:', lst, '| alias:', alias, '| copia:', copia)

In [None]:
# tuple e desempaquetado
p = (10, 20)
x, y = p
print('x=', x, 'y=', y)
a, *medio, b = [1,2,3,4,5]
print('a=', a, 'medio=', medio, 'b=', b)

In [None]:
# set: eliminar duplicados e operacións conxunto
s1 = {1,2,3,3}
s2 = {3,4}
print('s1=', s1, 'unión=', s1|s2, 'intersección=', s1&s2, 'dif=', s1-s2)

In [None]:
# dict: operacións típicas
d = {'ana': 9.0, 'beto': 7.5}
print('get existente:', d.get('ana'), 'get inexistente:', d.get('carmen', 'n/d'))
d.setdefault('beto', 0.0)
d.setdefault('carmen', 8.0)
d2 = {'beto': 8.0, 'dina': 6.5}
fusion = d | d2  # d2 sobrescribe claves comúns
print('fusion:', fusion)

## 4) control de fluxo

**condicións e bucles**
- `if/elif/else`, operadores lóxicos `and/or/not` (curtocircuito).
- `for` sobre iterables; `while` ata condición.
- `break` (sair do bucle), `continue` (saltar iteración).
- `for-else` e `while-else`: o `else` execútase se **non** se rompe con `break`.

**utilidades**
- `range(start, stop, step)`, `enumerate(iter, start=1)`, `zip(a,b,...)`.
- *pattern matching* simple (Python 3.10+): `match/case` para ramificacións claras.

In [None]:
# for-else: atopar un elemento; se non aparece, else
nums = [2, 4, 6, 8]
objetivo = 5
for n in nums:
    if n == objetivo:
        print('atopado')
        break
else:
    print('non atopado')

In [None]:
# match-case (exemplo simple)
def clasificar_http(codigo: int) -> str:
    match codigo:
        case 200 | 201:
            return 'ok'
        case 400 | 404:
            return 'erro cliente'
        case 500:
            return 'erro servidor'
        case _:
            return 'descoñecido'

print(clasificar_http(404))

## 5) comprensións e utilidades funcionais

**comprensións**
- lista: `[expr for x in seq if cond]`
- dicionario: `{k(v): expr for ...}`
- con condición no **valor**: `[expr_if_true if cond else expr_if_false for x in seq]`

**outros**
- `any`/`all`: comprobacións de predicados.
- `sorted(iterable, key=..., reverse=...)`.
- **xeneradores**: `(expr for x in seq)` consome baixo demanda.

In [None]:
# condición no valor
nums = [0,1,2,3,4]
paridade = ['par' if n%2==0 else 'impar' for n in nums]
print(paridade)

In [None]:
# dict comprehension con transformación
texto = 'a a a b b c'
conta = {pal: texto.split().count(pal) for pal in set(texto.split())}
print(conta)

In [None]:
# any/all e xeneradores
correos = ['ana@ex.com', 'beto@ex.com', 'mal_formato']
def parece_email(s): return '@' in s and '.' in s.split('@')[-1]
print('todos válidos?', all(parece_email(e) for e in correos))

## 6) funcións e ámbito

**parámetros en python 3**
- posicionais, nomeados e **keyword-only** (despois de `*`).
- **positional-only** (antes de `/`) cando non queres aceptar nomes.
- **valores por defecto**: evita mutables como `[]`/`{}` (trampa clásica).

**docstrings e anotacións**
- docstrings describen a función; anotacións (`-> tipo`) melloran claridade.
- `help(func)` amosa a docstring.

**ámbito**
- regra **LEGB** (local, enclosing, global, builtins). `nonlocal` para encerrar, `global` para global.

In [None]:
def add(a, b, /, *, round_to=None):
    """suma dous números.
    Args:
        a (float), b (float): sumandos (só posicionais)
        round_to (int|None): decimais para redondeo (só por nome)
    Returns:
        float
    """
    s = a + b
    return round(s, round_to) if isinstance(round_to, int) else s

print(add(1.234, 2.345, round_to=2))

In [None]:
# mutable default pitfall e solución
def append_bad(x, acc=[]):
    acc.append(x); return acc

print(append_bad(1))
print(append_bad(2))  # reutiliza a mesma lista!

def append_good(x, acc=None):
    if acc is None:
        acc = []
    acc.append(x); return acc

print(append_good(1))
print(append_good(2))

In [None]:
# closures e nonlocal
def contador():
    n = 0
    def inc():
        nonlocal n
        n += 1
        return n
    return inc

c = contador()
print(c(), c(), c())  # 1, 2, 3

## 7) erros e excepcións

**modelo**
- `try` bloque sospeitoso → `except` manexa → `else` execútase se non houbo erro → `finally` sempre.
- **propagación**: se non capturas, a excepción sobe pola pila.

**boas prácticas**
- captura **específica** (evitar `except Exception:` sen necesidade).
- inclúe **mensaxes claras** ao facer `raise`.
- podes definir **excepcións propias** herdando de `Exception`.

In [None]:
class NotaInvalidaError(Exception):
    pass

def media_segura(notas):
    if not notas:
        raise ValueError('lista baleira')
    if any(not (0 <= n <= 10) for n in notas):
        raise NotaInvalidaError('notas deben estar entre 0 e 10')
    return sum(notas)/len(notas)

try:
    print(media_segura([8, 9, 11]))
except NotaInvalidaError as e:
    print('erro dominio:', e)

In [None]:
# try/except/else/finally
def to_int(s):
    try:
        x = int(s)
    except ValueError as e:
        print('erro:', e); return None
    else:
        return x
    finally:
        pass

print(to_int('42'), to_int('4x'))

## 8) biblioteca estándar: math, statistics, random (selección)

- `math`: funcións matemáticas rápidas (C).
- `statistics`: estatística descritiva simple.
- `random`: xerador pseudoaleatorio (establece `seed` para reproducibilidade).

In [None]:
import math, statistics as stats, random
random.seed(123)
val = [2.0, 3.5, 4.0, 4.5]
print('sqrt(2)=', round(math.sqrt(2),4))
print('media=', stats.mean(val), 'var poboacional=', round(stats.pvariance(val),4))
print('aleatorio [1..6]:', random.randint(1,6))

## 9) ficheiros e rutas (pathlib, open, csv/json)

**teoría**
- `pathlib.Path` proporciona rutas independentes de SO e utilidades (`exists`, `glob`, `read_text`, `write_text`).
- apertura de ficheiros con `with open(...)` garante peche (context manager).
- **codificación**: preferible `utf-8`.
- **CSV/JSON** con stdlib: non necesitamos pandas para operacións básicas.

In [None]:
from pathlib import Path
base = Path('data_demo').resolve()
base.mkdir(exist_ok=True)
print('directorio:', base, 'existe?', base.exists())

In [None]:
# texto
p = base / 'exemplo.txt'
p.write_text('ola\nsegundo liña', encoding='utf-8')
print(p.read_text(encoding='utf-8'))

In [None]:
# JSON
import json
jpath = base / 'rexistro.json'
obj = {'id': 1, 'nome': 'ana', 'tags': ['a','b']}
jpath.write_text(json.dumps(obj, ensure_ascii=False, indent=2), encoding='utf-8')
print(json.loads(jpath.read_text(encoding='utf-8')))

In [None]:
# CSV
import csv
cpath = base / 'táboa.csv'
rows = [{'id':1,'nome':'ana'},{'id':2,'nome':'beto'}]
with open(cpath, 'w', newline='', encoding='utf-8') as f:
    w = csv.DictWriter(f, fieldnames=['id','nome'])
    w.writeheader(); w.writerows(rows)
print(cpath.read_text(encoding='utf-8'))

## 10) datas e horas (datetime, timezone)

**conceptos**
- **naive** vs **aware**: obxectos `datetime` con/sen información de zona horaria.
- conversión de zonas con `astimezone` (usa `zoneinfo`).
- formatos: `strptime` (parsear) e `strftime` (formatear).

**coidados**
- DST (cambios horario de verán) poden producir horas inexistentes ou duplicadas.

In [None]:
from datetime import datetime, timedelta
from zoneinfo import ZoneInfo

utc = datetime(2025, 9, 24, 12, 0, tzinfo=ZoneInfo('UTC'))
mad = utc.astimezone(ZoneInfo('Europe/Madrid'))
print('UTC:', utc.isoformat())
print('Madrid:', mad.strftime('%Y-%m-%d %H:%M %Z'))

dt = datetime.strptime('2025-09-24 14:30', '%Y-%m-%d %H:%M')
print('parseado:', dt, '| +90min →', dt + timedelta(minutes=90))

## 11) expresións regulares (re)

**teoría mínima**
- patróns: `\d` díxito, `\w` alfanum, `\s` espazo; `+`, `*`, `?` repeticións; `[]` clases; `()` grupos; `^`/`$` ancoras.
- `re.compile` para reutilizar con mellor rendemento.
- substitución con `re.sub` empregando **backreferences** (`\1`, `\g<nome>`).

In [None]:
import re
texto = 'pedido #A-2025-009 entregado a carmen, tlf: +34 600 123 456.'
pat = re.compile(r'#(?P<codigo>[A-Z]-\d{4}-\d{3})')
m = pat.search(texto)
print('codigo:', m.group('codigo') if m else None)

# normalizar espazos e anonimizar teléfono
normal = re.sub(r'\s+', ' ', texto).strip()
anon = re.sub(r'(\+?\d[\d\s]{7,})', '[TEL]', normal)
print(normal)
print(anon)

## 12) numpy imprescindible para pandas

**conceptos**
- `ndarray` con `shape`, `ndim`, `dtype` (homoxeneidade).
- **vectorización**: operacións sobre arrays enteiros (moito máis rápido que bucles en Python).
- **broadcasting**: estirar dimensións compatibles (regras: ou iguais ou 1).
- **indexación**: slicing, máscaras booleanas, *fancy indexing*.
- **agregación por eixes**: `sum/mean/std` con `axis`.
- **NaN** e familia `np.nan*` (ignoran nulos).

In [None]:
import numpy as np
np.random.seed(42)

A = np.arange(12).reshape(3,4)
B = np.linspace(0,1,4)  # shape (4,)
print('A\n', A)
print('B\n', B)
print('A + B (broadcasting, suma por columnas)\n', A + B)

In [None]:
# máscaras booleanas e fancy indexing
mask = A % 2 == 0
print('pares:', A[mask])
filas = A[[0,2]]   # selecciona filas 0 e 2
cols = A[:, [1,3]] # selecciona columnas 1 e 3
print('filas 0 e 2:\n', filas)
print('columnas 1 e 3:\n', cols)

In [None]:
# agregación por eixes e tratamento de NaN
X = A.astype(float)
X[0,1] = np.nan
print('media por columna con NaN ignorado:', np.nanmean(X, axis=0))

## 13) boas prácticas e estilo

- **pep8**: nomes en minúsculas con guión baixo, liñas ≤ 79 chars, espazos arredor de operadores, indentación con 4 espazos.
- **claridade sobre maxia**: nomes descritivos, funcións pequenas, comentarios só onde engaden valor.
- **EAFP** (*easier to ask forgiveness than permission*): intenta e captura excepcións vs comprobar todo previamente.
- **reproducibilidade**: fixa sementes aleatorias e anota versións.
- **tests lixeiros**: `assert` para invariantes sinxelas.

In [None]:
def normaliza_texto(s: str, *, lower=True, strip=True) -> str:
    """normaliza cadeas de texto: recorta e cambia a minúsculas por defecto."""
    if s is None:
        return ''
    if strip: s = s.strip()
    if lower: s = s.lower()
    return s

assert normaliza_texto(' Ola ') == 'ola'
assert normaliza_texto(' Ola ', lower=False) == 'Ola'
print('ok: tests básicos pasados')