# introdución a python (previo a pandas)

este caderno reúne a **base teórica**, a **sintaxe esencial** e **exemplos executables** que o alumnado precisa dominar antes de entrar en pandas. non cubrimos a configuración de contornos nin markdown, e deixamos a visualización para outro módulo.

---

**que imos ver:**
1. sintaxe básica e tipos primitivos  
2. cadeas de texto  
3. estruturas de datos (list, tuple, set, dict)  
4. control de fluxo  
5. comprensións e utilidades funcionais  
6. funcións e ámbito  
7. erros e excepcións  
8. módulos da biblioteca estándar (selección práctica)  
9. ficheiros e rutas  
10. datas e horas  
11. expresións regulares  
12. numpy imprescindible para pandas  
13. boas prácticas e estilo  


## 1) sintaxe básica e tipos primitivos

**obxectivos**
- comprender variables, tipos (`int`, `float`, `bool`, `None`) e operacións aritméticas/lóxicas.
- entender a diferencia entre `/` (división real) e `//` (división enteira), `%` (módulo) e `**` (potencia).
- saber empregar `type()` e `isinstance()`.


In [None]:
# exemplos básicos de tipos e operacións
a = 7          # int
b = 3          # int
c = 7.0        # float
flag = True    # bool
nada = None    # NoneType

print('a + b =', a + b)
print('a / b =', a / b)    # división real -> 2.333...
print('a // b =', a // b)  # división enteira -> 2
print('a % b =', a % b)    # resto -> 1
print('2 ** 10 =', 2 ** 10)

print('type(a):', type(a).__name__)
print('isinstance(c, float)?', isinstance(c, float))

# comparacións e lóxica
print('a > b:', a > b)
print('a == c:', a == c)   # True (7 == 7.0)
print('a is c:', a is c)   # False (obxectos distintos)
print('flag and (a>b):', flag and (a>b))

## 2) cadeas de texto

**ideas clave**
- as cadeas son inmutables; úsanse moito para limpeza e normalización.
- slicing e métodos comúns: `lower`, `upper`, `strip`, `replace`, `split`, `join`.
- **f-strings** para formateo claro.


In [None]:
nome = '  carmen pérez  '
limpo = nome.strip().title()  # quita espazos e pon Maiúscula Inicial
print(limpo)  # 'Carmen Pérez'

# slicing
s = 'ABCD1234'
print(s[:4], s[4:], s[-2:])  # 'ABCD', '1234', '34'

# f-strings
n, m = 5, 3
print(f'{n} + {m} = {n+m} (ok)')

# join/split
tokens = 'a,b,c'.split(',')
recomposto = ' | '.join(tokens)
print(tokens, '->', recomposto)

## 3) estruturas de datos (list, tuple, set, dict)

**en que situación usar cada unha**
- **list**: colección ordenada, **mutable**, admite duplicados.
- **tuple**: colección ordenada, **inmutable** (bo para claves e retornos múltiples).
- **set**: colección **sen duplicados**, operacións de conxuntos.
- **dict**: mapeo **clave→valor**; acceso rápido por clave.


In [None]:
# lista
nums = [4, 1, 4, 2]
nums.append(9); nums.sort()
print('lista:', nums)

# tupla
punto = (3, 5)
print('tupla:', punto)

# set (elimina duplicados automaticamente)
unique = set(nums)
print('set:', unique, 'contén 4?', 4 in unique)

# dict
notas = {'ana': 8.5, 'xurxo': 6.0}
notas['ana'] = 9.0
print('dict:', notas, 'nota de ana:', notas.get('ana', 'sen dato'))

# iteración sobre dict
for alumno, nota in notas.items():
    print(f'{alumno}: {nota}')

## 4) control de fluxo

- condicións: `if / elif / else`
- bucles: `for` (sobre secuencias), `while` (ata condición), `break`/`continue`
- utilidades: `range`, `enumerate`, `zip`


In [None]:
x = 12
if x % 2 == 0:
    tipo = 'par'
else:
    tipo = 'impar'
print('x é', tipo)

# for + range
suma = 0
for i in range(1, 6):  # 1..5
    suma += i
print('suma 1..5 =', suma)

# enumerate
frutas = ['mazá','pera','uva']
for i, f in enumerate(frutas, start=1):
    print(i, f)

# zip
cores = ['vermello','verde','azul']
for f, c in zip(frutas, cores):
    print(f'{f} -> {c}')

## 5) comprensións e utilidades funcionais

- **list/dict/set comprehensions** fan transformacións concisas.
- `any` / `all` para comprobar condicións nunha colección.
- `sorted(sequence, key=func)` con `lambda` para ordenar por criterio.


In [None]:
nums = [1,2,3,4,5,6]

pares = [n for n in nums if n % 2 == 0]
cuadrados = {n: n**2 for n in nums}
unicos = {n % 3 for n in nums}
print('pares:', pares)
print('cuadrados:', cuadrados)
print('restos únicos mod 3:', unicos)

print('algún > 5?', any(n>5 for n in nums))
print('todos > 0?', all(n>0 for n in nums))

palabras = ['python','Pandas','Numpy']
print(sorted(palabras, key=lambda s: s.lower()))  # ordena ignorando maiúsculas

## 6) funcións e ámbito

- definición con `def`, argumentos por defecto, posicionais e nomeados.
- `*args` e `**kwargs` para flexibilidade.
- docstrings para documentación; ámbito **LEGB** (local → enclosing → global → builtins).


In [None]:
def area_rect(base, altura=1, *, unidades='cm^2'):
    """Calcula a área dun rectángulo.
    Args:
        base (float): base
        altura (float): altura (por defecto 1)
        unidades (str): cadea de unidades (argumento só por nome)
    Returns:
        float: área
    """
    return base * altura

print(area_rect(3, 4), 'cm^2')
print(area_rect(base=5, altura=2))

def suma_todo(*args):
    return sum(args)

print('suma 1..5 =', suma_todo(1,2,3,4,5))

# ámbito: variable global lida dende función
factor = 2
def dup(n):
    return n * factor  # le a global
print('dup(7)=', dup(7))

## 7) erros e excepcións

- manexo seguro con `try / except / else / finally`
- levantar erros con `raise`
- captura específica por tipo (`ValueError`, `KeyError`, ...)


In [None]:
def to_int(s):
    try:
        x = int(s)
    except ValueError as e:
        print('non é un enteiro:', s)
        return None
    else:
        # execútase se non houbo excepción
        return x
    finally:
        # sempre se executa
        pass

print(to_int('42'))
print(to_int('4x'))

# exemplo de raise
def dividir(a, b):
    if b == 0:
        raise ZeroDivisionError('b non pode ser 0')
    return a / b

print(dividir(10,2))

## 8) módulos da biblioteca estándar (selección práctica)

- `math`, `statistics`: cálculo numérico básico.
- `pathlib`: rutas e manipulación de ficheiros.
- `json`, `csv`: formatos de datos comúns.
- `random`: reproducibilidade con sementes.


In [None]:
import math, statistics as stats, random
random.seed(123)

valores = [2.0, 3.5, 4.0, 4.5]
print('pi aprox:', round(math.pi, 4))
print('media:', stats.mean(valores), 'var:', round(stats.pvariance(valores), 4))

print('un enteiro aleatorio 1..10:', random.randint(1,10))

## 9) ficheiros e rutas

- usar `pathlib.Path` para rutas portables.
- ler/escribir texto con `open` e *context manager*.
- CSV/JSON coa stdlib (sen pandas de momento).


In [None]:
from pathlib import Path
import json, csv

base = Path.cwd() / 'data_demo'
base.mkdir(exist_ok=True)

# escribir e ler texto plano
txt_path = base / 'nota.txt'
with open(txt_path, 'w', encoding='utf-8') as f:
    f.write('ola mundo\nsegunda liña')
with open(txt_path, encoding='utf-8') as f:
    print('lido:', f.read())

# JSON
data = {'alumno':'ana', 'notas':[8,9,7.5]}
json_path = base / 'notas.json'
json_path.write_text(json.dumps(data, ensure_ascii=False, indent=2), encoding='utf-8')
print('json:', json.loads(json_path.read_text(encoding='utf-8')))

# CSV
csv_path = base / 'táboa.csv'
rows = [{'id':1,'nome':'ana'},{'id':2,'nome':'beto'}]
with open(csv_path, 'w', newline='', encoding='utf-8') as f:
    writer = csv.DictWriter(f, fieldnames=['id','nome'])
    writer.writeheader(); writer.writerows(rows)
with open(csv_path, encoding='utf-8') as f:
    print('csv\n', f.read())

## 10) datas e horas

- `datetime`, `timedelta`, `strptime/strftime`
- zonas horarias con `zoneinfo` (desde python 3.9)


In [None]:
from datetime import datetime, timedelta
from zoneinfo import ZoneInfo

agora_utc = datetime.now(tz=ZoneInfo('UTC'))
print('agora UTC:', agora_utc.strftime('%Y-%m-%d %H:%M:%S %Z'))

# conversión de zona
agora_madrid = agora_utc.astimezone(ZoneInfo('Europe/Madrid'))
print('agora Madrid:', agora_madrid.strftime('%Y-%m-%d %H:%M:%S %Z'))

# parsear e formatear
s = '2025-09-24 14:30'
dt = datetime.strptime(s, '%Y-%m-%d %H:%M')
print('parsed:', dt, '| +90min ->', dt + timedelta(minutes=90))

## 11) expresións regulares (mínimo viable)

- `re.search` / `re.findall` para atopar patróns.
- `re.sub` para substitucións.
- patróns comúns: `\d` díxitos, `\w` alfanuméricos, `+` repeticións, grupos `(...)`.


In [None]:
import re

texto = 'pedido #A-2025-009 entregado a carmen, tlf: +34 600 123 456.'
m = re.search(r'#([A-Z]-\d{4}-\d{3})', texto)
print('código pedido:', m.group(1) if m else None)

tlf = re.findall(r'\+?\d[\d\s]{7,}', texto)
print('teléfonos atopados:', [t.strip() for t in tlf])

limpo = re.sub(r'\s+', ' ', texto).strip()
print('texto limpo:', limpo)

## 12) numpy imprescindible para pandas

- `ndarray`: `shape`, `dtype`, indexación/slicing.
- operacións vectorizadas e *broadcasting*.
- máscaras booleanas, agregación por eixes, `np.nan`.


In [None]:
import numpy as np
np.random.seed(42)

a = np.array([1,2,3,4], dtype=np.int64)
b = np.arange(12).reshape(3,4)
print('a:', a, 'dtype:', a.dtype)
print('b shape:', b.shape); print(b)

# operacións vectorizadas
print('a*10:', a*10)
print('fila 0 de b:', b[0], 'columna 1:', b[:,1])

# máscara booleana
mask = b % 2 == 0
print('pares en b:', b[mask])

# broadcasting
col_mean = b.mean(axis=0)
norm = (b - col_mean) / (b.std(axis=0) + 1e-9)
print('media por columna:', np.round(col_mean,2))
print('norm shape:', norm.shape)

# NaN e agregación segura
x = np.array([1.0, np.nan, 3.0])
print('media ignorando NaN:', np.nanmean(x))

## 13) boas prácticas e estilo

- **nomes descritivos** en variables e funcións.
- **pep8** (espazos, liñas curtas, indentación uniforme).
- **funcións pequenas** con responsabilidades claras; evitar código duplicado.
- **reproducibilidade**: sementes aleatorias, versións anotadas, camiños relativos.
- **validación**: `assert` para condicións que deben cumprirse.


In [None]:
def normaliza_texto(s: str, *, lower=True, strip=True) -> str:
    """normaliza cadeas de texto de forma simple."""
    if s is None:
        return ''
    if strip:
        s = s.strip()
    if lower:
        s = s.lower()
    return s

# probas rápidas con assert (non substitúen tests formais)
assert normaliza_texto(' Ola ') == 'ola'
assert normaliza_texto(' Ola ', lower=False) == 'Ola'
print('ok: funcións e asserts básicos listos.')