# 1. Python per a PLN: llistes, strings i corpus

Tractament de Dades Textuals i Codificades — Eixample Clínic, 2026

Pol Pastells

## Teoria List Comprehensions

a)
```python
result = [expression(item) for item in sequence]
```

és equivalent a

```python
result = []
for item in sequence:
    result.append(expression(item))
```

b)
```python
result = [expression(item) for item in sequence if condition]
```

és equivalent a

```python
result = []
for item in sequence:
    if condition:
        result.append(expression(item))
```

Anem poc a poc:
1. Agafem tots els elements, i ens quedem amb la mateixa llista

In [None]:
llista1 = [
    "ADIL",
    "EDURNE",
    "BRIAN",
    "PALMIRA",
    "IVETTE",
    "HAFIDA",
    "MARCELO",
    "JUAN IGNACIO",
    "MHAMED",
    "MARWA",
    "FLORENCIO",
    "CLAUDIO",
]

In [None]:
[s for s in llista1]

2. Apliquem l'expressió que vulguem per modificar cada element

In [None]:
[s.lower()[:5] for s in llista1]

3. Posem una condició (si volem)

La condició s'aplica a **l'element original** (no a l'expressió abans del `for`).
En el nostre cas hem de filtrar amb la lletra amb majúscula, ja que encara no l'hem pasat a minúscula.

In [None]:
[s.lower()[:5] for s in llista1 if s.startswith("M")]

c) També podem fer-ho amb llistes de llistes

```python
result = [[expression2(item) for item in expression1(items)] for items in llista_items]
```

o bé

```python
result = [
    [
        expression2(item)
        for item in expression1(items)
    ]
    for items in llista_items
]
```

és equivalent a

```python
result = []
for items in llista_items:
    for item in expression1(items):
        result.append(expression2(item))
```

In [None]:
llista_items = [["un", "dos", "tres"], ["a", "b", "c"]]
[[item.upper() for item in items[1:]] for items in llista_items]

---
# Exercicis

Descarrega't els quatre fitxers dins la carpeta `gutenberg`

## 1.

Llegeix el text de Metamorphosis del projecte Gutenberg per fer-lo servir com a corpus.

1. Obre el fitxer manualment i mira com pots treure la capçalera i el peu del projecte Gutenberg, que no formen part del llibre. Et convé llegir el llibre com a un sol string o com a una llista d'strings?
2. Comprova que funciona també per altres llibres. Fes una funció que rebi el nom del fitxer i retorni un string.
3. (extra): podem indicar quin tipus de variables rep i retorna una funció amb `:` (e.g. `fitxer: str`). És similar a un comentari, no donarà un error si es passa un tipus de variable diferent.

In [None]:
def llegir_gutenberg(fitxer: str) -> str:
    pass

## 2.

Transforma el text a una llista d'strings que continguin els diferents capítols. Podem suposar que un capítol està delimitat per dues o més línies en blanc.

Un cop tinguis els capítols (o abans?), neteja el text:
- Borra els strings de la llista que tinguin menys de 1 000 caràcters.
- Passa-ho tot a minúscules.
- Canvia els caràcters de 'nova línia' a espai.

Posa-ho tot en una funció.


Quants capítols té cada llibre de la carpeta?

## 3.

Fes una funció que:
1. Tregui la puntuació
2. Tokenitzi cada capítol amb nltk (tindràs una llista de llistes per a cada llibre)
3. Tregui les paraules gramaticals (stopwords) en anglès

A la següent classe veurem més com funciona NLTK.
Fes servir els següents troços de codi, posa'ls junts fent servir list comprehensions.

In [None]:
# 1) Treiem puntuació. Pots tractar-ho com a caixa negra, però intenta veure mínimament què fa cada element.
# Com pots modificar quins signes de puntuació té en compte?
import string

text2 = "Compte, amb puntuació!"
text2.translate(str.maketrans("", "", string.punctuation))

In [None]:
# 2) Tokenitzem amb NLTK
# si falla us caldrà instalar el paquet
# ! pip install nltk -q
import nltk
from nltk.tokenize import word_tokenize

nltk.download("punkt_tab")

capitol_exemple = "i in my younger and more vulnerable years my father gave me some advice that i’ve been turning over in my mind ever since. “whenever you feel like criticizing anyone,” he told me, “just remember that all the people in this world haven’t had the advantages that you’ve had.”"
tokens = word_tokenize(capitol_exemple)
tokens

In [None]:
# 3) Importem una llista de stopwords de NLTK
nltk.download("stopwords")
from nltk.corpus import stopwords

stop_words = stopwords.words("english")
stop_words[:20]

In [None]:
# els filtrem
[token for token in tokens if token not in stop_words]

In [None]:
# També ho podem fer en castellà.

# NOTA: pel català existeixen stopwords amb nltk, però la funció de tokenitzar no accepta `catalan`
# Podem fer servir el tokenitzador castellà o fer servir una altra funció o una altra llibreria (veure spaCy)

text_es = "en un lugar de la mancha, de cuyo nombre no quiero acordarme, no ha mucho tiempo que vivía un hidalgo de los de lanza en astillero, adarga antigua, rocín flaco y galgo corredor. una olla de algo más vaca que carnero, salpicón las más noches, duelos y quebrantos los sábados, lantejas los viernes, algún palomino de añadidura los domingos, consumían las tres partes de su hacienda."
tokens_es = word_tokenize(text_es, language="spanish")
stop_words_es = stopwords.words("spanish")
print(stop_words_es[:10])
[token for token in tokens_es if token not in stop_words_es]

## 4.

Per cada llibre, crea un diccionari que contingui:
- Llista de tokens per capítol
- Nombre de tokens per capítol.
- 5 tokens més freqüents per capítol

Fes una funció que faci els 4 apartats de cop per un llibre donat.

In [None]:
# Pels elements més freqüents fes servir un Counter
from collections import Counter

llista_exemple = ["a", "a", "a", "b", "b", "b", "c", "c", "d", "e", "f"]
recompte = Counter(llista_exemple)
recompte

In [None]:
recompte.most_common(2)

## 5.
Finalment, fes un diccionari, que contingui els diccionaris per a cada llibre.

In [None]:
# glob ens permet iterar fitxers com si fóssim a la terminal
from glob import glob

for fitxer in glob("gutenberg/*.txt"):
    print(fitxer)