# Classificació de text segons l'autor
  Construïu dos models de diferents autors: Josep Carner i Miquel dels Sants Oliver. Per això, podeu usar les seves obres disponibles al Projecte Gutenberg. Per exemple, de Carner preneu-ne la traducció dels contes de Mark Twain. Després, classificau frases en l'estil de cadascú que mostrin com el vostre model les identifica correctament.

In [1]:
!pip install blis==1.2.0 --ignore-requires-python
!pip install -r requirements.txt

Collecting blis==1.2.0
  Downloading blis-1.2.0-cp310-cp310-macosx_11_0_arm64.whl.metadata (7.7 kB)
Collecting numpy<3.0.0,>=1.19.0 (from blis==1.2.0)
  Downloading numpy-2.2.3-cp310-cp310-macosx_14_0_arm64.whl.metadata (62 kB)
Downloading blis-1.2.0-cp310-cp310-macosx_11_0_arm64.whl (1.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.3/1.3 MB[0m [31m9.9 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading numpy-2.2.3-cp310-cp310-macosx_14_0_arm64.whl (5.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m5.4/5.4 MB[0m [31m22.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: numpy, blis
Successfully installed blis-1.2.0 numpy-2.2.3
Collecting ca_core_news_sm@ https://github.com/explosion/spacy-models/releases/download/ca_core_news_sm-3.8.0/ca_core_news_sm-3.8.0-py3-none-any.whl#sha256=e214211aa8da91c24ebdc453c2aa5f54fac09f44e01e65bcbdd3b0a5cb94d809 (from -r requirements.txt (line 6))
  Downloading https://github.c

In [2]:
from aima_data.utils import open_data
from aima_data.text import words, UnigramWordModel
from aima_data.learning import NaiveBayesLearner

def recognize_author(text, nbs):
   return nbs(words(text.lower()))

def create_unigram_model(file_path, n):
   text = open_data(file_path).read()
   wordseq = words(text)
   return UnigramWordModel(wordseq, n)

p_miquel = create_unigram_model('CA-Text/bolla_hostel.txt', 5)
p_josep = create_unigram_model('CA-Text/tom_sawyer_adventures.txt', 5)

nbs = NaiveBayesLearner({('Miquel', 1): p_miquel, ('Josep', 1): p_josep}, simple=True)




![image.png](image.png)

Ara tenim les dues frases següents:
De Miquel dels Sants Oliver:
"La història és un diàleg entre el passat i el present, una constant revisió de criteris i valors."
De Josep Carner:
"Les paraules són com ocells que volen de branca en branca fins a trobar el seu cant definitiu."

In [5]:
recognize_author('ocells que volen de branca en branca fins a trobar el seu cant definitiu.', nbs)

'Josep'

In [6]:
recognize_author('entre el passat i el present, una constant revisió de criteris i valors.', nbs)

'Miquel'

# Generació de text
Construïu models n-gram amb n=1, n=3, n=5 i n=7 a partir d'un text triat per vosaltres. Pot ser una obra del Projecte Gutenberg o una notícia de premsa, per exemple. Observau com a mesura que augmenta el nombre de paraules que s'hi han tingut en compte la versemblança del text generat és més gran.

In [15]:
from random import choice
from aima_data.text import NgramCharModel, words

# generate text function
def generate_text(model, length, ngram=5):
    generate = []
    seed = choice(list(model.dictionary.keys()))
    generate.extend(seed)

    for i in range(length - ngram):
        last = tuple(generate[-(ngram - 1):])
        next_chars = [j[ngram - 1] for j in model.dictionary.keys() if j[:ngram - 1] == last]

        if not next_chars:
            break

        next_char = choice(next_chars)
        generate.append(next_char)

    return ''.join(generate)

fuenteovejuna = open_data('ES-Text/fuente_ovejuna.txt').read()
wordseq = words(fuenteovejuna)

for i in range(1, 11):
    model = NgramCharModel(i, wordseq)
    print(f'Ngram: {i}\n{generate_text(model=model, length=100, ngram=i)}\n\n')


Ngram: 1
z


Ngram: 2
plphidyrkeictrzaquctcknmpiglajolm022459121464444845409612720vuzeixtsamlbequrajablmuiobvelplcctsmaunj


Ngram: 3
yordeudomerlostsigojalrepadricempequincoraromicelionguzmajersecks


Ngram: 4
neroiconcreo


Ngram: 5
stemores


Ngram: 6
ccepting


Ngram: 7
 desnudo


Ngram: 8
 diversos


Ngram: 9
 original


Ngram: 10
 unenforceability




# Anàlisi sintàctica
Aplicau les eines d'alguna llibreria Python per analitzar sintàcticament l'oració següent: Tots els éssers humans neixen lliures i iguals en dignitat i drets.

In [16]:
!python -m spacy download ca_core_news_sm
!python -m spacy download es_core_news_sm

Collecting ca-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ca_core_news_sm-3.8.0/ca_core_news_sm-3.8.0-py3-none-any.whl (19.6 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.6/19.6 MB[0m [31m73.6 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ca_core_news_sm')
Collecting es-core-news-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/es_core_news_sm-3.8.0/es_core_news_sm-3.8.0-py3-none-any.whl (12.9 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.9/12.9 MB[0m [31m64.1 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('es_core_news_sm')


In [17]:
import spacy

es_nlp = spacy.load('es_core_news_sm')
ca_nlp = spacy.load('ca_core_news_sm')

es_sentence = 'Todos los seres humanos nacen libres e iguales en dignidad y derechos'
ca_sentence = 'Tots els éssers humans neixen lliures i iguals en dignitat i drets'

es_doc = es_nlp(es_sentence)
ca_doc = ca_nlp(ca_sentence)

In [18]:
print('- CATALÀ -')
print('Noun Phrases:', [chunk.text for chunk in ca_doc.noun_chunks])
print('Verbs:', [token.lemma_ for token in ca_doc if token.pos_ == 'VERB'])
print('Subjects:', [token.text for token in ca_doc if token.dep_ == 'nsubj'])
print('Adjectius:', [token.text for token in ca_doc if token.pos_ == 'ADJ'])
print('Preposicions:', [token.text for token in ca_doc if token.pos_ == 'ADP'])
print('Conjuncions:', [token.text for token in ca_doc if token.pos_ == 'CCONJ'])
print('+ Informació:')
for token in ca_doc:
    print(f'Paraula: {token.text} | Lema: {token.lemma_} | Part del discurs: {token.pos_} | Dependència sintàctica: {token.dep_} | Head: {token.head.text}')

- CATALÀ -
Noun Phrases: ['Tots els éssers humans', 'dignitat i drets']
Verbs: ['neixar']
Subjects: ['éssers']
Adjectius: ['humans', 'lliures', 'iguals']
Preposicions: ['en']
Conjuncions: ['i', 'i']
+ Informació:
Paraula: Tots | Lema: tot | Part del discurs: DET | Dependència sintàctica: det | Head: els
Paraula: els | Lema: el | Part del discurs: DET | Dependència sintàctica: det | Head: éssers
Paraula: éssers | Lema: ésser | Part del discurs: NOUN | Dependència sintàctica: nsubj | Head: neixen
Paraula: humans | Lema: humà | Part del discurs: ADJ | Dependència sintàctica: amod | Head: éssers
Paraula: neixen | Lema: neixar | Part del discurs: VERB | Dependència sintàctica: ROOT | Head: neixen
Paraula: lliures | Lema: lliure | Part del discurs: ADJ | Dependència sintàctica: obj | Head: neixen
Paraula: i | Lema: i | Part del discurs: CCONJ | Dependència sintàctica: cc | Head: iguals
Paraula: iguals | Lema: igual | Part del discurs: ADJ | Dependència sintàctica: conj | Head: lliures
Paraul

In [19]:
print('- CASTELLANO -')
print('Noun Phrases:', [chunk.text for chunk in es_doc.noun_chunks])
print('Verbos:', [token.lemma_ for token in es_doc if token.pos_ == 'VERB'])
print('Sujetos:', [token.text for token in es_doc if token.dep_ == 'nsubj'])
print('Adjetivos:', [token.text for token in es_doc if token.pos_ == 'ADJ'])
print('Preposiciones:', [token.text for token in es_doc if token.pos_ == 'ADP'])
print('Conjunciones:', [token.text for token in es_doc if token.pos_ == 'CCONJ'])
print('+ Información:')
for token in es_doc:
    print(f'Palabra: {token.text} | Lema: {token.lemma_} | Parte del discurso: {token.pos_} | Dependencia sintáctica: {token.dep_} | Head: {token.head.text}')

- CASTELLANO -
Noun Phrases: ['Todos los seres humanos', 'dignidad', 'derechos']
Verbos: ['nacer']
Sujetos: ['seres']
Adjetivos: ['humanos', 'libres', 'iguales']
Preposiciones: ['en']
Conjunciones: ['e', 'y']
+ Información:
Palabra: Todos | Lema: todo | Parte del discurso: DET | Dependencia sintáctica: det | Head: los
Palabra: los | Lema: el | Parte del discurso: DET | Dependencia sintáctica: det | Head: seres
Palabra: seres | Lema: ser | Parte del discurso: NOUN | Dependencia sintáctica: nsubj | Head: nacen
Palabra: humanos | Lema: humano | Parte del discurso: ADJ | Dependencia sintáctica: amod | Head: seres
Palabra: nacen | Lema: nacer | Parte del discurso: VERB | Dependencia sintáctica: ROOT | Head: nacen
Palabra: libres | Lema: libre | Parte del discurso: ADJ | Dependencia sintáctica: obj | Head: nacen
Palabra: e | Lema: e | Parte del discurso: CCONJ | Dependencia sintáctica: cc | Head: iguales
Palabra: iguales | Lema: igual | Parte del discurso: ADJ | Dependencia sintáctica: conj 

# Recuperació d'informació
Carregau l'article de la wikipèdia sobre Europa (https://ca.wikipedia.org/wiki/Europa) en una llista de frases i recuperau-ne la informació següent, cercant les frases més semblants.

Quan es va gestar el concepte d'Europa?
Quina és l'espècie humana autòctona d'Europa?
Quan es varen formar els estats actuals d'Europa?
Quin clima té Europa?

In [20]:
from requests import get
from bs4 import BeautifulSoup
import spacy
from sentence_transformers import SentenceTransformer, util

# fetch wikipedia content function
def fetch_wikipedia_content(url):
    response = get(url)
    html = BeautifulSoup(response.text, 'html.parser')
    content = ' '.join([p.text for p in html.find_all(["p", "div"]) if p.text])
    return content

# processor text with spacy function
def process_text_with_spacy(content, model_name='ca_core_news_sm'):
    nlp = spacy.load(model_name)
    document = nlp(content)
    sentences = [sentence.text for sentence in document.sents]
    return sentences

# best matching thing
def find_best_matching_sentences(questions, sentences, model_name='paraphrase-multilingual-MiniLM-L12-v2'):
    model = SentenceTransformer(model_name)
    questions_embeddings = model.encode(questions, convert_to_tensor=True)
    sentences_embeddings = model.encode(sentences, convert_to_tensor=True)
    
    best_sentences = []
    for i, question in enumerate(questions):
        scores = util.pytorch_cos_sim(questions_embeddings[i], sentences_embeddings)
        best_sentence_idx = scores.argmax()
        best_sentences.append(sentences[best_sentence_idx])
    return best_sentences

url = 'https://ca.wikipedia.org/wiki/Europa'
content = fetch_wikipedia_content(url)
sentences = process_text_with_spacy(content)

questions = [
    '¿Cuándo se gestó el concepto de Europa?',
    '¿Cuál es la especie humana autóctona de Europa?',
    '¿Cuándo se formaron los estados actuales de Europa?',
    '¿Qué clima tiene Europa?'
]

best_sentences = find_best_matching_sentences(questions, sentences)

for i, question in enumerate(questions):
    print(f'Question {i+1}: {question}\nBest Sentence: {best_sentences[i]}\n\n')

  from .autonotebook import tqdm as notebook_tqdm


Question 1: ¿Cuándo se gestó el concepto de Europa?
Best Sentence: Vegeu-ne altres significats a «Europa (desambiguació)».





Question 2: ¿Cuál es la especie humana autóctona de Europa?
Best Sentence: Aquesta espècie es trobava ja a Europa quan va arribar l'humà de Cromanyó (Homo sapiens), espècie a què pertany tota la humanitat actual.


Question 3: ¿Cuándo se formaron los estados actuales de Europa?
Best Sentence: Molts dels estats de l'Europa actual es van formar després de la Primera Guerra Mundial.


Question 4: ¿Qué clima tiene Europa?
Best Sentence: [Consulta: 14 febrer 2011].

↑ «European Climate».


