In [1]:
import spacy

In [2]:
! python -m spacy download ca_core_news_lg

Collecting ca-core-news-lg==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ca_core_news_lg-3.7.0/ca_core_news_lg-3.7.0-py3-none-any.whl (574.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m574.0/574.0 MB[0m [31m1.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: ca-core-news-lg
Successfully installed ca-core-news-lg-3.7.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ca_core_news_lg')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [3]:
nlp = spacy.load('ca_core_news_lg')

In [4]:
text="Vale, hi ha una parella al veïnat… Jo no ho veig, entre cometes *Inintel·ligible* *Pausa* La parella *Inintel·ligible* terra *Pausa* i… *Pausa* Que ballen al bosc. *Pausa* *Inintel·ligible* Estan al terra *Inintel·ligible* *Pausa*"

In [5]:
doc=nlp(text)

In [None]:
print(doc)

Vale, hi ha una parella al veïnat… Jo no ho veig, entre cometes *Inintel·ligible* *Pausa* La parella *Inintel·ligible* terra *Pausa* i… *Pausa* Que ballen al bosc. *Pausa* *Inintel·ligible* Estan al terra *Inintel·ligible* *Pausa*


### INFORMACIÓ DESCRIPTIVA:

### Nombre total de tokens, types i raó type/token:

In [11]:
paraules_excloses = ["Inintel·ligible", "Pausa", "Ecolàlia"]
nombre_tokens = len([token.text for token in doc if not token.is_punct and token.text not in paraules_excloses])
nombre_types = len(set([token.text for token in doc if not token.is_punct and token.text not in paraules_excloses]))

print("Nombre de tokens:", nombre_tokens)
print("Nombre de types:", nombre_types)
print("Ràtio type-token:", round(nombre_types/nombre_tokens,3), "("+str(round(nombre_types/nombre_tokens*100,2))+"%)")

Nombre de tokens: 27
Nombre de types: 21
Ràtio type-token: 0.778 (77.78%)


### Tokens impresos:

In [10]:
paraules_excloses = ["*Inintel·ligible*", "*Pausa*", "*Ecolàlia*"]
for token in text.split():
  if token not in paraules_excloses:
    print (token)

Vale,
hi
ha
una
parella
al
veïnat…
Jo
no
ho
veig,
entre
cometes
La
parella
terra
i…
Que
ballen
al
bosc.
Estan
al
terra


### Nombre total d'enunciats:

In [None]:
total_oracions = len(list(doc.sents))
print("Número total d'enunciats:", total_oracions)

Número total d'enunciats: 4


### Enunciats impresos:

In [None]:
for sent in doc.sents:
    print(sent)

Vale, hi ha una parella al veïnat…
Jo no ho veig, entre cometes *Inintel·ligible* *Pausa* La parella *Inintel·ligible* terra *Pausa* i…
*Pausa* Que ballen al bosc.
*Pausa* *Inintel·ligible* Estan al terra *Inintel·ligible* *Pausa*


### Longitud mitjana dels enunciats:

In [None]:
sentence_lengths = []
for sent in doc.sents:
    sentence_length = len(sent)
    sentence_lengths.append(sentence_length)
median_sentence_length = sorted(sentence_lengths)[len(sentence_lengths) // 2]
print("Longitud mitjana dels enunciats:", median_sentence_length)

Longitud mitjana dels enunciats: 16


### RIQUESA LÈXICA I SINTÀCTICA:

### Nombre total de substantius:

In [None]:
total_substantius = sum(1 for token in doc if token.pos_ == "NOUN")
print("Nombre total de substantius:", total_substantius)
substantius=[]
for token in doc:
  if token.pos_ == "NOUN":
    substantius.append(token.text)
print(substantius)

Nombre total de substantius: 6
['parella', 'veïnat', 'cometes', 'parella', 'bosc', 'terra']


### Lèxic: total de paraules clau que apareixen a la descripció:

In [None]:
paraules_clau=["pícnic","estel","gos","vaixel","casa","arbre","família", "bandera", "xic","pare","mare"]
total_paraules = 0
for token in doc:
    if token.text.lower() in paraules_clau:
        total_paraules += 1
print("Número total de paraules:", total_paraules)

Número total de paraules: 0


### Imprimim les paraules clau:

In [None]:
paraules_clau=["pícnic","estel","gos","vaixell","barca","casa","arbre","família","bandera","xic","nen","pare","mare"]
paraules_clau_text = set()

for token in doc:
    if token.text in paraules_clau:
        paraules_clau_text.add(token.text)

print("Paraules clau que apareixen al text:")
print(list(paraules_clau_text))

Paraules clau que apareixen al text:
[]


### Percentatge de paraules clau respecte al nombre total de substantius:

In [None]:
resultat_paraules_substantius = (total_paraules/total_substantius)*100
print("Percentatge de paraules clau respecte al nombre total de substantius:",resultat_paraules_substantius,"%")

Percentatge de paraules clau respecte al nombre total de substantius: 0.0 %


### Nombre total de *stopwords* o paraules comunes de la llengua:

In [None]:
num_stopwords = sum(1 for token in doc if token.is_stop)
print("Número total de stopwords al text:", num_stopwords)

Número total de stopwords al text: 14


In [None]:
stopwords_spacy_català = spacy.lang.ca.stop_words.STOP_WORDS
total_stopwords = 0
for token in doc:
    if token.text.lower() in stopwords_spacy_català:
        total_stopwords += 1
print("Número total de stopwords:", total_stopwords)

Número total de stopwords: 14


In [None]:
stopwords_spacy_català = spacy.lang.ca.stop_words.STOP_WORDS
stopwords_trobades = []
for token in doc:
    if token.text.lower() in stopwords_spacy_català:
        stopwords_trobades.append(token.text)
print("Stopwords trobades al text:", stopwords_trobades)

Stopwords trobades al text: ['hi', 'ha', 'una', 'a', 'Jo', 'no', 'ho', 'entre', 'La', 'i', 'Que', 'a', 'Estan', 'a']


### Nombre total de verbs:

In [None]:
total_verbs = sum(1 for token in doc if token.pos_ == "VERB")
print("Nombre total de verbs:", total_verbs)
verbs=[]
for token in doc:
  if token.pos_ == "VERB":
    verbs.append(token.text)
print(verbs)

Nombre total de verbs: 4
['ha', 'veig', 'ballen', 'Estan']


### Nombre total de preposicions:

In [None]:
total_preposicions = sum(1 for token in doc if token.pos_ == "ADP")
print("Nombre total de preposicions:", total_preposicions)
preposicions=[]
for token in doc:
  if token.pos_ == "ADP":
    preposicions.append(token.text)
print(preposicions)

Nombre total de preposicions: 4
['a', 'entre', 'a', 'a']


### Percentatge de preposicions respecte al nombre total de tokens:

In [None]:
resultat_preposicions = (total_preposicions/nombre_tokens)*100
print("Percentatge de preposicions respecte al nombre total de tokens:",resultat_preposicions,"%")

Percentatge de preposicions respecte al nombre total de tokens: 11.11111111111111 %


### Nombre total de clàusules subordinades:

In [None]:
comptador_clàusules_subordinades = 0
for sent in doc.sents:
    té_clàusules_subordinades = any(token.dep_ == "advcl" for token in sent)
    if té_clàusules_subordinades:
        comptador_clàusules_subordinades += 1
print("nombre total de clàusules subordinades:", comptador_clàusules_subordinades)

nombre total de clàusules subordinades: 0


### Clàusules subordinades impreses:

In [None]:
for sent in doc.sents:
    té_clàusules_subordinades = any(token.dep_ == "advcl" for token in sent)
    if té_clàusules_subordinades:
        print(sent.text)

### DISFLUÈNCIA:

### Nombre total de preguntes:

In [None]:
total_preguntes = 0
for token in doc:
    if token.text == "?":
        total_preguntes += 1
print("Número total de preguntes:", total_preguntes)

Número total de preguntes: 0


### Nombre total d'oracions inacabades o interrupcions del discurs, marcat amb tres punts suspensius:

In [None]:
total_trespunts = 0
for token in doc:
    if token.text == "…":
        total_trespunts += 1
print("Número total de tres punts:", total_trespunts)

Número total de tres punts: 2


### Nombre total de dubitacions, falques o esterotípies (Pausa):

In [None]:
total_pauses = 0
for token in doc:
    if token.text == "Pausa":
        total_pauses += 1
print("Número total de pauses:", total_pauses)

Número total de pauses: 5


### Percentatge de pauses respecte al total de tokens:

In [None]:
resultat_pauses=(total_pauses/nombre_tokens)*100
print("Percentatge de pauses respecte al total de tokens:", resultat_pauses,"%")

Percentatge de pauses respecte al total de tokens: 13.88888888888889 %


### Nombre total de fragments inintel·ligibles:

In [None]:
total_fragments_inintel·ligibles = 0
for token in doc:
    if token.text == "Inintel·ligible":
        total_fragments_inintel·ligibles += 1
print("Número total de fragments inintel·ligibles:", total_fragments_inintel·ligibles)

Número total de fragments inintel·ligibles: 4


### Percentatge de fragments inintel·ligibles respecte al total de tokens:

In [None]:
resultat_inintel·ligibles=(total_fragments_inintel·ligibles/nombre_tokens)*100
print("Percentatge de fragments inintel·ligibles respecte al total de tokens:", resultat_inintel·ligibles,"%")

Percentatge de fragments inintel·ligibles respecte al total de tokens: 11.11111111111111 %


### Nombre d'ecolàlies:

In [None]:
total_ecolàlies = 0
for token in doc:
    if token.text == "Ecolàlia":
        total_ecolàlies += 1
print("Nombre total d’ecolàlies:", total_ecolàlies)

Nombre total d’ecolàlies: 0


### ÚS DE LES LLENGÜES:

In [None]:
! pip install spacy-language-detection
from spacy.language import Language
from spacy_language_detection import LanguageDetector

def get_lang_detector(nlp, name):
    return LanguageDetector(seed=42)

Language.factory("language_detector", func=get_lang_detector)
nlp.add_pipe('language_detector', last=True)
doc = nlp(text)

language = doc._.language
print(language)

for i, sent in enumerate(doc.sents):
    print(sent, sent._.language)

Collecting spacy-language-detection
  Downloading spacy_language_detection-0.2.1-py3-none-any.whl (6.5 kB)
Collecting langdetect==1.0.9 (from spacy-language-detection)
  Downloading langdetect-1.0.9.tar.gz (981 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m981.5/981.5 kB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993227 sha256=22dd6dd5c504632bb46b0f4d046d6887d39e5de135b16f8304be1e89a2615c77
  Stored in directory: /root/.cache/pip/wheels/95/03/7d/59ea870c70ce4e5a370638b5462a7711ab78fba2f655d05106
Successfully built langdetect
Installing collected packages: langdetect, spacy-language-detection
Successfully installed langdetect-1.0.9 spacy-language-detection-0.2.1
{'language': 'ca', 'score': 0.999995027149593}
Vale, h

### TASQUES DE PLN:

### Lematització dels tokens:

In [None]:
for token in doc:
    if str(token) != str(token.lemma_):
        print(f"{str(token):>20} : {str(token.lemma_)}")

                  ha : haver
                 una : un
                   l : el
                  Jo : jo
                veig : veure
             cometes : cometa
                  La : el
                 Que : que
              ballen : ballar
                   l : el
               Estan : estar
                   l : el


### Etiquetatge gramatical, morfològic i dependències sintàctiques:

In [None]:
for token in doc:
    if not token.is_stop:
        if not token.is_punct:
            print(
            f"""
TOKEN: {str(token)}
=====
ETIQUETA: {str(token.tag_):10} POS: {token.pos_}
EXPLICACIÓ: {spacy.explain(token.tag_)}
MORFOLOGIA:{token.morph}
DEPENDÈNCIA:{token.dep_}"""
    )


TOKEN: Vale
=====
ETIQUETA: PROPN      POS: PROPN
EXPLICACIÓ: proper noun
MORFOLOGIA:
DEPENDÈNCIA:nsubj

TOKEN: parella
=====
ETIQUETA: NOUN       POS: NOUN
EXPLICACIÓ: noun
MORFOLOGIA:Gender=Fem|Number=Sing
DEPENDÈNCIA:obj

TOKEN: l
=====
ETIQUETA: DET        POS: DET
EXPLICACIÓ: determiner
MORFOLOGIA:Definite=Def|Gender=Masc|Number=Sing|PronType=Art
DEPENDÈNCIA:det

TOKEN: veïnat
=====
ETIQUETA: NOUN       POS: NOUN
EXPLICACIÓ: noun
MORFOLOGIA:Gender=Masc|Number=Sing
DEPENDÈNCIA:nmod

TOKEN: veig
=====
ETIQUETA: VERB       POS: VERB
EXPLICACIÓ: verb
MORFOLOGIA:Mood=Ind|Number=Sing|Person=1|Tense=Pres|VerbForm=Fin
DEPENDÈNCIA:ROOT

TOKEN: cometes
=====
ETIQUETA: NOUN       POS: NOUN
EXPLICACIÓ: noun
MORFOLOGIA:Gender=Fem|Number=Plur
DEPENDÈNCIA:obl

TOKEN: Inintel·ligible
=====
ETIQUETA: PROPN      POS: PROPN
EXPLICACIÓ: proper noun
MORFOLOGIA:
DEPENDÈNCIA:appos

TOKEN: Pausa
=====
ETIQUETA: PROPN      POS: PROPN
EXPLICACIÓ: proper noun
MORFOLOGIA:
DEPENDÈNCIA:appos

TOKEN: parella
=

### Arbre de dependències sintàctiques:

In [None]:
from spacy import displacy
displacy.render(doc, style="dep")

### Reconeixement d'entitats:

In [None]:
for ent in doc.ents:
    print(ent.text,ent.label_, token.ent_iob_)

Vale ORG O


In [None]:
displacy.render(doc,style="ent")