# Magyar NLP bemutatása

In [None]:
! pip install https://github.com/oroszgy/spacy-hungarian-models/releases/download/hu_core_ud_lg-0.3.1/hu_core_ud_lg-0.3.1-py3-none-any.whl

In [1]:
import hu_core_ud_lg as hu
nlp = hu.load()



In [2]:
nlp

<spacy.lang.hu.Hungarian at 0x19e4a484288>

In [3]:
nlp.pipeline

[('hun_sentencizer', <hu_core_ud_lg.HunSentencizer at 0x19e4d7cfd08>),
 ('tagger', <spacy.pipeline.pipes.Tagger at 0x19e4d7cfc88>),
 ('hun_lemmatizer', <hu_core_ud_lg.HunLemmatizer at 0x19e4a4f6d88>),
 ('parser', <spacy.pipeline.pipes.DependencyParser at 0x19e4e23cee8>),
 ('ner', <spacy.pipeline.pipes.EntityRecognizer at 0x19e4e23cfa8>)]

In [4]:
doc = nlp("A 19. percben 1–11-re állt a címvédő Vardar a kézilabda BL-ben")
doc

A 19. percben 1–11-re állt a címvédő Vardar a kézilabda BL-ben

In [10]:
print("{0: <16}".format("Text"), "{0: <14}".format("Lemma"), "PoS", "Dep", "{0: <10}".format("Shape"), "Stop", sep="\t| ")
print("-"*110)
for token in doc:
    print(
        "{0: <16}".format(token.text), "{0: <14}".format(token.lemma_), token.pos_, 
        token.dep_,
        "{0: <10}".format(token.shape_), token.is_stop, 
        sep="\t| "
    )

Text            	| Lemma         	| PoS	| Dep	| Shape     	| Stop
--------------------------------------------------------------------------------------------------------------
A               	| a             	| DET	| det	| X         	| True
19.             	| 19.           	| ADJ	| amod	| dd.       	| False
percben         	| perc          	| NOUN	| nmod	| xxxx      	| False
1–11-re         	| 1–11.         	| NOUN	| obj	| d–dd-xx   	| False
állt            	| áll           	| VERB	| ROOT	| xxxx      	| False
a               	| a             	| DET	| det	| x         	| True
címvédő         	| címvédő       	| NOUN	| nmod	| xxxx      	| False
Vardar          	| Vardar        	| PROPN	| nsubj	| Xxxxx     	| False
a               	| a             	| DET	| det	| x         	| True
kézilabda       	| kézilabda     	| NOUN	| nmod	| xxxx      	| False
BL-ben          	| BL            	| NOUN	| nmod	| XX-xxx    	| False


In [11]:
from spacy import displacy

displacy.render(doc, style='dep', jupyter=True)

In [14]:
! pip install newspaper3k

Collecting newspaper3k
  Downloading newspaper3k-0.2.8-py3-none-any.whl (211 kB)
Collecting feedfinder2>=0.0.4
  Downloading feedfinder2-0.0.4.tar.gz (3.3 kB)
Collecting cssselect>=0.9.2
  Downloading cssselect-1.1.0-py2.py3-none-any.whl (16 kB)
Collecting tldextract>=2.0.1
  Downloading tldextract-3.1.0-py2.py3-none-any.whl (87 kB)
Collecting jieba3k>=0.35.1
  Downloading jieba3k-0.35.1.zip (7.4 MB)
Collecting tinysegmenter==0.3
  Downloading tinysegmenter-0.3.tar.gz (16 kB)
Collecting feedparser>=5.2.1
  Downloading feedparser-6.0.2-py3-none-any.whl (80 kB)
Collecting requests-file>=1.4
  Downloading requests_file-1.5.1-py2.py3-none-any.whl (3.7 kB)
Collecting sgmllib3k
  Downloading sgmllib3k-1.0.0.tar.gz (5.8 kB)
Building wheels for collected packages: feedfinder2, jieba3k, tinysegmenter, sgmllib3k
  Building wheel for feedfinder2 (setup.py): started
  Building wheel for feedfinder2 (setup.py): finished with status 'done'
  Created wheel for feedfinder2: filename=feedfinder2-0.0.4-

In [20]:
from newspaper import Article

def extract_content(url):
    article = Article(url, language="hu")
    article.download()
    article.parse()
    return "{}\n\n{}".format(article.title, article.text)

In [21]:
doc = nlp(extract_content("https://index.hu/kulfold/2019/10/11/abij_ahmed_ali_nobel_bekedij_nagy_etiop_reneszansz_gat_etiopia_nilus_szudan_egyiptom/"))
doc

A friss Nobel-békedíjas etióp kormányfő a Nílussal hazárdírozik

Etiópia feszített tempóban dolgozik, hogy minél gyorsabban befejezze a Nílus egyik ágára tervezett Nagy Reneszánsz-gátat, ami elektromossággal látná el az infrastruktúrájában meglehetősen elmaradott országot. A tervtől azonban a Nílus alsóbb folyása mentén lévő országok kiakadtak, hiszen ez az ivóvízkészletük megtizedelésével járna. Egyiptomi katonai vezetők már a háborút tervezgették egy időben.

Az oslói Nobel-bizottság pénteken jelentette be, hogy az idei Nobel-békedíjat Abij Ahmed Ali etióp miniszterelnök kapja. A díj indoklása szerint a miniszterelnök sokat tett a békéért, a nemzetközi együttműködésért, és különösen azért, hogy megoldja a határkonfliktust a szomszédos Eritreával. Számos olyan reformot is megindított, amivel sok etiópnak adott reményt egy jobb életre. Miniszterelnökként a megbékélést, a szolidaritást és a társadalmi igazságosságot tartotta szem előtt.

Kérdés, hogy erről a szudániak és főképp az egyip

In [2]:
! pip install git+https://github.com/chartbeat-labs/textacy/tree/0.8.0

Collecting git+https://github.com/chartbeat-labs/textacy/tree/0.8.0
  Cloning https://github.com/chartbeat-labs/textacy/tree/0.8.0 to c:\users\molna\appdata\local\temp\pip-req-build-hnxo2_4s


  Running command git clone -q https://github.com/chartbeat-labs/textacy/tree/0.8.0 'C:\Users\molna\AppData\Local\Temp\pip-req-build-hnxo2_4s'
  fatal: repository 'https://github.com/chartbeat-labs/textacy/tree/0.8.0/' not found
ERROR: Command errored out with exit status 128: git clone -q https://github.com/chartbeat-labs/textacy/tree/0.8.0 'C:\Users\molna\AppData\Local\Temp\pip-req-build-hnxo2_4s' Check the logs for full command output.


In [22]:
import textacy.ke

textacy.ke.textrank(doc, topn=5, window_size=10, edge_weighting="count", position_bias=True)

ModuleNotFoundError: No module named 'textacy'

https://stackoverflow.com/questions/56385478/textacy-keyterms-returning-empty-list