# Magyar NLP - előfeldolgozás

A szöveges adatokban nyers formájukban még rengeteg elemzéshez irreleváns elem, zaj lehet, melyektől meg kell tisztítani a dokumentumokat.
<br>
Vannak olyan lépések, amelyeket el kell végeznünk mielőtt nekiállnánk elemezni a dokumentumgyűjteményünket.
<br>
Ebben a notebook-ban sorrol sorra átvesszük, hogy milyen előfeldolgozáson kell alávetni a dokomentumgyűjteményt, hogy elemezhető legyen.
<br>
**Tartalom:**
* Csomagok importálása,
* Fájlok beolvasása,
* Adatfeltárás,
* Korpusz tisztítása,
* Szövegbányászati elemzésekre való előkészítés
* Tisztított adatok tárolása

### ---------------------------------------------------------------------------------------


### Csomagok betöltése

In [256]:
# adatkezelés
import pandas as pd
import numpy as np

# adatelőkészítés:
import unicodedata
import re 
from datetime import datetime

# NLP csomagok:
import spacy
import hu_core_ud_lg as hu
nlp = hu.load()

from nltk.tokenize import TweetTokenizer 
tknzr = TweetTokenizer() # gyorsabb, mint a Spacy tokenizáció


import warnings
warnings.filterwarnings('ignore')



### ---------------------------------------------------------------------------------------


## Fájlok beolvasása

**Stopszólista beolvasása**
<br>
A magyar stopszólistát kettő dokumentumból állítottam elő:
<br>
1. NLTK csomag: https://github.com/xiamx/node-nltk-stopwords/blob/master/data/stopwords/hungarian
2. Github: https://github.com/stopwords-iso/stopwords-hu/blob/master/stopwords-hu.txt
<br>
Ezeket összefűztem, majd "unique"-oltam (lsd. stopword_list_creator.ipybn)

In [203]:
with open("nlp_utils/stop_words.txt", "r", encoding='utf-8') as f:
    stop = [i for line in f for i in line.split('\n')]
    stop = list(filter(None, stop))

In [204]:
stop[1:10]

['ahogy',
 'ahol',
 'aki',
 'akik',
 'akkor',
 'alatt',
 'által',
 'általában',
 'amely']

**Dokumentumgyűjtemény beolvasása**

In [205]:
df_index = pd.read_csv("data/2020.csv", sep="%%", encoding="utf-8", header=0)

print("2020 index corpus loaded")
print("Length of the corpus: {} articles".format(len(df_index)))

  """Entry point for launching an IPython kernel.


2020 index corpus loaded
Length of the corpus: 8803 articles


**Random mintavétel a korpuszból (gyorsaság miatt)**

In [288]:
df_index = df_index.sample(n=3000, replace=False, random_state=1)
print("Length of the sampled corpus: {} articles".format(len(df_index)))

Length of the sampled corpus: 3000 articles


### ---------------------------------------------------------------------------------------


## Dokumentumgyűjtemény feltárása

A dokumentumgyűjteményt érdemes pandas DataFrame objektumként tárolni, mivel az egyes cellákba beleférnek nagyon hosszú sztringek is. Valamint amikor tokenizálunk akkor a dokumentum "szózsákját" csináljuk meg, ami nem más, mint a szövegben található szavak vektora, amit egy python listában tárolhatunk. A dataframe celláiba pedig listák és szótárak is beilleszthetőek.

**Korpusz első N db sorának kiírása**

In [206]:
df_index.head(3)

Unnamed: 0,"""cim""","""datum""","""szerzo""","""tag""","""head""","""szoveg"""
"""1""","""Halálra gázoltak egy gyalogost Kiskunmajsán, ...","""2020.01.01. 07:03""","""NA""","""Belföld:,Gyász,baleset,gázolás,kiskunmajsa""","""NA""","""Kiskunmajsán, a Fő utcában 2020. január 1-én ..."
"""2""","""Völner szerint félreértették, amikor Orbán az...","""2020.01.11. 19:35 ""","""NA""","""Belföld,orbán,orbán,viktor,völner,pál,kormány...","""NA""",""" Az Európai Unió Bíróságának döntése alapján ..."
"""3""","""Minden, amit tudni akart az elefánt péniszérő...","""2020.01.13. 04:55""","""NA""","""Tudomány,Ma,Is,Tanultam,Valamit,elefánt,pénis...","""NA""",""" Ha abban reménykedett volna, hogy a hiénákka..."


**Korpusz oszlopneveinek lekérése**

In [207]:
df_index.columns

Index(['"cim"', '"datum"', '"szerzo"', '"tag"', '"head"', '"szoveg"'], dtype='object')

In [208]:
df_index.columns = df_index.columns.str.replace('"', '')

In [209]:
df_index.columns

Index(['cim', 'datum', 'szerzo', 'tag', 'head', 'szoveg'], dtype='object')

**DataFrame info() lekérés**
<br> 
Megnézhetjük, hogy az egyes oszlopok milyen típusúak.
<br>
Object = szöveges (sztring)

In [210]:
df_index.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8803 entries, "1" to "8803"
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   cim     8803 non-null   object
 1   datum   8803 non-null   object
 2   szerzo  8803 non-null   object
 3   tag     8803 non-null   object
 4   head    8803 non-null   object
 5   szoveg  8803 non-null   object
dtypes: object(6)
memory usage: 481.4+ KB


**További infók lekérése df.describe() függvénnyel**
<br>
Mivel még csak objekt típusú mezőink vannak a mean, medián és a percentilis információk nem elérhetőek, de érdemes megnézni a *count* és az *unique* sorokat. 
<br>
Látszik, hogy duplikációink vannak a dokumentumgyűjteményben. (Ezek kezelésére még kitérek)

In [211]:
df_index.describe()

Unnamed: 0,cim,datum,szerzo,tag,head,szoveg
count,8803,8803,8803,8803,8803,8803
unique,8518,8164,79,8367,666,8519
top,"""NA""","""NA""","""NA""","""NA""","""NA""","""NA"""
freq,262,215,8097,364,8132,252


### ---------------------------------------------------------------------------------------

## -1. Adattisztítási lépés

**Adatbeolvasásnál bent maradt egy nyitó és záró " - jel**

In [212]:
df_index['cim'] = df_index['cim'].apply(lambda x: x[1:-1])

In [213]:
df_index['szoveg'] = df_index['szoveg'].apply(lambda x: x[1:-1])

In [214]:
df_index['head'] = df_index['head'].str.replace('"', '')

In [235]:
df_index.head(2)

Unnamed: 0,cim,datum,szerzo,tag,head,szoveg
"""1""","Halálra gázoltak egy gyalogost Kiskunmajsán, e...","""2020.01.01. 07:03""",,"""Belföld:,Gyász,baleset,gázolás,kiskunmajsa""",,"Kiskunmajsán, a Fő utcában 2020. január 1-én 3..."
"""2""","Völner szerint félreértették, amikor Orbán azt...","""2020.01.11. 19:35 """,,"""Belföld,orbán,orbán,viktor,völner,pál,kormány...",,Az Európai Unió Bíróságának döntése alapján m...


### ---------------------------------------------------------------------------------------


## Hiányzó értékek szűrése
Fontos lépés, mert ha hiányzó értékeink vannak, akkor sok függvény nem működik (.pl: split()), amelyek szükségesek a további képésekben. 
Az "NA" értékeket pedig azért is cseréltük le np.nan-ra, mert így már tudjuk őket törölni/cserélni.

**A pontosabb információkért cseréljük ki az "NA" értékeket np.nan-ra**

In [233]:
cols = ['cim', 'datum', 'szerzo', 'tag', 'head', 'szoveg']
df_index = df_index[cols].replace('NA', np.nan)

In [234]:
df_index.isna().sum()

cim        262
datum      215
szerzo    8097
tag        364
head      8132
szoveg     252
dtype: int64

**Cím és szöveg mezők közül Nan-t tartalmazó sorok eldobása**

In [236]:
df_index = df_index.dropna(subset=['cim', 'szoveg'])
df_index.isna().sum()

cim          0
datum        0
szerzo    7798
tag        102
head      7837
szoveg       0
dtype: int64

### ---------------------------------------------------------------------------------------

## Oszlopok összefűzése
Ez a lépés akkor hasznos, ha külön oszlopban tároljuk a címeket a szövegtörzstől, de együtt akarjuk kezelni őket. A példa adathalmazban külön tároljuk a headert (np.nan ha nincs) és a szövegtörzset, de logikailag ezek összetartoznak.

In [239]:
df_index['merged'] = df_index[['head', 'szoveg']].apply(lambda x: ','.join(x.dropna()), axis=1)

In [252]:
df_index[df_index['head'].isna()][['head', 'szoveg', 'merged']].head(2)

Unnamed: 0,head,szoveg,merged
"""1""",,"Kiskunmajsán, a Fő utcában 2020. január 1-én 3...","Kiskunmajsán, a Fő utcában 2020. január 1-én 3..."
"""2""",,Az Európai Unió Bíróságának döntése alapján m...,Az Európai Unió Bíróságának döntése alapján m...


In [250]:
df_index[~df_index['head'].isna()][['head', 'szoveg', 'merged']].head(2)

Unnamed: 0,head,szoveg,merged
"""10""",Valahogy véletlenül mindig választási évekre e...,Szabad György Irodaház A Szabad György Irodah...,Valahogy véletlenül mindig választási évekre e...
"""64""",A Petőfi Irodalmi Múzeum állami pályázatának n...,Negyvenöt alkotó kapja meg két évre a középge...,A Petőfi Irodalmi Múzeum állami pályázatának n...


### ---------------------------------------------------------------------------------------


## Duplikációk törlése
Bármilyen oknál fogva kerülhetnek be duplikációk a dokumentumgyűjteménybe, de ezeket el kell távolítani, mivel a későbbi elemzéseket torzíthatja.

In [255]:
df_index = df_index[~df_index.duplicated(['merged'], keep = 'last')]

print("Length of the corpus without duplications: {}".format(len(df_index)))

Length of the corpus without duplications: 8490


### ---------------------------------------------------------------------------------------


## Leíró statisztikák készítése
(~miből mennyi van a szövegben)
<br>
Mielőtt nekifognánk a dokumentumokból kiszűrni az irreleváns elemeket (stopszavak, írásjelek, stb.) érdemes összeszámolni ezeket és új oszlopot létrehozni belőlük.
<br>
Ezek is fontos információk lehetnek, ha például kattintásvadász vagy álhíreket akarunk detektálni.

**Szavak száma a szövegben/címben stopszavakkal**

In [49]:
df_index['cim_word_cnt'] = df_index.cim.apply(lambda x: len(str(x).split(" "))) 
df_index[['cim', 'cim_word_cnt']][0:2]

Unnamed: 0,cim,cim_word_cnt
"""1""","""Halálra gázoltak egy gyalogost Kiskunmajsán, ...",8
"""2""","""Völner szerint félreértették, amikor Orbán az...",12


**Átlagos szóhoszz a címben**

In [257]:
def avg_word(sentence):
  words = sentence.split()
  return (sum(len(word) for word in words)/len(words))

df_index['cim_avg_word'] = df_index['cim'].apply(lambda x: avg_word(x))
df_index[['cim', 'cim_avg_word']][0:2]

Unnamed: 0,cim,cim_avg_word
"""1""","Halálra gázoltak egy gyalogost Kiskunmajsán, e...",6.875
"""2""","Völner szerint félreértették, amikor Orbán azt...",6.666667


**Felkiáltójelek megszámolása a szövegben**

In [258]:
df_index['szoveg_num_exclam'] = df_index['szoveg'].str.count('\\!')

**Kérdőjelek megszámolása a szövegben**

In [259]:
df_index['szoveg_num_ques'] = df_index['szoveg'].str.count('\\?')

**Stopszavak száma a szövegben/címben**

In [261]:
df_index['cim_stop_cnt'] = df_index['cim'].apply(lambda x: len([x for x in x.split() if x in stop]))
df_index[['cim', 'cim_stop_cnt']].head(3)

Unnamed: 0,cim,cim_stop_cnt
"""1""","Halálra gázoltak egy gyalogost Kiskunmajsán, e...",2
"""2""","Völner szerint félreértették, amikor Orbán azt...",5
"""3""","Minden, amit tudni akart az elefánt péniszéről...",3


**Nagybetűs szavak megszámolása a szövegben**

In [262]:
df_index['cim_cnt_upper'] = df_index.cim.apply(lambda x: len([x for x in x.split() if x.isupper()]))
df_index[['cim','cim_cnt_upper']][0:2]

Unnamed: 0,cim,cim_cnt_upper
"""1""","Halálra gázoltak egy gyalogost Kiskunmajsán, e...",0
"""2""","Völner szerint félreértették, amikor Orbán azt...",0


### ---------------------------------------------------------------------------------------


### Szöveg (már "merged") mező tisztítása

**1. Esetenként bent maradhatnak a szövegben olyan elemek, amelyek a webscrape során bentragadtak. Megosztás, ajánló, további cikkek stb.**

Az str.contains() függvénnyel tudunk szavakra, részletekre keresni a szövegben.  

In [267]:
print(len(df_index[df_index['merged'].str.contains('\xa0')])) # 6834
print(len(df_index[df_index['merged'].str.contains('Ne maradjon le semmiről! Facebook')])) #217

6834
271


Az str.replace() függvénnyel tudunk szavakat, részleteket kiszedni, és más karakterrel helyettesíteni.

In [277]:
df_index['merged'] = df_index['merged'].str.replace('\xa0', ' ')
df_index['merged'] = df_index['merged'].str.replace('Ne maradjon le semmiről! Facebook', '')

In [278]:
print(len(df_index[df_index['merged'].str.contains('\xa0')])) # 6834
print(len(df_index[df_index['merged'].str.contains('Ne maradjon le semmiről! Facebook')])) #217

0
0


**2. Szövegbányászati elemzésekhez való előkészítés**
<br>
* kisbetűsítés,
* írásjelek eltávolítása,
* stopszavak eltávolítása,
* numerikus elemek eltávolítása
<br>
Mindezt egy egyszerű függvénnyel.
<br>
Itt már bevethetjük a regex eszköztárat: https://docs.python.org/3/library/re.html

In [279]:
def merged_cleaning(df):
    """
    Transforming szoveg (merged) column for the NLP:
    - Remove punctuations,
    - Lowercasing,
    - Remove stopwords.
    """
    
    df['merged_cleaned'] = df['merged'].str.replace('-', ' ')
    df['merged_cleaned'] = df['merged_cleaned'].str.replace('[^\w\s]', ' ')
    df['szoveg_cleaned'] = df['merged_cleaned'].str.replace('\d+', ' ') 
    
    df['merged_cleaned'] = df['merged_cleaned'].str.lower()

    df['merged_cleaned'] = df['merged_cleaned'].apply(lambda x: " ".join(x for x in x.split() if x not in stop))

    return df

In [280]:
df_index = merged_cleaning(df_index)

### ---------------------------------------------------------------------------------------

## Előfeldolgozott adatok tárolása

In [290]:
df_index.to_pickle('2020_corpus_preprocessed.pkl')