## <span style='font-family:Georgia'> Objectives
The purpose of this notebook is text data cleaning approach creation.

In [1]:
import os
import sys
import pandas as pd

sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath("__file__"))))
from supportive_functions import (
    separate_special_chars,
    rm_consecutive_spaces,
)

pd.options.display.max_colwidth = None

## <span style='font-family:Georgia'> Load data

In [2]:
# Data frame with ID added and observations skipped without transcription
data_train_exp = pd.read_csv("../../data/outputs/eda/train/train_expected_with_ids.csv")
data_test_exp = pd.read_csv("../../data/outputs/eda/test/test_expected_with_ids.csv")
data_test_in = pd.read_csv("../../data/outputs/eda/test/test_with_ids.csv")

In [3]:
data_train_exp.shape

(793, 2)

In [4]:
data_test_in.shape

(200, 2)

## <span style='font-family:Georgia'> Clean data

#### <span style='font-family:Georgia'> 1. Insert spaces before the special characters to separate them from the actual words and remove consecutive spaces

In [5]:
data_train_exp = separate_special_chars(data_train_exp)
data_train_exp["FixedOutput"] = data_train_exp["FixedOutput"].apply(
    rm_consecutive_spaces
)

# test data expected
data_test_exp = separate_special_chars(data_test_exp)
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(rm_consecutive_spaces)

# test data in
data_test_in = separate_special_chars(data_test_in)
data_test_in["ASROutput"] = data_test_in["ASROutput"].apply(rm_consecutive_spaces)

#### <span style='font-family:Georgia'> 2. Replace non-character symbols excluding target classes, digits and letters from outside the Polish alphabet with blank strings 

In [6]:
# load list of symbols to replace
symbols_to_replace_infile = open(
    "../../data/outputs/eda/symbols_to_replace.txt", "r", encoding="utf-8"
)
symbols_to_replace = symbols_to_replace_infile.read().splitlines()
# load list of noisy words, i.e. words with letters from outside the Polish alphabet
noisy_words_infile = open(
    "../../data/outputs/eda/noisy_words.txt", "r", encoding="utf-8"
)
noisy_words = noisy_words_infile.read().splitlines()
# load list of letters from outside the Polish alphabet
non_polish_letters_infile = open(
    "../../data/outputs/eda/non_polish_letters.txt", "r", encoding="utf-8"
)
non_polish_letters = non_polish_letters_infile.read().splitlines()

# merge noisy data into one list
symbols_to_replace.extend(noisy_words)
symbols_to_replace.extend(non_polish_letters)

In [7]:
symbols_to_replace

["'",
 '"',
 ';',
 '%',
 '(',
 ')',
 '[',
 ']',
 '²',
 '€',
 '³',
 '+',
 '·',
 'kadlčika kadlčik',
 'motörhead',
 'hautamäkim',
 'β α',
 'fédération française',
 'δ',
 'bošnjaci',
 'räikkönena jérôme pérez',
 'française rémy grégorio',
 'ramírez domínguez',
 'congrès',
 'güntera',
 'όνειρος ω',
 'kölner kölner kőln kőln fűr schönberg',
 'agustín',
 'élysées',
 'bermúdez',
 'trentemøller väth',
 'josé rodríguez',
 'für',
 'ニ尾の化け 三尾の大亀 五尾のイルカ馬 六尾の蛞蝓 八尾の kyogyū',
 'βy',
 'φ φ φ φ',
 'государственная дума российской империи б ю иванов а а комзолова и с ряховская москва росспэн',
 'förstera',
 'katajamäki häkkinen räikkönen järvilehto järvilehto räikkönen häkkinen',
 'ß ß ß',
 'josé durão',
 'räikkönen räikkönenowi',
 'hautamäki ljøkelsøy',
 'geração à',
 'jános kárászy',
 'kovačević kovačević podraščanin miloš saša sánchez díaz tomás',
 'изображение',
 'püolkim',
 'maestà maestà maestà maestà maestà',
 'székesfehérvár',
 'klöden klöden',
 'côte saône côte',
 'α α',
 'újváry',
 'irénée',
 '

In [8]:
### test symbols and noisy words
# load list of symbols to replace
symbols_to_replace_infile_test = open(
    "../../data/outputs/eda/symbols_to_replace.txt", "r", encoding="utf-8"
)
symbols_to_replace_test = symbols_to_replace_infile_test.read().splitlines()
# load list of noisy words, i.e. words with letters from outside the Polish alphabet
noisy_words_infile_test = open(
    "../../data/outputs/eda/test/noisy_words.txt", "r", encoding="utf-8"
)
noisy_words_test = noisy_words_infile_test.read().splitlines()
# load list of letters from outside the Polish alphabet
non_polish_letters_infile_test = open(
    "../../data/outputs/eda/test/non_polish_letters.txt", "r", encoding="utf-8"
)
non_polish_letters_test = non_polish_letters_infile_test.read().splitlines()

# merge noisy data into one list
symbols_to_replace_test.extend(noisy_words_test)
symbols_to_replace_test.extend(non_polish_letters_test)

In [9]:
for symb in symbols_to_replace:
    data_train_exp["FixedOutput"] = data_train_exp["FixedOutput"].apply(
        lambda x: x.replace(symb, "")
    )

data_train_exp["FixedOutput"] = data_train_exp["FixedOutput"].apply(
    rm_consecutive_spaces
)

In [10]:
for symb in symbols_to_replace_test:
    data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(
        lambda x: x.replace(symb, "")
    )
    data_test_in["ASROutput"] = data_test_in["ASROutput"].apply(
        lambda x: x.replace(symb, "")
    )

data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(rm_consecutive_spaces)
data_test_in["ASROutput"] = data_test_in["ASROutput"].apply(rm_consecutive_spaces)

In [11]:
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(
    lambda x: x.replace(" .", ".")
)
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(
    lambda x: x.replace(" ,", ",")
)
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(
    lambda x: x.replace(" ?", "?")
)
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(
    lambda x: x.replace(" :", ":")
)
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(
    lambda x: x.replace(" -", "-")
)

In [12]:
data_train_exp.head(3)

Unnamed: 0,FileId,FixedOutput
0,wikinews228460,"w wywiadzie dla polski jarosław kaczyński podkreślił , że informacje dotyczące radosława sikorskiego zagrażają interesowi państwa . to naprawdę wszystko , co mogę na ten temat powiedzieć - odpowiedział , gdy dziennikarz pytał o bardziej szczegółowe informacje . premier kaczyński sugeruje , że dobry kandydat po na szefa dyplomacji to np . jacek saryusz - wolski wymieniony polityk zyskał uznanie braci kaczyńskich za dotychczasową działalność w charakterze dyplomaty i dużą wiedzę . premier krytycznie ocenia również dotychczasowe poczynania po . gabinet cieni i inne podobne pomysły okazały się fikcją . świadczą o tym kłopoty ze znajdywaniem kolejnych ministerstw . cały czas nie wiadomo , kto obsadzi które ministerstwo . a tam , gdzie już wiadomo , to nie ma się z czego cieszyć - mówił kaczyński . stwierdził także , że uważny obserwator życia publicznego musi dostrzegać też rolę w tym wszystkim jana krzysztofa bieleckiego . będzie osobą bardzo ważną . pytany o radę , jaką dałby donaldowi tuskowi , powiedział : radzę donaldowi tuskowi , żeby uczciwie przyjrzał się temu , co się wydarzyło w polsce przez ostatnie dwa lata . żeby jednak zrzucił czarne okulary , choć wcale nie musi zakładać różowych , i rozejrzał się dookoła . i żeby w końcu doszedł do wniosku , że wiele rzeczy warto kontynuować ."
1,wikinews183471,"dowody prokuratury przedstawiające , że janusz kaczmarek , były szef mswia , kłamał , wypierając się spotkania z ryszardem krauze 5 lipca - nie osłabiły determinacji opozycji . teraz opozycja żąda przesłuchania lecha kaczyńskiego w sprawie przecieku o akcji cba . polityczni przeciwnicy pis wciąż wątpią , że to kaczmarek był źródłem przecieku w sprawie afery gruntowej . janusz zemke uważa , iż informacja mogła wyjść od innych ludzi , np . od oficerów bor . inni działacze opozycji idą jeszcze dalej i wskazują na prezydenta . dlaczego ? bo bezpośrednio przed spotkaniem z ryszardem krauzem kaczmarek rozmawiał długo z lechem kaczyńskim - podaje rzeczpospolita . w całej tej sprawie opozycja dostała wścieklizny politycznej , a teraz powinna przeprosić za swoją wiarę w słowa kaczmarka - uważa szef rządu . zemke natomiast broni postawy opozycji : prokuratorzy udowodnili , że kaczmarek skłamał , wypierając się spotkania z krauzem . ale to nie znaczy , że innych faktów , o których mówił , nie warto weryfikować . wczoraj pojawiła się informacja o innym wydarzeniu z udziałem krauzego . okazało się , że dzwonił on do prezydenta 13 lipca . tego właśnie dnia w warszawskiej siedzibie firmy krauzego pojawili się agenci abw , którzy zabezpieczali książkę wejść i wyjść oraz zapisy z kamer ."
2,wikinews188040,"w czasie długiego weekendu , 1 - 3 maja 2009 w jadwisinie nad jeziorem zegrzyńskim stowarzyszenie wikimedia polska organizuje konferencję poświęconą zarówno wikimediom , m . in . wikipedii , jak i ruchowi wolnej kultury . miejscem konferencji jest ośrodek szkoleniowo - wypoczynkowy kancelarii prezesa rady ministrów ulokowany w dziewiętnastowiecznym neoklasycystycznym pałacu radziwiłłów . pierwszego dnia twórcy wikipedii i jej siostrzanych projektów poświęcą swój czas na edytowanie . osoby z zewnątrz , które jeszcze nie miały okazji działać w tych projektach , będą mogły zapoznać się z nimi oraz dokonać swoich pierwszych edycji pod okiem bardziej doświadczonych internautów . o godzinie 20 0 nastąpi oficjalne rozpoczęcie konferencji , po czym uczestnicy będą mogli , podobnie jak w dniu następnym , odbyć swobodne rozmowy przy ognisku . w sobotę od godziny 9 00 do 16 0 odbywać będą się w dwóch salach wykłady i warsztaty , po czym odbędzie się walne zebranie stowarzyszenia wikimedia polska . wśród wykładowców znajdzie się tego dnia richard stallman , jeden z ojców wolnego oprogramowania . będzie to jego drugie wystąpienie w polsce , po tym jak w styczniu 2009 gościł w agh w krakowie . wykłady prowadzić będą także m . in . prof . bożena czerny inicjatorka poprawy jakości haseł astronomicznych w wikipedii , edyta puchalska - szefowa działu edukacyjnego w onet . pl , czy jarosław lipszyc - prezes fundacji nowoczesna polska . w niedzielę dyskusje toczyć się będą wokół zastosowań wiki i wolnego oprogramowania , zaprezentowana zostanie rosyjska wikipedia , a także zorganizowany będzie wikipediowy okrągły stół . zakończenie konferencji planowane jest na godzinę 27 w niedzielę 3 maja . osoby , które chciałyby wziąć udział w konferencji , proszone są przez organizatorów o wcześniejszy mailowy : konferencjawikimedia . pl . wstęp na konferencję jest bezpłatny ."


In [14]:
data_train_exp.to_csv(
    "../../data/outputs/feature_engineering/data_cleaning/train/train_exp_with_ids_clean.csv",
    index=False,
)
data_test_exp.to_csv(
    "../../data/outputs/feature_engineering/data_cleaning/test/test_exp_with_ids_clean.csv",
    index=False,
)
data_test_in.to_csv(
    "../../data/outputs/feature_engineering/data_cleaning/test/test_with_ids_clean.csv",
    index=False,
)