## <span style='font-family:Georgia'> Objectives
The purpose of this notebook is text mining, aimed at creating a baseline rule-model, which is to be a benchmark of the neural model developed in the later phase of the project.

In [1]:
# loading packages
import os
import sys
import re
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

sys.path.append(os.path.dirname(os.path.dirname(os.path.abspath("__file__"))))
from supportive_functions import (
    find_nonalpha,
    flatten,
    count_punctuation,
    separate_special_chars,
    rm_consecutive_spaces
    )

import morfeusz2

import warnings
warnings.filterwarnings(action='ignore')
pd.options.display.max_columns = None
# pd.options.display.max_colwidth = None

%matplotlib inline
plt.rcParams['figure.figsize'] = (9, 6)
sns.set(style="darkgrid")

## <span style='font-family:Georgia'> Data loading & preparation

In [2]:
# reading data
# train
data_train_in = pd.read_csv('../../data/source/train/in.tsv', sep='\t', header=None)
data_train_exp = pd.read_csv('../../data/source/train/expected.tsv', sep='\t', header=None)
# test
data_test_in = pd.read_csv('../../data/source/test-A/in.tsv', sep='\t', header=None)
data_test_exp = pd.read_csv('../../data/source/test-A/expected.tsv', sep='\t', header=None)

In [3]:
# renaming columns
data_train_in.columns = ["FileId", "ASROutput"]
data_train_exp.columns = ["FixedOutput"]
data_test_in.columns = ["FileId", "ASROutput"]
data_test_exp.columns = ["FixedOutput"]

# adding index to expected output (assumption: the same ordering of the records)
data_train_exp["FileId"] = data_train_in["FileId"]
data_train_exp = data_train_exp[["FileId", "FixedOutput"]]

data_test_exp["FileId"] = data_test_in["FileId"]
data_test_exp = data_test_exp[["FileId", "FixedOutput"]]

# records for which we do not have transcripts with
train_ids_to_drop = [
    "wikitalks0013565",
    "wikitalks0015043",
    "wikitalks0016297",
    "wikitalks0016712",
    "wikitalks00415",
    "wikitalks005277",
    "wikitalks007429",
]
data_train_in = data_train_in[~data_train_in.FileId.isin(train_ids_to_drop)]
data_train_exp = data_train_exp[~data_train_exp.FileId.isin(train_ids_to_drop)]

In [4]:
data_train_exp.shape

(793, 2)

In [5]:
# data_train_exp.to_csv("../../data/outputs/eda/train/train_expected_with_ids.csv", index=False)

## <span style='font-family:Georgia'> Separate special characters from words

In [6]:
data_train_in = separate_special_chars(data_train_in) 
data_train_exp = separate_special_chars(data_train_exp) 
data_test_in = separate_special_chars(data_test_in)
data_test_exp = separate_special_chars(data_test_exp)

In [7]:
data_train_exp["FixedOutput"] = data_train_exp["FixedOutput"].apply(
    rm_consecutive_spaces
)
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(rm_consecutive_spaces)
data_train_in["ASROutput"] = data_train_in["ASROutput"].apply(rm_consecutive_spaces)
data_test_in["ASROutput"] = data_test_in["ASROutput"].apply(rm_consecutive_spaces)

## <span style='font-family:Georgia'> Check for records with non-character symbols excluded from target classes set

In [8]:
target_classes=['.', ',', '?', '!', '-', ':', '...']
numbers = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '0']

In [9]:
non_characters = np.unique(
    data_train_exp["FixedOutput"].apply(lambda x: find_nonalpha(x))
)
symbols_to_drop = list(
    set(flatten(non_characters)) - set(target_classes) - set(numbers)
)
print(f"List of symbols to be dropped: {str(symbols_to_drop)}")

List of symbols to be dropped: ['"', '蝓', '€', 'а', 'ι', 'ê', 'カ', ' ', 'ο', '(', '馬', 'ç', ']', 'ν', '·', 'ä', 'г', '+', 'à', 'ü', 'у', 'з', '蛞', 'ό', 'け', '六', 'ú', 'с', '八', 'к', ')', '尾', 'о', 'δ', ';', 'ю', 'т', 'β', '[', 'é', 'э', 'α', 'ű', 'в', 'м', 'š', 'ř', 'я', 'ß', 'ε', "'", 'л', 'ς', 'á', 'р', 'н', 'ő', 'ū', 'и', '三', '亀', 'ô', '大', 'ø', 'ル', 'б', 'ž', 'д', '%', 'ж', 'ρ', 'í', '化', '五', 'п', 'й', 'φ', 'е', 'ω', 'è', 'の', '³', 'х', '²', 'č', 'ã', 'イ', 'ö', 'ニ']


In [10]:
symbols_to_replace = ["'", '"', ";", "%", "(", ")", "[", "]", "²", "€", "³", "+", "·"]

for symb in symbols_to_replace:
    data_train_exp["FixedOutput"] = data_train_exp["FixedOutput"].apply(
        lambda x: x.replace(symb, "")
    )
    data_train_in["ASROutput"] = data_train_in["ASROutput"].apply(
        lambda x: x.replace(symb, "")
    )

data_train_exp["FixedOutput"] = data_train_exp["FixedOutput"].apply(
    rm_consecutive_spaces
)
data_train_in["ASROutput"] = data_train_in["ASROutput"].apply(rm_consecutive_spaces)

In [11]:
with open("../../data/outputs/eda/train/symbols_to_replace.txt", "w", encoding="utf-8") as outfile:
    outfile.write("\n".join(symbols_to_replace))

In [12]:
symbols_to_drop=list(set(symbols_to_drop)-set(symbols_to_replace)-set(' '))
str(symbols_to_drop)  # list of weird letters

"['蝓', 'а', 'ι', 'ê', 'カ', 'ο', '馬', 'ç', 'ν', 'ä', 'г', 'à', 'ü', 'у', 'з', '蛞', 'ό', 'け', '六', 'ú', 'с', '八', 'к', '尾', 'о', 'δ', 'ю', 'т', 'β', 'é', 'э', 'α', 'ű', 'в', 'м', 'š', 'ř', 'я', 'ß', 'ε', 'л', 'ς', 'á', 'р', 'н', 'ő', 'ū', 'и', '三', '亀', 'ô', '大', 'ø', 'ル', 'б', 'ž', 'д', 'ж', 'ρ', 'í', '化', '五', 'п', 'й', 'φ', 'е', 'ω', 'è', 'の', 'х', 'č', 'ã', 'イ', 'ö', 'ニ']"

In [13]:
with open("../../data/outputs/eda/train/non_polish_letters.txt", "w", encoding="utf-8") as outfile:
    outfile.write("\n".join(symbols_to_drop))

In [14]:
noise = "|".join(r"{}".format(x) for x in symbols_to_drop)  # noise to drop
# data with noise (train)
data_train_exp_noise = data_train_exp[data_train_exp["FixedOutput"].str.contains(noise)]
data_train_in_noise = data_train_in[data_train_in["ASROutput"].str.contains(noise)]
# data_train_exp_noise.to_csv("../../data/outputs/eda/train/train_noise.csv")

data_train_exp_noise.head()  # records to drop

Unnamed: 0,FileId,FixedOutput
11,wikinews229879,10 stycznia 2008 r . maria kaczyńska uczestnic...
16,wikinews226894,w dniach 31 maja - 2 czerwca 2013 na terenie k...
19,wikinews227330,adam małysz zajął 54 miejsce podczas niedzieln...
34,wikitalks0013853,co to znaczy promieniowanie zlozone ? o ile wi...
43,wikinews190507,w łodzi może powstać miejski program bezpiecze...


In [15]:
count_punctuation(data_train_exp_noise.set_index('FileId'), 'FixedOutput')

Unnamed: 0_level_0,fullstop,comma,question_mark,exclamation_mark,hyphen,colon,ellipsis
FileId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
wikinews229879,10.0,32.0,0.0,0.0,5.0,3.0,0.0
wikinews226894,11.0,17.0,0.0,0.0,10.0,1.0,0.0
wikinews227330,13.0,10.0,0.0,0.0,2.0,0.0,0.0
wikitalks0013853,7.0,9.0,3.0,0.0,4.0,1.0,0.0
wikinews190507,6.0,10.0,0.0,0.0,10.0,1.0,0.0
wikitalks0015658,16.0,5.0,4.0,1.0,7.0,0.0,0.0
wikitalks009326,16.0,22.0,6.0,1.0,4.0,0.0,0.0
wikinews226384,7.0,18.0,0.0,0.0,4.0,4.0,0.0
wikinews182796,18.0,23.0,0.0,0.0,6.0,1.0,0.0
wikinews184895,14.0,6.0,0.0,0.0,3.0,6.0,0.0


In [16]:
records_with_noise = np.unique(np.array(data_train_exp_noise['FileId'].tolist()))
records_with_noise

array(['wikinews181681', 'wikinews182385', 'wikinews182796',
       'wikinews182991', 'wikinews183040', 'wikinews184315',
       'wikinews184895', 'wikinews185449', 'wikinews185969',
       'wikinews186130', 'wikinews187460', 'wikinews187846',
       'wikinews189463', 'wikinews190354', 'wikinews190502',
       'wikinews190507', 'wikinews195350', 'wikinews199814',
       'wikinews208312', 'wikinews209076', 'wikinews220334',
       'wikinews224132', 'wikinews226384', 'wikinews226894',
       'wikinews227295', 'wikinews227330', 'wikinews229879',
       'wikinews229995', 'wikinews230782', 'wikinews231078',
       'wikinews231671', 'wikinews235478', 'wikitalks0010570',
       'wikitalks0012072', 'wikitalks0012266', 'wikitalks0013663',
       'wikitalks0013853', 'wikitalks0014557', 'wikitalks0015658',
       'wikitalks0016847', 'wikitalks001866', 'wikitalks004721',
       'wikitalks004969', 'wikitalks006792', 'wikitalks006840',
       'wikitalks006884', 'wikitalks009326'], dtype='<U16')

## <span style='font-family:Georgia'> Non-character symbols statistics summary

Count:
* how many symbols_to_drop contain each record
* how long is text in each record
* percent of symbols_to_drop in whole string in each record


In [17]:
# count number of symbols_to_drop in each record
fixed_output = data_train_exp_noise.loc[:, "FixedOutput"]
count = [0 for i in range(len(fixed_output))]
number = 0
for string in fixed_output:
    for letter in string:
        if letter in symbols_to_drop:
            count[number] += 1
    number += 1  # iterate for indexes, as from series only strings, without indexes

# count length of fixed output
length = [0 for i in range(len(fixed_output))]
number = 0
for string in fixed_output:
    length[number] = len(string)
    number += 1

df_fixed_output = pd.DataFrame(fixed_output)
df_fixed_output["length"] = length
df_fixed_output["count of symbols_to_drop"] = count
df_fixed_output["percent"] = [i / j * 100 for i, j in zip(count, length)]

df_fixed_output.head()

Unnamed: 0,FixedOutput,length,count of symbols_to_drop,percent
11,10 stycznia 2008 r . maria kaczyńska uczestnic...,2028,2,0.098619
16,w dniach 31 maja - 2 czerwca 2013 na terenie k...,1586,1,0.063052
19,adam małysz zajął 54 miejsce podczas niedzieln...,1195,1,0.083682
34,co to znaczy promieniowanie zlozone ? o ile wi...,1021,2,0.195886
43,w łodzi może powstać miejski program bezpiecze...,1552,3,0.193299


In [18]:
# print whole records, which have at least 1% of characters to drop
to_print = df_fixed_output[df_fixed_output["percent"] > 1]
for i in range(len(to_print)):
    print(to_print.iloc[i, :].FixedOutput)
    print("\n")

ogoniasty ? czy to jest poprawne ? czy ktoś może wie jak to brzmi w mandze ? konrad mów ! w mandze pisze bijuu , co oznacza demony z ogonami , czyli w sensowniejszym przetłumaczeniu ogoniaste demony . jeżeli potrafi ktoś przetłumaczyć to inaczej to bym poprosił . jest to w pewnym sensie niedokładne przetłumaczenie , ale innego polacy nie znajdą . po pierwsze - znak oznacza bestię , a nie demona . po drugie - słowo ogoniaste przypomina mi słowotwórczość swoistą dla małych dzieci . nie wiem czy taka forma jest poprawna w języku polskim . vigilium hachibi hej , od kiedy to hachibi jest złapany ? zresztą nie tylko hachibi . niedawno pisało tu , że jest prawdopodobnie wolny , a o ile wiem jak na razie nigdzie nie pisało że ktoś go złapał . choć mogę się mylić . nawet nie pisze prawdopodobnie że jest złapany , tylko że na pewno . jego status jest taki sam jak kyuubiego więc nie można napisać , że jest celem sasuke bo przy kyuubim nie ma napisanego , że jest celem paina nazwy bestii pięć z po

In [19]:
# Words containing non-characters symbols preview

In [20]:
count_words = ["" for i in range(len(fixed_output))]
number = 0
for string in fixed_output:
    words_in_string = string.split(" ")
    for word in words_in_string:
        count_letters = 0
        for letter in word:
            if letter in symbols_to_drop:
                count_letters += 1
        if count_letters > 0:
            count_words[number] = count_words[number] + " " + word
    number += 1

count_words = list(map(str.lstrip, count_words))
print(count_words)

['kadlčika kadlčik', 'motörhead', 'hautamäkim', 'β α', 'fédération française', 'δ', 'bošnjaci', 'räikkönena jérôme pérez', 'française rémy grégorio', 'ramírez domínguez', 'congrès', 'güntera', 'όνειρος ω', 'kölner kölner kőln kőln fűr schönberg', 'agustín', 'élysées', 'bermúdez', 'trentemøller väth', 'josé rodríguez', 'für', 'ニ尾の化け 三尾の大亀 五尾のイルカ馬 六尾の蛞蝓 八尾の kyogyū', 'βy', 'φ φ φ φ', 'государственная дума российской империи б ю иванов а а комзолова и с ряховская москва росспэн', 'förstera', 'katajamäki häkkinen räikkönen järvilehto järvilehto räikkönen häkkinen', 'ß ß ß', 'josé durão', 'räikkönen räikkönenowi', 'hautamäki ljøkelsøy', 'geração à', 'jános kárászy', 'kovačević kovačević podraščanin miloš saša sánchez díaz tomás', 'изображение', 'püolkim', 'maestà maestà maestà maestà maestà', 'székesfehérvár', 'klöden klöden', 'côte saône côte', 'α α', 'újváry', 'irénée', 'angoulême léger angoulême', 'görges', 'františek ružička', 'maría', 'klárze smitková witthöft maría kateřina siniaková s

In [21]:
with open("../../data/outputs/eda/train/noisy_words.txt", "w", encoding="utf-8") as outfile:
    outfile.write("\n".join(count_words))

In [22]:
pd.options.display.max_colwidth = None

df_fixed_output['words containing'] = count_words
df_fixed_output

Unnamed: 0,FixedOutput,length,count of symbols_to_drop,percent,words containing
11,"10 stycznia 2008 r . maria kaczyńska uczestniczyła w konferencji w belwederze w związku z kampanią medialną jestem przedstawicielem mniejszości narodowej - jestem polakiem , którą objęła honorowym patronatem . kampania została zorganizowana przez związek gmin wyznaniowych żydowskich w rp w ramach europejskiego roku równych szans . podczas konferencji maria kaczyńska zwróciła się do obecnych : witam państwa serdecznie na dzisiejszej konferencji prasowej , a szczególnie serdecznie witam pana piotra kadlčika , przewodniczącego związku gmin wyznaniowych żydowskich w rp - organizatora kampanii - pana macieja bohosiewicza , współprzewodniczącego komisji wspólnej rządu i mniejszości narodowych i etnicznych w polsce , panią mariolę abkowicz , przewodniczącą związku karaimów polskich , a także pomysłodawców kampanii panią malkę kafkę i pana jana geberta i szefa kampanii pana mikea urbaniaka . witam wszystkich przybyłych gości . wierzę , że kampania ta pomoże przełamać stereotyp , jakże niesłuszny , nieżyczliwego postrzegania niektórych mniejszości narodowych i etnicznych , dumnych ze swojej tożsamości , swojego pochodzenia , historii , kultury , religii i tradycji . przecież oni to my , obywatele i mieszkańcy rzeczypospolitej polskiej . w konferencji uczestniczyli m . in : piotr kadlčik , przewodniczący związku gmin wyznaniowych żydowskich w rp , maciej bohosiewicz , współprzewodniczący komisji wspólnej rządu i mniejszości narodowych i etnicznych , mariola abkowicz , przewodnicząca związku karaimów polskich , mike urbaniak , szef kampanii jestem przedstawicielem mniejszości narodowej - jestem polakiem , berenika anders , dyrektor departamentu ds . kobiet , rodziny i przeciwdziałania dyskryminacji w ministerstwie pracy i polityki społecznej , łukasz adam gabler z mpips , osoby , które użyczyły swojego wizerunku w kampanii : elżbieta maria tarkowska chatila , maria stepan , anna ciszewska , magdalena dercz i joanna talewicz - kwiatkowska inni przedstawiciele mniejszości narodowych i etnicznych w polsce .",2028,2,0.098619,kadlčika kadlčik
16,"w dniach 31 maja - 2 czerwca 2013 na terenie kampusu sggw w warszawie odbędzie się 30 edycja festiwalu ursynalia . jest to jeden z największych festiwali studenckich w europie . organizatorem imprezy są samorząd studentów szkoły głównej gospodarstwa wiejskiego oraz od 2009 roku fundacja bonum i arena live production . znane są już główne gwiazdy festiwalu - są to zespoły motörhead oraz zz top , który przyjeżdża do polski po raz pierwszy od ponad 16 lat . na festiwalu wystąpią też him , bullet for my valentine , gentelman , steve aoki , pendulum , parkway drive , soilwork oraz luxtorpeda , hunter , jelonek i mesajah . w ramach przygotowań do festiwalu , w pierwszej połowie kwietnia odbędzie się konkurs ursynalia the tour , przeznaczony dla młodych zespołów rockowych . zgłoszenia można było nadsyłać do 28 marca - komisja konkursowa wybierze z nich 30 zespołów , które zagrają na 6 koncertach eliminacyjnych w różnych miastach polski . każdy z zespołów w czasie koncertu eliminacyjnego może zaprezentować dwa wybrane , autorskie utwory . nagrodą główną , którą otrzymają trzy najlepsze zespoły , jest występ przed headlinerem festiwalu - każdego dnia wystąpi inny zespół , przed inną gwiazdą . konkurs jest prowadzony we współpracy z radiem eska rock . koncerty eliminacyjne odbędą się w 6 miastach : 0804 - warszawa proxima 0904 - gdańsk parlamant 10 4 - łódź wytwórnia 14 4 - katowice megaclub 15 4 - wrocław alibi 16 4 - poznań eskulap na każdy z koncertów wystąpią jako gwiazdy wieczoru zespoły luxtorpeda i jeden z laureatów zeszłorocznej edycji konkursu , zespół chemia .",1586,1,0.063052,motörhead
19,"adam małysz zajął 54 miejsce podczas niedzielnego konkursu pucharu świata na skoczni w oslo - holmenkollen polak oddał skok na odległość 89 m , uzyskując notę 54 , 7 punktu . słaby występ skoczka z wisły spowodowany był podmuchem wiatru , jaki otrzymał po wybiciu się z progu - czterokrotny mistrz świata ratował się potem tylko przed upadkiem . w konkursie odbyła się tylko jedna seria . po skoku małysza , który nieomal zakończył się tragicznie dla reprezentanta polski , sędziowie zdecydowali się go zakończyć . w zawodach skokiem na odległość 118 , 5 m i notą 121 , 8 pkt zwyciężył szwajcar simon ammann , przed austriakiem martinem kochem oraz finem mattim hautamäkim . najlepszym z polaków okazał się kamil stoch . zębianin zajął 19 miejsce . piotr żyła zajął 33 , a stefan hula 46 miejsce . pozycję lidera pucharu świata odzyskał norweg anders jacobsen . reprezentant gospodarzy był 7 i wyprzedził małysza w klasyfikacji generalnej o 14 pkt . konkurs w oslo był ostatnim w tegorocznym turnieju nordyckim . mimo dzisiejszego występu małysz zajął w nim 1 miejsce , wyprzedzając reprezentującego austrię andreasa koflera i simona ammana . film ze skokiem adama małysza można obejrzeć tutaj .",1195,1,0.083682,hautamäkim
34,"co to znaczy promieniowanie zlozone ? o ile wiem istnieje natura prmoeniowania korpuskuarna albo falowa . to jest po prostu inny sposob rozpatrywania , podejscia do zagadnienia a nie jakies inne promienowanie . nie do konca prawda , bo na promieniowania skladaja sie równiez protony , cięzkie jądra i cząstki beta które niewątpliwie są korpuskułami , no oczywiscie mozna im przypisac falę de brogliea i traktowac jako falę to , że cząstkom można prypisać długość fali nie oznacza , że stają się one promieniowaniem e - m w tym wypadku promieniowanie kosmiczne nie składa się z fotonów , więc nim nie jest jak zwykle angielska wersja ciekawsza . moze ktos sie pokusi o analize ? ja rozumiem , ze polacy maja zapedy by ich wiki byla jedna z najpojemnijeszych , tylko czemu akurat kosztem jakosci hasel ? user : asabiel promieniowanie kosmiczne jest zdefiniowane w pierwszym zdaniu - to zarówno kwanty e - m jak i cząstki . takie rozumienie promieniowania nie jest niczym szczególnym - zob . promieniowanie β i α . u . mpfiz",1021,2,0.195886,β α
43,"w łodzi może powstać miejski program bezpieczeństwa ruchu drogowego , projekt uchwały w sprawie jego opracowania złoży na pierwszej po wakacyjnej przerwie sesji rady miejskiej , jej przewodniczący - tomasz kacprzak . jeśli radni przyjmą projekt uchwały , prezydent miasta będzie zobowiązana do przygotowania w terminie do 30 listopada 2011 roku programu bezpieczeństwa ruchu drogowego na lata 2012 - 2014 jak przyznaje radny kacprzak program powinien zakładać stworzenie bezpiecznej infrastruktury drogowej a w efekcie przełożyć się na zwiększenie bezpieczeństwa na łódzkich ulicach oraz zmniejszenie liczby ofiar śmiertelnych i rannych rada miejska w łodzi , bezpieczniej na łódzkich drogach . tomasz kacprzak , który jest jednocześnie wicedyrektorem wojewódzkiego ośrodka ruchu drogowego i sekretarzem wojewódzkiej rady bezpieczeństwa ruchu drogowego , będzie gościem podczas debaty na temat zrównoważonego transportu w czasie letniska transportowo - rowerowego letnisko organizowane przez fundację fenomen , letnisko transportowo - rowerowe letnisko transportowo - rowerowe odbędzie się w dniach 14 - 17 lipca 2011 - wstęp wolny . debata z udziałem tomasza kacprzaka odbędzie się w czwartek , w godzinach 17 0 - 19 0 - przy ul . tylnej 9 11 w willi grohmana . prócz przewodniczącego rady miejskiej w łodzi , wezmą w niej udział wiceprezydent łodzi arkadiusz banaszek oraz przedstawiciel francuskiej federacji użytkowników bicykli francuska federacja użytkowników bicykli , fr : fédération française des usagers de la bicyclette - olivier schneider .",1552,3,0.193299,fédération française
65,"dlaczego praktycznie ta sama grafika jest dwa razy ? w dodatku za drugim razem nachodzi na wyniki . aegis maelstrom δ w dodatku ta druga mapa ma źle dobrane kolory . pierwsza mapa wystarczy ! wskaźnik rozwoju społecznego czemu to się nie znajduje pod tą nazwą ? nie spotkałem się z wskaźnik rozwoju ludzkiego kwiecień chyba rzeczywiście wskaźnik rozwoju społecznego - taką nazwę tego wskaźnika podaje np . polska strona undp . cieżko to określić - bowiem w literaturze pojawiały się różne wersje - w dosłownym tłumaczeniu ludzki byłoby formą właściwą - szczególnie że hpi definiuje się również jako wskaźnik ubóstwa ludzkiego . montechrist . dmc jeśli jednak jest wola więszkosci można przenieść pod drugą , popularniejszą , nazwę . montechrist . dmc rzadko kiedy tłumaczy się coś dosłownie . poza tym wskaźnik rozwoju ludzkiego w języku polskim nie bardzo ma sens . gdzie występuje taka nazwa tegoż wskaźnika ? kwiecień w ekonomi dobiera siękonkretnie słowa - ponieważ panuje w tej dziedzinie czepialstwo znaczeniowe . ciężko mi określić dzisiaj źródła z których czerpałem przy tej edycji , ale skoro podałem obie nazwy - to znaczy że nie wyssałem ich z palca . to , że ktoś przeniósł artykuł spod angielskiej nazwy pod polską wrl , a nie wrs zapewne było zupełnie przypadkowym wyborem nazwy . z obiema wersjami można spotkać się w mediach . montechrist . dmc naniosłem małe poprawki i przeniosłem to wszystko - może być ? montechrist . dmc link is dead linki zewnętrzne",1471,1,0.067981,δ
78,"artykuł napisany tak , że może sugerować , że autor zamiennie używa słów bośniacy i boszniacy . a chodziło , jak mniemam , o rozróżnienie obu słów . może wprowadzać to w błąd czytelnika . to taka moja mała sugestia . pozdrawiam ! poprawione trochę . pozdrawiam toster ? a moze boczniacy ? albo ustalmy , ze bedziemy polksiezyc dostawiac dla odroznienia . moze byc w kolku , taki jak kopirajt ? thelightblue artykuł - ten i kilka innych o podobnej tematyce - został odświeżony , tak aby nie było wątpliwości kim jest bośniak , boszniak , że totalnym błędem jest nazywanie boszniaka lub bośniaka muzułmaninem , a takie cuda można znaleźć w wielu miejscach w sieci , nie wyłączając encyklopedii pwn . thelightbluew artykule turcja pojawia się informacja , że w tym kraju mieszka 2 mln . boszniaków , tutaj nie ma o tym ani słowa , choć wymieniane sa miejsca , które zamieszkuje diaspora boszniacka . chyba trzeba to wyjaśnić . słusznie , turcja jest warta uwzględnienia w odniesieniu do boszniaków , i szerzej - bośniaków . thelightbluew haśle brak jakiejkolwiek bibliografii . wygląda , że nazwa boszniacy to wymysł autora i zapewne grupki jego znajomych . ktoś poza wikipedią używa tej nazwy ? na podstawie pracy socjolingwistyczne aspekty współczesnego języka bośniackiego agnieszka hofman - pianki widać , że w nauce ten naród to bośniacy . jaki wymysł ? polskie tłumaczenie słowa bošnjaci i bosniaks to boszniacy , w opozycji do bosanci i bosnians . wygoogluj sobie to zobaczysz , że to żaden wymysł , ignorancie . jeśli nie rozróżniasz bośniackich muzułmanów od obywateli mieszkańców bih jako całości to po co w ogóle zabierasz głos ? i wypadałoby się podpisać thelightblue",1676,1,0.059666,bošnjaci
110,"pierwsze treningi przed trzynastą rundą tegorocznego sezonu mistrzostw świata formuły 1 - grand prix włoch stanęły pod znakiem dobrej pogody - przez cały czas na torze dominowało słońce , więc kierowcy z pewnością byli dzisiaj przygotowani na szybką jazdę . w ten weekend partnerem kimiego räikkönena jest jérôme dambrosio , który zastąpił romaina grosjeana wskutek kary nałożonej na francuza za wypadek na pierwszym okrążeniu podczas grand prix belgii , w którym zostali wyeliminowani fernando alonso , sergio pérez i lewis hamilton . dzisiaj również miał miejsce debiut chińskiego kierowcy , ma qing hua , który w pierwszym treningu zastąpił naraina karthikeyana w bolidzie f112 pierwszy trening wygrał siedmiokrotny mistrz świata , michael schumacher z zespołu mercedes . niemiec wykręcił czas 1 : 25 , 422 i był lepszy o 0 , 301 s . od zwycięzcy poprzedniego wyścigu , jensona buttona z mclarena i o 0 , 340 s . od zespołowego kolegi , nico rosberga . drugi trening natomiast stał pod dominacją mclarena - wygrał lewis hamilton wykręcając czas 1 : 25 , 290 , drugi z czasem 1 : 25 , 328 był jenson button a trzeci był fernando alonso , który stracił do hamiltona 0 , 58 s . michael schumacher tym razem zajął dziesiąte miejsce - jego czas wyniósł 1 : 26 , 94",1262,5,0.396197,räikkönena jérôme pérez
120,"norweg thor huschovd z credit agricole wygrał sprint z peletonu na trasie 4 etapu wyścigu dookoła francji , wyprzedzając na mecie roberta huntera z barloworld i oscara freire z rabobanku . dzięki temu zwycięstwu norweg awansował na 2 pozycję klasyfikacji generalnej . liderem wyścigu pozostaje fabian cancellara . czwarty etap to kolejny płaski odcinek . trasa etapu prowadziła peleton z miejscowości villers - cotterets do joigny położonego w burgundii . w piątym dniu rywalizacji organizatorzy wyznaczyli na 193 - kilometrowej trasie cztery premie górskie iv kategorii oraz trzy premie lotne . tuż za pierwszym z podjazdów , pod cote de veuilly - la poterie - utworzyła się 5 - osobowa grupa uciekinierów , w skład której weszli : juan antonio flecha , gorka verdugo , matthieu sprick , sylvain chavanel i christian knees . grupka ta dość szybko wytworzyła około 4 - minutową przewagę nad resztą zawodników , która na przemian nieco się zmniejszała i powiększała . tempo zarówno peletonu , jak i uciekających zawodników było , podobnie jak dzień wcześniej , stosunkowo niskie , a atmosfera panująca wśród zawodników niezwykle spokojna . kolejne premie górskie nie przynosiły większych zmian . na 159 kilometrze , gdzie wyznaczona była ostatnia tego dnia premia lotna , różnica czasowa wynosiła około półtorej minuty . mniej więcej w tym czasie z dalszej rywalizacji w wyścigu wycofał się zawodnik francuskiej ekipy française des jeux , rémy di grégorio , który dotkliwie odczuwał skutki wcześniejszych upadków . zgodnie z przewidywaniami , na około 8 kilometrów przed metą , przodownicy zostali dogonieni przez peleton , któremu rytm nadawali m . in . kolarze grupy quick step . od tego momentu zaczęło się rozprowadzanie sprinterów przed ostatecznym finiszem . sytuacji ogólnego zamieszania , jakie wytworzyło się na czele peletonu , zręcznie wykorzystał norweg thor hushovd , który pociągnięty przez swojego drużynowego kolegę juliana deana , szczęśliwie zdążył przejechać linię mety , nim dogonił go rozpędzony robert hunter z barloworld . jako trzeci na mecie zameldował się hiszpan oscar freire .",2103,3,0.142653,française rémy grégorio
137,"były reprezentant polski zadebiutował w oficjalnym meczu realu madryt . drużyna grała na wyjeździe mecz czwartej rundy pucharu króla . mistrzowie hiszpanii zremisowali z trzecioligowym alicante cf 1 : 1 po spotkaniu z alicante podszedł do mnie nasz prezydent , roman calderon i pogratulował dobrego występu słowami : muy bien . debiut w oficjalnym meczu realu mam już za sobą . spodziewaliśmy się ciężkiego spotkania . trener dał odpocząć kilku podstawowym zawodnikom , bo za trzy dni czeka nas mecz sezonu z fc barceloną . wynik 1 : 1 jest sprawiedliwy , mimo że udało nam się wyrównać dopiero w końcówce . obie drużyny miały po kilka sytuacji do zdobycia gola . rywale strzelili bramkę w 60 minucie z rzutu karnego po faulu roystona drenthe . odtąd moi koledzy z pola wzięli się ostro do pracy i stworzyli wiele stuprocentowych sytuacji . na kilka minut przed końcem , gola głową zdobył javier balboa . ja , mimo wpuszczonej bramki mogę wyciągnąć wiele pozytywów z tego meczu . rewanż na santiago bernabeu powinien zakończyć się naszym zwycięstwem . nie będzie jednak tak łatwo , bo drużyna alicante zagrała z wielką ambicją i poświęceniem - napisał jerzy dudek na swojej stronie internetowej . alicante cf - real madryt 1 : 1 bramki : borja perez - penas javier balboa sędziował : rafael ramírez domínguez",1308,2,0.152905,ramírez domínguez
