## <span style='font-family:Georgia'> Objectives
The purpose of this notebook is text mining on test data, aimed at creating a baseline rule-model, which is to be a benchmark of the neural model developed in the later phase of the project.

In [1]:
# loading packages
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import os
import re

from supportive_functions import find_nonalpha, flatten, count_punctuation, separate_special_chars, rm_consecutive_spaces

import warnings
warnings.filterwarnings(action='ignore')
pd.options.display.max_columns = None

%matplotlib inline
plt.rcParams['figure.figsize'] = (9, 6)
sns.set(style="darkgrid")

## <span style='font-family:Georgia'> Data loading & preparation

In [2]:
# reading data
data_test_in = pd.read_csv('data/preprocessed/test-A/in.tsv', sep='\t', header=None)
data_test_exp = pd.read_csv('data/preprocessed/test-A/expected.tsv', sep='\t', header=None)

In [3]:
# renaming columns

data_test_in.columns = ['FileId', 'ASROutput']
data_test_exp.columns = ['FixedOutput']

# adding index to expected output (assumption: the same ordering of the records)

data_test_exp['FileId'] = data_test_in['FileId']
data_test_exp = data_test_exp[['FileId', 'FixedOutput']]


In [4]:
data_test_exp.to_csv("./data/out/test/test_expected_with_ids.csv", index=False)

In [5]:
data_test_exp.shape

(200, 2)

## <span style='font-family:Georgia'> Separate special characters from words

In [6]:
data_test_in = separate_special_chars(data_test_in)
data_test_exp = separate_special_chars(data_test_exp)

In [7]:
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(rm_consecutive_spaces)
data_test_in["ASROutput"] = data_test_in["ASROutput"].apply(rm_consecutive_spaces)

## <span style='font-family:Georgia'> Check for records with non-character symbols excluded from target classes set

In [8]:
target_classes=['.', ',', '?', '!', '-', ':', '...']
numbers = ['1', '2', '3', '4', '5', '6', '7', '8', '9', '0']

In [9]:
non_characters_test=np.unique(data_test_exp['FixedOutput'].apply(lambda x: find_nonalpha(x)))
symbols_to_drop_test=list(set(flatten(non_characters_test))-set(target_classes)-set(numbers))
print(f"List of symbols to be dropped: {str(symbols_to_drop_test)}")

List of symbols to be dropped: ['š', 'è', 'ř', 'ъ', 'и', 'м', ';', ')', 'я', 'к', '%', '+', '$', 'е', ']', 'á', 'í', 'ö', 'р', 'с', '³', 'ğ', 'č', 'б', 'ø', "'", 'ě', 'т', 'у', ' ', 'з', 'ш', 'é', 'ý', 'ñ', 'ä', 'ü', 'а', 'п', 'д', 'β', 'в', 'о', 'л', 'н', '"', 'à', 'ю']


In [10]:
symbols_to_replace = ["'", '"', ";", "%", '(', ')', '[', ']', '²', '€', '³', '+', '·']
for symb in symbols_to_replace:
    data_test_exp['FixedOutput'] = data_test_exp['FixedOutput'].apply(lambda x: x.replace(symb, ''))
    data_test_in['ASROutput'] = data_test_in['ASROutput'].apply(lambda x: x.replace(symb, ''))
    
data_test_exp["FixedOutput"] = data_test_exp["FixedOutput"].apply(rm_consecutive_spaces)
data_test_in["ASROutput"] = data_test_in["ASROutput"].apply(rm_consecutive_spaces)

In [11]:
with open("./data/out/eda/symbols_to_replace.txt", "w", encoding="utf-8") as outfile:
    outfile.write("\n".join(symbols_to_replace))

In [12]:
symbols_to_drop_test=list(set(symbols_to_drop_test)-set(symbols_to_replace)-set(' '))
str(symbols_to_drop_test) # list of weird letters

"['š', 'è', 'ř', 'ъ', 'и', 'м', 'я', 'к', '$', 'е', 'á', 'í', 'ö', 'р', 'с', 'ğ', 'б', 'č', 'ø', 'ě', 'т', 'у', 'з', 'ш', 'é', 'ý', 'ñ', 'ä', 'ü', 'а', 'п', 'д', 'β', 'в', 'о', 'л', 'н', 'à', 'ю']"

In [13]:
with open("./data/out/test/non_polish_letters.txt", "w", encoding="utf-8") as outfile:
    outfile.write("\n".join(symbols_to_drop_test))

In [14]:
test_noise_rows = []
for i, row in data_test_exp.iterrows():
    if any(x in data_test_exp.loc[i, 'FixedOutput'] for x in symbols_to_drop_test):
        test_noise_rows.append(row['FileId'])

data_test_exp_noise = data_test_exp[data_test_exp.FileId.isin(test_noise_rows)]

data_test_exp_noise.to_csv('./data/out/test/test_noise.csv')

data_test_exp_noise.head() # records to drop

Unnamed: 0,FileId,FixedOutput
12,wikinews179354,"prezydent usa george bush powiedział , że odno..."
26,wikinews184437,szef unii chrześcijańsko - demokratycznej i wi...
57,wikitalks005217,zgłoszenie zostało przeniesione z wikipedia : ...
60,wikinews185732,"świat obiegła informacja , że mehmet ali ağca ..."
61,wikinews218360,na terenach wystawowych w pradze w dniach 13 -...


In [15]:
len(data_test_exp_noise)

15

In [16]:
count_punctuation(data_test_exp_noise.set_index('FileId'), 'FixedOutput')

Unnamed: 0_level_0,fullstop,comma,question_mark,exclamation_mark,hyphen,colon,ellipsis
FileId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
wikinews179354,16.0,15.0,0.0,0.0,1.0,1.0,0.0
wikinews184437,10.0,11.0,0.0,0.0,1.0,0.0,0.0
wikitalks005217,23.0,20.0,4.0,0.0,1.0,15.0,0.0
wikinews185732,12.0,12.0,0.0,0.0,4.0,0.0,0.0
wikinews218360,25.0,10.0,0.0,0.0,4.0,0.0,0.0
wikitalks0014941,15.0,18.0,4.0,1.0,6.0,0.0,0.0
wikinews183089,11.0,15.0,0.0,0.0,3.0,2.0,0.0
wikinews226381,11.0,15.0,0.0,0.0,0.0,3.0,0.0
wikinews226751,9.0,9.0,0.0,0.0,0.0,0.0,0.0
wikinews230002,23.0,18.0,0.0,0.0,2.0,5.0,0.0


In [17]:
records_with_noise_test = np.unique(np.array(data_test_exp_noise['FileId'].tolist()))
records_with_noise_test

array(['wikinews179354', 'wikinews180554', 'wikinews183089',
       'wikinews183185', 'wikinews184437', 'wikinews185273',
       'wikinews185732', 'wikinews199816', 'wikinews218360',
       'wikinews226381', 'wikinews226751', 'wikinews230002',
       'wikinews231289', 'wikitalks0014941', 'wikitalks005217'],
      dtype='<U16')

## <span style='font-family:Georgia'> Non-character symbols statistics summary

Count:
* how many symbols_to_drop contain each record
* how long is text in each record
* percent of symbols_to_drop in whole string in each record


In [18]:
# count number of symbols_to_drop in each record
fixed_output_test= data_test_exp_noise.loc[:,"FixedOutput"]
count_test=[0 for i in range(len(fixed_output_test))]
number_test=0
for string in fixed_output_test:
    for letter in string:
        if letter in symbols_to_drop_test:
            count_test[number_test] +=1
    number_test+=1 #iterate for indexes, as from series only strings, without indexes
    
# count length of fixed output
length_test=[0 for i in range(len(fixed_output_test))]
number_test=0
for string in fixed_output_test:
    length_test[number_test]=len(string)
    number_test+=1
    
df_fixed_output_test=pd.DataFrame(fixed_output_test)
df_fixed_output_test['length']=length_test
df_fixed_output_test['count of symbols_to_drop']=count_test
df_fixed_output_test['percent']=[i/j*100 for i,j in zip(count_test, length_test)]

df_fixed_output_test.head()

Unnamed: 0,FixedOutput,length,count of symbols_to_drop,percent
12,"prezydent usa george bush powiedział , że odno...",1790,1,0.055866
26,szef unii chrześcijańsko - demokratycznej i wi...,1129,10,0.88574
57,zgłoszenie zostało przeniesione z wikipedia : ...,1779,64,3.597527
60,"świat obiegła informacja , że mehmet ali ağca ...",1210,5,0.413223
61,na terenach wystawowych w pradze w dniach 13 -...,2299,8,0.347977


In [19]:
#  print whole records, which have at least 1% of characters to drop
to_print_test=df_fixed_output_test[df_fixed_output_test['percent']>1]
for i in range(len(to_print_test)):
    print(to_print_test.iloc[i,:].FixedOutput)
    print('\n')

zgłoszenie zostało przeniesione z wikipedia : zgłoś błąd w artykule ponieważ prawdopodobnie nie zostało rozwiązane w ciągu 45 dni . 1 po co w tabelce ofiar rubryka fotografia , która jest kompletnie pusta ? 2 tu jest mowa o dwudniowej żałobie , nie trzydniowej . zgłasza : żyrafał 11 : 51 , 25 paź 2014 co to za miejsce pracy nauki komórka ? usunąłem zbędną kolumnę fotografia . natomiast nie wiem , co z tą żałobą . na en . wiki też jest trzydniowa . koveraslupus 14 : 31 , 25 paź 2014 na ru . wiki mamy dwa : президент беларуси александр лукашенко указом объявил 1 и 2 июня днями траура . a na en . wiki szablon o niepełnym uźródłowieniu . żyrafał 15 : 29 , 25 paź 2014 to co pisze enwiki i ruwiki kompletnie nas nie powinno interesować , bo wikipedia nie może być źródłem sama dla siebie . ma być podane to co dają zewnętrzne wiarygodne źródła , a jak takich nie ma to fragment usunąć . aotearoa dyskusja 15 : 51 , 25 paź 2014 żródło na 2 dni dałem w zgłoszeniu . żyrafał 15 : 56 , 25 paź 2014 pop

### Words containing non-characters symbols preview

In [20]:
count_words_test=['' for i in range(len(fixed_output_test))]
number_test=0
for string in fixed_output_test:
    words_in_string_test=string.split(' ')
    for word in words_in_string_test:
        count_letters_test=0
        for letter in word:
            if letter in symbols_to_drop_test:
                count_letters_test+=1
        if count_letters_test>0:
            count_words_test[number_test]=count_words_test[number_test]+' '+ word
    number_test+=1
    
count_words_test = list(map(str.lstrip, count_words_test))
print(count_words_test)

['$', 'jiří čunek čunka jiří čunek jiří čunka', 'президент беларуси александр лукашенко указом объявил и июня днями траура', 'ağca ağca ağca ağcy ağcę', 'svět dwořáčkovej štípkova svět svět', 'βy βy βy', 'cuauhtémoc', 'gällivare bjørgen', 'alizée alizée mylène alizée à alizée', 'bjørndalena', 'björna jürgenowi björn sébastien söderling martín argüello karanušić martín cañas hernández josé jürgen jiří vaněk stéphane', 'mikuláša gašparoviča vladimír lipšic hrušovský', 'léon', 'düsseldorfie düsseldorfie düsseldorfu', 'tägtgren']


In [21]:
with open("./data/out/test/noisy_words.txt", "w", encoding="utf-8") as outfile:
    outfile.write("\n".join(count_words_test))

In [22]:
pd.options.display.max_colwidth = None

df_fixed_output_test['words containing']=count_words_test
df_fixed_output_test


Unnamed: 0,FixedOutput,length,count of symbols_to_drop,percent,words containing
12,"prezydent usa george bush powiedział , że odnowa nowego orleanu i innych zalanych terenów potrwa lata . stan luizjana , wraz ze stolicą nowym orleanem , ucierpiał w wyniku ataku huraganu katrina . prezydent skrócił swoje wakacje w teksasie oraz zwołał posiedzenie gabinetu , który obejmie kontrolę nad nadzorem akcji ratunkowej jednej z najgorszych katastrof naturalnych . bush wyznaczył trzy priorytety dotyczące walki ze skutkami kataklizmu : ratowanie życia ofiarom , w tym poszukiwanie zaginionych pomoc poszkodowanym i odnalezionym odbudowa i usuwanie szkód w ramach akcji ratunkowej przydzielono dodatkowo 10 tysięcy żołnierzy , którzy wspomogą operację w regionach najbardziej dotkniętych katastrofą . zaliczają się do nich części stanów luizjany i mississippi . służby medyczne zaoferowały ponad 10 tysięcy łóżek , zaś armia amerykańska wysyła swoje helikoptery i łodzie aby uratować mieszkańców znajdujących się w schronieniu . późnym wieczorem , w środę , rozpoczęła się ewakuacja reszty mieszkańców nowego orleanu - tych , którzy pozostali w schronach oraz na stadionie superdome w centrum miasta . ich liczbę szacuje się na 20000 ludzie są wywożeni do oddalonego o 350 mil stadionu astrodome w houston . w tym celu podstawiono 300 autobusów . niektórzy wykorzystują sytuację i w poszukiwaniu jedzenia lub cennych rzeczy włamują się do domów , biur , szpitali . rozbijają szyby , wyłamują drzwi . wleką za sobą to , co udaje się im unieść bądź przenieść . uderzenie huraganu katrina spowodowało wzrost cen benzyny w wielu częściach stanów zjednoczonych . osiągnęła ona wartość powyżej 3 dolarów za galon . w niektórych stanach wynosi ona 3 50 $ . nad zatoką meksykańską umiejscowiony jest jeden z największych okręgów przemysłowych , mieszczącym wiele rafinerii oraz rurociągów .",1790,1,0.055866,$
26,"szef unii chrześcijańsko - demokratycznej i wicepremier czech , jiří čunek poinformował w czwartek , że 7 listopada poda się do dymisji . jego decyzja jest spowodowana zarzutami jakie wobec niego wysunęła czeska prokuratura . zarzuca się mu , że w latach 90 jego rodzina nielegalnie pobierała świadczenia socjalne . w tym samym okresie na koncie čunka miało znajdować się ponad 3 , 5 mln koron . dodatkowo jiří čunek zataił przed urzędem podatkowym to , iż posiada tak znaczne dochody . już wcześniej czeskiemu wicepremierowi stawiano aferalne zarzuty . oskarżano go o to , że będąc starosta morawskiej vesztiny przyjął półmilionową łapówkę . miało to być wynagrodzenia ze strony pewnej firmy , której umożliwiono wykup pakietu większościowego w komunalnym przedsiębiorstwie zajmującym się budową mieszkań . udało mu się te zarzuty oddalić , jednak wpisał się nimi do historii czech jako pierwszy członek rządu , którego oskarżono o korupcje . w obliczu obecnej afery jiří čunka złożył dymisję ze stanowiska w rządzie , jednocześnie zapowiadając , że nie ma zamiaru rezygnować z przewodniczenie swojej partii i mandatu senatora .",1129,10,0.88574,jiří čunek čunka jiří čunek jiří čunka
57,"zgłoszenie zostało przeniesione z wikipedia : zgłoś błąd w artykule ponieważ prawdopodobnie nie zostało rozwiązane w ciągu 45 dni . 1 po co w tabelce ofiar rubryka fotografia , która jest kompletnie pusta ? 2 tu jest mowa o dwudniowej żałobie , nie trzydniowej . zgłasza : żyrafał 11 : 51 , 25 paź 2014 co to za miejsce pracy nauki komórka ? usunąłem zbędną kolumnę fotografia . natomiast nie wiem , co z tą żałobą . na en . wiki też jest trzydniowa . koveraslupus 14 : 31 , 25 paź 2014 na ru . wiki mamy dwa : президент беларуси александр лукашенко указом объявил 1 и 2 июня днями траура . a na en . wiki szablon o niepełnym uźródłowieniu . żyrafał 15 : 29 , 25 paź 2014 to co pisze enwiki i ruwiki kompletnie nas nie powinno interesować , bo wikipedia nie może być źródłem sama dla siebie . ma być podane to co dają zewnętrzne wiarygodne źródła , a jak takich nie ma to fragment usunąć . aotearoa dyskusja 15 : 51 , 25 paź 2014 żródło na 2 dni dałem w zgłoszeniu . żyrafał 15 : 56 , 25 paź 2014 poprawiłem na podstawie źródła i zamknąłem dyskusję . żyrafał 15 : 59 , 25 paź 2014 ja jednak ponowię pytanie : co to za komórka ? racja , umknęło mi to . na to pytanie odpowiedzi nie znam , więc nie poprawię . kto da radę ? żyrafał 16 : 36 , 25 paź 2014 ale z was trąby : przecież to jest tabelka . pusta , niewypełniona tabelka wyglądała tak a niech poprawia bladyniec . to on wstawił listę ofiar . 21 : 11 , 25 paź 2014 to jak już będzie poprawiał tabelę , to niech poprawi także błędy ortograficzne - nazwy cmentarzy i rejonów należy pisać mała literą . aotearoa dyskusja 22 : 00 , 25 paź 2014 komórki usunąłem w parę sekund . michał sobkowski dyskusja 10 : 48 , 28 paź 2014 zrobione . wybaczcie , to był mój pierwszy artykuł kiedykolwiek napisany w wikipedii . tomasz bladyniec",1779,64,3.597527,президент беларуси александр лукашенко указом объявил и июня днями траура
60,"świat obiegła informacja , że mehmet ali ağca , który dokonał nieudanego zamachu na papieża jana pawła ii na placu św . piotra w rzymie , będzie się starał o nadanie mu polskiego obywatelstwa . minister spraw zagranicznych radosław sikorski nazwał to szczytem bezczelności . ağca ma wyjść na wolność za 2 lata . jak zapowiedział , będzie się starał o polskie obywatelstwo . jest taka seria dowcipów o szczycie bezczelności . myślę , że pan ali ağca przebił wiele z nich , mam nadzieję , że następna nie będzie erica steinbach - skomentował sprawę szef dyplomacji radosław sikorski . wniosek o przyznanie polskiego obywatelstwa ağcy ma trafić do polskiej placówki dyplomatycznej w ankarze w przyszłym tygodniu dostarczy go pełnomocnik turka . według msz powodzenie tego wniosku - przede wszystkim ze względów formalnych - jest nikłe . jak zaznacza rzecznik msz , przyznawanie obywatelstwa to domena prezydenta , ale są jednak formalne warunki , których spełnienie przez ali ağcę jest niemożliwe lub prawie niemożliwe . nasza placówka twierdzi , że np . trudno będzie formalnie spełnić wymóg podpisania takiego wniosku przez zainteresowanego , który aktualnie przebywa w więzieniu - powiedział piotr paszkowski .",1210,5,0.413223,ağca ağca ağca ağcy ağcę
61,"na terenach wystawowych w pradze w dniach 13 - 16 maja 2010 r . odbyły się targi książki svět knihy . w tym roku gościem honorowym targów była polska . w ich pierwszym dniu swoje wystąpienie miał minister kultury i dziedzictwa narodowego bogdan zdrojewski . podkreślił w nim bliskość kultur czeskiej i polskiej . w targach uczestniczyli polscy pisarze i poeci , w tym też noblistka wisława szymborska . fragmenty jej twórczości , zarówno w języku polskim jak i w czeskim przekładzie vlasty dwořáčkovej , przedstawiła aktorka maria štípkova . były to zaprawione odrobiną ironii fragmenty korespondencji noblistki z młodymi autorami . już drugi raz udział w targach svět knihy wzięło stowarzyszenie wikimedia republika czeska . czescy wikimedianie uznali , że odwiedzający targi są zainteresowani wikipedią i mogą stać się jej przyszłymi edytorami . magnesem przyciągającym młodszych gości targów było urządzenie multimedialne microsoft surface wypożyczone przez microsoft czechy . ponadto na stoisku zainstalowano dwa wielkoformatowe monitory , na których zainteresowanym prezentowano możliwości wikipedii . na stoisku wyłożono foldery dotyczące wikipedii , projektów pokrewnych oraz informacje na temat stowarzyszenia wikimedia czechy . czeskie stowarzyszenie - podobnie jak i polskie - wspiera ruch wolnego oprogramowania i twórczości na wolnych licencjach . polskim akcentem na stoisku była prezentacja monografii miejscowości gwoździany , napisanej przez jednego z polskich wikimedian i opatrzonej licencją creative commons . w piątek , 14 maja w sali konferencyjnej przedstawiciele stowarzyszenia przedstawili multimedialną prezentację jak powstaje wikipedia . w rzeczywistym czasie pokazano tworzenie artykułu od zalążka do uźródłowionego tekstu w końcowym etapie . dzień później , 15 maja wręczono nagrody za stworzenie lub rozwinięcie artykułu w czeskojęzycznej wikipedii . w ramach tego konkursu powstało lub poprawiono ok . 300 haseł . poza statuetkami z logo wikipedii , wręczono nagrody rzeczowe ufundowane przez sponsorów . wśród nagrodzonych znalazł się artykuł karta kredytowa rozwinięty przez nową edytorkę . udział stowarzyszenia wikimedia republika czeska był możliwy dzięki nieodpłatnemu udostępnieniu powierzchni wystawowej przez organizatora targów - firmę svět knihy s . r . o .",2299,8,0.347977,svět dwořáčkovej štípkova svět svět
82,"skąd informacja , że krzyż i tablica były umieszczone nielegalnie ? czy autor edycji mógłby podać źródło ? czy liczy się dodanie , jeśli dodał nieautor ? piastu βy język giętki . hallo piast , nie odpowiedziales na pytanie - skad wiadomo , ze nielegalnie ? podales tylko informacje z prasy prorzadowej . nie wiesz czy leganlnie czy tez nielegalnie - a wiec nie ruszaj tematu - wszedzie te przemadrzale lemingi , co za kraj ! podałem źródło , tego wymagają zasady wikipedii , i stało im się zadość . jeśli masz możliwość podania źródła , które wskazuje na legalność umieszczenia tablicy - podaj je . wikipedia stara się być neutralna , jeśli informacje są sprzeczne , podajemy wszelkie dostępne w źródłach wersje . pozdrawiam piastu βy język giętki . to podaj i przerob zyciorys stalina i lenina , mozesz dolozyc marksa , bieruta wedlug komsomolskiej prawdy i trybuny ludu - tez sa zrodla , a wiec wlacz najpierw troche rozumu . rozum on tpn pozwala postawić tablice - stoją legalnie . tpn zdejmuje tablice , bo są nielegalne . tak , to się kupy trzyma . tylko kupy . rozum off . proszę , podaj źródło , które przeczy temu zdaniu w jego obecnym kształcie , a nie zajmuj się moim rozumem . dziękuję . piastu βy język giętki .",1223,3,0.245298,βy βy βy
109,"dziś tuż przed godziną dziesiątą zawitał w szczecinie jacht rona ii . tuż po nim , na horyzoncie pojawił się żaglowiec szkolny marynarki wojennej republiki meksyku - arm cuauhtémoc . była to zapowiedź finału the tall ships races , który w tym roku po raz pierwszy obył się w szczecinie . po odwiedzeniu takich miejscowości jak warns , arhus , kotka , helsinki i sztokholm żaglowce i jachty trafiły do stolicy zachodniopomorskiego . pierwszy z wielkich trójmasztowców został gorąco przywitany przez licznie zgromadzonych widzów podczas prezentującej się bardzo okazale w wielkiej gali banderowej . tym samym nieoficjalny finał operacji żagiel w szczecinie został rozpoczęty . kolejnym dużym żaglowcem , który przybił do nabrzeża szczecińskiego portu był sts dar młodzieży witany w samo południe . oprócz jednostek robiących olbrzymie wrażenie pojawiły się również mniejsze , choć równie ciepło witane i wyczekiwane : sorlandet , concordia , akela , steppe , pacyfica , sirma , anita i inne . z polskich żaglowców i jachtów pojawiły się również : gedania , kapitan głowacki oraz jacht stary - który w 2007 roku pokonał przejście północno - zachodnie w 100 lat po wyprawie roalda amundsena z najmłodszą załogą . nieoficjalnie zwycięzcą regat the tall ships w klasie c został dar szczecina , który również ma duże szanse na laury w klasyfikacji generalnej . oficjalne rozpoczęcie imprezy odbędzie się 4 sierpnia o godz . 17 0",1421,1,0.070373,cuauhtémoc
126,"inaugurujący ten sezon pucharu świata w biegach narciarskich bieg na 10 kilometrów stylem dowolnym w szwedzkim gällivare zwyciężyła obrończyni kryształowej kuli , norweżka marit bjørgen . zwyciężyni osiągnęła czas 22 minut i 31 , 8 sekundy . tym samym objęła prowadzenie w klasyfikacji generalnej i dystansowej . drugie miejsce , ze stratą 12 , 6 sekundy zajęła jej rodaczka , therese johaug . na trzecim uplasowała się amerykańska sprinterka kikkan randall . na czwartym miejscu uplasowała się reprezentantka gospodarzy charlotte kalla , piąta była amerykanka holly brooks , która po raz pierwszy zajęła miejsce w pierwszej dziesiątce indywidualnych zawodów pś . kolejne miejsca w pierwszej dziesiątce zajęły : vibeke skofterud , lisa larsen , martine hagen , julia czekaljewa i natalia korostieljewa . jedna z czołowych biegaczek świata , justyna kowalczyk , która niedawno zwyciężyła kilka zawodów pucharu fis , zajęła dopiero 27 miejsce , z czasem 23 : 55 3 min . jej rodaczki : sylwia jaśkowiec i paulina maciuszek zajęły odpowiednio 44 i 54 miejsce . sklasyfikowano 77 na 78 zgłoszonych zawodniczek . jutro odbędzie się konkurs sztafet 4x5 km , a w dniach od 30 listopada do 2 grudnia biegaczki konkurować będą w fińskim kuusamo w ramach ruka triple .",1258,2,0.158983,gällivare bjørgen
135,"pochodząca z korsyki francuska piosenkarka alizée wydała swoją piątą płytę , zatytułowaną 5 . dziennikarze muzyczni zauważają , że ten nawiązujący muzycznie do lat 60 krążek jest jak dotychczas najdojrzalszym dziełem artystki . na początku kariery alizée jacotey była podopieczną piosenkarki i kompozytorki mylène farmer oraz lauranta boutonnata , producenta , ówczesnego męża tej ostatniej . jako szesnastolatka , w 2000 roku alizée wylansowała kilka międzynarodowych przebojów , które zamieszczono na jej debiutanckim cd gourmandises , sprzedanym na świecie w ilości ponad 2 milionów egzemplarzy . na kolejnych płytach słuchacze otrzymywali taneczną muzykę pop z elementami piosenki francuskiej oraz utwory w stylu electro . żaden z tych albumów nie powtórzył komercyjnego sukcesu debiutu piosenkarki . tym razem piosenkarka zaprosiła do współpracy alexandrea azarię , znanego udziału w projektach zespołu indochine , zazie i wielu innych . na 5 proponuje słuchaczom pop dla dojrzałych z wyraźnymi echami muzyki lat 60 płytę zapowiedział singel à cause de lautomne wydany już w lipcu 2012 r . do singla alizée nakręciła teledysk z wizualnymi aluzjami do wczesnych filmów o jamesie bondzie .",1192,6,0.503356,alizée alizée mylène alizée à alizée
137,"dziś na biatlonowych trasach w cesana san sicarlo odbyły się męski oraz żeński bieg pościgowy . wcześniej , bo o 12 : 30 wystartowały panie , w tym reprezentantki polski : magdalena gwizdoń , krystyna pałka oraz magdalena nykiel . kolejność startu związana była bezpośrednio z wynikami w sprincie . według tego przelicznika pierwsza wystartowała złota medalistka tej konkurencji , francuzka florence baverel - robert dwie sekundy po niej srebrna medalistka szwedka anna carin olofsson . magdalena gwizdoń startowała z 1 : 23 straty , krystyna pałka miała 1 : 36 straty , a magdalena nykiel ponad 3 minuty . najlepszym strzelaniem oraz biegiem popisała się reprezentantka niemiec kati wilhelm , chybiając tylko raz , mimo straty 18 sekund do baverel - robert na starcie . po srebro przybiegła ponad minutę 10 sekund później jej rodaczka martina glagow . trzecia była rosjanka albina achatowa . najlepsza spośród polek , m . gwizdoń , uplasowała się na 21 miejscu , k . pałka była 37 , a m . nykiel nie ukończyła , gdyż została zdublowana na trasie przez zwyciężczynię k . wilhelm . mężczyźni wystartowali później , o 14 : 30 , i na dłuższym dystansie . jako pierwszy startował sven fischer , w osiem sekund za nim norweg halvard hanevold . oboje nie strzelali jednak dobrze i na końcowych metrach nie liczyli się w walce o złoto . tuż przed metą razem biegli jeszcze norweg ole einar bjoerndalen oraz francuz vincent defrasne . w najmniej spodziewanym momencie francuz zaatakował niemal pewnego złota bjørndalena , wyprzedził go i zdobył złoty medal . o . e . bjoerndalen musiał zadowolić się srebrem . na trzecim miejscu przybiegł startujący z numerem 1 zwycięzca sprintu sven fischer . tomasz sikora przybiegł na 18 miejscu , a wiesław ziemianin na 30 miejscu .",1762,1,0.056754,bjørndalena
