![](http://sigdelta.com/assets/images/sages-sd-logo.png)

# Analiza danych i uczenie maszynowe w Python

Autor notebooka: Jakub Nowacki.

## Dane tekstowe

W tym notebooku przedstawiamy metody pracy z danymi tekstowymi, zarówno używając czystego języka Python, jak i dostępnych pakietów.

In [1]:
import glob
import re
import os

data_dir = 'data/books'

books = list()
for file_name in glob.glob(os.path.join(data_dir, '*.txt')):
    with open(file_name, encoding='utf-8') as lines:
        book_name = re.split(r'[\\\/]+', file_name)[-1].replace('.txt', '')
        books.append({'book': book_name, 'raw': lines.read()})

print('Book:', books[0]['book'])
print('Raw data:', books[0]['raw'][:100])

Book: dracula
Raw data: ﻿The Project Gutenberg EBook of Dracula, by Bram Stoker

This eBook is for the use of anyone anywher


In [2]:
dracula = books[0]['raw']

dracula[:100]

'\ufeffThe Project Gutenberg EBook of Dracula, by Bram Stoker\n\nThis eBook is for the use of anyone anywher'

## Podział na wyrazy

Dokument, taki jak książka Dracula, możemy podzielić na zdania lub wyrazy (tokeny). 

Podstawowym rozwiązaniem jest używanie metod obiektu `str`, np. `split`.

In [3]:
dracula[:200].split()

['\ufeffThe',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'Dracula,',
 'by',
 'Bram',
 'Stoker',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever.',
 'You',
 'may',
 'copy',
 'it,',
 'give',
 'it',
 'away',
 'or',
 're-use',
 'it']

Kolejnym rozwiązaniem są wyrażenia regularne (ang. [regular expressions](https://en.wikipedia.org/wiki/Regular_expression)) dostępne są bodaj we wszystkich językach programowania i są powszechnie używane w pracy z tekstem. Pisanie wyrażeń regularnych jest bardzo podobne w wielu językach, niemniej warto czasem wspomagać się dostępnymi narzędziami, takimi jak [regex101.com](https://regex101.com/).

Wyrażenia regularne w Pythonie są częścią standardowej biblioteki i mają nazwę [`re`](https://docs.python.org/3/library/re.html).

In [4]:
import re

re.findall('\w+', dracula[:200])

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'Dracula',
 'by',
 'Bram',
 'Stoker',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'at',
 'no',
 'cost',
 'and',
 'with',
 'almost',
 'no',
 'restrictions',
 'whatsoever',
 'You',
 'may',
 'copy',
 'it',
 'give',
 'it',
 'away',
 'or',
 're',
 'use',
 'it']

Dodatkowe narzędzia, np NLTK dostarczają dedykowane narzędzia do pracy z tekstem. Wyczerpujący opis można znaleźć [w dokumentacji NLTK](http://www.nltk.org/book/ch03.html).

In [5]:
import nltk

In [6]:
sents = nltk.sent_tokenize(dracula)

sents[:10]

['\ufeffThe Project Gutenberg EBook of Dracula, by Bram Stoker\n\nThis eBook is for the use of anyone anywhere at no cost and with\nalmost no restrictions whatsoever.',
 'You may copy it, give it away or\nre-use it under the terms of the Project Gutenberg License included\nwith this eBook or online at www.gutenberg.org/license\n\n\nTitle: Dracula\n\nAuthor: Bram Stoker\n\nRelease Date: August 16, 2013 [EBook #345]\n\nLanguage: English\n\n\n*** START OF THIS PROJECT GUTENBERG EBOOK DRACULA ***\n\n\n\n\nProduced by Chuck Greif and the Online Distributed\nProofreading Team at http://www.pgdp.net (This file was\nproduced from images generously made available by The\nInternet Archive)\n\n\n\n\n\n\n\n                                DRACULA\n\n\n\n\n\n                                DRACULA\n\n                                  _by_\n\n                              Bram Stoker\n\n                        [Illustration: colophon]\n\n                                NEW YORK\n\n                   

In [7]:
len(sents)

8569

In [8]:
words = nltk.word_tokenize(dracula)

words[:10]

['\ufeffThe',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'Dracula',
 ',',
 'by',
 'Bram',
 'Stoker']

In [9]:
len(words)

193771

In [10]:
nltk.regexp_tokenize(dracula, '\w+')[:20]

['The',
 'Project',
 'Gutenberg',
 'EBook',
 'of',
 'Dracula',
 'by',
 'Bram',
 'Stoker',
 'This',
 'eBook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'at',
 'no']

Aby znormalizować dokumenty możemy zmienić rozmiar znaków i ew usunąć elementy niepasujące naszej definicji wyrazu.

In [11]:
[w.lower() for w in words[:20]]

['\ufeffthe',
 'project',
 'gutenberg',
 'ebook',
 'of',
 'dracula',
 ',',
 'by',
 'bram',
 'stoker',
 'this',
 'ebook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'at']

In [12]:
[w.lower() for w in words[:20] if re.match('\w+', w)]

['project',
 'gutenberg',
 'ebook',
 'of',
 'dracula',
 'by',
 'bram',
 'stoker',
 'this',
 'ebook',
 'is',
 'for',
 'the',
 'use',
 'of',
 'anyone',
 'anywhere',
 'at']

### Zadanie

1. Podziel całą książkę Dracula na wyrazy; znajdź unikalne wyrazy.
1. Znormalizuje wyrazy; znajdź unikalne wyrazy i zobacz czy lista się zmieniła.
1. ★ Zbuduj listę słowników z parami książka-wyraz.

## Zliczanie słów

Jednym z podstawowych zadań, które wykonuje się przy analizie danych tekstowych. Python oferuje wiele rozwiązań tego problemu.

In [None]:
word_dict = dict()

for word in nltk.word_tokenize(dracula):
    w = word.lower()
    if w in word_dict:
        word_dict[w] += 1
    else:
        word_dict[w] = 1

list(word_dict.items())[:10]

In [None]:
from collections import Counter

word_counter = Counter(nltk.word_tokenize(dracula))

list(word_counter.items())[:10]

In [None]:
word_counter.most_common(10)

In [None]:
word_counter = Counter(word_dict)

word_counter.most_common(10)

In [None]:
word_counter = Counter()

for word in nltk.word_tokenize(dracula):
    w = word.lower()
    word_counter[w] += 1

word_counter.most_common(10)

Jest też rozszerzona wersja `Counter` w NLTK nazwana [`FreqDist`](http://www.nltk.org/api/nltk.html#nltk.probability.FreqDist).

In [None]:
word_counter = nltk.FreqDist()

for word in nltk.word_tokenize(dracula):
    w = word.lower()
    word_counter[w] += 1

word_counter.most_common(10)

In [None]:
w = 'the'
print('Częstotliwość słowa "{}": {}'.format(w, word_counter.freq(w)))
print('Ilość wszystkich słów: {}'.format(word_counter.N()))
print('Ilość unikalnych słów: {}'.format(word_counter.B()))

### Stop words

*Stop words* (po polsku czasami używa się określenia stop lista) to są najpopularniejsze słowa w danym języku, które nie wnoszą dodatkowej informacji przy analizie. W analizie językowej wyrazy ze stop listy najczęściej usuwa się ze zbioru.


In [15]:
stop_words = nltk.corpus.stopwords.words('english')

stop_words[:10], type(stop_words), len(stop_words)

(['i',
  'me',
  'my',
  'myself',
  'we',
  'our',
  'ours',
  'ourselves',
  'you',
  "you're"],
 list,
 179)

In [16]:
stop_words = frozenset(stop_words)

type(stop_words), len(stop_words)

(frozenset, 179)

### Zadanie

1. Policz wyrazy w książce Dracula usuwając wyrazy ze stop listy.
1. Usuń *nie-wyrazy* z licznika.

## Kolokacja i n-gramy

Ważną analizą struktury dokumentów jest kolokacja, czyli występujące koło siebie słowa. Obiekty te nazywamy n-gramami, gdzie *n* to szerokość okna. Przykładowo przy szerokości okna 2 rozpatrujemy dwa słowa koło siebie; taki element nazywamy bigramem i jest on najczęściej stosowany w analizie.

In [17]:
sample = nltk.word_tokenize('Mary had a little lamb')
sample

['Mary', 'had', 'a', 'little', 'lamb']

In [18]:
bigrams = zip(sample, sample[1:])
print(list(bigrams))
print(type(bigrams))

[('Mary', 'had'), ('had', 'a'), ('a', 'little'), ('little', 'lamb')]
<class 'zip'>


In [19]:
bigrams = nltk.bigrams(sample)
print(list(bigrams))
print(type(bigrams))

[('Mary', 'had'), ('had', 'a'), ('a', 'little'), ('little', 'lamb')]
<class 'generator'>


### Zadanie

1. Policz bigramy w książce Dracula.

## Pandas

Większość powyższych przykładów operowała głównie na kolekcjach Pythonowych. Z kolei w poprzednich notebookach pokazaliśmy, że Pandas ma wiele użytecznych elementów do pracy z danymi. Poniżej pokażemy kilka przykładów pracy z danymi tekstowymi w Pandas. Zacznijmy od przekształcenia naszej książki Dracula w DataFrame.

In [20]:
import pandas as pd

dracula_df = pd.DataFrame({
    'book': 'dracula',
    'words': nltk.word_tokenize(dracula)
})
dracula_df.head()

Unnamed: 0,book,words
0,dracula,﻿The
1,dracula,Project
2,dracula,Gutenberg
3,dracula,EBook
4,dracula,of


Pandas ma swoje własne metody do pracy z danymi tekstowymi, ukryte pod właściwością `Series.str`.

In [21]:
dracula_df.words.str.lower().head()

0         ﻿the
1      project
2    gutenberg
3        ebook
4           of
Name: words, dtype: object

Możemy też aplikować funkcje do kolumny używając przykładowo funkcji `apply`.

In [22]:
dracula_df.words.apply(lambda w: w.lower()).head()

0         ﻿the
1      project
2    gutenberg
3        ebook
4           of
Name: words, dtype: object

Oraz zapisać wynik do pliku.

In [23]:
dracula_df.to_hdf('data/dracula.h5', 'words')

Możemy też zrobić i zapisać bigramy jako osobną tabelę. W tym przypadku łatwiej po prostu stworzyć nowy DataFrame z bigramami.

In [24]:
dracula_bigrams = pd.DataFrame({
    'book': 'dracula',
    'bigrams': list(nltk.bigrams(dracula_df.words))
})

dracula_bigrams.head()

Unnamed: 0,bigrams,book
0,"(﻿The, Project)",dracula
1,"(Project, Gutenberg)",dracula
2,"(Gutenberg, EBook)",dracula
3,"(EBook, of)",dracula
4,"(of, Dracula)",dracula


In [None]:
dracula_bigrams.to_hdf('data/dracula.h5', 'bigrams')

In [None]:
pd.read_hdf('data/dracula.h5', 'bigrams').head()

In [None]:
pd.read_hdf('data/dracula.h5', 'words').head()

### Zadanie

1. Wczytaj zapisane tabele i zobacz czy są poprawne.
1. Usuń słowa ze stop listy i zapisz dokument jeszcze raz.
1. Wygeneruj bigramy bez stop wordów.
1. Znormalizuj słowa w bigramach.
1. ★ Usuń ostrzeżenie PyTables.
1. ★ Sprawdź czy bigramy są poprawnie wygenerowane i jednoznaczne.

### Ekstrakcja danych tekstowych

Powróćmy do danych tabelarycznych Movie Lens. Część tabel, w szczególności Movie ma zagnieżdżone dane tekstowe.

In [None]:
movies = pd.read_csv('data/ml-latest-small/movies.csv')
movies.head()

Możemy wyciągnąć rok produkcji filmu używając metod we właściwości serii `str`.

In [None]:
movies.title.str.extract('\((\d\d\d\d)\)', 1, expand=False).head()

In [None]:
movies['year'] = movies.title.str.extract('\((\d\d\d\d)\)', 1, expand=False)
movies.head()

Możemy też wyszukiwać po nazwie.

In [None]:
movies[movies.genres.str.match('Comedy')].head()

Możemy też podzielić tekst i dostać kolekcje.

In [None]:
movies['genres_array'] = movies.genres.str.split('|')
movies.head()

Możemy przykładowo wypłaszczyć taką zagnieżdżoną tablicę.

In [None]:
movies['genres_array'].apply(pd.Series).stack().head(10)

### Zadanie

1. Wyświetl ilość filmów wydanych każdego roku; na wykresie wygląda to lepiej.
1. Ile filmów to filmy akcji dla dzieci?
1. Ile filmów dla dzieci robi się średnio w roku?
1. Ile jest unikalnych kategorii?
1. ★ Policz liczbę filmów dla danej kategorii.
1. ★ Policz średnią ocenę filmu (rating) dla danej kategorii.