[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://githubtocolab.com/jkanclerz/analiza-dokumentow/blob/main/10--Eksploracyjna-analiza-dokumentow_tekstowych.ipynb)

# Analiza dokumentów tekstowych	

## Zastosowania
### NLP - Natural Language Processing

NLP zajmuje się zdolnością komputera do rozumienia, analizowania, manipulowania i potencjalnego generowania ludzkiego języka.

* Wyszukiwanie informacji (Google finds relevant and similar results, "Wyszukiwanie pełnotekstowe Elasticsearch")
* Ekstrakcja informacji (Adresy, naswy, złożone struktury tj. listy, tabele)
* Analiza sentymentu
* Generowanie streszczeń (https://smmry.com/)
* Klasyfikacja
* Predykcja, podpowiadanie następnego elementu w zdaniu
* Auto korekta
* Rozpoznawanie mowy
* Generowanie Tekstu



## Dane
### Structured data
* Dane ustrukturyzowane
* Usystematyzowane zgodnie z zadanym schematem
* Dobrze zorganizowane
* Restrykcyjne reguły walidacji
* Łatwa manipulacja, syszukiwanie, porównywanie modyfikacja

### Semi structured data
* Zorganizowane w grupy / kategorie 
* Elementy kolekcji mogą się wewnetrznie różnić
* Posiadają wspólne cechy
* Email (nadawca, odbiorca, lista załączników?, tekst?)

### Unstructured data
* Zawierają dane, tj liczby, fakty.
* Trudne do usystematyzowania
* Posty, korespondencja, dane cyfrowe, nagrania audio / video
* Potrzeba ustrukturyzowania do dalszej analizy

## Analiza tekstu

### Dane tekstowe
Przykłady danych nieustrukturyzowanych obejmują 
* dokumenty biznesowe i prawne
  * forma papierowa
  * elektoroniczne formaty wymiany danych
* nagrania audio
* czaty
* wideo
* obrazy
* tekst na stronie internetowej
* korespondencję 
* zgłoszenia w systemach CRM 

### Cel

Wykorzystanie informacji ukrytych w danych
* Ekstrakcja informacji z dokumentów
  * Dane o klientach
  * Dane o produktach
  * Dane o cenach
* Poznawanie opinni o produktach / markach
  * Wykrywanie nastawienia konsumentów
  * Przyśpieszenie reakcja na negatywne sygnały
* Zwiększenie skuteczności w komunikacji z klientem
  * Analiza ankiet, zgłoszeń, opinni, korespondencji
* Rozpoznawanie intencji
  * Chęć zakupu
  * Reklamacja
* Monitorowanie sentymentu dot. marki
  * Brand24

## Charakterystyka tekstów 

* składnia - relacje między słowami w zdaniu mogą być często określone na kilka sposobów, co prowadzi do różnych interpretacji tekstu,
* semantyka - to samo słowo może mieć wiele znaczeń, w zależności od kontekstu,
* występowanie metafor, tautologii, ironii itp.
* znaki diakrytyczne, takie jak: ą, ć, ę, ł, ń, ó, ś, ź, ż,
* homonimy - wyrazy o tej samej formie językowej, ale pochodzące od wyrazów o innym znaczeniu,
* synonimy - różne wyrazy o tym samym lub bardzo podobnym znaczeniu,
* idiomy - wyrażenia, których znaczenie jest inne niż to, które powinno być mu przypisane, biorąc pod uwagę jego części składowe i zasady składni,
* ponad 150 tys. słów w słowniku podstawowym.


## Narzędzia

* Python
* biblioteki data science
  * scipy
  * scikitlearn
  * pandas
  * tensorflow
  * ...

## Proces
* Pozyskiwanie danych
  * Czytanie plików
  * Czytanie stron www (web scrapping)
  * Odczytywanie tekstów z obrazka
* Oczyszczanie danych
  * literówki
  * usuwanie nieznaczących słów
  * interpunkcja
  * podział na tokeny
    * słowa
    * zdania
    * N-gramy
* Transformacja danych
  * Stemming
  * Lemmatisation
* Analiza zbioru danych
  * bazowe statystyki
    * długości słów
    * częstość słów
  * wizualizacje
    * word cloud
* Wektoryzacja
  * one-hot encoding
  * częstość (Count)
  * częstość ważona (tf-idf)
  * word2vec
  * doc2vec
* Modele
  * Klasyfikacja / Klasteryzacja dokumentów
  * Generowanie tekstu
  * Podobieństwo dokumentów
  * Podobieństwo słów


# Python

- Intro to python (https://github.com/jkanclerz/intro-to-python)
- Python code catas (https://www.codewars.com/)

In [None]:
print("Hello World")

Hello World


In [None]:
name = "John Snow"
print("Hello {}".format(name))

Hello John Snow


In [None]:
type(name)

str

In [None]:
x = ["john", "doe"]
type(x)

list

In [None]:
x = ("john", "doe")
type(x)

tuple

In [None]:
import itertools

x = itertools.chain(['A', 'B', 'C'], ['X', 'Y', 'Z'])
type(x)

itertools.chain

In [None]:
x_as_list = list(x)
type(x_as_list)
print(x_as_list)

['A', 'B', 'C', 'X', 'Y', 'Z']


In [None]:
x = [item for item in range(1, 10)]
type(x)
print(x)

[1, 2, 3, 4, 5, 6, 7, 8, 9]


In [None]:
x = (item for item in range(1, 10))
type(x)
print(x)

<generator object <genexpr> at 0x7fedcb88eed0>


In [None]:
x = (item for item in range(1, 10))
type(x)
print(list(x))

[1, 2, 3, 4, 5, 6, 7, 8, 9]


# Writing / Reading / Loading

https://github.com/git-podrecznik/wiersze

https://raw.githubusercontent.com/git-podrecznik/wiersze/master/Julian%20Tuwim%20-%20Lokomotywa.txt

## writing / reading file

In [None]:
text = '''
Stoi na stacji lokomotywa,
Ciężka, ogromna i pot z niej spływa:
Tłusta oliwa.
Stoi i sapie, dyszy i dmucha,
Żar z rozgrzanego jej brzucha bucha:
Buch - jak gorąco!
Uch - jak gorąco!
Puff - jak gorąco!
Uff - jak gorąco!
Już ledwo sapie, już ledwo zipie,
A jeszcze palacz węgiel w nią sypie.

Wagony do niej podoczepiali
Wielkie i ciężkie, z żelaza, stali,
I pełno ludzi w każdym wagonie,
A w jednym krowy, a w drugim konie,
A w trzecim siedzą same grubasy,
Siedzą i jedzą tłuste kiełbasy,
A czwarty wagon pełen bananów,
A w piątym stoi sześć fortepianów,
W szóstym armata - o! jaka wielka!
Pod każdym kołem żelazna belka!
W siódmym dębowe stoły i szafy,
W ósmym słoń, niedźwiedź i dwie żyrafy,
W dziewiątym - same tuczone świnie,
W dziesiątym - kufry, paki i skrzynie.
A tych wagonów jest ze czterdzieści,
Sam nie wiem, co się w nich jeszcze mieści.
Lecz choćby przyszło tysiąc atletów
I każdy zjadłby tysiąc kotletów,
I każdy nie wiem jak się wytężał,
To nie udźwigną, taki to ciężar.

Nagle - gwizd!
Nagle - świst!
Para - buch!
Koła - w ruch!

Najpierw - powoli - jak żółw – ociężale,
Ruszyła - maszyna - po szynach - ospale,
Szarpnęła wagony i ciągnie z mozołem,
I kręci się, kręci się koło za kołem,
I biegu przyspiesza, i gna coraz prędzej,
I dudni, i stuka, łomoce i pędzi,
A dokąd? A dokąd? A dokąd? Na wprost!
Po torze, po torze, po torze, przez most,
Przez góry, przez tunel, przez pola, przez las,
I spieszy się, spieszy, by zdążyć na czas,
Do taktu turkoce i puka, i stuka to:
Tak to to, tak to to , tak to to, tak to to.
Gładko tak, lekko tak toczy się w dal,
Jak gdyby to była piłeczka, nie stal,
Nie ciężka maszyna, zziajana, zdyszana,
Lecz fraszka, igraszka, zabawka blaszana.

A skądże to, jakże to, czemu tak gna?
A co to to, co to to, kto to tak pcha,
Że pędzi, że wali, że bucha buch, buch?
To para gorąca wprawiła to w ruch,
To para, co z kotła rurami do tłoków,
A tłoki kołami ruszają z dwóch boków
I gnają, i pchają, i pociąg się toczy,
Bo para te tłoki wciąż tłoczy i tłoczy,
I koła turkocą, i puka, i stuka to:
Tak to to, tak to to, tak to to, tak to to!
'''

In [None]:
!mkdir -p var

In [None]:
with open('var/lokomotywa.txt', 'w+') as f:
  f.write(text)

In [None]:
!cat var/lokomotywa.txt


Stoi na stacji lokomotywa,
Ciężka, ogromna i pot z niej spływa:
Tłusta oliwa.
Stoi i sapie, dyszy i dmucha,
Żar z rozgrzanego jej brzucha bucha:
Buch - jak gorąco!
Uch - jak gorąco!
Puff - jak gorąco!
Uff - jak gorąco!
Już ledwo sapie, już ledwo zipie,
A jeszcze palacz węgiel w nią sypie.

Wagony do niej podoczepiali
Wielkie i ciężkie, z żelaza, stali,
I pełno ludzi w każdym wagonie,
A w jednym krowy, a w drugim konie,
A w trzecim siedzą same grubasy,
Siedzą i jedzą tłuste kiełbasy,
A czwarty wagon pełen bananów,
A w piątym stoi sześć fortepianów,
W szóstym armata - o! jaka wielka!
Pod każdym kołem żelazna belka!
W siódmym dębowe stoły i szafy,
W ósmym słoń, niedźwiedź i dwie żyrafy,
W dziewiątym - same tuczone świnie,
W dziesiątym - kufry, paki i skrzynie.
A tych wagonów jest ze czterdzieści,
Sam nie wiem, co się w nich jeszcze mieści.
Lecz choćby przyszło tysiąc atletów
I każdy zjadłby tysiąc kotletów,
I każdy nie wiem jak się wytężał,
To nie udźwigną, taki to ciężar.

Nagle - gwizd

In [None]:
with open("var/lokomotywa.txt") as f:
  x = f.read()
  print(type(x))

<class 'str'>


In [None]:
with open("var/lokomotywa.txt") as f:
  x = f.readlines()
  print(type(x))

<class 'list'>


In [None]:
lines = (line for line in open("var/lokomotywa.txt"))
type(lines)

generator

In [None]:
next(lines),next(lines),next(lines),next(lines)

('Tłusta oliwa.\n',
 'Stoi i sapie, dyszy i dmucha,\n',
 'Żar z rozgrzanego jej brzucha bucha:\n',
 'Buch - jak gorąco!\n')

## Writing to a File

https://docs.python.org/3/library/functions.html#open

In [None]:
my_file = open('test.txt','w+')

In [None]:
my_file.write('This is a new first line')

In [None]:
# Read the file
my_file.seek(0)
my_file.read()

In [None]:
my_file.close()  

## Appending to a File
Passing the argument `'a'` opens the file and puts the pointer at the end, so anything written is appended. Like `'w+'`, `'a+'` lets us read and write to a file. If the file does not exist, one will be created.

In [None]:
my_file = open('test.txt','a+')
my_file.write('\nThis line is being appended to test.txt')
my_file.write('\nAnd another line here.')

In [None]:
my_file.seek(0)
print(my_file.read())

In [None]:
my_file.close()

In [None]:
with open('test.txt','r') as txt:
    for line in txt:
        print(line)