## Podstawy analizy języka naturalnego

Celem ćwiczenia jest zapoznanie się z prostymi metodami analizy języka naturalnego.
W tym celu będziemy wykorzystywać metodę Bag of Words, zaimplementowaną jako klasa ```CountVectorizer``` pakietu sci-kit learn. 

Będziemy analizować bazę danych zawierającą informację o filmach. Interesujące nas tabele to:

genres
(
    genre_id bigint,
    name text COLLATE pg_catalog."default"
)

genres_movies
(
    id bigint,
    movie_id bigint,
    genre_id bigint
)

movies
(
    movie_id bigint,
    plot text COLLATE pg_catalog."default",
    movie_name text COLLATE pg_catalog."default"
)

Dostęp do bazy umożliwia 

In [14]:
import sqlalchemy
import pandas as pd
import numpy as np
from sqlalchemy import create_engine
db_string = "postgresql://wbauer_adb:adb2020@pgsql-196447.vipserv.org:5432/wbauer_classifier_abd"
db = create_engine(db_string)

1. Ponieważ baza jest dość duża należy ograniczyć się do 10% danych (wybranych losowo):
```SQL
SELECT setseed(0.5); 
SELECT ...
FROM movies 
JOIN genres_movies ON ... 
JOIN genres ON ... 
WHERE random()>0.9
```
Zapytanie uzupelnic samodzielnie tak, aby uzyskać, tytuł, opis fabuły i gatunek filmu.



In [15]:
select_string='SELECT setseed(0.5); SELECT movie_name, plot, g.name FROM movies AS m INNER JOIN genres_movies AS gm ON gm.movie_id = m.movie_id INNER JOIN genres AS g ON g.genre_id = gm.genre_id WHERE random()>0.9' 
df = pd.read_sql(select_string,con=db)
df

Unnamed: 0,movie_name,plot,name
0,Flåklypa Grand Prix,"In the town of Flåklypa , the inventor Reodo...",Stop motion
1,Saving Private Ryan,"On the morning of June 6, 1944, the beginning ...",Ensemble Film
2,The Rock,A group of rogue Force Recon Marines led by di...,Thriller
3,The Silence of the Lambs,Clarice Starling is pulled from her training ...,Thriller
4,The Terminator,"In a post-apocalyptic 2029, artificially inte...",Thriller
...,...,...,...
4246,Tomchi,Tomchi is a story of six notorious children wh...,Drama
4247,Every 9 Seconds,"The films deal with a woman named Carrie , a c...",Drama
4248,Shanghai Calling,"Sam Chao , an ambitious New York attorney, is ...",Drama
4249,Shark Attack 3: Megalodon,When two researchers discover a colossal shark...,Fantasy


2. Spośród 10 najpopularniejszych gatunków filmów wybrać jeden ( liczba liter w imieniu i nazwisku modulo 10). I utworzyć kolumne przypisującą 0 gdy film jest tego gatunku i odwrotnie.

In [16]:
df2 = df.groupby(['name']).size().sort_values(ascending=False)
df2
# (14 modulo 10) = 4 dlatego wybieram 4 najpopularniejszy gatunek czyli Crime Fiction

name
Thriller                     536
Drama                        532
Short Film                   329
Crime Fiction                280
Romantic comedy              187
                            ... 
Heaven-Can-Wait Fantasies      1
Hardcore pornography           1
Children's Fantasy             1
Slapstick                      1
Giallo                         1
Length: 160, dtype: int64

In [17]:
df['wybrany_gatunek'] = np.where(df['name'] == 'Crime Fiction', 1, 0)
df

Unnamed: 0,movie_name,plot,name,wybrany_gatunek
0,Flåklypa Grand Prix,"In the town of Flåklypa , the inventor Reodo...",Stop motion,0
1,Saving Private Ryan,"On the morning of June 6, 1944, the beginning ...",Ensemble Film,0
2,The Rock,A group of rogue Force Recon Marines led by di...,Thriller,0
3,The Silence of the Lambs,Clarice Starling is pulled from her training ...,Thriller,0
4,The Terminator,"In a post-apocalyptic 2029, artificially inte...",Thriller,0
...,...,...,...,...
4246,Tomchi,Tomchi is a story of six notorious children wh...,Drama,0
4247,Every 9 Seconds,"The films deal with a woman named Carrie , a c...",Drama,0
4248,Shanghai Calling,"Sam Chao , an ambitious New York attorney, is ...",Drama,0
4249,Shark Attack 3: Megalodon,When two researchers discover a colossal shark...,Fantasy,0


3. Utworzyć model bag of words, usuwając akcenty, stopwords i zmniejszając wszystkie litery na małe. Ograniczyć się do 20 najpopularniejszych słów.

In [18]:
from sklearn.feature_extraction.text import CountVectorizer
vectorizer = CountVectorizer(strip_accents='ascii', stop_words='english', lowercase=True, max_features=20)

4. Przekształcić opisy filmów do danej postaci za pomocą metody ```.fit_and_transform```

In [25]:
X = vectorizer.fit_transform(df['plot'])
y = df['wybrany_gatunek']

5. Dokonać podziału na zbiór uczący i testowy

In [22]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

6. Utworzyć model regresji logistycznej i nauczyć go rozpoznawać wybrany gatunek filmu.

In [27]:
%%capture
from sklearn.linear_model import LogisticRegression
regr = LogisticRegression()
regr.fit(X_train,y_train)

7. Przetestować go na zbiorze uczącym i obliczyć "*confusion matrix*"

In [28]:
from sklearn.metrics import confusion_matrix
y_pred = regr.predict(X_test)



8. Używając metody ```.predict_proba()``` obliczyć jakie prawdopodobieństwo klasyfikator obliczył dla wyników fałszywie dodatnich i fałszywie ujemnych. Wynik zwizualizować.