# Zadanie Konkursowe: Rozpoznawanie tweet'ów

Zadaniem jest analiza wiadomości zamieszczanych w serwisie Twitter i okreslanie czy opisują one katastrofę/wypadek. Biorąc pod uwagę wszechobecność telefonów komórkowych, umozliwiającą publikowanie wiadomości na mediach społecznościowych z dowolnego miejsca i praktycznie natychmiastowo, wyszukiwanie tweet'ów opisujących wypadki może pokóc w zbieraniu informacji i szybkiego reagowania na sytuacje kryzysowe.

## Dane
Plik `train.csv` zawiera zbiór wiadomości z mediów społecznościowych, wraz ze ewentualnymi danymi takimi jak lokacja czy uzyte słowa kluczowe (nie dla każdej z wiadomości), a także kolumnę "target". Wartość 0 w tej kolumnie oznacza że wiadomość nie opisuje katastrofy, 1 oznacza katastrofę/wypadek.

Plik `test.csv` zawiera podobny zestaw wiadomości bez kolumny target i służy do sprawdzenia działania algorytmu.

In [2]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
from sklearn import feature_extraction, linear_model, model_selection, preprocessing

#odczytanie plików csv z setami
train_df = pd.read_csv("train.csv")
test_df = pd.read_csv("test.csv")
sample_submission = pd.read_csv("sample_submission.csv")

## Oczyszczanie wiadomości
Wiadomości odczytane z kolumny "text" pliku `train.csv` muszą zostać odpowiednio przetworzone przed wykorzystaniem ich do trenowania modelu. 

Funkcja `process_text(text)` przyjmuje ciąg znaków.
```
noPunc = [char for char in text if char not in string.punctuation]
noPunc = ''.join(noPunc)
```
Powyższy kod usuwa znaki interpunkcyjne z wiadomości po czym ponownie skleja wiadomość.
```
STOPWORDS = stopwords.words('english')
' '.join([word for word in noPunc.split() if word.lower() not in STOPWORDS])
```
Powyższy kod usuwa z tekstu "śmieciowe" (w tym kontekście) słowa, takie jak spójniki i zaimki, które na pewno nie decydują o tym czy wiadomość opisuje wypadek, a mogłyby być brane pod uwagę przez model.

Korzystając z funkcji `.apply(process_text)` poddajemy każdą wiadomość działaniu funkcji `process_text(text)`.

In [17]:
import string
from nltk.corpus import stopwords

from collections import Counter



def process_text(text):
    #przyjmuje ciąg znaków, usuwa znaki interpunkcyjne, spójniki i inne "śmieciowe" słowa
    STOPWORDS = stopwords.words('english')
    
    #wydziela wszystkie znaki które nie są interpunkcją
    noPunc = [char for char in text if char not in string.punctuation]
    #łączy z powrotem w wiadomość
    noPunc = ''.join(noPunc)
    #usuwa angielskie spójniki itd.
    return ' '.join([word for word in noPunc.split() if word.lower() not in STOPWORDS])

train_df.text=train_df.text.apply(process_text)
test_df.text=test_df.text.apply(process_text)

#train_df.describe()

print(pd.DataFrame(train_df))

         id keyword location  \
0         1     NaN      NaN   
1         4     NaN      NaN   
2         5     NaN      NaN   
3         6     NaN      NaN   
4         7     NaN      NaN   
...     ...     ...      ...   
7608  10869     NaN      NaN   
7609  10870     NaN      NaN   
7610  10871     NaN      NaN   
7611  10872     NaN      NaN   
7612  10873     NaN      NaN   

                                                   text  target  
0          Deeds Reason earthquake May ALLAH Forgive us       1  
1                 Forest fire near La Ronge Sask Canada       1  
2     residents asked shelter place notified officer...       1  
3     13000 people receive wildfires evacuation orde...       1  
4     got sent photo Ruby Alaska smoke wildfires pou...       1  
...                                                 ...     ...  
7608  Two giant cranes holding bridge collapse nearb...       1  
7609  ariaahrary TheTawniest control wild fires Cali...       1  
7610  M194 0104 UTC5k

## Model
Do zadania wybrano grupę modeli określanych jako [Naiwne Klasyfikatory Bayesowskie](https://scikit-learn.org/stable/modules/naive_bayes.html). Ich nazwa pochodzi z "naiwnego" założenie leżącego u ich podstaw: wszystkie zmienne na podstawie których dokonywane jest przewidywanie są niezależne. Choć jest to ogromne uproszczenie, to często klasyfikatory te działają dość dobrze, a w przypadku tego zadania same poszczególne słowa, bez uzwględniania kontekstu pomiędzy nimi, mogą okazać się wystarczająco dobrym wskaźnikiem. Testując kilka typów tych klasyfikatorów, najlepsze rezultaty osiągnięto dla wariantu klasyfikatora Bernoulli Naive Bayes.

`count_vectorizer = feature_extraction.text.CountVectorizer()` jest narzędziem które na podstawie całego zbioru wiadomości tworzy funkcję, gdzie każde występujące słowa ma przypisaną pozycję w wektorze. Wynikiem tej funkcji dla każdej wiadomości jest wektor gdzie na pozycjach słów które występują w tej wiadomości pojawiają się jedynki, a na pozostałych zera.

```
train_vectors = count_vectorizer.fit_transform(train_df["text"])
test_vectors = count_vectorizer.transform(test_df["text"])
```
Powyższy kod tworzy dokonuje wektoryzacji dla danych treningowych i testowych. Ponieważ operacji "fit" (definiującej funkcję) dokonano tylko dla danych treningowych, dla danych testowych korzystamy z tej samej funkcji (co jest konieczne aby model działał w ten sam sposób dla obu zestawów).

In [12]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB, BernoulliNB, GaussianNB, ComplementNB

count_vectorizer = feature_extraction.text.CountVectorizer()
nb = BernoulliNB()

train_vectors = count_vectorizer.fit_transform(train_df["text"])
test_vectors = count_vectorizer.transform(test_df["text"])

nb.fit(train_vectors, train_df["target"])

scores = model_selection.cross_val_score(nb, train_vectors, train_df["target"], cv=3, scoring="f1")
print(scores)

[0.64850427 0.63636364 0.73955296]


## Wyniki
Model osiągnął skuteczność 73,9% dla danych treningowych, natomiast działając na danych testowych, wygenerowane wyniki sprawdziły się dla 79,2% wiadomości.
![](wyniki.png)

In [None]:
sample_submission["target"] = nb.predict(test_vectors)

sample_submission.head()

sample_submission.to_csv("submission.csv", index=False)