![](imgs/kodolamaczlogo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## Twitter Airline Sentiment Analysis

Zbiór danych oryginalnie wykorzystany został w [konkursie Kaggle](https://www.kaggle.com/crowdflower/twitter-airline-sentiment) o tym samym tytule. Zbiór zawiera tweety ludzi na temat linii litniczych. Zadanie polega na stworzeniu modelu ML używając [Spark MLlib](http://spark.apache.org/docs/latest/ml-guide.html) do określenia sentymentu określonego tweeta. 

## Pobieranie danych

Dane można pobrać z Kaggle po zalogowaniu, niemniej, są też równierz dostępne w wielu innych miejscach. Poniższy kod pobiera dane z GitHub.

In [None]:
import os
import urllib.request

data_path = 'data'
if not os.path.exists(data_path):
    os.mkdir(data_path)
    
file_name = 'twitter_airline.csv'
file_path = os.path.join(data_path, file_name)
link = 'https://github.com/sunilpankaj/Twitter-US-Airline-Sentiment/raw/master/Tweets.csv'
if not os.path.exists(file_path):
    print('Pobieranie pliku {} do {}'.format(link, file_path))
    urllib.request.urlretrieve(link, file_path)
    print('Pobieranie {} ukończone'.format(file_path))
else:
    print('Plik {} jest już pobrany'.format(file_path))

## Wczytywanie danych

Dane są w formacie CSV. Proste wczytanie danych odbywa się poniżej.

In [None]:
import pyspark
import pyspark.sql.functions as func

spark = pyspark.sql.SparkSession.builder\
    .appName('tf-idf_sql')\
    .getOrCreate()

Użyto funkcji `distinct` bo są w danych drobne duplikaty. 

In [None]:
twitter = spark.read.csv(file_path, header=True).distinct()

twitter.show()
twitter.printSchema()
twitter_n = twitter.count()
twitter_n

Dane zostały podzielone na zbiór testowy i treningowy w proporcjach 80/20. **Proszę nie zmieniać podziału bo końcowy test będzie wykonywany na danych testowych, które powinny być takie same dla wszystkich.**

In [None]:
twitter_train = twitter.limit(int(twitter_n * 0.8))
twitter_train_n = twitter_train.count()
twitter_train_n

In [None]:
twitter_test = twitter.subtract(twitter_train)
twitter_test_n = twitter_test.count()
twitter_test_n

In [None]:
twitter_test_n + twitter_train_n  == twitter_n

## Zadanie

1. Wytrenować najlepszy model pod względem dokładności (accuracy).
1. Można używać dowolnych kroków do stworzenia modelu, ale w zakresie działań z użyciem Spark (np. nie można używać scikit-learn).
1. Można użyć dowolnego modelu, ale dostępnego w Spark MLlib.
1. Sugeruję używanie nowego interfejsu `pyspark.ml`.
1. Można używać innych narzędzi, ale tylko do ekploracji danych, np. robić wykresy w Pandas.