# 1. Příprava dat
---
V tutoriálu použijeme data z Microsoft News Dataset (MIND). 
MIND data patří do veřejné domény a jsou tedy volně použitelná pro výzkumné a výukové účely.
Podrobné licenční podmínky pro použití dat jsou popsány na [projektové stránce datové sady](https://msnews.github.io/). 
Podrobný popis dat je k dispozici v [online dokumentaci datové sady](https://github.com/msnews/msnews.github.io/blob/master/assets/doc/introduction.md)

V rámci přípravy dat v tomto notebooku bude provedeno:
 - vytvoření datových adresářů ve Vašem Google Drive prostoru
 - stažení datové sady do těchto datových adresářů
 - ověření, že stažení dat proběhlo bez závad
 
---

In [None]:
# import necessary functionality
import numpy as np
import pandas as pd

### Vytvoření datových adresářů

In [None]:
import os

try:
    from google.colab import drive

    drive.mount('/content/gdrive')
    BASE_DIR = "/content/gdrive/MyDrive/itacademy2022"
    IN_COLAB = True
except:
    IN_COLAB = False
    BASE_DIR = ".."

MIND_DATA_SOURCE_DIR = "tmp/mind"
ORIGINAL_TRAIN_INPUT_DIR = os.path.join(BASE_DIR, MIND_DATA_SOURCE_DIR, "train/")
ORIGINAL_TEST_INPUT_DIR = os.path.join(BASE_DIR, MIND_DATA_SOURCE_DIR, "test/")
OUTPUT_DIR = os.path.join(BASE_DIR, "output")

In [None]:
# create data directories
! mkdir -p $BASE_DIR
! mkdir -p $MIND_DATA_SOURCE_DIR

! mkdir -p $ORIGINAL_TRAIN_INPUT_DIR
! mkdir -p $ORIGINAL_TEST_INPUT_DIR

! mkdir -p $OUTPUT_DIR

### Stažení datové sady

In [None]:
! apt update && apt install unzip

! wget https://mind201910small.blob.core.windows.net/release/MINDsmall_train.zip -O $MIND_DATA_SOURCE_DIR/MINDsmall_train.zip
! wget https://mind201910small.blob.core.windows.net/release/MINDsmall_dev.zip -O $MIND_DATA_SOURCE_DIR/MINDsmall_dev.zip

! unzip -o $MIND_DATA_SOURCE_DIR/MINDsmall_train.zip -d $ORIGINAL_TRAIN_INPUT_DIR
! unzip -o $MIND_DATA_SOURCE_DIR/MINDsmall_dev.zip -d $ORIGINAL_TEST_INPUT_DIR

! rm $MIND_DATA_SOURCE_DIR/MINDsmall_train.zip
! rm $MIND_DATA_SOURCE_DIR/MINDsmall_dev.zip

### Ověření

In [None]:
# read the main train data set
behaviors_train = pd.read_csv(
    os.path.join(ORIGINAL_TRAIN_INPUT_DIR, "behaviors.tsv"),
    sep="\t",
    names=["slateid", "userid", "time", "history", "impressions"]
)
behaviors_train.info()
behaviors_train

In [None]:
# read the main test data set
behaviors_test = pd.read_csv(
    os.path.join(ORIGINAL_TEST_INPUT_DIR, "behaviors.tsv"),
    sep="\t",
    names=["slateid", "userid", "time", "history", "impressions"]
)
behaviors_test.info()
behaviors_test

In [None]:
# read the news train data set
news_train = pd.read_csv(
    os.path.join(ORIGINAL_TRAIN_INPUT_DIR, "news.tsv"),
    sep="\t",
    names=["newsid", "category", "subcategory", "title", "abstract", "url", "title_entities", "abstract_entities"]
)
news_train.info()
news_train

In [None]:
# read the news test data set
news_test = pd.read_csv(
    os.path.join(ORIGINAL_TEST_INPUT_DIR, "news.tsv"),
    sep="\t",
    names=["newsid", "category", "subcategory", "title", "abstract", "url", "title_entities", "abstract_entities"]
)
news_test.info()
news_test

---
## HOTOVO    
Proběhlo vše bez problémů a data jsou na svém místě?   
Co byste měli vidět: 
 - ve výstupních polích čtyř buňek výše se zobrazil obsah čtyř tabulek (které tvoří základ datové sady tutoriálu).

Pokud tomu tak není, je nutné před pokračováním tutoriálu problém najít a opravit...

Pro pokračování tutorialu se vraťte na [úvodní notebook tutoriálu](https://colab.research.google.com/github/seznam/IT-akademie-bigdata/blob/master/notebooks/000_uvod.ipynb) a pokračujte podle instrukcí bodu 2.

---
---