# Transform Data for AWS Comprehend

AWS Comprehend needs a specific data format as input. For the original 10kGNAD we need to change the delimiters in the CSV.

## Prerequisites

In [1]:
import numpy as np
import pandas as pd
from pathlib import Path
import os

## Download Data

Using the [10k German News Articles Dataset](https://tblock.github.io/10kGNAD/)

In [2]:
%env DIR=data

!mkdir -p $DIR
!wget -nc https://github.com/tblock/10kGNAD/blob/master/train.csv?raw=true -nv -O $DIR/train.csv
!wget -nc https://github.com/tblock/10kGNAD/blob/master/test.csv?raw=true -nv -O $DIR/test.csv
!ls -lAh $DIR/*.csv | cut -d " " -f 5-

env: DIR=data
2,7M Dez  5 00:20 data/test_comprehend.csv
2,7M Dez  4 14:20 data/test.csv
 24M Dez  5 00:20 data/train_comprehend.csv
 24M Dez  4 14:20 data/train.csv


## Import Data

In [3]:
data_dir = Path("data/")

train_file = data_dir / 'train.csv'
test_file = data_dir / 'test.csv'

def read_csv_10kGNAD(filepath: Path, columns=["labels", "text"]) -> pd.DataFrame:
    """Load 10kGNAD csv file, handling its specific file format."""
    f = pd.read_csv(filepath, sep=";", quotechar="'", names=columns)
    return f

In [4]:
train_df = read_csv_10kGNAD(data_dir / 'train.csv')
print(train_df.shape[0], 'articles')
display(train_df.head())

9245 articles


Unnamed: 0,labels,text
0,Sport,21-Jähriger fällt wohl bis Saisonende aus. Wie...
1,Kultur,"Erfundene Bilder zu Filmen, die als verloren g..."
2,Web,Der frischgekürte CEO Sundar Pichai setzt auf ...
3,Wirtschaft,"Putin: ""Einigung, dass wir Menge auf Niveau vo..."
4,Inland,Estland sieht den künftigen österreichischen P...


In [5]:
test_df = read_csv_10kGNAD(data_dir / 'test.csv')
print(test_df.shape[0], 'articles')
display(test_df.head())

1028 articles


Unnamed: 0,labels,text
0,Wirtschaft,"Die Gewerkschaft GPA-djp lanciert den ""All-in-..."
1,Sport,Franzosen verteidigen 2:1-Führung – Kritische ...
2,Web,Neues Video von Designern macht im Netz die Ru...
3,Sport,23-jähriger Brasilianer muss vier Spiele pausi...
4,International,Aufständische verwendeten Chemikalie bei Gefec...


# Save Train and Test Data for Comprehend

In [6]:
train_df.to_csv(data_dir / "train_comprehend.csv", header=False, index=False)
test_df.to_csv(data_dir / "test_comprehend.csv", header=False, index=False)