## Imports

In [1]:
%matplotlib inline
from bs4 import BeautifulSoup
import os
from pathlib import Path
from lxml import etree
import pandas as pd
import sys
import importlib

## Constants

In [2]:
CWD = Path(os.getcwd())
ROOT = CWD/'..'
DATA = ROOT/'data'
SRC = ROOT/'src'
SAMPLE_DATA = DATA/'dev'
BLURB_SAMPLE = SAMPLE_DATA/'blurbs_train.txt'

## Import Own Code

In [3]:
sys.path.append(str(SRC.as_posix()))

In [4]:
import dataparse
importlib.reload(dataparse)

<module 'dataparse' from '/Users/d440323/Personal/germeval2019/notebooks/../src/dataparse.py'>

## Importing Data

In [5]:
with open(BLURB_SAMPLE) as blurb:
    blurbs = blurb.readlines()

## Preprocessing Data

In [6]:
joined_blurbs = ''.join(blurbs)

In [7]:
joined_bs = BeautifulSoup(joined_blurbs)

In [8]:
books = joined_bs.findChild().findChild()

In [9]:
df = dataparse.books_to_df(books)

In [10]:
df.head()

Unnamed: 0,authors,book_date,categories,copyright,description,isbn,lang,published_date,title,url
0,Noah Gordon,2019-01-04,"[Literatur & Unterhaltung, Romane & Erzählungen]",(c) Verlagsgruppe Random House GmbH,Ein Blick hinter die Kulissen eines Krankenhau...,9783641136291,de,2013-12-02,Die Klinik,https://www.randomhouse.de/ebook/Die-Klinik/No...
1,Raymond Feist,2019-01-04,"[Literatur & Unterhaltung, Fantasy, Heroische ...",(c) Verlagsgruppe Random House GmbH,Die Bedrohungen für Midkemia und Kelewan wolle...,9783641185787,de,2016-06-20,Die Erben von Midkemia 4,https://www.randomhouse.de/ebook/Die-Erben-von...
2,Susanne Weingarten,2019-01-04,"[Ratgeber, Lebenshilfe & Psychologie, Besser l...",(c) Verlagsgruppe Random House GmbH,In der Dreizimmerwohnung stapeln sich Flohmark...,9783328103646,de,2019-01-14,Völlig losgelöst,https://www.randomhouse.de/Taschenbuch/Voellig...
3,J. Kenner,2019-01-04,"[Literatur & Unterhaltung, Erotik]",(c) Verlagsgruppe Random House GmbH,An der Seite von Damien fühlt sich Nikki zum e...,9783453357792,de,2014-04-14,Dich erfüllen,https://www.randomhouse.de/Taschenbuch/Dich-er...
4,Karl May,2019-01-04,"[Literatur & Unterhaltung, Romane & Erzählungen]",(c) Verlagsgruppe Random House GmbH,"Wer Kara Ben Nemsi, Hadschi Halef Omar und Sir...",9783844504958,de,2007-08-13,Der Orientzyklus,https://www.randomhouse.de/Hoerbuch-Download/D...


### ISBN Analysis

#### Length

In [11]:
df.isbn.map(len).nunique(), df.isbn.map(len).unique()

(1, array([13]))

#### Example

In [12]:
isbn = str(9783641136291)
isbn

'9783641136291'

#### Using `isbnlib` to check for additional info

In [13]:
import isbnlib

##### Validation

In [22]:
df['valid_isbn'] = df.isbn.apply(lambda isbn: isbnlib.is_isbn13(str(isbn)))

In [24]:
df.valid_isbn.value_counts()

True     14504
False       44
Name: valid_isbn, dtype: int64

In [25]:
df[df.valid_isbn == False]

Unnamed: 0,authors,book_date,categories,copyright,description,isbn,lang,published_date,title,url,valid_isbn
113,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Aufgepasst im Labyrinth – gemeinsam mit dem kl...,4250938800562,de,2016-10-03,Der kleine Drache Kokosnuss - Magnet-Kugellaby...,https://www.randomhouse.de/Geschenkartikel/Der...,False
492,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Mit dem bunten Fahrradsattelüberzug bleibt der...,4250938800500,de,2016-04-25,Der kleine Drache Kokosnuss - Fahrradsattelübe...,https://www.randomhouse.de/Geschenkartikel/Der...,False
562,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Die klaren Glasmurmeln glänzen in 4 verschiede...,4250938800074,de,2014-09-22,Der kleine Drache Kokosnuss - Murmel-Spiel,https://www.randomhouse.de/Geschenkartikel/Der...,False
565,"Alberto Villoldo, Colette Baron-Reid, Marcela ...",2019-01-04,"[Ganzheitliches Bewusstsein, Naturheilweisen, ...",(c) Verlagsgruppe Random House GmbH,Dieses außergewöhnliche Orakel-Set bringt die ...,4250939400037,de,2018-11-26,Das schamanische Seelen-Orakel,https://www.randomhouse.de/Kombination/Das-sch...,False
756,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,"Anhänger aus weichem Plüsch, 10cm.",4012390379198,de,2014-12-22,Der kleine Drache Kokosnuss - Schlüsselanhänger,https://www.randomhouse.de/Geschenkartikel/Der...,False
852,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Kokosnuss sorgt für viel Abwechslung an kleine...,4250938800357,de,2015-09-28,Der kleine Drache Kokosnuss - Stempel Set,https://www.randomhouse.de/Geschenkartikel/Der...,False
995,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Die Fahrradhupe in Kokosnuss-Optik lässt sich ...,4250938800456,de,2016-04-25,Der kleine Drache Kokosnuss - Fahrradhupe,https://www.randomhouse.de/Geschenkartikel/Der...,False
1033,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Das wertige Schlüsselband verfügt über einen S...,4250938800395,de,2016-03-21,Der kleine Drache Kokosnuss - Schlüsselband,https://www.randomhouse.de/Geschenkartikel/Der...,False
1571,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,Die schöne Brotdose eignet sich bestens für de...,4051112135179,de,2014-12-22,Der kleine Drache Kokosnuss - Brotdose,https://www.randomhouse.de/Geschenkartikel/Der...,False
2271,,2019-01-04,[Kinderbuch & Jugendbuch],(c) Verlagsgruppe Random House GmbH,"Der neue Reflektor-Anhänger von Kokosnuss, Mat...",4250938800524,de,2016-03-21,Der kleine Drache Kokosnuss - Reflektor,https://www.randomhouse.de/Geschenkartikel/Der...,False


##### Additional Meta Info

Requires an API Key which I am too lazy to get...

isbnlib.meta(isbn)

#df['isbnlib_publisher'] = 
def get_additional_publisher(isbn):
    try:
        publisher = isbnlib.meta(isbn)['Publisher']
    except:
        publisher = ''
    return publisher


df.isbn.apply(lambda isbn: get_additional_publisher(str(isbn)))

##### Mask and Split Code

In [15]:
isbnlib.mask(isbn)

'978-3-641-13629-1'

In [29]:
def isbn_decode(isbn):
    """
    Uses isbnlib to mask the isbn value and then split it's chunks into a dict. If this fails an empty dict will 
    be returned. The interpretation of the chunks is assumed to be consistent with the description found here:
    https://www.isbn-international.org/content/what-isbn
    """
    try:
        delimited_isbn = isbnlib.mask(isbn)
        isbn_parts = delimited_isbn.split('-')
        isbn_dict = {}
        isbn_dict['prefix'] = isbn_parts[0]
        isbn_dict['geography'] = isbn_parts[1]
        isbn_dict['publisher'] = isbn_parts[2]
        isbn_dict['edition_format'] = isbn_parts[3]
        isbn_dict['check_digit'] = isbn_parts[4]
    except:
        isbn_dict = {}
    return isbn_dict

In [30]:
isbn_decode(isbn)

{'prefix': '978',
 'geography': '3',
 'publisher': '641',
 'edition_format': '13629',
 'check_digit': '1'}

In [32]:
df.shape

(14548, 11)

In [34]:
decoded_isbns = df.isbn.apply(lambda isbn: isbn_decode(str(isbn))).tolist()

In [36]:
decoded_isbns_df = pd.DataFrame(decoded_isbns)

In [45]:
decoded_isbns_df.describe()

Unnamed: 0,check_digit,edition_format,geography,prefix,publisher
count,14504,14504,14504,14504,14504
unique,10,13412,2,1,36
top,0,74,3,978,641
freq,1497,4,14503,14504,4380


In [46]:
df = df.merge(decoded_isbns_df,how='left', left_index=True, right_index=True, validate='1:1', suffixes=('','_isbn'))

### URL Analysis

In [48]:
df.url.nunique()

14548

In [51]:
df.head().url.values

array(['https://www.randomhouse.de/ebook/Die-Klinik/Noah-Gordon/Heyne/e460034.rhd%0A',
       'https://www.randomhouse.de/ebook/Die-Erben-von-Midkemia-4/Raymond-Feist/Blanvalet-Taschenbuch/e496571.rhd%0A',
       'https://www.randomhouse.de/Taschenbuch/Voellig-losgeloest/Susanne-Weingarten/Penguin/e542881.rhd%0A',
       'https://www.randomhouse.de/Taschenbuch/Dich-erfuellen/J.-Kenner/Diana/e446387.rhd%0A',
       'https://www.randomhouse.de/Hoerbuch-Download/Der-Orientzyklus/Karl-May/der-Hoerverlag/e400467.rhd%0A'],
      dtype=object)

In [52]:
from urllib.parse import urlparse

In [53]:
o = urlparse('https://www.randomhouse.de/ebook/Die-Klinik/Noah-Gordon/Heyne/e460034.rhd%0A')

In [56]:
o.path

'/ebook/Die-Klinik/Noah-Gordon/Heyne/e460034.rhd%0A'

In [57]:
df['url_path'] = df.url.apply(lambda url: urlparse(url).path)

In [59]:
df['url_path_length'] = df.url_path.apply(lambda path: len(path.split('/')))

In [66]:
df[df.url_path_length == 5].url_path.values

array(['/Geschenkartikel/Der-kleine-Drache-Kokosnuss-Magnet-Kugellabyrinth/cbj-Kinderbuecher/e508886.rhd%0A',
       '/Hoerbuch-Download/Hexe-Lilli-Das-verrueckte-Roboterhaus-und-Das-Geheimnis-der-verschwundenen-Bienen/der-Hoerverlag/e499124.rhd',
       '/Buch/Bertelsmann-im-Dritten-Reich/C.-Bertelsmann/e122519.rhd%0A',
       '/Kombination/Original-Peter-Hess(R)-Therapieklangschale/Koesel/e245784.rhd%0A',
       '/Buch/Erste-Experimente-fuer-kleine-Forscher/Bassermann/e495865.rhd%0A',
       '/ebook/Schulen-in-evangelischer-Traegerschaft/Guetersloher-Verlagshaus/e338527.rhd%0A',
       '/Geschenkartikel/Der-kleine-Drache-Kokosnuss-Fahrradsattelueberzug/cbj-Kinderbuecher/e499516.rhd%0A',
       '/Hoerbuch-Download/Ali-Baba-und-die-40-Raeuber/cbj-audio/e233251.rhd%0A',
       '/Geschenkartikel/Der-kleine-Drache-Kokosnuss-Murmel-Spiel/cbj-Kinderbuecher/e468291.rhd%0A',
       '/Buch/Hanne-Darboven/Prestel/e492357.rhd%0A',
       '/Hoerbuch/Christopher-Robin/der-Hoerverlag/e547163.rhd%0A

For url paths of length 5 it appears the format is:

> `/product_type/title/publisher/some_code`

In [67]:
df[df.url_path_length == 6].head().url_path.values

array(['/ebook/Die-Klinik/Noah-Gordon/Heyne/e460034.rhd%0A',
       '/ebook/Die-Erben-von-Midkemia-4/Raymond-Feist/Blanvalet-Taschenbuch/e496571.rhd%0A',
       '/Taschenbuch/Voellig-losgeloest/Susanne-Weingarten/Penguin/e542881.rhd%0A',
       '/Taschenbuch/Dich-erfuellen/J.-Kenner/Diana/e446387.rhd%0A',
       '/Hoerbuch-Download/Der-Orientzyklus/Karl-May/der-Hoerverlag/e400467.rhd%0A'],
      dtype=object)

For url paths of length 6 it appears the format is:

> `/product_type/title/author/publisher/some_code`

In [72]:
'/ebook/Die-Klinik/Noah-Gordon/Heyne/e460034.rhd%0A'.split('/')

['', 'ebook', 'Die-Klinik', 'Noah-Gordon', 'Heyne', 'e460034.rhd%0A']

In [74]:
def process_four_part_path(parts):
    processed_parts = {}
    try:
        processed_parts['product_type'] = parts[1]
        processed_parts['title'] = parts[2]
        processed_parts['publisher'] = parts[-2]
    except:
        processed_parts = {}
    return processed_parts

def process_five_part_path(parts):
    processed_parts = process_four_part_path(parts)
    try:
        if len(processed_parts.keys()) > 0:
            processed_parts['author'] = parts[3]
    except:
        processed_parts = {}
    return processed_parts

def split_url_path(path):
    path_parts = path.split('/')
    parts_dict = {}
    if len(path_parts) == 6:
        parts_dict = process_five_part_path(path_parts)
    elif len(path_parts) == 5:
        parts_dict = process_four_part_path(path_parts)
    return parts_dict


In [76]:
url_parts_list = df.url_path.apply(lambda path: split_url_path(path)).tolist()

In [85]:
len(url_parts_list)

14548

In [86]:
url_parts_df = pd.DataFrame(url_parts_list)
url_parts_df.shape

(14548, 4)

In [87]:
url_parts_df.describe()

Unnamed: 0,author,product_type,publisher,title
count,14359,14548,14548,14548
unique,6740,19,61,14299
top,Nora-Roberts,Taschenbuch,Heyne,"Gestatten,-mein-Name-ist-Cox"
freq,102,4681,2696,6


In [89]:
url_parts_df.product_type.value_counts()

Taschenbuch          4681
ebook                4432
Buch                 2196
Paperback            1712
Hoerbuch              712
Hoerbuch-Download     653
Hoerbuch-MP3           71
Geschenkartikel        46
Kombination            12
Sonderausgabe          10
Kalender                9
App                     3
buch                    3
paperback               2
DVD                     2
Loseblatt               1
Tontraeger              1
Ringbuch                1
taschenbuch             1
Name: product_type, dtype: int64

In [88]:
df = df.merge(url_parts_df, how='left', left_index=True, right_index=True, validate='1:1', suffixes=('','_url'))

In [92]:
hoerbuch = 'hoerbuch'
ebook = 'ebook'
taschenbuch = 'taschenbuch'
buch = 'buch'
geschenk = 'geschenk'
kombination = 'kombination'
sonstige = 'sonstige'

normalize_product_type = {
    'ebook':ebook, 
    'Taschenbuch':taschenbuch, 
    'Hoerbuch-Download':hoerbuch, 
    'Buch':buch, 
    'Paperback':taschenbuch,
    'Hoerbuch-MP3':hoerbuch, 
    'Hoerbuch': hoerbuch, 
    'Geschenkartikel': sonstige, 
    'Kombination': sonstige,
    'Kalender': sonstige, 
    'Sonderausgabe': sonstige, 
    'Loseblatt': sonstige, 
    'buch': buch, 
    'App': sonstige,
    'taschenbuch': taschenbuch, 
    'DVD': sonstige, 
    'paperback': taschenbuch, 
    'Tontraeger': sonstige, 
    'Ringbuch': sonstige
}

def normalize_product(prod_type):
    return normalize_product_type[prod_type]

In [94]:
df['normalized_product_type'] = df.product_type.apply(lambda product_type: normalize_product(product_type))

In [95]:
df.head()

Unnamed: 0,authors,book_date,categories,copyright,description,isbn,lang,published_date,title,url,...,geography,prefix,publisher,url_path,url_path_length,author,product_type,publisher_url,title_url,normalized_product_type
0,Noah Gordon,2019-01-04,"[Literatur & Unterhaltung, Romane & Erzählungen]",(c) Verlagsgruppe Random House GmbH,Ein Blick hinter die Kulissen eines Krankenhau...,9783641136291,de,2013-12-02,Die Klinik,https://www.randomhouse.de/ebook/Die-Klinik/No...,...,3,978,641,/ebook/Die-Klinik/Noah-Gordon/Heyne/e460034.rh...,6,Noah-Gordon,ebook,Heyne,Die-Klinik,ebook
1,Raymond Feist,2019-01-04,"[Literatur & Unterhaltung, Fantasy, Heroische ...",(c) Verlagsgruppe Random House GmbH,Die Bedrohungen für Midkemia und Kelewan wolle...,9783641185787,de,2016-06-20,Die Erben von Midkemia 4,https://www.randomhouse.de/ebook/Die-Erben-von...,...,3,978,641,/ebook/Die-Erben-von-Midkemia-4/Raymond-Feist/...,6,Raymond-Feist,ebook,Blanvalet-Taschenbuch,Die-Erben-von-Midkemia-4,ebook
2,Susanne Weingarten,2019-01-04,"[Ratgeber, Lebenshilfe & Psychologie, Besser l...",(c) Verlagsgruppe Random House GmbH,In der Dreizimmerwohnung stapeln sich Flohmark...,9783328103646,de,2019-01-14,Völlig losgelöst,https://www.randomhouse.de/Taschenbuch/Voellig...,...,3,978,328,/Taschenbuch/Voellig-losgeloest/Susanne-Weinga...,6,Susanne-Weingarten,Taschenbuch,Penguin,Voellig-losgeloest,taschenbuch
3,J. Kenner,2019-01-04,"[Literatur & Unterhaltung, Erotik]",(c) Verlagsgruppe Random House GmbH,An der Seite von Damien fühlt sich Nikki zum e...,9783453357792,de,2014-04-14,Dich erfüllen,https://www.randomhouse.de/Taschenbuch/Dich-er...,...,3,978,453,/Taschenbuch/Dich-erfuellen/J.-Kenner/Diana/e4...,6,J.-Kenner,Taschenbuch,Diana,Dich-erfuellen,taschenbuch
4,Karl May,2019-01-04,"[Literatur & Unterhaltung, Romane & Erzählungen]",(c) Verlagsgruppe Random House GmbH,"Wer Kara Ben Nemsi, Hadschi Halef Omar und Sir...",9783844504958,de,2007-08-13,Der Orientzyklus,https://www.randomhouse.de/Hoerbuch-Download/D...,...,3,978,8445,/Hoerbuch-Download/Der-Orientzyklus/Karl-May/d...,6,Karl-May,Hoerbuch-Download,der-Hoerverlag,Der-Orientzyklus,hoerbuch
