# Book Tag Cleaning 

The focus of this notebook is to take a look at all the tags that we have present in our data set. From their we clean and normalize the tags, and start to determine what tags are in and out of scope. By the end we try to generalize some larger "parent" tags and also try to filter and join the tags with our larger "Books" dataset.

In [1]:
# Potentially missing imports

# !pip install googletrans
# !pip install distance

In [2]:
%matplotlib inline

#Utility Imports
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


#Special Imports
from nltk.corpus import words
from googletrans import Translator
import string


#ML Imports
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.cluster import KMeans
from sklearn.metrics import adjusted_rand_score
import sklearn.cluster
import distance

In [4]:


r = pd.read_csv( '../data/raw_data/ratings.csv' )
tr = pd.read_csv( '../data/raw_data/to_read.csv' )
b = pd.read_csv( '../data/raw_data/books.csv' )

t = pd.read_csv( '../data/raw_data/tags.csv' )
bt = pd.read_csv( '../data/raw_data/book_tags.csv')


In [5]:
t.shape

(34252, 2)

In [6]:
t_copy = t.copy()
t_copy.head()

Unnamed: 0,tag_id,tag_name
0,0,-
1,1,--1-
2,2,--10-
3,3,--12-
4,4,--122-


### Lowercase Tags

In [7]:
#Apply lower case normalization to all the tags
t_copy['tag_name'] = t_copy['tag_name'].apply(lambda x: x.lower())

In [8]:
# Initial cleaning 
for index, row in t_copy.iterrows():
    print(str(row['tag_id']) + " : " + row['tag_name'])    

0 : -
1 : --1-
2 : --10-
3 : --12-
4 : --122-
5 : --166-
6 : --17-
7 : --19-
8 : --2-
9 : --258-
10 : --3-
11 : --33-
12 : --4-
13 : --5-
14 : --51-
15 : --6-
16 : --62-
17 : --8-
18 : --99-
19 : --available-at-raspberrys--
20 : -2001--
21 : -calif--
22 : -d-c--
23 : -dean
24 : -england-
25 : -fiction
26 : -fictional
27 : -fictitious
28 : -football-
29 : -george
30 : -gr-
31 : -history
32 : -imaginary
33 : -italy-
34 : -la--
35 : -los
36 : -mass--
37 : -murder-
38 : -n-y--
39 : -non-poetry-
40 : -performing
41 : -post
42 : -psychology-
43 : -read
44 : -single
45 : -specific
46 : -television
47 : 0
48 : 0-0-0-0cant-find
49 : 0-0-bingo
50 : 0-4-star-rating
51 : 0-a-find-2016-summer-00
52 : 0-all2
53 : 0-best-picture-younger
54 : 0-boxed
55 : 0-c
56 : 0-eric-s-books
57 : 0-house-lbkc
58 : 0-kindle
59 : 0-love-funny
60 : 0-made-me-cry-moved-me
61 : 0-nonfiction
62 : 0-owned
63 : 0-paperback
64 : 0-pgs-200-to-299
65 : 0-physical-own
66 : 0-plays
67 : 0-plc
68 : 0-tbr-axz-usa
69 : 00-explori

1230 : 8
1231 : 8-5
1232 : 8-in-series
1233 : 8-kindle
1234 : 800
1235 : 800-201100
1236 : 800-literature
1237 : 800-poetry
1238 : 80s
1239 : 813-5
1240 : 82-93-children-juvenile-literature
1241 : 822-british-literature-drama
1242 : 8th-floor-library
1243 : 8th-grade
1244 : 8th-grade-books
1245 : 8th-grade-semester-2
1246 : 8th-in-series
1247 : 9
1248 : 9-11
1249 : 9-11-series
1250 : 9-12
1251 : 9-12-and-teen
1252 : 9-learn-great-acting
1253 : 9-sort
1254 : 9-stephen-king-green-mile
1255 : 90-minutes-in-heaven
1256 : 900-history-03-1600-1850
1257 : 900s
1258 : 90s
1259 : 911
1260 : 973-3
1261 : 973-7
1262 : 998
1263 : 9m
1264 : 9th-century
1265 : 9th-grade
1266 : 9th-grade-advisory
1267 : 9th-grade-reading-list
1268 : _
1269 : _3-4-class-library
1270 : __art
1271 : _audiobooks
1272 : _comics
1273 : _d
1274 : _essuy
1275 : _findinlibrary
1276 : _kindle
1277 : _leisure-non-fiction
1278 : _library_donations_
1279 : _libraryfind
1280 : _miscor2do
1281 : _non-series-04-06
1282 : _own-hard
1

2490 : andré-bella
2491 : andy
2492 : andy-andrews
2493 : andy-brazil
2494 : andy-brazil-series
2495 : andy-warhol
2496 : andy-weir
2497 : anecdotes
2498 : anf
2499 : angel
2500 : angel-books
2501 : angel-demon
2502 : angel-island
2503 : angel-series
2504 : angel-trilogy
2505 : angela
2506 : angela-carter
2507 : angela-hunt
2508 : angela-marsons
2509 : angela-s-favorites
2510 : angeles
2511 : angelfire
2512 : angelfire-series
2513 : angelic
2514 : angelology
2515 : angelou
2516 : angels
2517 : angels-and-demons
2518 : angels-and-dempns
2519 : angels-demons
2520 : angels-nephilim
2521 : angels-of-the-dark
2522 : angels-of-the-dark-series
2523 : anger
2524 : anger-management
2525 : angie-books
2526 : angie-sage
2527 : anglais
2528 : angles
2529 : angleske
2530 : anglo-americana
2531 : anglo-saxon
2532 : anglo-saxon-england
2533 : anglo-saxons
2534 : anglophilia
2535 : anglophones-vs-francophones
2536 : angry-robot
2537 : angry-teenager
2538 : angst
2539 : angstrom
2540 : angstrom-
2541 :

3720 : b-do-not-own
3721 : b-library
3722 : b-n
3723 : b-n-classics
3724 : b-n-leatherbound-classics
3725 : b-n-tbr-pics-7-22-17
3726 : b-philosophy-psychology-religion
3727 : b-visible-project
3728 : b1
3729 : b_comics
3730 : baatan-death-march
3731 : babak-s-shelves
3732 : babar
3733 : babe-ruth
3734 : babes
3735 : babies
3736 : babies-and-kids
3737 : babies-and-parenting
3738 : babies-and-toddlers
3739 : baby
3740 : baby-and-parenting
3741 : baby-baby
3742 : baby-books
3743 : baby-boy
3744 : baby-c-bookshelf
3745 : baby-care
3746 : baby-children
3747 : baby-for-the-billionaire
3748 : baby-library
3749 : baby-love
3750 : baby-parenting
3751 : baby-prep
3752 : baby-reads
3753 : baby-related
3754 : baby-s-books
3755 : baby-sitters-club
3756 : baby-sleep
3757 : baby-storytime
3758 : baby-stuff
3759 : baby-toddler
3760 : baby-trade
3761 : baby-wise
3762 : babysitter-s-club
3763 : babysitters
3764 : babysitters-club
3765 : babystuff
3766 : babytime
3767 : bach
3768 : bachman
3769 : back-b

4980 : book-fair-2015
4981 : book-fair-2017
4982 : book-finished
4983 : book-gals
4984 : book-gang
4985 : book-group
4986 : book-group-books
4987 : book-group-reads
4988 : book-groups
4989 : book-hangover
4990 : book-i-have-in-library
4991 : book-i-own
4992 : book-in-verse
4993 : book-into-movie
4994 : book-inventory
4995 : book-jawn-podcast
4996 : book-list-challenge
4997 : book-lovers-calendar
4998 : book-lust
4999 : book-lust-to-go
5000 : book-movie
5001 : book-movie-guide
5002 : book-of-ember
5003 : book-of-mormon
5004 : book-of-the-art
5005 : book-of-the-month
5006 : book-of-the-month-club
5007 : book-of-the-new-sun
5008 : book-on-cd
5009 : book-on-tape
5010 : book-order
5011 : book-peeps
5012 : book-project
5013 : book-read-a-long-time-ago
5014 : book-recommendations-for-clients
5015 : book-report
5016 : book-reports
5017 : book-research-stuff
5018 : book-riot
5019 : book-riot-books
5020 : book-riot-quarterly-box
5021 : book-riot-rec
5022 : book-sale
5023 : book-sale-to-buy
5024 

6230 : caper
6231 : capes
6232 : capes-and-supers
6233 : capital
6234 : capital-punishment
6235 : capitalism
6236 : capote
6237 : capra
6238 : caps
6239 : captain
6240 : captain-america
6241 : captain-nemo
6242 : captain-underpants
6243 : captain-underpants-2
6244 : captian-underpants
6245 : captivating
6246 : captive
6247 : captive-in-own-body
6248 : captive-prince
6249 : captivity
6250 : captured-by-indians
6251 : car-accident
6252 : cara-lockwood
6253 : caragh-m-o-brien
6254 : caravaggio
6255 : carbón
6256 : carcharocles
6257 : card
6258 : card-captor-sakura
6259 : card-orson-scott
6260 : cardcaptor-sakura
6261 : cardello-ruth
6262 : career
6263 : career-books
6264 : career-business
6265 : career-development
6266 : career-leadership
6267 : career-women
6268 : careers
6269 : carefreeblackfolks
6270 : caregivers
6271 : carey
6272 : carey-and-caiden-own
6273 : carey-jacqueline
6274 : caribbean
6275 : caribbean-fiction
6276 : caribbean-lit
6277 : caribbean-literature
6278 : caribou
6279

7504 : cleopatra-selene
7505 : cleveland
7506 : cli-fi
7507 : cliche
7508 : client
7509 : client-centered-therapy
7510 : cliff-hanger
7511 : cliffhanger
7512 : cliffhanger-ending
7513 : cliffhangers
7514 : clifford
7515 : clifford-d-simak
7516 : clifford-the-big-red-dog
7517 : cliffy
7518 : clifton
7519 : clifton-chronicles
7520 : clifton-cronicles-book-3
7521 : clifton-family-chronicles
7522 : clifton-family-saga
7523 : climate
7524 : climate-change
7525 : climatology
7526 : climbing
7527 : climbing-books
7528 : climbing-mountaineering
7529 : clinical
7530 : clinical-medicine-personal-narrativ
7531 : clinical-psychology
7532 : clint-hill
7533 : clinton
7534 : clipper
7535 : clique
7536 : clique-books
7537 : clique-series
7538 : cliques
7539 : clive
7540 : clive-barker
7541 : clive-cussler
7542 : clive-cussler-books
7543 : clive-cussler-dirk-pitt
7544 : clive-cussler-isaac-bell
7545 : clive-cussler-issac-bell
7546 : clocks
7547 : clockwork-century
7548 : clones
7549 : cloning
7550 : cl

8751 : cyber-punk
8752 : cyber-terrorism-from-china
8753 : cybercrime
8754 : cyberhard
8755 : cyberpunk
8756 : cybersecurity
8757 : cyberspace
8758 : cycle
8759 : cycling
8760 : cyfeirio
8761 : cynthia-bond
8762 : cynthia-hand
8763 : cynthia-lord
8764 : cynthia-rylant
8765 : cynthia-voigt
8766 : cystic-fibrosis
8767 : cz-fantasy-to-read
8768 : czech
8769 : czech-author
8770 : czech-authors
8771 : czech-ebooks-to-read
8772 : czech-fiction
8773 : czech-lit
8774 : czech-literature
8775 : czech-republic
8776 : czechoslovakia
8777 : cécilia-ahern
8778 : còmic
8779 : còmics
8780 : cómic
8781 : cómic-americano
8782 : cómics
8783 : cómics-and-graphic-novels
8784 : cómics-graphic-novels
8785 : cómics-leídos
8786 : cómics-novela-gráfica-manga
8787 : cómics-novelas-gráficas
8788 : cómics-to-read
8789 : d
8790 : d-and-d
8791 : d-and-d-fiction
8792 : d-artagnan-romances
8793 : d-baldacci
8794 : d-c
8795 : d-d
8796 : d-d-warren
8797 : d-d-warren-series
8798 : d-day
8799 : d-gray-man
8800 : d-h-lawre

10005 : duncan
10006 : duncan-david-james
10007 : dune
10008 : dune-books
10009 : dune-chronicles
10010 : dune-house-trilogy
10011 : dune-legends
10012 : dune-saga
10013 : dune-series
10014 : dune-universe
10015 : dungeons-and-dragons
10016 : dungeons-dragons
10017 : duology
10018 : dup
10019 : duplicate
10020 : duplicate-because-of-reasons
10021 : duplicate-foreign
10022 : duplicate-of-others-read
10023 : duplicates-and-graphic-novels
10024 : durant
10025 : durjoy
10026 : durjoy-datta
10027 : dust
10028 : dust-bowl
10029 : dust-lands
10030 : dusty-books
10031 : dutch
10032 : dutch-east-india-company
10033 : dutch-fiction
10034 : dutch-literature
10035 : dutch-translation
10036 : duy-anh
10037 : dvd
10038 : dw
10039 : dwarf
10040 : dwarfism
10041 : dwarves
10042 : dwellings
10043 : dwj
10044 : dying
10045 : dying-earth
10046 : dying-to-read
10047 : dying-towns
10048 : dylan
10049 : dymocks-best-2011
10050 : dynasty
10051 : dysfunction
10052 : dysfunctional
10053 : dysfunctional-familie

11278 : fannie-flagg
11279 : fannish
11280 : fanny-flagg
11281 : fanny-osbourne-stevenson
11282 : fant-epic
11283 : fantacy
11284 : fantagraphics
11285 : fantaisie
11286 : fantas-a
11287 : fantascienza
11288 : fantascienza-fantasy
11289 : fantasi
11290 : fantasia
11291 : fantasia-epica
11292 : fantasmas
11293 : fantastic
11294 : fantastic-afernoon
11295 : fantastic-books-why-to-read-them
11296 : fantastic-fantasy
11297 : fantastic-four
11298 : fantastical
11299 : fantastik
11300 : fantastik-kurgu
11301 : fantastika
11302 : fantastique
11303 : fantasty
11304 : fantastyka
11305 : fantasy
11306 : fantasy---sci-fi
11307 : fantasy--sci-fi
11308 : fantasy-4
11309 : fantasy-adult
11310 : fantasy-adventure
11311 : fantasy-all-ages
11312 : fantasy-alternative-world
11313 : fantasy-and-related
11314 : fantasy-and-sci-fi
11315 : fantasy-and-science-fiction
11316 : fantasy-and-scifi
11317 : fantasy-and-sf
11318 : fantasy-and-the-like
11319 : fantasy-art
11320 : fantasy-book-club
11321 : fantasy-bo

12569 : french-litterature
12570 : french-nicci
12571 : french-novels
12572 : french-poetry
12573 : french-resistance
12574 : french-resistance-movement
12575 : french-revolution
12576 : french-spanish-black-cultural-fusio
12577 : french-tana
12578 : french-writers
12579 : frendships
12580 : freud
12581 : freyas-books
12582 : frida
12583 : frida-kahlo
12584 : friday-night-knitting-club
12585 : friday-night-lights
12586 : frieda-klein
12587 : friedrich
12588 : friedrich-nietzsche
12589 : friend-recommendation
12590 : friend-recommendations
12591 : friend-s-5star-reviews
12592 : friend-zoned
12593 : friends
12594 : friends--books
12595 : friends-first
12596 : friends-of-library-purchase
12597 : friends-relationships
12598 : friends-to-lovers
12599 : friends-with-benefits
12600 : friendship
12601 : friendship-women
12602 : friendships
12603 : frigid
12604 : frindle
12605 : fritjof-capra
12606 : frog-and-toad
12607 : frog-prince
12608 : frog-princess
12609 : frogs
12610 : from
12611 : from

13847 : hades-hangmen
13848 : hafalan-shalat-delisa
13849 : hafez
13850 : haggadah
13851 : haha
13852 : hailey
13853 : hailey-arthur
13854 : hairdresser
13855 : hairy-maclary
13856 : haiti
13857 : haldeman
13858 : haldeman-joe
13859 : hale
13860 : half
13861 : half-gf
13862 : half-girl-friend
13863 : half-girlfriend
13864 : half-human-half-vampire
13865 : half-read
13866 : halfblood
13867 : halfblood-chronicles
13868 : hall-2
13869 : hall-3
13870 : haller
13871 : halleys-comet
13872 : halliday-gemma
13873 : halloween
13874 : halloween-books
13875 : halloween-reading
13876 : halloween-reads
13877 : halloween-storytime
13878 : hallucinations
13879 : hallucinogenic
13880 : hallway
13881 : halo
13882 : halo-books
13883 : halo-novels
13884 : halo-series
13885 : halo-the-fall-of-reach
13886 : halo-the-flood
13887 : halo-trilogy
13888 : hamilton
13889 : hamilton-laurell
13890 : hamilton-laurell-k
13891 : hamilton-peter-f
13892 : hamlet
13893 : hammett
13894 : hampton
13895 : hampton-sides
138

15037 : human-trafficking
15038 : humanism
15039 : humanitaaria
15040 : humanitarian
15041 : humanities
15042 : humanities-social-sciences
15043 : humanity
15044 : humble-bundle
15045 : humble-ebook-bundle-2
15046 : humblebundle
15047 : hume
15048 : humor
15049 : humor-and-comedy
15050 : humor-and-satire
15051 : humor-and-supposed-humor
15052 : humor-comedy
15053 : humor-comics
15054 : humor-fantasy
15055 : humor-read
15056 : humor-romance
15057 : humor-satire
15058 : humor22
15059 : humorists
15060 : humorous
15061 : humorous-essays
15062 : humorous-fantasy
15063 : humorous-fiction
15064 : humorous-mysteries
15065 : humorous-mystery
15066 : humorous-romance
15067 : humour
15068 : humour-
15069 : humour-light
15070 : humour-or-satire
15071 : humour-satire
15072 : humourous
15073 : hundred-oaks
15074 : hundred-oaks-series
15075 : hundred-years-war
15076 : hungarian
15077 : hungarian-jews
15078 : hungarian-literature
15079 : hungary
15080 : hunger
15081 : hunger-games
15082 : hunger-game

16247 : jay-mclean
16248 : jay-michaelson-recommends
16249 : jay-winik
16250 : jaya
16251 : jaycee-dugard
16252 : jazz
16253 : jazz-age
16254 : jazz-history
16255 : jb-salsbury
16256 : jc-reed
16257 : jco
16258 : jd-robb
16259 : jd-robb-nora-roberts
16260 : jd-salinger
16261 : jdrobb
16262 : jealous-hero
16263 : jealousy
16264 : jean-auel
16265 : jean-craighead-george
16266 : jean-de-brunhoff
16267 : jean-jacques-rousseau
16268 : jean-m-auel
16269 : jean-paul-sartre
16270 : jean-sasson
16271 : jean-webster
16272 : jeanette-walls
16273 : jeanette-winterson
16274 : jeaniene-frost
16275 : jeaniene‎-frost
16276 : jeanine-frost
16277 : jeanne-duprau
16278 : jeannette-walls
16279 : jed-rubenfeld
16280 : jedi
16281 : jedi-academy-trilogy
16282 : jeeves
16283 : jeeves-and-wooster
16284 : jeeves-series
16285 : jeeves-wooster
16286 : jeff-archer
16287 : jeff-bezos
16288 : jeff-bezos-reading-list
16289 : jeff-kinney
16290 : jeff-lemire
16291 : jeff-lindsay
16292 : jeff-s-books
16293 : jeff-shaara

17537 : labeled
17538 : labeled-2015
17539 : labeled-2016
17540 : labor
17541 : laboratory
17542 : laborious
17543 : labyrinth
17544 : lace-reading
17545 : lacey-weatherford
17546 : lack
17547 : lackberg
17548 : lackey
17549 : lackey--mercedes
17550 : lackey-mercedes
17551 : lad-lit
17552 : ladies
17553 : ladies-detective-agency
17554 : lady
17555 : lady-and-the-tramp
17556 : lady-jane-grey
17557 : lady-julia
17558 : lady-julia-grey-series
17559 : lady-lit
17560 : lady-s
17561 : ladybug
17562 : laguna
17563 : lahaye
17564 : lahaye-jenkins
17565 : lahaye-tim
17566 : laila-ibrahim
17567 : laini-taylor
17568 : lairds-fiancees
17569 : lake-alex
17570 : lakers
17571 : lakers-book-and-bottle-club
17572 : lakeside-middle-school
17573 : lakeview
17574 : lalalala
17575 : lamb-wally
17576 : lamott
17577 : lancaster
17578 : lance
17579 : lance-armstrong
17580 : land
17581 : land-of-elyon
17582 : land-of-stories
17583 : land-of-stories-series
17584 : landover
17585 : landowners
17586 : landvik
175

18759 : lutheran
18760 : lutz
18761 : lutz-lisa
18762 : lux
18763 : lux-series
18764 : luxe
18765 : luxe-series
18766 : luxembourg
18767 : lycans
18768 : lycanthropes
18769 : lycel6568
18770 : lydbog
18771 : lydia-s-1000-books-before-kindergar
18772 : lydia-s-books
18773 : lying-game
18774 : lying-game-series
18775 : lynchings
18776 : lynda-curnyn
18777 : lyndon
18778 : lyndon-johnson
18779 : lyndsay-sands
18780 : lynley
18781 : lynn-cherrie
18782 : lynn-flewelling
18783 : lynn-sandi
18784 : lynsay-sands
18785 : lynsay-sands-argeneau
18786 : lynsey-sands
18787 : lyrik
18788 : lyzarein
18789 : läckberg
18790 : m
18791 : m-authors
18792 : m-books
18793 : m-c-beaton
18794 : m-div
18795 : m-f
18796 : m-f-m
18797 : m-f-romance
18798 : m-h-clark
18799 : m-j-arlidge
18800 : m-leighton
18801 : m-m
18802 : m-m-f
18803 : m-m-fantasy
18804 : m-m-kaye
18805 : m-m-romance
18806 : m-pierce
18807 : m-s-books
18808 : m-theory
18809 : m-y-t-h
18810 : ma-2017
18811 : ma-bibliothèque
18812 : ma-s-books
1

20001 : midnight-sun
20002 : midnight-texas
20003 : midnight-texas-series
20004 : midnighters
20005 : midnighters-series
20006 : midwest
20007 : midwife
20008 : midwifery
20009 : midwifery-and-childbirth
20010 : midwifery-books
20011 : midwives
20012 : mieskirjailijat
20013 : mieville
20014 : might-buy
20015 : might-read
20016 : mignola
20017 : mignolaverse
20018 : migration
20019 : miguel-ruiz
20020 : mijn-boeken
20021 : mijn-boekenkast
20022 : mika-waltari
20023 : mike
20024 : mike-carey
20025 : mike-lupica
20026 : mike-mignola
20027 : mike-mullin
20028 : mikhail-lermontov
20029 : mil
20030 : mil-folhas
20031 : mil-sci-fi
20032 : mil-scifi-or-space-opera
20033 : mil-sf
20034 : milan-courtney
20035 : milan-kundera
20036 : mile
20037 : miles
20038 : miles-cameron
20039 : miles-davis
20040 : miles-franklin
20041 : miles-franklin-award
20042 : miles-franklin-literary-award
20043 : miles-franklin-winners
20044 : miles-vorkosigan
20045 : milik-pribadi
20046 : milik-sendiri
20047 : military

21284 : need-to-read
21285 : need-to-read-in-your-20s
21286 : need-to-read-next
21287 : need-to-review
21288 : needed-for-collection
21289 : needs
21290 : needs-review
21291 : nefertari
21292 : nefertiti
21293 : negeri-5-menara
21294 : neglect
21295 : negocios
21296 : negotiating
21297 : negotiation
21298 : negotiations
21299 : negra
21300 : negócios
21301 : neighbor-from-hell
21302 : neighbor-from-hell-series
21303 : neighbors
21304 : neighbour
21305 : neighbours
21306 : neil
21307 : neil-degrasse-tyson
21308 : neil-gaiman
21309 : neil-jatso
21310 : neil-simon
21311 : neil-strauss
21312 : neill-chloe
21313 : nella-mia-libreria
21314 : nelson
21315 : nelson-de-mille
21316 : nelson-demile-john-sutter-series
21317 : nelson-demille
21318 : nelson-demille-john-corey
21319 : nelson-demille-john-corey-series
21320 : nelson-mandela
21321 : nemo
21322 : neo-noir
21323 : neo-paganism
21324 : neo-victorian
21325 : neoliberalism
21326 : neopagan
21327 : nepal
21328 : nephilim
21329 : nerdcott
213

22581 : our-books
22582 : our-girls-book-club
22583 : our-library
22584 : our-library-books-we-own
22585 : our-shared-shelf
22586 : our-shared-shelf-book-club
22587 : our-shared-shelf-books
22588 : ouran
22589 : ouran-high-school-host-club
22590 : ouran-host-club
22591 : oursharedshelf
22592 : out-of-my-mind
22593 : out-of-my-shelf
22594 : out-there
22595 : outdoor
22596 : outdoor-adventure
22597 : outdoors
22598 : outdoors-adventure
22599 : outer
22600 : outer-space
22601 : outlander
22602 : outlander-series
22603 : outlander-series-reading-challenge
22604 : outlaws
22605 : outliers
22606 : outreach
22607 : outread-aubrey-2014
22608 : outros
22609 : outside
22610 : over
22611 : over-500-pages
22612 : over-600-pages
22613 : over-700-pages
22614 : over-a-year-ago
22615 : over-sized-paperback
22616 : overcoming-adversity
22617 : overcoming-obstacles
22618 : overdrive
22619 : overdrive-audible
22620 : overdrive-avail
22621 : overdrive-orem-not-avail
22622 : overdue
22623 : overig
22624 : 

23827 : poetic
23828 : poetic-literature
23829 : poetics
23830 : poetree
23831 : poetry
23832 : poetry-20th-century
23833 : poetry-5
23834 : poetry-american
23835 : poetry-and-drama
23836 : poetry-and-epics
23837 : poetry-and-literature
23838 : poetry-and-plays
23839 : poetry-and-poetics
23840 : poetry-and-prose
23841 : poetry-and-short-stories
23842 : poetry-books
23843 : poetry-classics
23844 : poetry-collection
23845 : poetry-collections
23846 : poetry-drama
23847 : poetry-essays-plays
23848 : poetry-favorites
23849 : poetry-i-want-to-read
23850 : poetry-in-translation
23851 : poetry-iran
23852 : poetry-owned
23853 : poetry-plays
23854 : poetry-poems
23855 : poetry-poetics
23856 : poetry-prose
23857 : poetry-read
23858 : poetry-short-stories
23859 : poetry-tbr
23860 : poetry-to-read
23861 : poetry-verse
23862 : poetry-west
23863 : poetry-شعر
23864 : poetry-诗歌
23865 : poets
23866 : poets-and-poetry
23867 : poezie
23868 : poezija
23869 : point-of-view
23870 : points-3-or-4
23871 : poi

25101 : read-during-2016
25102 : read-during-youth
25103 : read-eventually
25104 : read-fantasy
25105 : read-favorites
25106 : read-fiction
25107 : read-fiction-physical
25108 : read-first
25109 : read-for-book-club
25110 : read-for-class
25111 : read-for-college
25112 : read-for-fun
25113 : read-for-high-school
25114 : read-for-school
25115 : read-for-the-heart
25116 : read-for-uni
25117 : read-for-university
25118 : read-for-work
25119 : read-from-a-christie
25120 : read-from-libraries
25121 : read-graphic
25122 : read-graphic-novels
25123 : read-half
25124 : read-harder
25125 : read-harder-2016
25126 : read-harder-2017
25127 : read-harder-challenge
25128 : read-harder-challenge-2016
25129 : read-harder-challenge-2017
25130 : read-historical
25131 : read-historical-fiction
25132 : read-history
25133 : read-horror
25134 : read-in-15
25135 : read-in-1998
25136 : read-in-2000
25137 : read-in-2000s
25138 : read-in-2001
25139 : read-in-2003
25140 : read-in-2004
25141 : read-in-2005
25142 

26403 : ruth-krauss
26404 : ruth-reichl
26405 : ruth-ware
26406 : rutherfurd
26407 : rutherfurd-edward
26408 : rw-book-club
26409 : rwanda
26410 : rwbookclub
26411 : ryan
26412 : ryan-holiday
26413 : ryan-holiday-list
26414 : ryan-holiday-recommended
26415 : ryanverse
26416 : rylan-s-books
26417 : ryne
26418 : rysa-walker
26419 : ryu-murakami
26420 : référence
26421 : rússia
26422 : s
26423 : s-authors
26424 : s-b-criticism
26425 : s-berry
26426 : s-books-we-own
26427 : s-brown
26428 : s-c-gwynne
26429 : s-c-stephens
26430 : s-d
26431 : s-e-hinton
26432 : s-f
26433 : s-f-masterworks
26434 : s-h-kolee
26435 : s-j-watson
26436 : s-king
26437 : s-m-stirling
26438 : s-sheldon
26439 : s-t
26440 : s-tracy-crosswhite
26441 : s1
26442 : s13-comics-dc
26443 : s_art-architecture
26444 : sa
26445 : saass
26446 : sabaa-tahir
26447 : sabahattin-ali
26448 : sabatini
26449 : sabbatical
26450 : sabermetrics
26451 : sachar
26452 : sachbuch
26453 : sachbücher
26454 : sacks
26455 : sacred
26456 : sacred-

27650 : shopaholic
27651 : shopaholic-series
27652 : shoplifting
27653 : shopping
27654 : shopping-list
27655 : shore
27656 : short
27657 : short-and-sweet
27658 : short-book
27659 : short-books
27660 : short-classics
27661 : short-fiction
27662 : short-forts
27663 : short-length-book
27664 : short-list
27665 : short-listed
27666 : short-novels
27667 : short-read
27668 : short-reads
27669 : short-stories
27670 : short-stories-2
27671 : short-stories-and-anthologies
27672 : short-stories-and-essays
27673 : short-stories-and-novellas
27674 : short-stories-and-plays
27675 : short-stories-anthologies
27676 : short-stories-collection
27677 : short-stories-collections
27678 : short-stories-essays
27679 : short-stories-novellas
27680 : short-stories-read
27681 : short-stories-to-read
27682 : short-story
27683 : short-story-collection
27684 : short-story-collections
27685 : short-story-novella
27686 : short-story-novella-200pages
27687 : short-story-shelf
27688 : short-works
27689 : short_stor

28859 : study-bibles
28860 : study-books
28861 : study-built-in
28862 : study-series
28863 : study-shelf-1
28864 : study_author-series
28865 : studying
28866 : stue
28867 : stuff-i-loved
28868 : stuff-that-hurt
28869 : stuffed-animals
28870 : stumbled-on
28871 : stunt-memoirs
28872 : stupid-book-made-me-cry
28873 : sturgeon
28874 : sturgis
28875 : sturm-und-drang
28876 : style
28877 : style-nouveau
28878 : styles
28879 : styron
28880 : stéphanie-plum
28881 : sub
28882 : sub-bücher
28883 : sub-read
28884 : subconscious
28885 : subculture
28886 : subcultures
28887 : subgenre-sf-dystopian-future
28888 : subject
28889 : subject-people
28890 : subject-vampire
28891 : subject-visual-arts
28892 : subliminal-mind-control
28893 : submarine
28894 : submarines
28895 : submission
28896 : submissive
28897 : subshelves
28898 : substance-abuse
28899 : subterranean
28900 : subtle-energy
28901 : suburban
28902 : suburbia
28903 : subways
28904 : success
28905 : success-25
28906 : success-books
28907 : s

30188 : the-wicked-years
30189 : the-wild-ones
30190 : the-winner-s-trilogy
30191 : the-winner-stands-alone
30192 : the-wire
30193 : the-witcher
30194 : the-witcher-saga
30195 : the-witcher-series
30196 : the-witches
30197 : the-wolf-gift-chronicles
30198 : the-wolves-of-mercy-falls
30199 : the-work-and-the-glory
30200 : the-years-of-lyndon-johnson
30201 : the-young-elites
30202 : the-zombie-room
30203 : thea-harrison
30204 : thearc
30205 : theater
30206 : theater-plays
30207 : theaters
30208 : theatre
30209 : theatre-and-plays
30210 : theatre-arts-and-entertainment
30211 : theatre-books
30212 : theatre-books-scripts
30213 : theatre-film-music
30214 : theatre-play
30215 : theatre-plays
30216 : theatre-scripts
30217 : theatre-scripts-and-analysis
30218 : theatrical
30219 : theatrical-plays
30220 : thebes
30221 : theft
30222 : theme
30223 : theme-cooking
30224 : theme-naughty
30225 : theme-science
30226 : theme-social-studies
30227 : theme-tigers
30228 : theme-yummy
30229 : theo
30230 : 

31439 : ukya
31440 : ultimate
31441 : ultimate-favorites
31442 : ultimate-marvel
31443 : ultimate-reading-list
31444 : ultimate-spider-man
31445 : ultimate-teen-reading-list
31446 : ultimate-universe
31447 : ultrafavorite-greatest-books-of-all
31448 : ultramarathon
31449 : ultrarunning
31450 : ulubione
31451 : umberto-eco
31452 : umjetnici-umjetnost
31453 : umjetnost
31454 : umw
31455 : un-categorized
31456 : un-finished
31457 : unabridged
31458 : unavailable
31459 : unavailable-in-bg
31460 : unbroken
31461 : uncategorized
31462 : uncathegorized
31463 : uncertainty
31464 : unclassifed
31465 : unclassified
31466 : uncle-rick
31467 : uncle-s-books
31468 : uncle-si
31469 : uncle-steve
31470 : uncle-stevie
31471 : uncompleted
31472 : undead
31473 : undead-series
31474 : undecided-or-not-interested
31475 : undeniable
31476 : undeniable-series
31477 : under-200
31478 : under-200-pages
31479 : under-250-pages
31480 : under-5
31481 : under-desk
31482 : under-suspicion
31483 : under-suspicion-s

32679 : woman-author
32680 : woman-s-fiction
32681 : woman-s-murder-club
32682 : woman-trans-agender-authors
32683 : womanhood
32684 : womans-literature
32685 : womans-murder-club
32686 : women
32687 : women-and-religion
32688 : women-authors
32689 : women-entrepeneurs
32690 : women-feminism
32691 : women-fiction
32692 : women-friends
32693 : women-friendships
32694 : women-in-medicine
32695 : women-in-translation
32696 : women-in-war
32697 : women-literature
32698 : women-murder-club
32699 : women-of-a-certain-age
32700 : women-of-color
32701 : women-of-faith
32702 : women-of-the-otherworld
32703 : women-of-the-otherworld-series
32704 : women-of-the-underworld
32705 : women-read
32706 : women-s
32707 : women-s-bible-study
32708 : women-s-fiction
32709 : women-s-health
32710 : women-s-history
32711 : women-s-issues
32712 : women-s-lit
32713 : women-s-literature
32714 : women-s-ministry
32715 : women-s-murder
32716 : women-s-murder-club
32717 : women-s-murder-club-series
32718 : women-s

33875 : شعر-و-ادبیات-ایرانی
33876 : شعر-و-خواطر
33877 : شعر-و-شاعری
33878 : شعر-و-نظم
33879 : شعر-وخواطر
33880 : شعر-پارسی
33881 : شعر-کلاسیک
33882 : شيرلوك-هولمز
33883 : شيكاجو
33884 : شيكاغو
33885 : صادق-هدایت
33886 : صانع-الظلام
33887 : صرخة-الرعب
33888 : صلاح-جاهين
33889 : صمد-بهرنگی
33890 : صوتيات
33891 : صوفى
33892 : طنز
33893 : طه
33894 : طه-الغريب
33895 : ظل-الافعى
33896 : ظل-اﻻفعي
33897 : ع
33898 : عائد-الى-حيفا
33899 : عائض-القرنى
33900 : عائض-القرني
33901 : عابر-سرير
33902 : عالم-الروايات
33903 : عالم-المعرفة
33904 : عام
33905 : عباس-معروفی
33906 : عبث
33907 : عبد-الله-المغلوث
33908 : عبدالله-المغلوث
33909 : عربى
33910 : عربي
33911 : عربي-ساخر
33912 : عربية
33913 : عز-الدين-شكرى
33914 : عز-الدين-شكرى-فشير
33915 : عز-الدين-شكري
33916 : عز-الدين-شكري-فشير
33917 : عز-الدين-فشير
33918 : عزازيل
33919 : عزالدين-شكرى-فشير
33920 : عزالدين-شكري-فشير
33921 : عصام-يوسف
33922 : عقاید-یک-دلقک
33923 : عقيدة
33924 : عك
33925 : علاء-الأسوانى
33926 : علاء-الأسواني
33927 : علاء-الاسوانى
33928

### Numeric + Punctuation Tags

From taking a physical breeze through the book tags at first glance we notice that our tags are in alpha numeric order. From this we start to distinguish sets of tag_ids that are either out of scope or lack proper meaning to our project with the given documentation on the data provided.

Before trying any fancy string parsing or regex rules on the words, I start with taking out these rows. That are simply just empty or numerical with punctuation.
* Rows [0 - 18]

In [9]:
for index, row in t_copy.iterrows():
    if index == 19:
        break
    print(str(row['tag_id']) + " : " + row['tag_name'])
    
#Get rid of the top 19 rows
t_copy = t_copy[19:]    

print(t_copy.shape)
t_copy.head()

0 : -
1 : --1-
2 : --10-
3 : --12-
4 : --122-
5 : --166-
6 : --17-
7 : --19-
8 : --2-
9 : --258-
10 : --3-
11 : --33-
12 : --4-
13 : --5-
14 : --51-
15 : --6-
16 : --62-
17 : --8-
18 : --99-
(34233, 2)


Unnamed: 0,tag_id,tag_name
19,19,--available-at-raspberrys--
20,20,-2001--
21,21,-calif--
22,22,-d-c--
23,23,-dean


### Non-English Tags

There is an entire chunks of tags that are in Greek and Arabic letters, as a sample we have gone ahead to use Google Translate public Python API to translate a sample of ~870 entries.

In [10]:
# #Arabic tags
# arabic_tags = list(t_copy['tag_name'][33363:34232])
# len(arabic_tags)

In [11]:
# type(arabic_tags)

In [12]:
# translator = Translator()
# arabic_translations = translator.translate(arabic_tags, dest='en')
# for translation in arabic_translations:
#     print(translation.origin, ' -> ', translation.text)


In [13]:
# t_copy[33381:33382]

In [14]:
# t_copy[33381:33382]['tag_name']

In [15]:
# translator = Translator()
# translator.translate(str(t_copy[33381:33382]['tag_name'])).text

In [16]:
# some_arabic_book_ids = bt[bt['tag_id'] == 33400]["goodreads_book_id"]
# list(some_arabic_book_ids)

In [17]:
# b[b['goodreads_book_id'].isin(some_arabic_book_ids)]

Arabic language books, and tags is one example of a speciality in the raw data. For our purposes of cluster analysis, and ultimately prediction based on the books and novels we are strudying bringing new unknown languages into the mix presents a challenge. To be able to make sound predictions and tuning our model to capture the variation of language, phenotics, and culture is a little out of scope for now. Therefore we will be filtering out books and tags that are not of "English" origin for our project. Therefore in the cleaning of our tags we will be getting rid of these types of tags.

In [18]:
#From the physical glance at our data we can simple filter by the row numbers, all non-enligsh tags
t_non_english = t_copy[(False == t_copy['tag_name'].str.match(r"^[a-zA-Z0-9$@$!%*?&#':;^\-—_,'\\/\". +()]+$"))]
t_non_english.shape

(1289, 2)

In [19]:
for index,row in t_non_english.iterrows():
    print(str(row["tag_id"]) + " : " + str(row["tag_name"]))

103 : 029-نجيب-محفوظ
125 : 07-まんが-ほか
280 : 101-à-lire-dans-sa-vie
328 : 14艺术美学
403 : 1907-sahin-library-şahi̇n-ki̇tapliği
559 : 1نجوم
568 : 2-háló-nagy
579 : 2-ضباط
702 : 2012-عربي
960 : 28-حرف
981 : 2ضباط
1013 : 3-نجوم
1288 : _sachbücher
1618 : administração
1634 : adquirido-y-no-leído
2201 : alyson-noël
2391 : amélie-nothomb
2420 : anaïs-nin
2421 : anbefalet-ikke-undersøgt
2489 : andré-agassi
2490 : andré-bella
2598 : animé
2733 : antiquité
2925 : arnaldur-indriðason
3185 : arturo-pérez-reverte
3196 : as-crónicas-de-gelo-e-fogo
3292 : astérix
3629 : autores-lusófonos
3859 : bande-dessinée
3861 : bandes-dessinées
3927 : barnebøker
4051 : bd-à-lire
4475 : bibliothèque
4512 : bildbände
4584 : biografía
4585 : biografías
4601 : biographies-memoirs‎
4625 : biográficos
4881 : bokmål
4883 : bolaño
5690 : brené-recommends
5810 : bronté
5811 : brontë
5812 : brontë-sisters
5813 : brontës
6042 : böcker-i-bokhylla
6043 : bücher
6044 : bücher-gelesen
6045 : bücherregal
6149 : camilla-läckberg
619

34221 : پائولو-کوئیلو
34222 : پارسی
34223 : ڤيرتيجو
34224 : کتاب
34225 : کتاب-های-فارسی
34226 : کتاب-کودک
34227 : کتابهای-مورد-علاقه-ام
34228 : کودک
34229 : کودک-و-نوجوان
34230 : کودکان
34231 : کودکان-و-نوجوانان
34232 : کودکانه
34233 : ۱
34234 : วรรณว-ภา
34235 : ℱａｖｏｒｉｔｅｓ
34236 : 中文
34237 : 叶红
34238 : 小說-奇幻小說
34239 : 日本
34240 : 日本文学
34241 : 日本語
34242 : 漫画
34243 : 골든
34244 : ﹏moonplus-reader﹏
34245 : ﺭﺿﻮﻯ-عاشور
34246 : ﻳﻮﺳﻒ-زيدان
34247 : ｃhildrens
34248 : ｆａｖｏｒｉｔｅｓ
34249 : ｍａｎｇａ
34250 : ｓｅｒｉｅｓ
34251 : ｆａｖｏｕｒｉｔｅｓ


In [20]:
#From the physical glance at our data we can simple filter by the row numbers, all non-enligsh tags
t_english = t_copy[(True == t_copy['tag_name'].str.match(r"^[a-zA-Z0-9$@$!%*?&#':;^\-—_,'\\/\". +()]+$"))]
t_english.shape

(32944, 2)

In [21]:
for index,row in t_english.iterrows():
    print(str(row["tag_id"]) + " : " + str(row["tag_name"]))

19 : --available-at-raspberrys--
20 : -2001--
21 : -calif--
22 : -d-c--
23 : -dean
24 : -england-
25 : -fiction
26 : -fictional
27 : -fictitious
28 : -football-
29 : -george
30 : -gr-
31 : -history
32 : -imaginary
33 : -italy-
34 : -la--
35 : -los
36 : -mass--
37 : -murder-
38 : -n-y--
39 : -non-poetry-
40 : -performing
41 : -post
42 : -psychology-
43 : -read
44 : -single
45 : -specific
46 : -television
47 : 0
48 : 0-0-0-0cant-find
49 : 0-0-bingo
50 : 0-4-star-rating
51 : 0-a-find-2016-summer-00
52 : 0-all2
53 : 0-best-picture-younger
54 : 0-boxed
55 : 0-c
56 : 0-eric-s-books
57 : 0-house-lbkc
58 : 0-kindle
59 : 0-love-funny
60 : 0-made-me-cry-moved-me
61 : 0-nonfiction
62 : 0-owned
63 : 0-paperback
64 : 0-pgs-200-to-299
65 : 0-physical-own
66 : 0-plays
67 : 0-plc
68 : 0-tbr-axz-usa
69 : 00-exploring-1
70 : 00-graphic-novels-read
71 : 00-in-class
72 : 00-to-read-00
73 : 00-to-read-02
74 : 0000
75 : 0000-to-buy
76 : 00000
77 : 0000_notverified
78 : 000src-su-25-11-3-x
79 : 000src-w-15-0

1169 : 5ara
1170 : 5b
1171 : 5cm
1172 : 5th
1173 : 5th-grade
1174 : 5th-grade-reading-list
1175 : 5th-graders
1176 : 5th-in-series
1177 : 5thsummerreading
1178 : 6
1179 : 6-in-series
1180 : 6-nonfiction-for-2018
1181 : 6-star-books
1182 : 6-stars
1183 : 6-travel-fiction-series
1184 : 60-s
1185 : 600-wales
1186 : 600s
1187 : 60_per_2017
1188 : 60s
1189 : 60s-decade
1190 : 616
1191 : 645-library-materials-for-children
1192 : 65-books
1193 : 65-books-for-your-20s
1194 : 65-books-to-read-in-your-20-s
1195 : 65-books-to-read-in-your-20s
1196 : 65-books-you-need-to-read-in-your-2
1197 : 658-0
1198 : 658-4
1199 : 66-no-longer-own
1200 : 6th-grade
1201 : 6th-grade-books
1202 : 6th-grade-q1
1203 : 6th-grade-q2
1204 : 6th-grade-reading-challenge
1205 : 6th-grade-shelf
1206 : 6th-grader-books
1207 : 7
1208 : 7-10-year-olds
1209 : 7-9
1210 : 7-9-
1211 : 7-art
1212 : 7-habits
1213 : 7-in-series
1214 : 7-nonfiction-reference
1215 : 7-not-intrested
1216 : 70-a-d
1217 : 70-s
1218 : 70-spy-thriller
121

2454 : and-the-mountains-echoed
2455 : and-the-shofar-blew
2456 : andalusia
2457 : anderson
2458 : anderson-cooper
2459 : andes
2460 : andes-mountains
2461 : andika-adil
2462 : andre
2463 : andre-aciman
2464 : andre-bella
2465 : andre-books
2466 : andre-dubus-iii
2467 : andre-norton
2468 : andrea
2469 : andrea-cremer
2470 : andrea-hirata
2471 : andrea-levy
2472 : andrew
2473 : andrew-becs
2474 : andrew-clements
2475 : andrew-davidson
2476 : andrew-gross
2477 : andrew-jackson
2478 : andrew-ng-recommendations
2479 : andrew-peterson
2480 : andrew-wiles
2481 : andrews
2482 : andrews--mary-kay
2483 : andrews-ilona
2484 : andrews-mary-kay
2485 : andrews-v-c
2486 : andrews-vc
2487 : androids
2488 : andrzej-sapkowski
2491 : andy
2492 : andy-andrews
2493 : andy-brazil
2494 : andy-brazil-series
2495 : andy-warhol
2496 : andy-weir
2497 : anecdotes
2498 : anf
2499 : angel
2500 : angel-books
2501 : angel-demon
2502 : angel-island
2503 : angel-series
2504 : angel-trilogy
2505 : angela
2506 : angela-

3745 : baby-care
3746 : baby-children
3747 : baby-for-the-billionaire
3748 : baby-library
3749 : baby-love
3750 : baby-parenting
3751 : baby-prep
3752 : baby-reads
3753 : baby-related
3754 : baby-s-books
3755 : baby-sitters-club
3756 : baby-sleep
3757 : baby-storytime
3758 : baby-stuff
3759 : baby-toddler
3760 : baby-trade
3761 : baby-wise
3762 : babysitter-s-club
3763 : babysitters
3764 : babysitters-club
3765 : babystuff
3766 : babytime
3767 : bach
3768 : bachman
3769 : back-burner
3770 : back-in-the-day
3771 : back-shelf
3772 : back-to-school
3773 : backlog
3774 : backpacking
3775 : backseated
3776 : backstabbers-unite
3777 : backwards
3778 : bacterial-meningitis
3779 : bad
3780 : bad-ass-bikers
3781 : bad-ass-girls
3782 : bad-books
3783 : bad-boy
3784 : bad-boy-bikers
3785 : bad-boy-good-girl
3786 : bad-boys
3787 : bad-day
3788 : bad-did-not-finish
3789 : bad-experience-4me
3790 : bad-girls-book-club
3791 : bad-girls-don-t-die
3792 : bad-girls-dont-die
3793 : bad-kitty
3794 : bad-k

5055 : bookclubread
5056 : bookclubs
5057 : bookcrossing
5058 : booker
5059 : booker-2012
5060 : booker-2013
5061 : booker-2014
5062 : booker-2015
5063 : booker-2016
5064 : booker-books
5065 : booker-longlist
5066 : booker-prize
5067 : booker-prize-2011
5068 : booker-prize-2013
5069 : booker-prize-2014
5070 : booker-prize-nominees
5071 : booker-prize-shortlist
5072 : booker-prize-winner
5073 : booker-prize-winners
5074 : booker-short-list
5075 : booker-shortlist
5076 : booker-shortlisted
5077 : booker-winner
5078 : booker-winners
5079 : bookers
5080 : bookgroup
5081 : bookies
5082 : bookish-baes
5083 : bookish-books
5084 : booklight-2
5085 : booklist
5086 : booklists
5087 : bookmarks
5088 : bookmusthave2017
5089 : bookouture
5090 : books
5091 : books-1-10
5092 : books-1-12
5093 : books-11-20
5094 : books-13-25
5095 : books-2010
5096 : books-2012
5097 : books-2013
5098 : books-2014
5099 : books-2015
5100 : books-2016
5101 : books-2017
5102 : books-3
5103 : books-about-animals
5104 : boo

6349 : carver
6350 : cary-elwes
6351 : cary-s-library
6352 : cas
6353 : casa
6354 : casa-codogno-studio-arrigo
6355 : case
6356 : case-closed
6357 : case-studies
6358 : cases
6359 : cash
6360 : cashflow
6361 : casier-1
6362 : cassandra-clare
6363 : cassandra-clare-books
6364 : cassandra-palmer
6365 : cassandra-palmer-series
6366 : cassie-black
6367 : cassie-clare
6368 : cassie-palmer
6369 : cassie-read
6370 : cast
6371 : cast-p-c
6372 : cast-pc
6373 : castaneda
6374 : castaneda-carlos
6375 : castanho-creme
6376 : castaways
6377 : caste
6378 : caste-issues
6379 : caste-system
6380 : casteel
6381 : casteel-series
6382 : castellano
6383 : caster-chronicles
6384 : casters
6385 : castillo-linda
6386 : castle
6387 : castle-books
6388 : castle-richard
6389 : castle-rock
6390 : castle-series
6391 : castle-tv-show-tie-in
6392 : castles
6393 : castrati
6394 : casualties
6395 : cat
6396 : cat-and-bones
6397 : cat-books
6398 : cat-mysteries
6399 : cat-patrick
6400 : cat-who
6401 : cat-who-series
6

7617 : cog-sci
7618 : cognition
7619 : cognitive
7620 : cognitive-development-and-growth
7621 : cognitive-dissonance
7622 : cognitive-psychology
7623 : cognitive-science
7624 : cogsci
7625 : coho
7626 : colbert
7627 : cold
7628 : cold-as-ice
7629 : cold-case
7630 : cold-cases
7631 : cold-war
7632 : cold-war-fiction
7633 : coldest-winter-ever
7634 : coldfire
7635 : coldfire-trilogy
7636 : coldwar
7637 : cole
7638 : cole-kresley
7639 : coleccionable
7640 : colectia-adevarul
7641 : colectia-mea
7643 : colegio
7644 : colet-court-11
7645 : colfer
7646 : colfer-eoin
7647 : collaboration
7648 : collage
7649 : collage-reading
7650 : collapse
7651 : collectables
7652 : collected
7653 : collecting
7654 : collection
7655 : collection-of-stories
7656 : collection-print
7657 : collection-to-read
7658 : collections
7659 : collections-by-same-author
7660 : collections-foreign
7661 : collections-shorts-anthologies
7662 : collective-intelligence
7663 : collectors
7664 : colleen-hoover
7665 : colleen-ho

8939 : dark-fantasy-horror
8940 : dark-fiction
8941 : dark-horse
8942 : dark-horse-comics
8943 : dark-humor
8944 : dark-humour
8945 : dark-hunter
8946 : dark-hunter-series
8947 : dark-hunter-universe
8948 : dark-hunters
8949 : dark-is-rising
8950 : dark-read
8951 : dark-reads
8952 : dark-romance
8953 : dark-saga
8954 : dark-series
8955 : dark-swan
8956 : dark-swan-series
8957 : dark-tower
8958 : dark-tower-and-related
8959 : dark-tower-extended-reading-order
8960 : dark-tower-reading-list
8961 : dark-tower-reading-order
8962 : dark-tower-related
8963 : dark-tower-series
8964 : dark-tower-universe
8965 : dark-twisted
8966 : dark-visions
8967 : darkest-powers
8968 : darkest-powers-series
8969 : darkness
8970 : darkness-rising
8971 : darkness-rising-series
8972 : darkside
8973 : darktower
8974 : darling-copy
8975 : darren-shan
8976 : darren-shan-books
8977 : darren-shan-series
8978 : darth
8979 : darth-bane
8980 : darth-paper
8981 : darwin
8982 : darwinism
8983 : darwyn-cooke
8984 : daryn

10230 : eco-terrorism
10231 : eco-thriller
10232 : ecological-design
10233 : ecology
10234 : ecology-environment
10235 : ecommerce
10236 : econ
10237 : econ-finance
10238 : econ1
10239 : economia
10240 : economic
10241 : economic-conditions
10242 : economic-development
10243 : economic-history
10244 : economic-theory
10245 : economics
10246 : economics-and-finance
10247 : economics-and-politics
10248 : economics-business
10249 : economics-development
10250 : economics-finance
10251 : economics-finance-business
10252 : economics-investing
10253 : economics-politics
10254 : economics_finance
10255 : economie
10256 : economy
10258 : ecosystems
10259 : ecoterrorism
10260 : ecuador
10261 : ed
10262 : ed-310
10263 : ed-689
10264 : ed-arg
10265 : ed-books
10266 : ed-brubaker
10267 : ed-esp
10268 : edci-311
10269 : edci-325
10270 : eddings
10271 : eddings-david
10272 : edebiyat
10273 : edelweiss
10274 : edensor
10275 : edgar
10276 : edgar-allan-poe
10277 : edgar-allen-poe
10278 : edgar-award
1

11536 : favorite-manga-series
11537 : favorite-mangas
11538 : favorite-non-fiction
11539 : favorite-non-fiction-of-2015
11540 : favorite-nonfiction
11541 : favorite-novels
11542 : favorite-picture-books
11543 : favorite-plays
11544 : favorite-poetry
11545 : favorite-poets
11546 : favorite-reads
11547 : favorite-romance
11548 : favorite-romances
11549 : favorite-sci-fi
11550 : favorite-series
11551 : favorite-suthors
11552 : favorite-true-crime
11553 : favorite-writers
11554 : favorite-ya
11555 : favorite-ya-paranormal
11556 : favoritebooks
11557 : favorites
11558 : favorites-2016
11559 : favorites-3
11560 : favorites-4-5-stars
11561 : favorites-and-rereads
11562 : favorites-best-reads
11563 : favorites-for-recommendations
11564 : favorites-from-childhood
11565 : favorites-in-literature
11566 : favorites-manga
11567 : favorites-nonfiction
11568 : favorites-read
11569 : favorites-to-read
11570 : favoritos
11571 : favorits
11572 : favourate
11573 : favourit
11574 : favourite
11575 : favou

12843 : garwood--julie
12844 : garwood-julie
12845 : gary
12846 : gary-brandner
12847 : gary-chapman
12848 : gary-jennings
12849 : gary-larson
12850 : gary-paulsen
12851 : gary-paulson
12852 : gary-shteyngart
12853 : gary-zukav
12854 : gaskell
12855 : gaston-leroux
12856 : gastronomia
12857 : gastronomy
12858 : gate
12859 : gate-keepers
12860 : gatekeepers
12861 : gates
12862 : gates-books
12863 : gathering
12864 : gatsby
12865 : gauguin
12866 : gaul
12867 : gave-away
12868 : gave-up
12869 : gave-up-on
12870 : gave-up-on-it
12871 : gave-up-reading
12872 : gavin
12873 : gavin-menzies
12874 : gay
12875 : gay-and-lesbian
12876 : gay-fantasy
12877 : gay-fiction
12878 : gay-history
12879 : gay-lesbian
12880 : gay-lit
12881 : gay-literature
12882 : gay-marriage
12883 : gay-rights
12884 : gay-romance
12885 : gay-ya
12886 : gayle-forman
12887 : gbg-pad-nov
12888 : gblt
12889 : gca-2012
12890 : gcac
12891 : gcac-16
12892 : gcac_2017
12893 : gcisd-25-book-challenge
12894 : gcpc-library
12895 : g

14140 : health-and-food-books
14141 : health-and-healing
14142 : health-and-medicine
14143 : health-and-nutrition
14144 : health-and-wellbeing
14145 : health-and-wellness
14146 : health-beauty
14147 : health-books
14148 : health-care
14149 : health-cooking
14150 : health-diet
14151 : health-fitness
14152 : health-food
14153 : health-growth-art
14154 : health-healing
14155 : health-holistic
14156 : health-medical
14157 : health-medicine
14158 : health-mental
14159 : health-mind-body
14160 : health-nutrition
14161 : health-psychology
14162 : health-read
14163 : health-reads
14164 : health-related
14165 : health-science
14166 : health-spiritual
14167 : health-wellbeing
14168 : health-wellness
14169 : healthcare
14170 : healthy
14171 : healthy-cooking
14172 : healthy-eating
14173 : healthy-lifestyle
14174 : healthy-living
14175 : heap
14176 : heard-about
14177 : hearn-lian
14178 : hearne
14179 : hearne-kevin
14180 : heart
14181 : heart-breaking
14182 : heart-pounding-action
14183 : heart-s

15431 : incarceron
15432 : incarceron-series
15433 : incarnations
15434 : incarnations-of-immortality
15435 : incas
15436 : incest
15437 : incipitinwikiquote
15438 : includes-of-dimensions-universes
15439 : income-inequality
15440 : incomplete
15441 : incomplete-series
15442 : incredible
15443 : incredible-hulk
15444 : ind
15445 : indebted
15446 : indelible-plot
15447 : indentured-servants
15448 : independence
15449 : independent-reading
15450 : independent-reading-options
15451 : independently-read
15452 : indexed
15453 : india
15454 : india-and-pakistan
15455 : india-books
15456 : india-fiction
15457 : india-history
15458 : india-non-fiction
15459 : india-pakistan-afghanistan
15460 : india-related
15461 : indian
15462 : indian-author
15463 : indian-authors
15464 : indian-authors-about-india
15465 : indian-book-challenge
15466 : indian-books
15467 : indian-english
15468 : indian-fiction
15469 : indian-history
15470 : indian-history-politics
15471 : indian-in-the-cupboard
15472 : india

16734 : july-2017
16735 : july-i
16736 : jun-mochizuki
16737 : june
16738 : june-2011
16739 : june-2012
16740 : june-2013
16741 : june-2014
16742 : june-2015
16743 : june-2017-wrap-up
16744 : june2017tbr
16745 : jung
16746 : junger
16747 : jungian
16748 : jungian-psychology
16749 : jungle
16750 : jungle-animals
16751 : junie
16752 : junie-b
16753 : junie-b--jones
16754 : junie-b-jones
16755 : junior
16756 : junior-books
16757 : junior-fiction
16758 : junior-year
16759 : junior-year-reading-challenge
16760 : junk
16761 : junk-drawer
16762 : junk-food-lit
16763 : jurassic-park
16764 : jurisprudence
16765 : jurors
16766 : jury
16767 : jussi-adler-olsen
16768 : just-because
16769 : just-boring
16770 : just-couldn-t-do-it
16771 : just-don-t-ask
16772 : just-fiction
16773 : just-for-fun
16774 : just-for-kicks
16775 : just-listen
16776 : just-me-and-my-dad
16777 : just-no
16778 : just-ok
16779 : just-one-day
16780 : just-one-day-series
16781 : just-ordered
16782 : just-plain-bad
16783 : just-

18044 : libraries-books-about-books
18045 : library
18046 : library-2
18047 : library-2016
18048 : library-audio
18049 : library-audiobooks
18050 : library-available
18051 : library-book
18052 : library-book-club
18053 : library-bookcase-1
18054 : library-books
18055 : library-borrow
18056 : library-borrowed
18057 : library-carlow
18058 : library-checkout
18059 : library-childrens
18060 : library-cookbooks
18061 : library-copy
18062 : library-doesn-t-have
18063 : library-doesnt-own-and-cant-recomme
18064 : library-e-book
18065 : library-east
18066 : library-ebook
18067 : library-ebooks
18068 : library-entries
18069 : library-fiction
18070 : library-has
18071 : library-has-it
18072 : library-holds
18073 : library-home
18074 : library-kindle-books
18075 : library-list
18076 : library-loan
18077 : library-loans
18078 : library-materials-for-children
18079 : library-o
18080 : library-of-alexandria
18081 : library-of-america
18082 : library-of-payne
18083 : library-or-loaned
18084 : library

19364 : marvel-hulk
19365 : marvel-illustrated
19366 : marvel-now
19367 : marvel-ultimate
19368 : marvel-universe
19369 : marvel-unlimited
19370 : marvel-x-men
19371 : marvelcomics
19372 : marx
19373 : marxism
19374 : mary
19375 : mary-anning
19376 : mary-beth-chapman
19377 : mary-boleyn
19378 : mary-carol-higgins-clark
19379 : mary-doria-russell
19380 : mary-downing-hahn
19381 : mary-e-pearson
19382 : mary-higgens-clark
19383 : mary-higgings-clark
19384 : mary-higgins-clark
19385 : mary-higgins-clark-books
19386 : mary-higgins-clarke
19387 : mary-hoffman
19388 : mary-janice-davidson
19389 : mary-kay-andrews
19390 : mary-kubica
19391 : mary-lawson
19392 : mary-o-hara
19393 : mary-pope-osborne
19394 : mary-poppins
19395 : mary-queen-of-scots
19396 : mary-roach
19397 : mary-russell
19398 : mary-russell-series
19399 : mary-stewart
19400 : mary-todd-lincoln
19401 : mary-westmacott
19402 : maryamah-karpov
19403 : maryhigginsclark
19404 : maryjanice
19405 : maryjanice-davidson
19406 : maryla

20664 : murderers
20665 : murderino
20666 : murders
20667 : murdoch
20668 : muriel-barbery
20669 : muriel-spark
20670 : musashi
20671 : museum
20672 : museums
20673 : music
20674 : music-and-art
20675 : music-and-movement
20676 : music-art
20677 : music-bio
20678 : music-biographies
20679 : music-biography
20680 : music-bios
20681 : music-books
20682 : music-books-to-read
20683 : music-ed
20684 : music-entertainment
20685 : music-film
20686 : music-history
20687 : music-jazz
20688 : music-memoirs
20689 : music-musicians
20690 : music-non-fiction
20691 : music-nonfiction
20692 : music-popular
20693 : music-related
20694 : music-romance
20695 : music-sheetmusic-piano-violin
20696 : music-sheets
20697 : music-shelf
20698 : music-star-bio
20699 : music-therapy
20700 : music-things
20701 : music-to-read
20702 : musica
20703 : musical
20704 : musical-theater
20705 : musical-theatre
20706 : musicals
20707 : musicals-plays
20708 : musicbooks
20709 : musicbusiness
20710 : musician
20711 : music

21968 : not-worth
21969 : not-worth-any-more-time
21970 : not-worth-finishing
21971 : not-yet-released
21972 : not_yet_read_but_own
21973 : notable-covers
21974 : notable-novels
21975 : notebooks
21976 : notes
21977 : nothing-lasts-forever
21978 : nothomb
21979 : noughts-and-crosses
21980 : nour
21982 : nouveau-roman
21983 : nouvel
21984 : nouvelles
21985 : nouwen
21986 : nov-2013
21987 : nova-scotia
21988 : novecento
21989 : novel
21990 : novel-books
21991 : novel-fiksi
21992 : novel-grafis
21993 : novel-in-verse
21994 : novel-indo
21995 : novel-indonesia
21996 : novel-intelligent-humor
21997 : novel-islami
21998 : novel-literature-read
21999 : novel-lokal
22000 : novel-melayu
22001 : novel-metropop
22002 : novel-motivasi
22003 : novel-populer
22004 : novel-religi
22005 : novel-sastra
22006 : novel-tere-liye
22007 : novel-terjemahan
22008 : novel-thriller
22009 : novela
22010 : novela-grafica
22012 : novela-historica
22014 : novela-negra
22015 : novelas
22018 : novelasgraficas-comics


23306 : perseverance
23307 : persia
23308 : persia-iran
23309 : persian
23310 : persian-authurs-and-poets
23311 : persian-books
23312 : persian-children-s-book
23313 : persian-language
23314 : persian-literature
23315 : persian-novel
23316 : persian-novels
23317 : persian-poem
23318 : persian-poems
23319 : persian-poetry
23320 : persian-reads
23321 : persiannovel
23322 : persians
23323 : personal
23324 : personal-2017
23325 : personal-ads
23326 : personal-bookshelf
23327 : personal-branding
23328 : personal-challenge
23329 : personal-change
23330 : personal-christianity
23331 : personal-collection
23332 : personal-dev
23333 : personal-developement
23334 : personal-development
23335 : personal-development-self-help
23336 : personal-effectiveness
23337 : personal-favorite
23338 : personal-favorites
23339 : personal-finance
23340 : personal-finance-investing
23341 : personal-finances
23342 : personal-financial-planning
23343 : personal-growth
23344 : personal-growth-wellness-spirit
23345 

24606 : puffin-classics
24607 : pug
24608 : puisi
24609 : pulitzer
24610 : pulitzer-bio
24611 : pulitzer-biography
24612 : pulitzer-books
24613 : pulitzer-challenge
24614 : pulitzer-drama
24615 : pulitzer-fiction
24616 : pulitzer-fiction-winners
24617 : pulitzer-finalist
24618 : pulitzer-finalists
24619 : pulitzer-for-fiction
24620 : pulitzer-history
24621 : pulitzer-nominees
24622 : pulitzer-non-fiction
24623 : pulitzer-nonfiction
24624 : pulitzer-prize
24625 : pulitzer-prize-books
24626 : pulitzer-prize-fiction
24627 : pulitzer-prize-for-fiction
24628 : pulitzer-prize-history
24629 : pulitzer-prize-nonfiction
24630 : pulitzer-prize-novels
24631 : pulitzer-prize-winner
24632 : pulitzer-prize-winners
24633 : pulitzer-prize-winners-fiction
24634 : pulitzer-prize-winning
24635 : pulitzer-prizes
24636 : pulitzer-project
24637 : pulitzer-to-read
24638 : pulitzer-winner
24639 : pulitzer-winners
24640 : pulitzer-winners-and-finalists
24641 : pulitzer-winners-fiction
24642 : pulitzers
24643 :

25911 : rick-atkinson
25912 : rick-bragg
25913 : rick-riordan
25914 : rick-riordan-books
25915 : rick-s-books
25916 : rick-warren
25917 : rick-yancey
25918 : ricky-s-books
25919 : rico
25920 : riddle-a-g
25921 : ridley-pearson
25922 : rifki
25923 : riftwar
25924 : riftwar-cycle
25925 : riftwar-legacy
25926 : riftwar-saga
25927 : right-1
25928 : rights
25929 : rikki-tikki
25930 : rikki-tikki-tavi
25931 : riley
25932 : riley-jensen
25933 : riley-jenson
25934 : riley-jenson-guardian
25935 : riley-jenson-guardian-series
25936 : riley-jenson-series
25937 : rilke
25938 : rincewind
25939 : ring
25940 : rings
25941 : ringworld
25942 : riordan
25943 : riordan-rick
25944 : riot-read
25945 : rip
25946 : ripper
25947 : rise-of-the-empire-era
25948 : rishel
25949 : risk
25950 : rita-mae-brown
25951 : rites
25952 : rithmatist
25953 : rivalry
25954 : river
25955 : river-dolphins
25956 : river-of-time
25957 : rivers
25958 : rivers-francine
25959 : rivers-of-london
25960 : riverworld
25961 : riviera
25

27213 : series-brainship
27214 : series-bridgertons
27215 : series-cedar-cove
27216 : series-charlize-edwards
27217 : series-chronicles-of-nick
27218 : series-chronicles-of-vladimir-tod
27219 : series-clifford
27220 : series-complete
27221 : series-completed
27222 : series-cont
27223 : series-courtney
27224 : series-dark-hunter
27225 : series-dark-hunters
27226 : series-dark-tower
27227 : series-deer-lake
27228 : series-demonica
27229 : series-dexter
27230 : series-discworld
27231 : series-divergent
27232 : series-dragonlance
27233 : series-dresden-files
27234 : series-dune
27235 : series-ender
27236 : series-fables
27237 : series-fever
27238 : series-finished
27239 : series-first
27240 : series-flat-stanley
27241 : series-foundation
27242 : series-fully-complete
27243 : series-goosebumps
27244 : series-gossip-girl
27245 : series-guild-hunter
27246 : series-halo
27247 : series-hard-ink
27248 : series-harry-bosch
27249 : series-harry-potter-peripherals
27250 : series-highlander
27251 : 

28516 : stalin
28517 : stalin-american-history
28518 : stalingrad
28519 : stalinism
28520 : stalker
28521 : stalkers
28522 : stalking
28523 : stalled
28524 : stan-berenstain
28525 : stand-alone
28526 : stand-alone-books
28527 : stand-alone-novels
28528 : stand-alones
28529 : stand-by
28530 : stand-up
28531 : stand-up-comedian
28532 : standalone
28533 : standalones
28534 : stanford-prison-experiment
28535 : stanislaw-lem
28536 : stanza-c
28537 : stapleton-montgomery
28538 : star
28539 : star-child
28540 : star-trek
28541 : star-wars
28542 : star-wars-books
28543 : star-wars-books-i-own
28544 : star-wars-cannon
28545 : star-wars-canon
28546 : star-wars-collection
28547 : star-wars-disney-canon
28548 : star-wars-eu
28549 : star-wars-expanded-universe
28550 : star-wars-fiction
28551 : star-wars-legacy
28552 : star-wars-legends
28553 : star-wars-legends-novels
28554 : star-wars-new-canon
28555 : star-wars-new-jedi-order
28556 : star-wars-novels
28557 : star-wars-old-canon
28558 : star-wars-

29823 : the-great-war
29824 : the-greats
29825 : the-greeks
29826 : the-green-mile
29827 : the-grey-wolves
29828 : the-grey-wolves-series
29829 : the-grisha
29830 : the-gruffalo
29831 : the-guard
29832 : the-guardian
29833 : the-hacker-series
29834 : the-hangman-s-daughter
29835 : the-hangmans-daughter
29836 : the-happiness-project
29837 : the-happy-belly
29838 : the-hathaways
29839 : the-hathaways-series
29840 : the-heir
29841 : the-heir-chronicles
29842 : the-help
29843 : the-heroes-of-olympus
29844 : the-hoard
29845 : the-hobbit
29846 : the-hollow
29847 : the-hollow-series
29848 : the-hollows
29849 : the-hollows-series
29850 : the-holocaust
29851 : the-horror
29852 : the-horus-heresy
29853 : the-host
29854 : the-house-of-night
29855 : the-hulk
29856 : the-human-mind
29857 : the-hundred
29858 : the-hunger-games
29859 : the-hunger-games-trilogy
29860 : the-hunger-pains
29861 : the-i-love-books
29862 : the-i-wish-to-have-books
29863 : the-immortal-series
29864 : the-immortals
29865 : t

31129 : transitional
31130 : transitional-chapter
31131 : transitional-chapter-book
31132 : transitional-chapter-books
31133 : translated
31134 : translated-books
31135 : translated-by-me
31136 : translated-fiction
31137 : translated-in-greek
31138 : translated-manga-manhwa
31139 : translated-novels
31140 : translation
31141 : translations
31142 : transmetropolitan
31143 : transpersonal
31144 : transplantation
31145 : transportation
31146 : transylvania
31147 : trash
31148 : trashy
31149 : trashy-novels
31150 : trashy-reads
31151 : trashy-romance
31152 : trauma
31153 : trauma-counselors
31154 : trauma-recovery
31155 : travel
31156 : travel-adventure
31157 : travel-africa
31158 : travel-agent-challenge-books-read
31159 : travel-and-adventure
31160 : travel-and-exploration
31161 : travel-and-language
31162 : travel-books
31163 : travel-essays
31164 : travel-europe
31165 : travel-fiction
31166 : travel-france
31167 : travel-geography
31168 : travel-guide
31169 : travel-guides
31170 : trav

32393 : what-to-read-next-backup2
32394 : what-would-jesus-do
32395 : whats-cookin-good-lookin
32396 : whats-cooking
32397 : wheat-belly
32398 : whedon
32399 : whedonverse
32400 : wheel
32401 : wheel-of-time
32402 : wheel-of-time-series
32403 : when-i-found-you
32404 : when-i-was-a-child
32405 : when-i-was-a-kid
32406 : when-i-was-a-little
32407 : when-i-was-little
32408 : when-i-was-young
32409 : when-i-was-younger
32410 : when-kids-were-very-small
32411 : when-the-game-was-ours
32412 : when-the-wind-blows
32413 : when-we-were-very-young
32414 : where-offline
32415 : whimsical
32416 : whish-list
32417 : whispersync
32418 : whitbread
32419 : whitcoulls-top-100
32420 : white
32421 : white-collar
32422 : white-girl-problems
32423 : white-house
32424 : white-karen
32425 : white-rabbit-chronicles
32426 : whites
32427 : whitman-road-book-group
32428 : whitney-gracia-williams
32429 : who
32430 : who-done-it
32431 : who-dun-it
32432 : who-moved-my-cheese
32433 : whodunit
32434 : whodunnit
324

In [22]:
# keep tags that are only english tags
t_copy = t_copy[(True == t_copy['tag_name'].str.match(r"^[a-zA-Z0-9$@$!%*?&#':;^\-—_,'\\/\". +()]+$"))]
print(t_copy.shape)
t_copy.head()

(32944, 2)


Unnamed: 0,tag_id,tag_name
19,19,--available-at-raspberrys--
20,20,-2001--
21,21,-calif--
22,22,-d-c--
23,23,-dean


### Checkpoint ~~ 

In [23]:
# Initial cleaning
print(t_copy.shape)
for index, row in t_copy.iterrows():
    print(str(row['tag_id']) + " : " + row['tag_name'])    

(32944, 2)
19 : --available-at-raspberrys--
20 : -2001--
21 : -calif--
22 : -d-c--
23 : -dean
24 : -england-
25 : -fiction
26 : -fictional
27 : -fictitious
28 : -football-
29 : -george
30 : -gr-
31 : -history
32 : -imaginary
33 : -italy-
34 : -la--
35 : -los
36 : -mass--
37 : -murder-
38 : -n-y--
39 : -non-poetry-
40 : -performing
41 : -post
42 : -psychology-
43 : -read
44 : -single
45 : -specific
46 : -television
47 : 0
48 : 0-0-0-0cant-find
49 : 0-0-bingo
50 : 0-4-star-rating
51 : 0-a-find-2016-summer-00
52 : 0-all2
53 : 0-best-picture-younger
54 : 0-boxed
55 : 0-c
56 : 0-eric-s-books
57 : 0-house-lbkc
58 : 0-kindle
59 : 0-love-funny
60 : 0-made-me-cry-moved-me
61 : 0-nonfiction
62 : 0-owned
63 : 0-paperback
64 : 0-pgs-200-to-299
65 : 0-physical-own
66 : 0-plays
67 : 0-plc
68 : 0-tbr-axz-usa
69 : 00-exploring-1
70 : 00-graphic-novels-read
71 : 00-in-class
72 : 00-to-read-00
73 : 00-to-read-02
74 : 0000
75 : 0000-to-buy
76 : 00000
77 : 0000_notverified
78 : 000src-su-25-11-3-x
79 : 00

1322 : a-g-riddle
1323 : a-galaxy-far-far-away
1324 : a-game-of-thrones
1325 : a-gift
1326 : a-girl-detective
1327 : a-good-story-about-inhabitants-of-d
1328 : a-great-book-that-will-surely-make
1329 : a-gregory-maguire
1330 : a-have
1331 : a-historical-novel-about-building-t
1332 : a-j-banner
1333 : a-j-jacobs
1334 : a-kh-tawfik
1335 : a-kindle
1336 : a-kindle-owned-book
1337 : a-kitchen
1338 : a-l-jackson
1339 : a-little-golden-book
1340 : a-long-time-ago
1341 : a-long-walk-to-water
1342 : a-louise-l-hay
1343 : a-love-story
1344 : a-m-homes
1345 : a-male-fiction
1346 : a-man-named-dave
1347 : a-manette-ansay
1348 : a-mango-shaped-space
1349 : a-mano
1350 : a-mccall-smith
1351 : a-meredith-walters
1352 : a-modern-witch-series
1353 : a-must-for-beatle-fans
1354 : a-must-read
1355 : a-n-roquelaure
1356 : a-novel-in-short-stories
1357 : a-own
1358 : a-p
1359 : a-p-j-abdul-kalam
1360 : a-part-shelved
1361 : a-piece-of-me
1362 : a-r-t-about-many
1363 : a-real-hero-and-a-real-human-bean
136

2557 : animal-human-bond
2558 : animal-intelligence
2559 : animal-lover
2560 : animal-lovers
2561 : animal-mystery
2562 : animal-narrator
2563 : animal-non-fiction
2564 : animal-nonfiction
2565 : animal-pov
2566 : animal-related
2567 : animal-rescue
2568 : animal-rights
2569 : animal-s-perspective
2570 : animal-sounds
2571 : animal-spirit
2572 : animal-spirit-guides
2573 : animal-stories
2574 : animal-story
2575 : animal-studies
2576 : animal-tales
2577 : animal-totems
2578 : animal-welfare
2579 : animalia
2580 : animals
2581 : animals-and-pets
2582 : animals-and-wildlife
2583 : animals-cats
2584 : animals-dogs
2585 : animals-farm
2586 : animals-horses
2587 : animals-misc
2588 : animals-nature
2589 : animals-pets
2590 : animals-pets-fish-bugs-etc
2591 : animation
2592 : animation-books
2593 : anime
2594 : anime-bleach
2595 : anime-manga
2596 : animism
2597 : animu
2599 : anis-mansour
2600 : anita
2601 : anita-amirrezvani
2602 : anita-blake
2603 : anita-blake-series
2604 : anita-blake-v

3844 : ball-four
3845 : ballard
3846 : ballet
3847 : ballet-dancers
3848 : balletgirl
3849 : balloons
3850 : baltimore
3851 : balzac
3852 : bambi
3853 : banana-yoshimoto
3854 : band
3855 : band-of-brothers
3856 : banda-desenhada
3857 : bande-dessin-e
3858 : bande-dessinee
3860 : bandes-dessinees
3862 : bandini
3863 : bands
3864 : bane
3865 : bane-chronicles
3866 : bang
3867 : bangalore
3868 : banging-book-club
3869 : bangla
3870 : bangladesh
3871 : bank
3872 : bank-bailout
3873 : bank-foreclosures
3874 : bank-robbers
3875 : bank-robbery
3876 : bank-system
3877 : banking
3878 : bankruptcy
3879 : banks
3880 : banks-iain-m
3881 : banks-maya
3882 : banksy
3883 : banned
3884 : banned-book
3885 : banned-books
3886 : banned-challenged
3887 : banned-challenged-books
3888 : banned-or-challenged
3889 : banshee
3890 : banshees
3891 : bansky
3892 : bantam-war-books
3893 : banter
3894 : baptist
3895 : bar-code
3896 : bar-codes
3897 : barack
3898 : barack-obama
3899 : barbados
3900 : barbara
3901 : 

5146 : books-for-me
5147 : books-for-mom
5148 : books-for-my-children
5149 : books-for-my-classroom
5150 : books-for-new-students
5151 : books-for-sale
5152 : books-for-sale-from-my-bookstore
5153 : books-for-school
5154 : books-for-teaching
5155 : books-for-the-boys
5156 : books-for-work
5157 : books-for-writers
5158 : books-from-childhood
5159 : books-from-egypt
5160 : books-from-gilmore-girls
5161 : books-from-my-childhood
5162 : books-from-my-youth
5163 : books-grandma-read
5164 : books-home-to-read
5165 : books-i-adore
5166 : books-i-already-have-to-read
5167 : books-i-always-meant-to-read
5168 : books-i-borrowed
5169 : books-i-bought
5170 : books-i-couldn-t-continue
5171 : books-i-didn-t-finish
5172 : books-i-do-not-own
5173 : books-i-don-t-have
5174 : books-i-donated
5175 : books-i-dont-want-to-read
5176 : books-i-enjoyed-reading
5177 : books-i-got
5178 : books-i-had-to-get-rid-of
5179 : books-i-hated
5180 : books-i-have
5181 : books-i-have-at-home
5182 : books-i-have-collected


6374 : castaneda-carlos
6375 : castanho-creme
6376 : castaways
6377 : caste
6378 : caste-issues
6379 : caste-system
6380 : casteel
6381 : casteel-series
6382 : castellano
6383 : caster-chronicles
6384 : casters
6385 : castillo-linda
6386 : castle
6387 : castle-books
6388 : castle-richard
6389 : castle-rock
6390 : castle-series
6391 : castle-tv-show-tie-in
6392 : castles
6393 : castrati
6394 : casualties
6395 : cat
6396 : cat-and-bones
6397 : cat-books
6398 : cat-mysteries
6399 : cat-patrick
6400 : cat-who
6401 : cat-who-series
6402 : catalog
6403 : cataloged
6404 : catalogue
6405 : catalogued
6406 : catalonia
6407 : catastrophe
6408 : catch-me
6409 : catch-up-challenge
6410 : category-non-fiction
6411 : category-romance
6412 : caterers-and-catering-fiction
6413 : caterpillar
6414 : cates-georgia
6415 : cathedral
6416 : cathedrals
6417 : cather
6418 : catherine-bybee
6419 : catherine-coulter
6420 : catherine-coulter-fbi
6421 : catherine-coulter-fbi-series
6422 : catherine-coulter-fbi-th

7684 : collins-suzanne
7685 : colm-toibin
7686 : colombia
7687 : colombian
7688 : colombian-literature
7689 : colombianos
7690 : colonial
7691 : colonial-america
7692 : colonial-history
7693 : colonialism
7694 : colonies
7695 : colonisation
7696 : colonization
7697 : colony-planet
7698 : color
7699 : color-pixs
7700 : color-theory
7701 : colorado
7702 : colorado-mountain
7703 : coloreinlife
7704 : colors
7705 : colour
7706 : colours
7707 : colum-mccann
7708 : columbia
7709 : columbine
7710 : columbine-shooting
7712 : com-mang
7713 : coma
7714 : comanche
7715 : comanches
7716 : combat
7717 : combined-book-list
7718 : come-undone
7719 : come-undone-series
7720 : comedian
7721 : comedians
7722 : comedic
7723 : comedic-fantasy
7724 : comedies
7725 : comedy
7726 : comedy-comedians
7727 : comedy-fantasy
7728 : comedy-humor
7729 : comedy-manga
7730 : comedy-of-manners
7731 : comet
7732 : cometh-the-hour
7733 : comfort
7734 : comfort-books
7735 : comfort-food
7736 : comfort-read
7737 : comfort

8952 : dark-romance
8953 : dark-saga
8954 : dark-series
8955 : dark-swan
8956 : dark-swan-series
8957 : dark-tower
8958 : dark-tower-and-related
8959 : dark-tower-extended-reading-order
8960 : dark-tower-reading-list
8961 : dark-tower-reading-order
8962 : dark-tower-related
8963 : dark-tower-series
8964 : dark-tower-universe
8965 : dark-twisted
8966 : dark-visions
8967 : darkest-powers
8968 : darkest-powers-series
8969 : darkness
8970 : darkness-rising
8971 : darkness-rising-series
8972 : darkside
8973 : darktower
8974 : darling-copy
8975 : darren-shan
8976 : darren-shan-books
8977 : darren-shan-series
8978 : darth
8979 : darth-bane
8980 : darth-paper
8981 : darwin
8982 : darwinism
8983 : darwyn-cooke
8984 : darynda-jones
8985 : das
8986 : dash-s-bookshelf
8987 : dashiell-hammett
8988 : data
8989 : data-science
8990 : date-rape
8991 : date-read
8992 : dates-read-unknown
8993 : dating
8994 : dating-marriage
8995 : dating-relationships
8996 : daughter
8997 : daughter-of-smoke-and-bone
89

10260 : ecuador
10261 : ed
10262 : ed-310
10263 : ed-689
10264 : ed-arg
10265 : ed-books
10266 : ed-brubaker
10267 : ed-esp
10268 : edci-311
10269 : edci-325
10270 : eddings
10271 : eddings-david
10272 : edebiyat
10273 : edelweiss
10274 : edensor
10275 : edgar
10276 : edgar-allan-poe
10277 : edgar-allen-poe
10278 : edgar-award
10279 : edgar-degas
10280 : edgar-rice-burroughs
10281 : edgar-winners
10282 : edge-of-eternity
10283 : edibles
10284 : edie-claire
10285 : edification
10286 : edifying
10287 : edinburgh
10288 : edited
10289 : edith-hamilton
10290 : edith-wharton
10291 : editing
10292 : editing-references
10293 : editors
10294 : edli-200-bibliography
10295 : edmund-morris
10296 : edrd-314
10297 : edrd-614
10298 : edrd314
10299 : eds
10300 : edu
10301 : edu-365
10302 : educacion
10304 : education
10305 : education-books
10306 : education-for-girls
10307 : education-for-girls-in-afghanistan
10308 : education-for-women
10309 : education-parenting
10310 : education-policy
10311 : edu

11564 : favorites-from-childhood
11565 : favorites-in-literature
11566 : favorites-manga
11567 : favorites-nonfiction
11568 : favorites-read
11569 : favorites-to-read
11570 : favoritos
11571 : favorits
11572 : favourate
11573 : favourit
11574 : favourite
11575 : favourite-3
11576 : favourite-arabic
11577 : favourite-authors
11578 : favourite-authors-and-books
11579 : favourite-books
11580 : favourite-books-of-all-time
11581 : favourite-childhood-books
11582 : favourite-children-s-books
11583 : favourite-fantasy
11584 : favourite-fantasy-novels
11585 : favourite-graphic-novel-comics-seri
11586 : favourite-horror-and-thriller
11587 : favourite-manga
11588 : favourite-plays
11589 : favourite-series
11590 : favourites
11591 : favourites-from-childhood
11593 : favourits
11595 : favs
11596 : favs-i-ve-read
11597 : fawcett
11598 : fawcett-publishing
11599 : fbi
11600 : fbi-profiler
11601 : fbi-profiler-series
11602 : fbi-series
11603 : fbi-thriller
11604 : fbi-thriller-series
11605 : fbi-us-a

12833 : gardening-farming
12834 : gardens
12835 : gardner
12836 : gardner-lisa
12837 : gargoyles
12838 : garten-ina
12839 : garth-ennis
12840 : garth-nix
12841 : garth-stein
12842 : garwood
12843 : garwood--julie
12844 : garwood-julie
12845 : gary
12846 : gary-brandner
12847 : gary-chapman
12848 : gary-jennings
12849 : gary-larson
12850 : gary-paulsen
12851 : gary-paulson
12852 : gary-shteyngart
12853 : gary-zukav
12854 : gaskell
12855 : gaston-leroux
12856 : gastronomia
12857 : gastronomy
12858 : gate
12859 : gate-keepers
12860 : gatekeepers
12861 : gates
12862 : gates-books
12863 : gathering
12864 : gatsby
12865 : gauguin
12866 : gaul
12867 : gave-away
12868 : gave-up
12869 : gave-up-on
12870 : gave-up-on-it
12871 : gave-up-reading
12872 : gavin
12873 : gavin-menzies
12874 : gay
12875 : gay-and-lesbian
12876 : gay-fantasy
12877 : gay-fiction
12878 : gay-history
12879 : gay-lesbian
12880 : gay-lit
12881 : gay-literature
12882 : gay-marriage
12883 : gay-rights
12884 : gay-romance
12885

14062 : hauntings
14063 : havana
14064 : have
14065 : have-a-copy
14066 : have-a-cpy
14067 : have-and-need-to-read-first
14068 : have-and-on-list-to-read
14069 : have-at-home
14070 : have-audio
14071 : have-book
14072 : have-bought-have-to-read
14073 : have-but-didn-t-read-yet
14074 : have-but-need-to-read
14075 : have-but-not-read
14076 : have-but-not-yet
14077 : have-but-yet-to-read
14078 : have-ebook
14079 : have-em
14080 : have-for-kindle
14081 : have-got
14082 : have-in-soft-want-in-hard
14083 : have-it
14084 : have-it-waiting-to-read
14085 : have-list
14086 : have-need-to-read
14087 : have-not-read
14088 : have-not-yet-read
14089 : have-nots
14090 : have-on-kindle
14091 : have-purchased
14092 : have-read
14093 : have-read-later
14094 : have-seen-the-movie-too
14095 : have-this-book
14096 : have-to-buy
14097 : have-to-read
14098 : have-used
14099 : have-want-to-read
14100 : have-with-me-to-read
14101 : haven-kimmel
14102 : haven-t-read
14103 : haven-t-read-yet
14104 : haveread
141

15339 : improvement
15340 : impulse
15341 : impulse-series
15342 : in
15343 : in-2017
15344 : in-a-series
15345 : in-another-world
15346 : in-arabic
15347 : in-bahasa
15348 : in-belfast
15349 : in-bezit
15350 : in-biblioteca
15351 : in-bookshelf
15352 : in-btw
15353 : in-calibre
15354 : in-class
15355 : in-cloud
15356 : in-collectie
15357 : in-collection
15358 : in-death
15359 : in-death-series
15360 : in-dg-bookshelf
15361 : in-disguise
15362 : in-english
15363 : in-family-library
15364 : in-farsi
15365 : in-finnish
15366 : in-french
15367 : in-garage
15368 : in-german
15369 : in-his-steps
15370 : in-home-library
15371 : in-hopes-of-bettering
15372 : in-indonesian
15373 : in-italian
15374 : in-italiano
15375 : in-italy
15376 : in-l
15377 : in-lettura
15378 : in-library
15379 : in-library-system
15380 : in-libreria
15381 : in-limbo
15382 : in-love-w-the-main-character-s
15383 : in-mijn-boekenkast
15384 : in-my-20s
15385 : in-my-biblio
15386 : in-my-bookcase
15387 : in-my-bookshelf
1538

16622 : josei
16623 : josei-manga
16624 : joseph
16625 : joseph-boyden
16626 : joseph-campbell
16627 : joseph-campbell-reading-list
16628 : joseph-conrad
16629 : joseph-delaney
16630 : joseph-ellis
16631 : joseph-murphy
16632 : joseph-s
16633 : joseph-wambaugh
16634 : josephine
16635 : josephine-angelini
16636 : josephine-bonaparte
16637 : josephine-tey
16638 : josh
16639 : josh-bazell
16640 : josh-kilmer-purcell
16641 : josh-mcdowell
16642 : joshilyn-jackson
16643 : joshua
16644 : joshua-harris
16645 : joss-whedon
16646 : jostein-gaarder
16649 : journal
16650 : journaling
16651 : journalism
16652 : journalism-journalists
16653 : journalist
16654 : journalist-biography
16655 : journalists
16656 : journals
16657 : journals-and-diaries
16658 : journey
16659 : journeys
16660 : jousei
16661 : joy
16662 : joy-adamson
16663 : joyce
16664 : joyce-carol-oates
16665 : joyce-meyer
16666 : joyce-meyers
16667 : jp
16668 : jp-alex-cross
16669 : jp-michael-bennett
16670 : jp-private
16671 : jr
16672

17923 : leonard-elmore
17924 : leonardo
17925 : leonardo-da-vinci
17926 : leonidas
17927 : leopard
17928 : leprosy
17929 : leroy
17930 : les
17931 : les-enfants
17932 : les-rougon-macquart
17933 : lesbian
17934 : lesbian-books
17935 : lesbian-fiction
17936 : lesbian-gay
17937 : lesbian-romance
17938 : lesbians
17939 : lesfic
17940 : lesley-livingston
17941 : leslie-s-library
17942 : leslistinn
17943 : less-than-200
17944 : less-than-zero-stars
17945 : lestat
17946 : lethem
17947 : letrecher
17948 : lett-americana
17949 : lett-inglese
17950 : lett-italiana
17951 : lett-russa
17952 : letter-f
17953 : letter-l
17954 : letter-n
17955 : letter-of-marque
17956 : letter-writing
17957 : letteratura
17958 : letteratura-americana
17959 : letteratura-ceca
17960 : letteratura-francese
17961 : letteratura-giapponese
17962 : letteratura-inglese
17963 : letteratura-irlandese
17964 : letteratura-italiana
17965 : letteratura-russa
17966 : letteratura-statunitense
17967 : letteratura-tedesca
17968 : let

19207 : marasmania-library
19208 : marathi
19209 : marathon
19210 : marc-antony
19211 : marcel-proust
19212 : march
19213 : march-2012
19214 : march-2013
19215 : march-2014
19216 : march-2015
19217 : march-2016
19218 : march-match-ups
19219 : marcia-clark
19220 : marconi
19221 : marcus-luttrell
19222 : marcus-sakey
19223 : marga-readers
19224 : margaret-atwood
19225 : margaret-beaufort
19226 : margaret-george
19227 : margaret-mitchell
19228 : margaret-peterson-haddix
19229 : margaret-stohl
19230 : margaret-weis
19231 : margaret-wise-brown
19232 : margie
19233 : marguerite-duras
19234 : marguerite-henry
19235 : mari-book
19236 : maria
19237 : maria-snyder
19238 : maria-v--snyder
19239 : maria-v-snyder
19240 : marian-keyes
19241 : mariana-zapata
19242 : mariankeyes
19243 : marianne-williamson
19244 : marie-antoinette
19245 : marie-force
19246 : marie-lu
19247 : mariestad
19248 : marijuana
19249 : marillier
19250 : marilyn-manson
19251 : marilynne-robinson
19252 : marina
19253 : marina-le

20463 : mormon-lit
20464 : mormon-studies
20465 : mormon-stuff
20466 : mormonism
20467 : mormons
20468 : morning-miracle
20469 : morning-noon-night
20470 : morocco
20471 : morris-gleitzman
20472 : morrison
20473 : morrow
20474 : mortal-engines
20475 : mortal-instrument
20476 : mortal-instruments
20477 : mortal-instruments-series
20478 : mortality
20479 : mortality-doctrine
20480 : moscow
20481 : mosley
20482 : mossad
20483 : most-anticipated
20484 : most-anticipated-2015
20485 : most-anticipated-2016
20486 : most-anticipated-2017
20487 : most-anticipated-books
20488 : most-beloved
20489 : most-beloved-books
20490 : most-favorite
20491 : most-favourite
20492 : most-impacted-by
20493 : most-recommended-reads
20494 : most-want-to-read
20495 : most-wanted
20496 : mostafa-mahmoud
20497 : mostly-innocent
20498 : mother
20499 : mother-and-daughter
20500 : mother-daughter
20501 : mother-daughter-book-club
20502 : mother-daughter-relationship
20503 : mother-daughter-relationships
20504 : mother

21725 : non-fiction-philosophy
21726 : non-fiction-picture-books
21727 : non-fiction-psychology
21728 : non-fiction-read
21729 : non-fiction-reading-list
21730 : non-fiction-religion
21731 : non-fiction-religious
21732 : non-fiction-science
21733 : non-fiction-self-help
21734 : non-fiction-sports
21735 : non-fiction-survival
21736 : non-fiction-tbr
21737 : non-fiction-technology
21738 : non-fiction-theatre-y
21739 : non-fiction-to-read
21740 : non-fiction-travel
21741 : non-fiction-war
21742 : non-fiction_art
21743 : non-fictions
21744 : non-fiksi
21745 : non-in-chch-libraries
21746 : non-ish-fiction
21747 : non-ita
21748 : non-komik
21749 : non-m-m
21750 : non-monogamy
21751 : non-novels-read
21752 : non-poetry
21753 : non-profit-management
21754 : non-romance
21755 : non-series
21756 : non-superhero-comics
21757 : non-violence
21758 : non-western
21759 : non-white-authors
21760 : non-white-protagonists
21761 : non_fiction
21762 : nonduality
21763 : none
21764 : nonebk
21765 : nonfcti

22994 : paranormal-ya
22995 : paranormalcy
22996 : paranormalcy-series
22997 : paranormalromance
22998 : paranormals
22999 : parapsychology
23000 : parasites
23001 : parasol-protectorate
23002 : pardon
23003 : parental-neglect
23004 : parenthood
23005 : parenting
23006 : parenting-and-babies
23007 : parenting-and-education
23008 : parenting-and-family
23009 : parenting-and-kids
23010 : parenting-and-marriage
23011 : parenting-babies
23012 : parenting-baby
23013 : parenting-books
23014 : parenting-books-to-read
23015 : parenting-childcare
23016 : parenting-education
23017 : parenting-family
23018 : parenting-kids
23019 : parenting-pregnancy
23020 : parenting-read
23021 : parenting-to-read
23022 : parents
23023 : parents-library
23024 : paretsky
23025 : paretsky-sara
23026 : paris
23027 : paris-books
23028 : paris-france
23029 : paris-je-t-aime
23030 : park
23031 : parks
23032 : parma
23033 : parodies
23034 : parody
23035 : parr
23036 : parsons-tony
23037 : part-of-a-series
23038 : part-

24253 : preston-and-childs
24254 : preston-child
24255 : preston-child-gideon
24256 : preston-child-pendergast
24257 : preston-childs
24258 : preston-douglas
24259 : preston-richard
24260 : prestonchild
24261 : preteen
24262 : pretenchus
24263 : pretending-to-be-someone-else
24264 : pretty
24265 : pretty-covers
24266 : pretty-l-l
24267 : pretty-little-lairs
24268 : pretty-little-liars
24269 : pretty-little-liars-books
24270 : pretty-little-liars-series
24271 : pretty-pictures
24272 : prevention
24273 : previously-owned
24274 : previously-owned-books
24275 : previously-read
24276 : previously-read-1980-2014
24277 : previously-read-books
24278 : previously-started
24279 : prey
24280 : prey-books
24281 : prey-novels
24282 : prey-series
24283 : price
24284 : price-drop
24285 : price-kalayna
24286 : price-theory
24287 : pride
24288 : pride-and-prejudice
24289 : pride-and-prejudice-and-zombies
24290 : pride-prejudice
24291 : pride-series
24292 : priests
24293 : primary
24294 : primary-chapte

25517 : recommended-to-me
25518 : recommended-unpurchased
25519 : reconstruction
25520 : recording
25521 : records
25522 : recovering-alcoholics
25523 : recovery
25524 : recreation
25525 : recreational
25526 : recreational-reading
25527 : recs
25528 : recs-from-friends
25529 : recycling
25530 : red
25531 : red-315
25532 : red-316
25533 : red-dot
25534 : red-dress
25535 : red-dress-ink
25536 : red-dwarf
25537 : red-mist
25538 : red-notice
25539 : red-queen
25540 : red-queen-series
25541 : red-riding-hood
25542 : red-rising
25543 : red-rising-trilogy
25544 : red-sparrow
25545 : reddit
25546 : reddit-top-200
25547 : redeeming-love
25548 : redemption
25549 : redemption-series
25550 : redfield
25551 : redhead
25552 : redheads
25553 : redrach
25554 : redwall
25555 : redwall-books
25556 : redwall-series
25557 : ree
25558 : ree-drummond
25559 : reem
25560 : ref-comics-manga-manhwa-manhua
25561 : ref-k
25562 : reference
25563 : reference-book
25564 : reference-books
25565 : reference-books-to-a

26791 : sci-fi-favorites
26792 : sci-fi-fps-on-paper
26793 : sci-fi-horror
26794 : sci-fi-humor
26795 : sci-fi-masterworks
26796 : sci-fi-military
26797 : sci-fi-nerdy-side-of-me
26798 : sci-fi-read
26799 : sci-fi-romance
26800 : sci-fi-series
26801 : sci-fi-single
26802 : sci-fi-space
26803 : sci-fi-space-opera
26804 : sci-fi-tbr
26805 : sci-fi-teen-ya
26806 : sci-fi-thriller
26807 : sci-fi-time-travel
26808 : sci-fi-to-read
26809 : sci-fi_fantasy
26810 : sci-fic
26811 : sci-fiction
26812 : sci-fifantasy
26813 : sci-fy
26814 : sci-tech
26815 : sci_fi
26816 : science
26817 : science-all-to-be-read
26818 : science-and-engineering
26819 : science-and-math
26820 : science-and-maths
26821 : science-and-medicine
26822 : science-and-nature
26823 : science-and-philosophy
26824 : science-and-psychology
26825 : science-and-religion
26826 : science-and-tech
26827 : science-and-technology
26828 : science-astronomy
26829 : science-biology
26830 : science-books
26831 : science-cartography
26832 : s

28054 : sociology-psychology
28055 : sociopath
28056 : sociopaths
28057 : sociopathy
28058 : socrates
28059 : soft-copy
28060 : soft-porn
28061 : soft-science-fiction
28062 : soft-skills
28063 : softcover
28064 : software
28065 : software-craftmanship
28066 : software-craftsmanship
28067 : software-dev
28068 : software-development
28069 : software-engineering
28070 : sohrab-sepehri
28071 : sold
28072 : soldier
28073 : soldier-son
28074 : soldier-son-trilogy
28075 : soldiers
28076 : sole-regret
28077 : solitude
28078 : solo
28079 : solving-problems
28080 : somalia
28081 : somalian-refugees
28082 : somalis
28083 : some-books-i-read-a-long-time-ago
28084 : some-day
28085 : some-luck
28086 : some-of-my-favorite-reads
28087 : someday
28088 : someday-fiction
28089 : someday-maybe
28090 : someone
28091 : someone-to-love
28092 : somerset
28093 : somerset-maugham
28094 : somerville-library
28095 : something-to-think-about
28096 : sometimes-never
28097 : somik
28098 : son
28099 : sondheim
28100 

29371 : tbr-ya
29372 : tbs
29373 : tbt
29374 : tc-boyle
29375 : tc-netforce
29376 : tcc-bookclub
29377 : tch-lrn-307
29378 : tch_lrn-307
29379 : tea
29380 : tea-and-water
29381 : teacher
29382 : teacher-books
29383 : teacher-resources
29384 : teacher-student
29385 : teacher-student-romance
29386 : teachers
29387 : teachers-and-teaching
29388 : teaching
29389 : teaching-and-learning
29390 : teaching-and-learning-307
29391 : teaching-art
29392 : teaching-books
29393 : teaching-education
29394 : teaching-english
29395 : teagarden
29396 : team
29397 : team-6
29398 : team-building
29399 : teams
29400 : teamwork
29401 : tear-jerker
29402 : tear-jerkers
29403 : teardrop
29404 : teardrop-series
29405 : tearjerker
29406 : tearjerkers
29407 : tears
29408 : tears-of-a-tiger
29409 : tears-of-tiger
29410 : teasing
29411 : teatre
29412 : teatro
29413 : tebeos
29414 : tebeos-indy
29415 : tebeos-superheroes
29416 : tebeos-usa
29417 : tebow
29418 : tech
29419 : tech-books
29420 : tech-fiction
29421 : t

30644 : to-read-contemporary-nonfic
30645 : to-read-cook-books
30646 : to-read-cookbook
30647 : to-read-cookbooks
30648 : to-read-cooking
30649 : to-read-creativity
30650 : to-read-culinary
30651 : to-read-design
30652 : to-read-discworld
30653 : to-read-doing
30654 : to-read-don-t-own
30655 : to-read-dont-own
30656 : to-read-drama
30657 : to-read-dystopian
30658 : to-read-ebook
30659 : to-read-economics
30660 : to-read-education
30661 : to-read-essays
30662 : to-read-eventually
30663 : to-read-fairy-tales
30664 : to-read-faith
30665 : to-read-fan
30666 : to-read-fandom
30667 : to-read-fantasy
30668 : to-read-fantasy-series
30669 : to-read-fantasy-ya
30670 : to-read-fantasyscifi
30671 : to-read-feminism
30672 : to-read-fiction
30673 : to-read-fiction-biography
30674 : to-read-fiction-medium
30675 : to-read-finance
30676 : to-read-financial
30677 : to-read-first
30678 : to-read-food
30679 : to-read-for-fun
30680 : to-read-for-leisure
30681 : to-read-funny
30682 : to-read-get
30683 : to-

31953 : visual-art-all-the-way
31954 : visual-arts
31955 : visual-companion
31956 : visual-companions
31957 : visual-culture
31958 : visual-design
31959 : visual-wonders
31960 : visualization
31961 : visualizing
31962 : visuals
31963 : vivek-booklist
31964 : viz
31965 : viz-media
31966 : vk
31967 : vlad
31968 : vlad-tod
31969 : vladimir-nabokov
31970 : vladimir-tod
31971 : vladimir-todd
31972 : vlogbrothers
31973 : vocab
31974 : vocabulary
31975 : vocal-music
31976 : voice
31977 : voice-trait
31978 : void
31979 : void-trilogy
31980 : volcano
31981 : volcanoes
31982 : voltaire
31983 : volunteer
31984 : vonnegut
31985 : vonnegut-kurt
31986 : voodoo
31987 : vorkosigan
31988 : vorkosigan-saga
31989 : vowell
31990 : voyages
31991 : voyages-extraordinaires
31992 : vp-1
31993 : vp-second-grade
31994 : vru
31995 : vsauce
31996 : vt-reading-challenge
31997 : vulkan
31998 : vvf-reading
31999 : vwa
32000 : w
32001 : w-bruce-cameron
32002 : w-g-sebald
32003 : w-p-kinsella
32005 : w-psychology
3200

33214 : z-unsorted
33215 : z10-hardbacks
33216 : z11-11-11
33217 : z_other
33218 : z_read-2014
33219 : zadie-smith
33220 : zafon
33221 : zahn
33222 : zaklinac
33223 : zambia
33224 : zamonia
33225 : zamonien
33226 : zane
33227 : zane-books
33228 : zap
33229 : zappos
33230 : zaque-s
33231 : zboxe1
33232 : zboxno2
33233 : zboxw5
33234 : zealand
33235 : zebra
33236 : zebra-historical-romance
33237 : zee
33238 : zeeke
33239 : zeitgeist-pop
33240 : zekranizowane
33241 : zelazny
33242 : zelazny-roger
33243 : zelda-fitzgerald
33244 : zen
33245 : zen-buddhism
33246 : zeno-clients
33247 : zeppelin
33248 : zi
33249 : zibe
33250 : ziegesar
33251 : zimbabwe
33252 : zionism
33253 : zodiac
33254 : zoe
33255 : zoe-heller
33256 : zoe-sugg
33257 : zoeken
33258 : zoella-book-club
33259 : zoey-redbird
33260 : zola
33261 : zola-emile
33262 : zombie
33263 : zombie-apocalypse
33264 : zombie-books
33265 : zombie-fiction
33266 : zombie-horror
33267 : zombie-novels
33268 : zombies
33269 : zombies-and-such
33270

"tag_name" column can have several generic tags and/or several user defined tags. The user defined tags can be totally custom and specific to that user. Therefore they are not very meaningful to us when trying to deduce high level genres from these tags. 

In [24]:
#Books and their Tags
bt.head()

Unnamed: 0,goodreads_book_id,tag_id,count
0,1,30574,167697
1,1,11305,37174
2,1,11557,34173
3,1,8717,12986
4,1,33114,12716


In [25]:
#Book Tags grouped to get popularity of tags
bt_grouped = bt.groupby(by='tag_id').size().reset_index(name='count').sort_values(by='count',ascending=False)
bt_grouped.head()

Unnamed: 0,tag_id,count
30574,30574,9983
11557,11557,9881
22743,22743,9858
5207,5207,9799
8717,8717,9776


In [26]:
#Joined to capture count and tag_name
t_joined = t_copy.join(bt_grouped.set_index('tag_id'), on='tag_id').sort_values(by="count",ascending=False)
t_joined.head(20)

Unnamed: 0,tag_id,tag_name,count
30574,30574,to-read,9983
11557,11557,favorites,9881
22743,22743,owned,9858
5207,5207,books-i-own,9799
8717,8717,currently-reading,9776
18045,18045,library,9415
22753,22753,owned-books,9221
11743,11743,fiction,9097
30521,30521,to-buy,8692
17213,17213,kindle,8316


### Custom User Tags

As we can see the top 5 popular tags are all rather meaningless to us, therefore we must parse a level deeper to determine genre level tags. Therefore we must take a look to clean out more custom tags, and determine the best high level tags

In [27]:
#Get rid of punctuations from the tags
t_joined["tag_name"] = [tag.translate(str.maketrans(string.punctuation, ' '*len(string.punctuation))) for tag in t_joined["tag_name"]]
print(t_joined.shape)
t_joined.head()

(32944, 3)


Unnamed: 0,tag_id,tag_name,count
30574,30574,to read,9983
11557,11557,favorites,9881
22743,22743,owned,9858
5207,5207,books i own,9799
8717,8717,currently reading,9776


In [28]:
# Iterate by most popular tags going down
print(t_joined.shape)
for index, row in t_joined.iterrows():
    print(str(row["tag_id"]) + " : " + str(row["tag_name"]) + " : " + str(row["count"]))

(32944, 3)
30574 : to read : 9983
11557 : favorites : 9881
22743 : owned : 9858
5207 : books i own : 9799
8717 : currently reading : 9776
18045 : library : 9415
22753 : owned books : 9221
11743 : fiction : 9097
30521 : to buy : 8692
17213 : kindle : 8316
9221 : default : 8239
10197 : ebook : 8054
20774 : my books : 7561
3389 : audiobook : 7242
10210 : ebooks : 7203
32586 : wish list : 7192
20849 : my library : 7000
3392 : audiobooks : 6862
15169 : i own : 6670
1642 : adult : 6604
3371 : audio : 6548
11590 : favourites : 6422
22034 : novels : 5665
22689 : own it : 5514
8055 : contemporary : 5287
25151 : read in 2015 : 5239
27199 : series : 5080
10093 : e book : 4941
25152 : read in 2016 : 4940
25150 : read in 2014 : 4902
5090 : books : 4818
1659 : adult fiction : 4775
10094 : e books : 4616
25149 : read in 2013 : 4384
4949 : book club : 4365
3358 : audible : 4346
11305 : fantasy : 4259
26138 : romance : 4251
3379 : audio books : 4220
1416 : abandoned : 4168
21989 : novel : 4084
24960 : 

27472 : shapeshifter : 115
13366 : good books : 115
724 : 2013 releases : 114
3614 : autobiography biography : 114
9597 : distopia : 114
17807 : learning : 114
8209 : cooking : 114
19064 : manga and comics : 114
11784 : fiction horror : 114
24609 : pulitzer : 114
11906 : film : 113
33133 : young adult romance : 113
430 : 1940s : 113
11803 : fiction mystery : 113
5357 : books read in 2012 : 112
19659 : medicine : 112
2071 : all books : 112
25450 : really want to read : 112
25122 : read graphic novels : 112
16757 : junior fiction : 112
28533 : standalones : 111
860 : 2017 challenge : 111
6784 : child : 111
6745 : chick : 111
31741 : vampire romance : 111
2287 : american classics : 111
18670 : love triangles : 111
13596 : graphicnovel : 110
8491 : creativity : 110
6969 : childrens classics : 110
24447 : prose : 110
3169 : arts : 110
19141 : manga read : 110
28479 : spy novels : 110
5918 : bullying : 110
19165 : mangas : 110
25223 : read manga : 109
2593 : anime : 109
26371 : russia : 109


6104 : caldecott challenge : 36
1666 : adult mystery : 36
17234 : kindle first : 36
15816 : irish lit : 36
205 : 100 books to read before you die : 36
26772 : sci fi   fantasy : 36
9122 : dean : 36
22310 : on : 36
26830 : science books : 36
4197 : behavior : 36
15002 : hugo nominee : 36
2166 : alt history : 36
11202 : fallen angels : 36
9136 : deankoontz : 36
28254 : space travel : 36
28609 : steam punk : 35
25500 : recommend : 35
22896 : pal : 35
11240 : family read alouds : 35
3140 : arthurian : 35
20845 : my kindle books : 35
21799 : nonfiction science : 35
21825 : nope : 35
5413 : books to read in your 20s : 35
31250 : true : 35
7814 : comics i own : 35
8222 : cooking books : 35
29113 : swedish : 35
29473 : teen reads : 35
29112 : sweden : 35
2359 : amnesia : 35
21187 : natural history : 35
29506 : television : 35
10236 : econ : 35
10182 : easy reader : 35
26683 : scandinavian crime : 35
19171 : mangas read : 35
10828 : erotica romance : 35
24638 : pulitzer winner : 35
26221 : rome

15406 : in russian : 18
18498 : locus award : 18
5342 : books read 2017 : 18
17783 : leadership books : 18
29384 : teacher student : 18
5246 : books i read to my kids : 18
15417 : in the kitchen : 18
15984 : j sandford : 18
15024 : human behavior : 18
23900 : polish : 18
5053 : bookclub books : 18
25035 : read as a teen : 18
18258 : lisa gardner : 18
29908 : the legend of drizzt : 18
15265 : ii : 18
6748 : chick flick : 18
16450 : jodi picoult books : 18
24179 : predictable : 18
15521 : indonesian literature : 18
15706 : international relations : 18
6346 : cartoon : 18
16555 : john sandford prey series : 18
29759 : the dresden files : 18
3773 : backlog : 18
18119 : libs 642 : 18
6846 : childhood reading : 18
15517 : indonesian books : 18
5200 : books i loved as a kid : 18
25235 : read multiple times : 18
4696 : black dagger brotherhood : 18
25686 : religious books : 18
25185 : read in polish : 18
31357 : twd : 18
4578 : biografia : 18
15466 : indian books : 18
18519 : lokal : 18
7440 :

20111 : mind fuck : 12
15795 : iraq : 12
15441 : incomplete series : 12
11617 : february : 12
18909 : magic users : 12
2619 : ann mccaffrey : 12
27592 : sherlockian : 12
18447 : livros : 12
31159 : travel and adventure : 12
18036 : liberty : 12
26598 : sarah dessen : 12
19558 : mc romance : 12
19571 : mccall smith : 12
30375 : thriller mystery suspense : 12
26591 : sara shepard : 12
22452 : oprah bookclub : 12
3922 : barker : 12
11764 : fiction classic : 12
29849 : the hollows series : 12
27618 : shinigami : 12
17271 : kindleunlimited : 12
28480 : spy stories : 12
6521 : central asia : 12
27289 : series redwall : 12
7839 : comics superheroes : 12
31790 : vegan : 12
15976 : j patterson : 12
32208 : washington dc : 12
28510 : stage : 12
9315 : desi : 12
24270 : pretty little liars series : 12
24268 : pretty little liars : 12
15952 : j d  robb : 12
11116 : facebook : 12
20059 : military nonfiction : 12
14050 : hate to love : 12
11609 : fear : 12
17148 : kids library : 12
2483 : andrews il

14843 : horror novels : 8
14775 : homemaking : 8
14815 : hornby : 8
17967 : letteratura tedesca : 8
30884 : tob 2013 : 8
24314 : princess diaries series : 8
7775 : comicbook : 8
7690 : colonial : 8
16161 : jane austen related : 8
24293 : primary : 8
16113 : james patterson other : 8
19038 : man woman : 8
14681 : hockey : 8
18010 : lgbt ya : 8
31516 : uni reading : 8
30935 : tom robbins : 8
29270 : tao : 8
7688 : colombian literature : 8
3194 : as a kid : 8
3243 : asmartread : 8
15037 : human trafficking : 8
15955 : j d robb in death series : 8
4030 : bbc challenge : 8
25615 : reilly : 8
6936 : children s stories : 8
25616 : reilly matthew : 8
15475 : indian mythology : 8
4024 : bbc big read top 100 : 8
4026 : bbc book list : 8
18667 : love the cover : 8
29633 : the bard : 8
31136 : translated fiction : 8
7262 : chronicles : 8
25636 : relatos : 8
7265 : chronicles of narnia : 8
29640 : the beats : 8
29644 : the belgariad : 8
4063 : bea 2012 : 8
4092 : beat literature : 8
31131 : transit

26665 : sayers : 6
32043 : walking : 6
9052 : david mitchell : 6
28500 : ss : 6
19900 : michael grant : 6
13049 : gentry : 6
20242 : mm fantasy : 6
18873 : mafia romance : 6
24854 : rahl : 6
5703 : brian jaques : 6
7993 : connelly bosch : 6
9707 : dominican : 6
20013 : mieville : 6
14448 : hist church : 6
13657 : greek myths : 6
13281 : global health : 6
28360 : spiritual inspirational : 6
5701 : brian herbert : 6
20556 : movie guides : 6
14966 : hst : 6
25036 : read as a teenager : 6
9007 : dave : 6
20313 : modern war : 6
1694 : adventure books : 6
3506 : author christine feehan : 6
28505 : stackhouse : 6
26659 : saxon chronicles : 6
12942 : general christian : 6
19305 : markets : 6
9728 : donaldson stephen r : 6
2140 : alpha men : 6
18854 : madeleine l engle : 6
23223 : penelope ward : 6
7586 : cocina : 6
2200 : alyson noel : 6
9708 : dominican republic : 6
9719 : don t want to read : 6
23858 : poetry short stories : 6
13665 : green jane : 6
7791 : comics bd : 6
13660 : greek tragedy

16884 : karin slaughter grant county : 5
20721 : muslim : 5
24562 : pt : 5
10012 : dune saga : 5
20935 : mysteries to read : 5
9629 : djinn : 5
20943 : mystery adventure : 5
17377 : knitting fiction : 5
28062 : soft skills : 5
24793 : r k lilley : 5
1143 : 50 shades : 5
10191 : eating : 5
1149 : 500 women : 5
21097 : naomi novik : 5
1170 : 5b : 5
26913 : scot : 5
10151 : earths children series : 5
32639 : with me in seattle : 5
30317 : thomas jefferson : 5
10120 : early 20th century : 5
5556 : box set : 5
28104 : songs : 5
1229 : 7th grade shelf : 5
21008 : mystical : 5
12648 : fudge : 5
10077 : dystopian society : 5
22841 : p c cast kristin cast : 5
32585 : wish : 5
17411 : kookboeken : 5
22845 : p d james : 5
22847 : p g wodehouse : 5
24574 : public : 5
12666 : fun chick lit : 5
1294 : a a milne : 5
9869 : dragonlance chronicles : 5
16882 : karenkingsbury : 5
28217 : southern humor : 5
5601 : bradbury : 5
26730 : schizophrenia : 5
1551 : action romance : 5
32407 : when i was little :

25090 : read church : 4
10318 : edward : 4
10952 : evanovich  janet : 4
3918 : barefoot contessa : 4
21192 : naturalism : 4
25509 : recommended by friends : 4
15390 : in my home library : 4
29867 : the infernal devices : 4
10309 : education parenting : 4
27567 : shepard sara : 4
12487 : frankenstein : 4
28016 : social criticism : 4
27566 : shelves : 4
7041 : chocolate : 4
21955 : not reading : 4
25088 : read christian : 4
16036 : jacqueline wilson : 4
6125 : calibre library : 4
24052 : post apocalyptic dystopia : 4
16037 : jacqueline wilson books : 4
217 : 100 modern library : 4
5517 : bought to read : 4
10293 : editors : 4
3929 : barnes and noble : 4
32737 : won t read : 4
10327 : edward rutherfurd : 4
27991 : snow white : 4
16971 : kearsley : 4
21222 : navy seals : 4
3952 : bartimaeus : 4
11676 : feminist fiction : 4
24388 : process : 4
24084 : postponed : 4
25494 : reckoners : 4
5094 : books 13 25 : 4
10351 : egyptology : 4
7001 : chilean literature : 4
21216 : naval history : 4
184

16865 : karen : 3
19504 : may 2012 : 3
16625 : joseph boyden : 3
17733 : lawrence : 3
27331 : servants : 3
18009 : lgbt to read : 3
25175 : read in italian : 3
21890 : norwegian lit : 3
27337 : set aside : 3
24682 : put aside : 3
18908 : magic treehouse series : 3
21901 : not at the library : 3
13966 : harem : 3
26071 : rock bio : 3
17170 : kids toddler : 3
26073 : rock biographies : 3
18830 : maclean : 3
22387 : ondaatje : 3
21934 : not mine : 3
18907 : magic treehouse : 3
25693 : religious inspirational : 3
14235 : hellboy : 3
11516 : favorite classics : 3
26074 : rock bios : 3
21943 : not on overdrive : 3
23084 : patricia c wrede : 3
11701 : ferro family : 3
24861 : raine miller : 3
23430 : phenomenology : 3
18022 : lian hearn : 3
11510 : favorite characters : 3
26233 : ronald : 3
22272 : oldies : 3
11966 : find : 3
17106 : kiddie : 3
21867 : north : 3
21870 : north american : 3
11712 : ff romance : 3
14065 : have a copy : 3
17617 : larry mcmurtry : 3
22995 : paranormalcy : 3
24679 

32053 : wallender : 3
28366 : spiritual metaphysical : 3
31593 : up in the air : 3
5674 : breathing : 3
9589 : disorders : 3
5676 : breathless : 3
9588 : disorder : 3
2267 : amelia sachs : 3
28112 : sonlight books : 3
10092 : e b white : 3
2346 : amish books : 3
8124 : cook robin : 3
30252 : theology proper : 3
10097 : e books to read : 3
28929 : sufism : 3
30249 : theology doctrine : 3
10099 : e commerce : 3
32052 : wallander series : 3
9595 : dissociative identity disorder : 3
29078 : suspense fiction : 3
8147 : cookbook wishlist : 3
5652 : brayden : 3
3074 : art painting : 3
9622 : divorced : 3
9620 : diving : 3
28355 : spiritual formation basement : 3
9616 : divination : 3
10045 : dying earth : 3
10048 : dylan : 3
30531 : to buy or borrow : 3
29074 : suspence romance : 3
2315 : american midwest : 3
30539 : to classify : 3
32015 : waargebeurd : 3
5643 : brasileiros : 3
5644 : brat pack : 3
2291 : american drama : 3
3703 : ayn : 3
7759 : comic g novals : 3
9274 : demonica lords of de

25378 : reading like a writer : 2
15678 : interactive picture books : 2
15677 : interactive books : 2
15675 : interaction design : 2
6717 : chetan bhagath : 2
6720 : chevalier tracy : 2
6722 : chew : 2
15667 : intellectual history : 2
29720 : the coincidence : 2
15659 : instructional art drawing : 2
25383 : reading log 2010 2011 : 2
6906 : children s collection : 2
6758 : chick literature : 2
29703 : the chronicle of the black company : 2
25391 : reading rainbow book : 2
6762 : chick lit : 2
6763 : chicken soup : 2
6764 : chicken soup books : 2
6765 : chicken soup for the soul : 2
6767 : chicklit gpu : 2
29699 : the century trilogy : 2
15680 : interconnected stories : 2
6710 : chesterton : 2
15693 : interfaith : 2
15694 : interior : 2
6667 : check 4at lib : 2
15730 : into : 2
6671 : check out from library : 2
15724 : intersectional feminism : 2
15723 : interrupters : 2
15719 : interracial : 2
6676 : checkout before purchase : 2
6678 : cheesy romance : 2
25347 : read2015 : 2
29741 : the

21532 : nick : 2
21526 : nicholas evans : 2
21523 : nice : 2
32935 : wyndham : 2
22606 : outreach : 2
21513 : nf politics : 2
21509 : nf crime : 2
21508 : nf cooking : 2
21507 : nf cookbooks : 2
32932 : wwor : 2
21505 : nf business : 2
648 : 2010 2015 : 2
21502 : nf animals : 2
21500 : nextnext : 2
2061 : alison croggon : 2
20110 : mind control : 2
24235 : presidency : 2
31336 : turquia : 2
3602 : autobio : 2
23906 : polisiye : 2
18773 : lying game : 2
3604 : autobiographic : 2
3606 : autobiographical fiction : 2
18769 : lycel6568 : 2
3607 : autobiographie : 2
3609 : autobiographies and biographies : 2
3617 : autobiography memoirs : 2
31327 : turkish books : 2
18761 : lutz lisa : 2
18759 : lutheran : 2
18753 : lusitania : 2
18752 : lus : 2
23919 : political nonfiction : 2
18748 : lupica : 2
18741 : lumatere chronicles : 2
18739 : lukyanenko sergei : 2
3638 : av club : 2
3639 : ava : 2
3648 : avant garde : 2
23904 : polish lit : 2
3590 : auto and biography : 2
23279 : perfect : 2
18786 

27712 : shows : 2
29198 : t m frazier : 2
9102 : dcu : 2
25905 : richard wright : 2
13502 : graffiti : 2
9995 : dukes : 2
25904 : richard sharpe : 2
10896 : essential : 2
9993 : duits : 2
29196 : t l 306 : 2
27215 : series cedar cove : 2
9989 : dude lit : 2
27217 : series chronicles of nick : 2
14594 : history memoirs : 2
10904 : estanteria : 2
13497 : grades 4 6 : 2
12728 : g contemp realistic fic : 2
9109 : dead : 2
27715 : shtf : 2
28615 : steel  danielle : 2
14596 : history middle east : 2
9986 : duck dynasty : 2
14599 : history mystery : 2
25900 : richard preston : 2
10902 : essentials b to get : 2
7912 : compilations : 2
8900 : danielle steele books : 2
29040 : surrender your love : 2
12098 : flanagan john : 2
27031 : secret agent : 2
26292 : row : 2
26971 : scuba : 2
8753 : cybercrime : 2
14047 : hatchet series : 2
12458 : frances mayes : 2
10456 : elizabeth scott : 2
26180 : romaner : 2
12459 : francesa : 2
8754 : cyberhard : 2
27034 : secret circle : 2
8757 : cyberspace : 2
27

23197 : peer instructor books : 1
32203 : was read : 1
32240 : waugh : 1
28331 : spinoza : 1
27990 : snow like ashes : 1
26968 : scripture study : 1
27992 : snowden : 1
32210 : washington irving : 1
32211 : washington state : 1
23663 : pinker : 1
23656 : pinjem temen : 1
23217 : pending sorting : 1
28351 : spiritual discipline : 1
23215 : pendientes releer : 1
23214 : pendientes : 1
28338 : spirit religion : 1
28339 : spirit soup : 1
26973 : sculptors : 1
28342 : spiritual and christian : 1
31606 : upsc : 1
23213 : pendidikan : 1
32223 : watched movie based : 1
27997 : snuff : 1
28343 : spiritual and inspirational : 1
32228 : watchmen : 1
23658 : pink : 1
28344 : spiritual awakening : 1
28350 : spiritual direction : 1
23662 : pinkalicious : 1
28345 : spiritual book club : 1
32227 : watching : 1
32225 : watched the movie too : 1
23661 : pink carnation series : 1
31608 : upstairs downstairs : 1
26970 : scrum : 1
26673 : scandals : 1
28336 : spirit bear : 1
23218 : pending stuff on shelf 

27423 : shadow campaigns : 1
27422 : shades : 1
22293 : omalley : 1
33237 : zee : 1
27482 : sharkman : 1
22295 : omar : 1
27420 : shackleton : 1
22296 : omar khayyam : 1
22297 : omar taher : 1
22298 : omar tyree : 1
22299 : omat : 1
22300 : omni : 1
33236 : zebra historical romance : 1
33235 : zebra : 1
33234 : zealand : 1
22302 : omnibus 1 : 1
22303 : omnibus 3 : 1
27489 : sharpe s : 1
33224 : zamonia : 1
33223 : zambia : 1
33211 : z sociology non fiction : 1
27404 : sf hard : 1
27500 : she reads : 1
22336 : on language : 1
33209 : z rejected : 1
33208 : z read in 2013 comics : 1
27501 : she said yes : 1
33206 : z pre 2012 : 1
33205 : z owned paper : 1
33204 : z in zwei sprachen vorhanden : 1
33203 : z for zachariah : 1
22337 : on library list : 1
22338 : on love : 1
33202 : z folio : 1
33201 : z fiction : 1
27402 : sf fans : 1
27504 : sheknows : 1
27400 : sf cyberpunk : 1
27507 : shelby : 1
33199 : z don t own anymore : 1
33210 : z rice anne : 1
27499 : shayla black : 1
22321 : on de

24902 : ranjani : 1
24903 : rankin : 1
30227 : theme tigers : 1
24904 : rankin ian : 1
29118 : sweep series : 1
24905 : ranma : 1
30225 : theme science : 1
24906 : ranma 1 2 : 1
29120 : sweet addiction : 1
30224 : theme naughty : 1
30223 : theme cooking : 1
24910 : rape culture : 1
25962 : riya : 1
29129 : sweet trilogy : 1
29131 : sweetpea : 1
30178 : the wardstone chronicles : 1
30187 : the white rabbit chronicles : 1
24940 : rawn melanie : 1
25946 : ripper : 1
30195 : the witcher series : 1
29136 : swindling : 1
25945 : rip : 1
30192 : the wire : 1
30191 : the winner stands alone : 1
29138 : swiss authors : 1
30189 : the wild ones : 1
30186 : the wheel of time series : 1
24925 : rational thinking : 1
29140 : switched : 1
30182 : the weekenders : 1
25940 : rings : 1
24951 : raymond khoury : 1
30181 : the wedding : 1
24952 : rayna 1000 books before k : 1
30180 : the wayfarer redemption : 1
25939 : ring : 1
24954 : rc books : 1
25947 : rise of the empire era : 1
24939 : ravindran singh

25283 : read short stories : 1
29359 : tbr post 1920 chrono : 1
25285 : read spirituality : 1
25751 : repressed memories : 1
29793 : the forbidden game : 1
29792 : the flash : 1
25286 : read sports : 1
29362 : tbr romance : 1
25288 : read status unknown : 1
25748 : reporter : 1
25289 : read stephen king : 1
29363 : tbr science : 1
25291 : read teenager : 1
25746 : report : 1
25293 : read theology : 1
25745 : replace with ebook : 1
25744 : replace : 1
25295 : read this : 1
29780 : the fallen angels series : 1
25733 : renko : 1
25754 : republican : 1
25719 : remarried : 1
25319 : read until 2015 : 1
29369 : tbr subject spirituality : 1
25320 : read until 2017 : 1
29763 : the edge series : 1
25725 : remove : 1
25724 : remnant chronicles : 1
25723 : reminder : 1
25722 : remembrance of earth s past : 1
25720 : rembrandt : 1
29760 : the duluoz legend : 1
29778 : the fallen : 1
25718 : remarque erich maria : 1
25323 : read when young : 1
29371 : tbr ya : 1
29372 : tbs : 1
29373 : tbt : 1
2532

30528 : to buy later : 1
28934 : sui miei scaffali : 1
30541 : to complete : 1
24630 : pulitzer prize novels : 1
26125 : romagic : 1
28935 : suicidal : 1
30540 : to collect : 1
28937 : suicide notes : 1
28938 : suitable for young people : 1
30537 : to check half price : 1
28939 : suketu : 1
28940 : suketu mehta : 1
24633 : pulitzer prize winners fiction : 1
24634 : pulitzer prize winning : 1
30535 : to check from library : 1
30533 : to buy used : 1
30532 : to buy soon : 1
24637 : pulitzer to read : 1
30530 : to buy one day : 1
30529 : to buy manga : 1
26153 : romance heroes i actually like : 1
24599 : published 2017 : 1
30634 : to read civil war : 1
24571 : pub 47north : 1
30619 : to read bookshelf : 1
28890 : subject vampire : 1
30617 : to read books adopted to film : 1
24568 : pub 1995 : 1
30616 : to read book : 1
24569 : pub 2000s : 1
28891 : subject visual arts : 1
28892 : subliminal mind control : 1
24570 : pub 2014 : 1
28893 : submarine : 1
26173 : romance thriller : 1
30614 : to

5525 : bourgeois : 1
5524 : bourdain : 1
5523 : bourbon kings : 1
5522 : bounty hunters : 1
5519 : boun : 1
5518 : bought unread : 1
5516 : bought on bookoutlet : 1
5630 : bram stoker : 1
5634 : brandon favs : 1
5471 : boredom : 1
5758 : british colonial africa : 1
5771 : british india : 1
5770 : british humour : 1
5766 : british hf : 1
5764 : british empire : 1
5763 : british crime fiction : 1
5761 : british country estate : 1
5760 : british counterespionage : 1
5759 : british contemporary fiction : 1
5752 : british aristocracy : 1
5732 : briggs janet : 1
5750 : britannica : 1
5749 : britain kristen : 1
5743 : bring with me : 1
5741 : brin : 1
5740 : brilliant writing : 1
5737 : brighton : 1
5736 : bright young things : 1
5735 : brigham young : 1
5772 : british irish : 1
5774 : british isles wish : 1
5780 : british navy : 1
5784 : british theatre : 1
5821 : brother : 1
5817 : brookner : 1
5815 : brooke : 1
5814 : bronx : 1
5804 : broken wheel : 1
5803 : broken silence : 1
5802 : broke

10252 : economics investing : 1
10249 : economics development : 1
10244 : economic theory : 1
10241 : economic conditions : 1
10238 : econ1 : 1
10235 : ecommerce : 1
10234 : ecology environment : 1
10232 : ecological design : 1
10231 : eco thriller : 1
10230 : eco terrorism : 1
10180 : easy rawlins : 1
10177 : easy books : 1
10437 : elizabeth chandler : 1
10105 : e jerome dickey : 1
10118 : eagle strike : 1
10117 : e6 classroom : 1
10112 : e lockhart : 1
10111 : e library ebook : 1
10110 : e library : 1
10109 : e l montes : 1
10107 : e l doctorow : 1
10106 : e kitap : 1
10104 : e have : 1
10174 : easton ellis : 1
10103 : e f : 1
10101 : e d baker : 1
10100 : e copies : 1
10098 : e business : 1
10096 : e books read : 1
10087 : dzogchen foundation : 1
10086 : dzogchen : 1
10085 : dziwne : 1
10122 : early american : 1
10124 : early ccf : 1
10125 : early chapter : 1
10128 : early chapterbooks : 1
10173 : easton : 1
10171 : eastern shore : 1
10170 : eastern religion : 1
10168 : eastern lite

2264 : amelia earhart : 1
2262 : amelia atwater rhodes : 1
2259 : ambrose hugh : 1
2258 : ambrose bierce : 1
2256 : ambleside year 8 : 1
2251 : amber s stuff : 1
2230 : amazon free books : 1
2250 : amber room : 1
2247 : ambassador daughter kidnapping : 1
2246 : ambassador : 1
2245 : amazons : 1
2240 : amazon s 100 : 1
2239 : amazon river : 1
2238 : amazon prime to read : 1
2237 : amazon prime loan : 1
2269 : amer lit : 1
2270 : amercian history presidents : 1
2272 : america in retreat : 1
2274 : america reads : 1
2307 : american indian lit : 1
2303 : american hf : 1
2302 : american heiress : 1
2301 : american government : 1
2300 : american girls collection : 1
2299 : american girls : 1
2298 : american girl books : 1
2297 : american girl : 1
2293 : american eschatology : 1
2290 : american crime : 1
2285 : american civil war literature : 1
2283 : american authors i own : 1
2280 : american artists : 1
2279 : american armenian : 1
2278 : american 20c : 1
2276 : america s intelligence gathe

3896 : bar codes : 1
3895 : bar code : 1
3932 : barnes noble : 1
3934 : barnes noble classics series : 1
3935 : barnes noble collectible editions : 1
3936 : barnes noble discover 1990 2017 : 1
3968 : based on true story of mary anning : 1
3966 : based on true character : 1
3965 : based on real incident : 1
3964 : based on historical figure : 1
3962 : baseball to read : 1
3961 : baseball history : 1
3959 : baseball cards : 1
3957 : baseball as a metaphor for life : 1
3955 : base : 1
3954 : bas lag : 1
3948 : bart d ehrman : 1
3945 : bars : 1
3944 : barry lyga : 1
3943 : barrea bookshelf : 1
3941 : barr nevada : 1
3940 : barr : 1
3937 : barnes noble leatherbound classic : 1
3894 : baptist : 1
3892 : bantam war books : 1
3971 : basement 1 3 : 1
3819 : baking and treats cookbooks : 1
3831 : baldacci amos decker : 1
3830 : baldacci a shaw : 1
3828 : balance career amp motherhood : 1
3827 : bakuman : 1
3826 : baking vegan : 1
3825 : baking pastry : 1
3822 : baking bread : 1
3820 : baking and

18462 : llama : 1
18465 : llew s : 1
18466 : llibre : 1
18467 : lloyd : 1
18504 : loeb : 1
18502 : locus sf : 1
18493 : lockdown : 1
18492 : loch ness monster : 1
18491 : locavore : 1
18490 : location italy : 1
18489 : location work : 1
18487 : location living room console table : 1
18486 : location kitchen : 1
18485 : location g : 1
18484 : local spirit : 1
18483 : local library d : 1
18482 : local library : 1
18478 : loc usa : 1
18477 : lobbyists : 1
18475 : loaned : 1
18469 : lloyd jones : 1
18424 : littles : 1
18420 : little league world series : 1
18506 : loft library : 1
18333 : literary scholarship : 1
18362 : literatura romana : 1
18359 : literatura poesia : 1
18357 : literatura niemiecka : 1
18350 : literatura inglesa : 1
18345 : literatura espanola : 1
18343 : literatura espa ola : 1
18341 : literatura chilena : 1
18336 : literary thriller : 1
18331 : literary reference : 1
18419 : little league : 1
18330 : literary or critical theory : 1
18327 : literary fiction or classics 

17346 : kiyo fujiwara : 1
17325 : kisses from katie : 1
17345 : kiwi : 1
17342 : kitty hawk : 1
17339 : kittens : 1
17337 : kitchen princess series : 1
17336 : kitchen princess : 1
17335 : kitchen library : 1
17334 : kitchen garden : 1
17332 : kitchen 1 : 1
17376 : knitting crochet : 1
17378 : knitting stories : 1
17379 : knitting theme : 1
17380 : knjige : 1
17421 : korean authors : 1
17418 : koran : 1
17417 : koonz dean : 1
17412 : koomiksid : 1
17405 : komedi : 1
17404 : koll : 1
17403 : koleksiku : 1
17401 : koleksi dirumah : 1
17399 : kohta hirano : 1
17397 : kodus olemas : 1
17396 : kodansha : 1
17395 : kochen : 1
17393 : kocak : 1
17392 : kobo abe : 1
17389 : knut hamsun : 1
17386 : known authors : 1
17385 : knowledge management : 1
17327 : kitaplik : 1
17324 : kisses : 1
17590 : langston hughes : 1
17250 : kindle paid : 1
17265 : kindle unlimmited : 1
17264 : kindle unlimited tbr : 1
17262 : kindle unlimited books : 1
17261 : kindle unlimited audio : 1
17258 : kindle to loan : 

20582 : mozambique : 1
20581 : moyes jojo : 1
20605 : mt holly library : 1
20606 : mt pleasant library : 1
20607 : mt tbr 2017 : 1
20608 : mtv books : 1
20630 : multigenerational : 1
20629 : multiculturalism : 1
20626 : multicultural lit : 1
20625 : multicultural international : 1
20624 : multicultural education : 1
20623 : multicultural books : 1
20621 : multi generational saga : 1
20620 : multi generational : 1
20618 : muller : 1
20617 : mull : 1
20616 : mulbet bookshop : 1
20615 : muirwood trilogy : 1
20614 : muirwood : 1
20613 : mughal empire : 1
20612 : mughal : 1
20611 : mudbug : 1
20609 : much loved : 1
20580 : moyes : 1
20578 : moving box : 1
20632 : multiple : 1
20498 : mother : 1
20521 : motivational  : 1
20515 : mothers sons : 1
20514 : mothers daughters : 1
20513 : mothers and sons : 1
20509 : motherhood parenting : 1
20505 : mother nature : 1
20504 : mother goose : 1
20499 : mother and daughter : 1
20495 : most wanted : 1
20576 : movies watched : 1
20494 : most want to rea

10809 : erlendur sveinsson : 1
10807 : erlend loe : 1
10806 : eris : 1
10799 : erika johansen : 1
10795 : erich fromm : 1
10794 : erica stevens : 1
10793 : erica jong : 1
10792 : eric wilson : 1
10832 : erskine caldwell : 1
10833 : erstkontakt : 1
10837 : escape from furnace : 1
10838 : escape the ordinary 2015 : 1
10875 : espiritual : 1
10872 : espionage to read : 1
10867 : espionage crime : 1
10865 : esperanza rising : 1
10858 : espanha : 1
10855 : esoterismo : 1
10854 : esoterik : 1
10853 : esoterie : 1
10851 : esoteric spirituality : 1
10850 : esoteric philosophy or science : 1
10848 : escuela : 1
10847 : escritores mexicanos : 1
10844 : escola : 1
10843 : escher : 1
10841 : escapology reviews : 1
10840 : escapism : 1
10839 : escaped convict : 1
10975 : eventyr kunst : 1
10981 : everneath series : 1
11132 : faeriewalker series : 1
11073 : expose : 1
11084 : eye candy : 1
11083 : eya : 1
11082 : extreme sports : 1
11081 : extreme horror : 1
11080 : extraterrestrial : 1
11078 : extra

14042 : hasht : 1
14041 : has not aged well : 1
14040 : harvey : 1
14039 : harvath  : 1
14037 : harvard compact : 1
14032 : haruf kent : 1
14030 : hart john : 1
14028 : harry potter : 1
14133 : healing touch : 1
14136 : health and cooking : 1
14298 : hermaphrodite : 1
14240 : hellsing : 1
14252 : hemingway ernest : 1
14250 : helping : 1
14249 : helpful research : 1
14248 : helpful : 1
14247 : help yourself : 1
14245 : help me : 1
14244 : help for the haunted : 1
14241 : helmet 2017 : 1
14238 : hellchaser : 1
14225 : helen hooven santmyer : 1
14237 : hellboy universe : 1
14234 : hellblazer : 1
14233 : hell s : 1
14231 : helene hanff : 1
14230 : helena hunting : 1
14229 : helena : 1
14228 : helen simonson : 1
14227 : helen keller : 1
14253 : hemingway list : 1
14257 : henri charriere : 1
14258 : henri nouwen : 1
14259 : henrietta lacks : 1
14293 : herman hesse : 1
14292 : herlezen : 1
14291 : heritage of shannara : 1
14290 : heritage of lancaster county series : 1
14286 : heresy : 1
1428

In [29]:
#Somewhat rudementary but this works! To get rid of a solid chunk of custom tags.
user_tags1 = 'to read+|reading+|my books+|wish list+|novel+|series+|^[[:digit:]]*$|i own+|currently+|own+|have+|[^[:alnum:] ]|favorite+|favourite+|'
user_tags2 = 'club+|buy+|library+|read+|borrowed+|abandoned+|audio+|ya|e book+|ebook+|kindle+|default+|finish+|maybe+|gave up+|'
user_tags3 = 'dnf+|stars+|^(15|16|17|18|19|20)\d{2}[a-zA-Z]*|century+|grade+'

user_tags = user_tags1+user_tags2 + user_tags3

del_filter = t_joined["tag_name"].str.contains(user_tags)

print(t_joined[del_filter].shape)
# Iterate by most popular tags going down
for index, row in t_joined[del_filter].iterrows():
    print(str(row["tag_id"]) + " : " + str(row["tag_name"]) + " : " + str(row["count"]))
    


(5790, 3)
30574 : to read : 9983
11557 : favorites : 9881
22743 : owned : 9858
5207 : books i own : 9799
8717 : currently reading : 9776
18045 : library : 9415
22753 : owned books : 9221
30521 : to buy : 8692
17213 : kindle : 8316
9221 : default : 8239
10197 : ebook : 8054
20774 : my books : 7561
3389 : audiobook : 7242
10210 : ebooks : 7203
32586 : wish list : 7192
20849 : my library : 7000
3392 : audiobooks : 6862
15169 : i own : 6670
3371 : audio : 6548
11590 : favourites : 6422
22034 : novels : 5665
22689 : own it : 5514
25151 : read in 2015 : 5239
27199 : series : 5080
10093 : e book : 4941
25152 : read in 2016 : 4940
25150 : read in 2014 : 4902
10094 : e books : 4616
25149 : read in 2013 : 4384
4949 : book club : 4365
3379 : audio books : 4220
1416 : abandoned : 4168
21989 : novel : 4084
24960 : re read : 3903
14064 : have : 3846
3377 : audio book : 3776
5481 : borrowed : 3674
25148 : read in 2012 : 3661
9477 : did not finish : 3420
11497 : favorite : 3363
19524 : maybe : 3243
27

  regex = re.compile(pat, flags=flags)
  return func(self, *args, **kwargs)



19530 : maybe read : 193
22696 : own kindle : 192
894 : 2017 reading list : 185
26752 : school reading : 184
5231 : books i read as a kid : 184
785 : 2015 releases : 180
25761 : required reading : 179
10213 : ebooks i own : 175
5358 : books read in 2013 : 175
25191 : read in school : 170
2106 : all time favourites : 170
22674 : own ebook : 169
450 : 1960s : 168
22643 : own a copy : 168
659 : 2010 reads : 164
833 : 2016 releases : 163
13583 : graphic novels read : 162
21915 : not finished : 162
371 : 1800s : 161
14523 : historical novel : 161
12034 : first in a series : 160
442 : 1950s : 159
14524 : historical novels : 159
22813 : owned tbr : 155
8084 : contemporary ya : 154
807 : 2016 books read : 153
30811 : to read series : 150
7843 : comics to read : 150
609 : 2003 : 149
30800 : to read sci fi : 148
753 : 2014 releases : 148
13552 : graphic novel comics : 147
21948 : not owned : 144
30620 : to read business : 143
33007 : ya dystopian : 142
22009 : novela : 142
13567 : graphic novel

31730 : vampire diaries series : 8
14378 : high school reading : 8
8170 : cookbooks i have : 8
2887 : argeneau series : 8
20300 : modern library top 100 novels : 8
20353 : mom library : 8
19822 : merry gentry series : 8
19809 : meredith gentry series : 8
26279 : rosemary beach series : 8
8865 : dan brown : 8
19888 : michael bennett series : 8
24490 : psy changeling series : 8
4621 : biography to read : 8
17387 : known authurs : 8
5724 : bridgerton series : 8
30761 : to read on kindle : 8
30690 : to read health : 8
5354 : books read in 2009 : 8
4604 : biographies to read : 8
17097 : kid s library : 8
25131 : read historical fiction : 8
17172 : kids ya : 8
30711 : to read kids : 8
30579 : to read 2015 : 8
4956 : book club 2016 : 8
30612 : to read biographies : 8
30726 : to read longlist : 8
25109 : read for book club : 8
2842 : arabic read : 7
10496 : elvis cole series : 7
25049 : read before 2009 : 7
25369 : reading challenge 2016 : 7
6867 : children books read : 7
25052 : read before 2

27427 : shadow falls series : 5
27425 : shadow children series : 5
17141 : kids favorites : 5
11362 : fantasy novels : 5
5250 : books i read with my kids : 5
33033 : ya nonfiction : 5
481 : 1987 : 5
482 : 1988 : 5
484 : 1990 : 5
27228 : series demonica : 5
33027 : ya lit class : 5
5382 : books that i have : 5
27220 : series complete : 5
10966 : eve duncan series : 5
27307 : series sword of truth : 5
11745 : fiction 20th century : 5
11108 : fablehaven series : 5
11107 : fablehaven : 5
27273 : series lucas davenport : 5
22463 : oprahbookclub : 5
11044 : expanse series : 5
11808 : fiction novel : 5
5365 : books read to my kids : 5
434 : 1945  : 5
13126 : get from library : 5
30646 : to read cookbook : 5
32257 : we need diverse books : 5
9402 : dexter series : 5
4960 : book club choices : 5
13088 : georgina kincaid series : 5
13439 : gossip girl series : 5
28585 : started but not finished : 5
32123 : want to reread : 5
10008 : dune books : 5
12706 : future reads : 5
1357 : a own : 5
28168 

25031 : read art : 2
6000 : business read : 2
25042 : read as teenager : 2
25053 : read before 2013 : 2
6023 : buy a physical copy : 2
25057 : read before 2017 : 2
25019 : read aloud to me : 2
30136 : the testing series : 2
5932 : burma myanmar : 2
25008 : read a book : 2
32496 : will not finish : 2
20795 : my classroom library : 2
20792 : my choice of books to read : 2
20789 : my childhood reads : 2
20776 : my books 2016 : 2
1418 : abandoned books : 2
32488 : wilkes public library : 2
32500 : will read : 2
20880 : my read books : 2
20867 : my own library books : 2
20860 : my mobile library : 2
20844 : my kindle : 2
1365 : a s byatt : 2
1426 : abandoned series : 2
22996 : paranormalcy series : 2
32479 : wilderness series : 2
20727 : must buy : 2
20726 : must be reading : 2
22790 : owned mangas : 2
1174 : 5th grade reading list : 2
1191 : 645 library materials for children : 2
1088 : 40 books to read before turning 40 : 2
1089 : 40 to read before 40 : 2
1090 : 40 trashy novels : 2
22759

14420 : himalayas : 2
12036 : first in series manga : 2
8956 : dark swan series : 2
8959 : dark tower extended reading order : 2
26385 : russian novels : 2
8139 : cookbook i own : 2
10953 : evanovich full series : 2
11867 : fifty shades series : 2
7846 : comicsread : 2
28584 : started but never finished : 2
11863 : fifth grade : 2
7842 : comics to buy : 2
27681 : short stories to read : 2
9951 : drowning : 2
13453 : gothic novel : 2
10989 : everyman s library : 2
28571 : starcrossed series : 2
7795 : comics comic books graphic novels : 2
27265 : series kenzie gennaro : 2
9926 : drenai series : 2
12784 : gail tsukiyama : 2
28574 : stark series : 2
9197 : decided not to read : 2
27252 : series honorverse : 2
27253 : series i love : 2
27254 : series i need to finish : 2
27667 : short read : 2
27232 : series dragonlance : 2
14537 : historical ya : 2
26427 : s brown : 2
27208 : series book 3 : 2
27210 : series book 5 : 2
7923 : completed reading : 2
13490 : grade 8 : 2
7901 : companion nove

29962 : the missing series : 1
29959 : the mind readers series : 1
25172 : read in highschool : 1
25173 : read in hungarian : 1
25174 : read in icelandic : 1
29287 : taschen basic art series : 1
29914 : the life of women in royal family o : 1
29913 : the library of ridge and michelle : 1
29278 : target book club : 1
25159 : read in china : 1
25160 : read in class 4 : 1
25837 : rg reading challenge : 1
25165 : read in elementary : 1
25229 : read mary higgins clark : 1
25298 : read this year : 1
25299 : read to alex : 1
25300 : read to babies : 1
25301 : read to buy : 1
29787 : the fault in our stars : 1
25303 : read to chris : 1
25304 : read to kara : 1
25735 : renovel : 1
25306 : read to lil : 1
25307 : read to londyn : 1
29781 : the fallen series : 1
25297 : read this next : 1
25296 : read this a long time ago : 1
25282 : read sf : 1
25283 : read short stories : 1
25285 : read spirituality : 1
25286 : read sports : 1
25288 : read status unknown : 1
25289 : read stephen king : 1
25291 

24630 : pulitzer prize novels : 1
30535 : to check from library : 1
30533 : to buy used : 1
30532 : to buy soon : 1
24637 : pulitzer to read : 1
30530 : to buy one day : 1
30529 : to buy manga : 1
30634 : to read civil war : 1
30619 : to read bookshelf : 1
30617 : to read books adopted to film : 1
30616 : to read book : 1
30614 : to read biography memoir : 1
30611 : to read bio : 1
30610 : to read biblioteca : 1
30609 : to read based on : 1
30608 : to read barker : 1
30606 : to read available : 1
30632 : to read christianity : 1
28883 : sub read : 1
30627 : to read chic lit : 1
30626 : to read career : 1
30625 : to read c : 1
30623 : to read but dont own : 1
30622 : to read business success leadership : 1
30605 : to read authors : 1
30591 : to read again and again : 1
30589 : to read about a girl : 1
30587 : to read   non fiction : 1
30586 : to read 5 : 1
30603 : to read audio : 1
30584 : to read 2017 q1 : 1
30583 : to read 2017 nonfiction : 1
30582 : to read 2017 and beyond : 1
30576 

653 : 2010 books read : 1
651 : 2010 book list : 1
650 : 2010 book challenge : 1
649 : 2010 and earlier : 1
647 : 2010 2011 : 1
646 : 2010 100 : 1
795 : 2016 52 in 52 : 1
796 : 2016 60 books : 1
797 : 2016 and before read that i own : 1
886 : 2017 publication : 1
908 : 2017 horror : 1
907 : 2017 august horror : 1
906 : 2017 want to reads : 1
903 : 2017 to read list : 1
900 : 2017 summer reading list : 1
898 : 2017 reread : 1
891 : 2017 read women : 1
887 : 2017 re read : 1
885 : 2017 potentials : 1
798 : 2016 audiobooks : 1
884 : 2017 possible books : 1
880 : 2017 plan : 1
878 : 2017 new age : 1
877 : 2017 need to buy : 1
876 : 2017 must read : 1
875 : 2017 movies : 1
874 : 2017 may library book sale : 1
873 : 2017 manga : 1
909 : 2017 horror tbr challenge : 1
910 : 2017 mount tbr : 1
911 : 2017 reads : 1
912 : 2017bookshelf : 1
944 : 21st century lit : 1
942 : 21st century australian literature : 1
937 : 21 books every woman should read : 1
934 : 20th century post ww2 : 1
929 : 20th c

18171 : lifetime must reads : 1
18202 : lili s lifetime reads : 1
18189 : light vacation reads : 1
18185 : light novels : 1
18184 : light novel : 1
19118 : manga light novel : 1
19101 : manga graphic and visual novels : 1
19082 : manga comic to read : 1
19096 : manga favourites : 1
19089 : manga completed series : 1
19130 : manga manhwa read : 1
19167 : mangas comics graphic novels : 1
19159 : manga to buy : 1
19138 : manga or graphic novels : 1
19084 : manga comics and graphic novels : 1
19081 : manga comic graphic novel : 1
19067 : manga and light novels : 1
19066 : manga and graphic novels and comics : 1
19282 : mark read : 1
19207 : marasmania library : 1
18774 : lying game series : 1
18815 : mabey read : 1
18707 : ls guys read nominees : 1
18738 : lukyanenko : 1
18727 : lucky series : 1
18726 : lucky santangelo series : 1
18825 : macher library : 1
18958 : makara lending library : 1
18962 : makes you shit down both legs : 1
18963 : makes you stop reading and wonder : 1
18976 : mal

In [30]:
# Iterate by most popular tags going down
print(t_joined[~del_filter].shape)
for index, row in t_joined[~del_filter].iterrows():
    print(str(row["tag_id"]) + " : " + str(row["tag_name"]) + " : " + str(row["count"])) 

(27154, 3)
11743 : fiction : 9097
1642 : adult : 6604
8055 : contemporary : 5287
5090 : books : 4818
1659 : adult fiction : 4775
3358 : audible : 4346
11305 : fantasy : 4259
26138 : romance : 4251
20939 : mystery : 3686
1691 : adventure : 3661
33114 : young adult : 3630
10644 : english : 3625
9886 : drama : 3046
18367 : literature : 3005
12948 : general fiction : 2974
7457 : classics : 2785
8067 : contemporary fiction : 2696
14487 : historical fiction : 2590
22944 : paperback : 2566
14467 : historical : 2544
30358 : thriller : 2522
26785 : sci fi fantasy : 2467
2277 : american : 2463
29076 : suspense : 2419
25822 : reviewed : 2399
26771 : sci fi : 2227
26837 : science fiction : 2222
1540 : action : 2172
15048 : humor : 2161
11221 : family : 2160
14552 : history : 2138
21689 : non fiction : 2128
6122 : calibre : 2086
8517 : crime : 2083
11370 : fantasy sci fi : 1991
21815 : nook : 1987
6750 : chick lit : 1974
22973 : paranormal : 1941
26735 : school : 1940
7404 : classic : 1939
18886 : 

11226 : family drama : 224
27170 : sequels : 224
18011 : lgbtq : 224
23798 : pnr uf : 224
24224 : preschool : 223
23993 : popular fiction : 223
19316 : marriage : 223
31859 : victorian : 223
4634 : bios : 223
22376 : on the shelf : 223
28466 : spy : 222
26246 : rory gilmore : 221
10245 : economics : 220
31614 : urban : 220
26163 : romance paranormal : 219
10316 : educational : 217
6184 : canadian : 217
8507 : creepy : 215
32812 : world war ii : 214
17080 : kick ass heroine : 212
21195 : nature : 211
24521 : psychological thriller : 211
13098 : german : 211
8518 : crime and mystery : 210
14539 : historicalfiction : 210
19083 : manga comics : 210
28031 : social science : 208
8740 : cute : 208
15215 : ibooks : 206
11379 : fantasy sf : 206
19634 : medical : 206
2690 : anthology : 205
11136 : fairies : 204
31359 : tween : 204
4607 : biography and memoir : 203
20159 : misc : 203
31417 : uf : 201
2766 : apocalypse : 200
7094 : christian books : 200
2294 : american fiction : 200
32906 : ww2 : 

3259 : assassin : 62
5606 : brain : 62
27919 : slavery : 62
13235 : girls : 62
21337 : net galley : 62
27927 : sleuths : 62
4546 : billionaires : 62
28354 : spiritual formation : 62
19452 : mathematics : 62
5971 : business economics : 61
2499 : angel : 61
15646 : insta love : 61
26039 : roberts : 61
13922 : happiness : 61
7756 : comic fantasy : 61
27734 : siblings : 61
2595 : anime manga : 61
19030 : man booker prize : 61
3711 : b : 61
9184 : debut : 61
26436 : s king : 61
5140 : books for children : 61
7577 : coaching : 60
29462 : teen fantasy : 60
27062 : seen the movie : 60
23569 : physics : 60
25490 : recipes : 60
9097 : dc vertigo : 60
17415 : koontz dean : 60
17645 : latin american literature : 60
20405 : monsters : 59
6098 : caldecott : 59
27640 : shojo : 59
1033 : 33 keepers : 59
5295 : books made into movies : 59
10221 : ece 3601 : 59
31831 : vertigo comics : 59
28183 : south : 59
4637 : bios memoirs : 59
4612 : biography autobiography memoir : 59
24771 : quirky : 59
23552 : p

17735 : lawyer : 40
2713 : anti hero : 40
17748 : lds author : 40
19077 : manga collection : 40
18697 : low fantasy : 40
21472 : newbery medal winners : 39
3179 : artsy : 39
8162 : cookbooks food : 39
10655 : english history : 39
26422 : s : 39
14877 : horses : 39
14456 : historia : 39
7391 : class : 39
19860 : mexico : 39
28648 : stephen : 39
19166 : mangas comics : 39
23353 : personal mba : 39
14999 : hugo nebula : 39
11425 : fashion : 39
11949 : financial : 39
9535 : dirty talk : 39
7179 : christian spirituality : 39
15990 : jack : 39
20302 : modern literature : 39
23979 : pop sci : 39
4356 : best of 2015 : 39
1711 : adventures : 39
25628 : relationship : 39
20075 : military war : 38
28030 : social psychology : 38
5506 : botm : 38
15462 : indian author : 38
8214 : cooking and food : 38
29466 : teen lit : 38
19689 : meg cabot : 38
16135 : jamespatterson : 38
9546 : disaster : 38
16978 : keeper : 38
32023 : waiting for release : 38
21035 : myths : 38
3219 : asian american : 38
13079 :

17466 : ku : 22
10826 : erotica bdsm : 22
17408 : komiksy : 22
5565 : boxall 1001 : 22
27822 : single parent : 22
2149 : alphas : 22
2145 : alphabet mysteries : 22
30281 : thieves : 22
6614 : charlaine harris : 22
14283 : here be dragons : 22
6877 : children literature : 22
19784 : mental : 22
30473 : timetravel : 22
90 : 01 folklore : 22
2707 : anthropomorphism : 22
24074 : postcolonial : 22
22064 : npr : 22
6999 : chile : 22
24092 : potter : 22
2604 : anita blake vampire hunter : 22
2600 : anita : 22
14242 : help : 22
31749 : vampires werewolves : 22
21888 : norwegian : 22
14002 : harris charlaine : 22
8624 : cs lewis : 22
15505 : indonesia : 22
18606 : lost generation : 22
6504 : celtic : 22
24241 : presidential bios : 22
13339 : golden books : 22
24236 : president : 22
9389 : devotionals : 22
27011 : seattle : 22
27025 : second world war : 22
919 : 20s : 22
20176 : missing : 22
16798 : juvenil : 22
23248 : pennsylvania : 22
7183 : christian suspense : 22
12165 : folktales : 22
2648

21328 : nephilim : 18
14441 : hispanic : 18
10083 : dystopie : 18
21355 : neurology : 18
26827 : science and technology : 18
12197 : food and wine : 18
9946 : drizzt do urden : 18
14395 : highlander romance : 18
14393 : highland romance : 18
28184 : south africa : 18
9928 : dresden files : 18
9927 : dresden : 18
12153 : folk : 18
12835 : gardner : 18
12836 : gardner lisa : 18
14355 : higgins clark mary : 18
14354 : higgins clark : 18
9851 : dragon books : 18
13783 : guides : 18
19897 : michael crichton : 18
8514 : crichton michael : 18
21865 : norsk : 18
19894 : michael connelly harry bosch : 18
22179 : ocean : 18
11382 : fantasy supernatural : 18
2481 : andrews : 18
14013 : harry dresden : 18
8941 : dark horse : 18
32021 : waiting : 18
7606 : coelho : 18
2142 : alphabet : 18
19678 : medieval romance : 18
11662 : female writers : 18
8553 : crimes : 18
13981 : harlequin : 18
19817 : mermaids : 18
31951 : visual : 18
23373 : persons : 18
22228 : ohio : 18
11098 : f sf : 18
11093 : f f : 

25627 : relations : 13
24301 : prime : 13
32190 : warriors cats : 13
30147 : the twilight saga : 13
14790 : homosexuality : 13
18921 : magicians : 13
4411 : beverly cleary : 13
26151 : romance fantasy : 13
6370 : cast : 13
2753 : aom : 13
2116 : allende : 13
29573 : tess gerritsen : 13
14209 : heinlein : 13
10344 : egyptian : 13
7543 : clive cussler dirk pitt : 13
2772 : apocalyptic dystopian : 13
15844 : isabel allende : 13
20936 : mysterious : 12
16397 : jews : 12
30308 : thomas : 12
12042 : first nations : 12
21101 : napoleonic : 12
21349 : neuro : 12
5880 : buddhist : 12
14675 : hobbies : 12
7329 : cirque du freak : 12
5858 : bryson : 12
10611 : enderverse : 12
27983 : snicket : 12
1014 : 30 before 30 : 12
5047 : bookcase : 12
10609 : enders game : 12
12682 : funny books : 12
20967 : mystery fiction : 12
12472 : francophile : 12
20915 : myron bolitar : 12
7994 : connelly harry bosch : 12
17477 : kunst : 12
5702 : brian jacques : 12
16755 : junior : 12
25593 : refugees : 12
25971 : 

15834 : irving : 11
18413 : little house : 11
20117 : mindfuck : 11
20107 : mind body : 11
28603 : statistics : 11
26158 : romance manga : 11
9953 : drug abuse : 11
23969 : pop : 11
1238 : 80s : 11
29478 : teen spy : 11
21303 : neighbors : 11
16695 : judy blume : 11
4719 : black literature : 11
25625 : related books : 11
12632 : frost : 11
22830 : oz : 11
21029 : mythology folklore : 11
4895 : bond : 11
19228 : margaret peterson haddix : 11
30082 : the saga of darren shan : 11
12545 : freedom : 11
15203 : iain m banks : 11
5905 : bukowski : 11
19344 : martin : 11
17563 : lahaye : 11
10163 : eastern : 11
24494 : psych books : 11
29471 : teen pregnancy : 11
10175 : easton press : 11
10154 : east : 11
17565 : lahaye tim : 11
17678 : laura ingalls wilder : 11
14546 : historique : 11
21058 : na romance : 11
25958 : rivers francine : 11
24454 : prostitution : 11
16458 : joe hill : 11
27032 : secret baby : 11
15211 : ian mcewan : 11
25969 : rizzoli and isles : 11
16399 : jf : 11
22870 : pagan

1566 : actresses : 8
32400 : wheel : 8
9696 : dom sub : 8
26682 : scandinavian authors : 8
20953 : mystery classic : 8
9563 : discrimination : 8
23109 : patterson bennett : 8
23116 : patterson michael bennett : 8
32300 : weiner jennifer : 8
1766 : african americans : 8
12884 : gay romance : 8
1495 : absurdism : 8
26760 : school shootings : 8
20686 : music history : 8
26773 : sci fi  fantasy : 8
9885 : dragons of pern : 8
20741 : mutants : 8
12805 : game : 8
1415 : abandonados : 8
28185 : south african : 8
9952 : drug : 8
32506 : will trent : 8
9962 : druid : 8
32525 : williams : 8
22880 : page to screen : 8
32556 : winnie the pooh : 8
10471 : ellen schreiber : 8
10492 : elvis : 8
11067 : exploring assignment : 8
27595 : sherlockiana : 8
27599 : sherrilyn : 8
11735 : ficcion : 8
11739 : fict : 8
11772 : fiction espionage : 8
27650 : shopaholic : 8
11856 : ficton : 8
27689 : short stories : 8
21864 : norse mythology : 8
22418 : online : 8
241 : 1001 books 2006 : 8
27536 : shelfari fictio

15262 : iggulden : 7
12831 : garden : 7
18583 : lorien legacies : 7
15273 : iles : 7
7354 : civilization : 7
2328 : american southwest : 7
2892 : argentine : 7
1178 : 6 : 7
15263 : iggulden conn : 7
20725 : must : 7
12599 : friends with benefits : 7
7347 : civil war fiction : 7
10152 : earthsea : 7
2894 : argentinian : 7
4786 : bloodlines : 7
15249 : idw : 7
1439 : abc : 7
31987 : vorkosigan : 7
21056 : na estante : 7
9897 : dramas : 7
20969 : mystery forensic : 7
31248 : trudi canavan : 7
23388 : peter : 7
3680 : award winning author : 7
32549 : wine : 7
28146 : sophomore year : 7
23966 : pooh : 7
23956 : polygamy : 7
23953 : polskie : 7
15129 : i am number four : 7
7207 : christianity religion : 7
2339 : americas : 7
13758 : guardian 100 non fiction : 7
16344 : jenny nimmo : 7
19855 : mexican : 7
25990 : roadtrip : 7
17420 : korean : 7
25988 : road trips : 7
16343 : jenny han : 7
3723 : b n classics : 7
12683 : funny fiction : 7
10041 : dwarves : 7
25664 : religion islam : 7
12781 : 

12066 : fisica : 6
31038 : tournament of books 2013 : 6
14255 : henderson dee : 6
14254 : henderson : 6
8295 : cornelia funke : 6
29717 : the clifton chronicles : 6
29718 : the clique : 6
27664 : short list : 6
11011 : ex police : 6
5833 : brothers and sisters : 6
28911 : succubus : 6
22313 : on art : 6
22094 : nursery rhymes : 6
107 : 03 informational : 6
19632 : mediator : 6
33242 : zelazny roger : 6
27506 : shel silverstein : 6
17961 : letteratura giapponese : 6
8404 : cousins war : 6
16120 : james patterson wmc : 6
26159 : romance medieval : 6
22137 : o malley : 6
5275 : books in english : 6
22315 : on bookshelf : 6
19636 : medical books : 6
22351 : on my sheft : 6
21988 : novecento : 6
11627 : feehan  christine : 6
16609 : jones darynda : 6
11289 : fantasi : 6
162 : 1 ladies detective agency : 6
17117 : kidnap : 6
27534 : shelfari fantasy : 6
6382 : castellano : 6
27384 : sexual : 6
16099 : james patterson bennett : 6
8473 : creative arts : 6
16588 : jon krakauer : 6
17901 : lemon

13818 : gypsies : 5
13812 : guy gavriel kay : 5
28766 : story books : 5
8521 : crime and thriller : 5
28765 : story book showcase : 5
9067 : davidson : 5
2133 : alpha and omega : 5
16670 : jp private : 5
20033 : mil sf : 5
26348 : running books : 5
2327 : american southern : 5
8790 : d and d : 5
8499 : creativity writing : 5
19673 : medieval lit : 5
31974 : vocabulary : 5
14019 : harry potter books : 5
26268 : rory s booklist : 5
2533 : anglo saxons : 5
13856 : haiti : 5
9009 : dave eggers : 5
28659 : stephen hawking : 5
8554 : criminal : 5
2565 : animal pov : 5
2257 : ambrose : 5
14023 : harry potter related : 5
26358 : rushdie : 5
19814 : merlin : 5
4901 : bone : 5
31970 : vladimir tod : 5
8747 : cutting : 5
2308 : american indians : 5
26357 : rus : 5
17520 : l engle : 5
4505 : biker boys : 5
20082 : millennium : 5
32903 : ww i : 5
5443 : bookshare : 5
5156 : books for work : 5
22625 : overrated : 5
21440 : new zealand : 5
27846 : sisterhood of the traveling pants : 5
32893 : wsirn :

6106 : caldecott honor book : 4
24843 : radcliffe 100 : 4
12606 : frog and toad : 4
18604 : lost fleet : 4
28294 : specific : 4
5326 : books on tape : 4
28093 : somerset maugham : 4
3751 : baby prep : 4
30315 : thomas harris : 4
10126 : early chapter book : 4
33219 : zadie smith : 4
24002 : pornography : 4
25603 : region : 4
28080 : somalia : 4
29900 : the last dragon chronicles : 4
32642 : with the children : 4
11457 : fathers and daughters : 4
24010 : portugese : 4
18856 : madeleine wickham : 4
32641 : with my kids : 4
147 : 1 ax a a bookscouter 1 : 4
21062 : nabokov : 4
15257 : if you : 4
22048 : november : 4
26905 : scififantasy : 4
31227 : trigiani : 4
25583 : references : 4
29519 : templars : 4
27381 : sex work : 4
21038 : mzb : 4
1207 : 7 : 4
7169 : christian religion : 4
22099 : nutrition and health : 4
24362 : private investigators : 4
22085 : nuclear war : 4
17882 : leigh nichols : 4
112 : 04 caldecott : 4
4421 : bfiar : 4
23994 : popular music : 4
30915 : tolkien related : 4

24721 : queen betsy : 4
11921 : filmmaking : 4
10978 : everglades : 4
22538 : oslo : 4
6617 : charles : 4
18157 : life skills : 4
30425 : tigers curse : 4
10982 : evernight : 4
24210 : prehistorical fiction : 4
17084 : kickass heroines : 4
21697 : non fiction biography : 4
21604 : niven larry : 4
10972 : events : 4
6608 : character study : 4
24181 : predicting : 4
21651 : no words : 4
30503 : to : 4
18132 : life after death : 4
4277 : bentang : 4
27692 : shortlist : 4
5379 : books that changed my life : 4
6571 : chance karen : 4
6570 : chance : 4
15860 : islami : 4
29784 : the famous five : 4
6595 : chapter : 4
24218 : premonition : 4
18149 : life leadership : 4
6602 : chara : 4
27691 : shorties : 4
30423 : tiger saga : 4
11864 : fifty : 4
10918 : ethnic : 4
4236 : bella forest : 4
15765 : investment books : 4
11955 : financial freedom : 4
30412 : tibetan buddhism : 4
6664 : cheating hero : 4
32971 : y : 4
18190 : lightbringer : 4
21565 : night world : 4
22578 : oulipo : 4
24657 : puns

22193 : october 2016 : 3
15910 : italian cooking : 3
19595 : mcmurtry : 3
22980 : paranormal ghosts : 3
19800 : mercenaries : 3
22458 : oprah s book list : 3
23101 : patrick o brian : 3
26260 : rory gilmore s list : 3
17196 : kimberly derting : 3
11788 : fiction indian : 3
15957 : j d salinger : 3
18917 : magical girls : 3
19801 : mercenary : 3
21791 : nonfiction lds : 3
20591 : mrs adult permanent : 3
18780 : lynley : 3
16642 : joshilyn jackson : 3
23907 : politic : 3
24486 : psikoloji : 3
15053 : humor comics : 3
26763 : school violence : 3
16380 : jeugdboeken : 3
21793 : nonfiction memoir : 3
24675 : purity : 3
23067 : pastoral : 3
15961 : j g ballard : 3
14317 : herriot james : 3
17483 : kuroshitsuji : 3
11769 : fiction detective : 3
14886 : hospitality : 3
14323 : hex hall : 3
22257 : old republic era : 3
25682 : religione : 3
23483 : philosophy classics : 3
13870 : haller : 3
22475 : oral histories : 3
11816 : fiction poetry : 3
21764 : nonebk : 3
26767 : schule : 3
18778 : lyndo

20980 : mystery paranormal : 3
14609 : history of philosophy : 3
18405 : little bear : 3
22831 : oz books : 3
13443 : got it : 3
26870 : science psychology : 3
26873 : science space : 3
19182 : manhwa : 3
21242 : near death experiences : 3
20144 : mira grant : 3
14751 : holy spirit : 3
19186 : manifesting : 3
24077 : postcolonialism : 3
17810 : learning how to draw : 3
17702 : lauren destefano : 3
12441 : fox and o hare : 3
15416 : in the garden trilogy : 3
15415 : in the garden : 3
12447 : fractured fairy tale : 3
17701 : lauren conrad : 3
14634 : history world war two : 3
12457 : frances hodgson burnett : 3
16732 : july 2015 : 3
26486 : saints : 3
18433 : liveship traders : 3
17340 : kitty : 3
26990 : seal team six : 3
23710 : planetary romance : 3
26589 : sara gruen : 3
12419 : fotografia : 3
12422 : found : 3
26586 : sara donati : 3
25893 : richard matheson : 3
15219 : ice and fire : 3
26582 : sapkowski andrzej : 3
13417 : goosbumps : 3
17777 : le monde : 3
26882 : science y : 3
17

9724 : donald miller : 3
2856 : archaelogical thefts fiction : 3
2913 : armenia : 3
9745 : donna tartt : 3
2903 : aristotle : 3
2902 : aristocracy : 3
9736 : donati : 3
31688 : v c  andrews : 3
28291 : special ops : 3
30428 : tillie cole : 3
2896 : argentinian literature : 3
30422 : tiger s curse : 3
30419 : tiffany aching : 3
5390 : books that will change your life : 3
2869 : architecture design : 3
29002 : superhero fiction : 3
5433 : books with movies : 3
31793 : vegan cookbooks : 3
8275 : copywriting : 3
5276 : books in french : 3
28234 : sp : 3
5468 : border : 3
5470 : bored halfway through : 3
5477 : born in trilogy : 3
29023 : supernova : 3
30479 : tin tin : 3
28255 : space trilogy : 3
5480 : borrow or not later : 3
2704 : anthropologists : 3
28224 : southern writer : 3
31798 : vegas : 3
8255 : cooks : 3
5466 : bootlegging : 3
8372 : country : 3
31772 : vargas llosa : 3
9827 : doyle : 3
2957 : art and history : 3
2763 : apes : 3
2966 : art animation : 3
8368 : counterterrorism :

11255 : famine : 3
4387 : beth revis : 3
7258 : christopher pike : 3
11264 : fan : 3
29615 : the american west : 3
29613 : the adventures of tintin : 3
4157 : bees : 3
29612 : the 5th wave : 3
33157 : younger days : 3
266 : 1001 libri da leggere : 3
7266 : chronicles of nick : 3
30934 : tom rob smith : 3
6924 : children s nonfiction : 3
6893 : children s book for technology : 3
29639 : the beatles : 3
29638 : the beat generation : 3
11235 : family life : 3
30931 : tom douglas : 3
7278 : chunksters : 3
30933 : tom perrotta : 3
4142 : bed and breakfast : 3
4144 : bedroom : 3
33117 : young adult children : 3
31062 : tr non fiction : 3
8997 : daughter of smoke and bone : 3
27531 : shelfari confirmed : 3
11303 : fantasty : 3
29487 : teenage years : 3
8978 : darth : 3
29485 : teenage pregnancy : 3
11291 : fantasia epica : 3
7008 : chimamanda ngozi adichie : 3
33185 : yum : 3
4373 : best sellers : 3
33163 : youssef zidan : 3
31042 : tournament of books 2017 : 3
31039 : tournament of books 201

5789 : brittainy c cherry : 2
24930 : rats : 2
16660 : jousei : 2
5795 : brodi ashton : 2
16653 : journalist : 2
30201 : the young elites : 2
16646 : jostein gaarder : 2
16644 : joshua harris : 2
24936 : ravinder : 2
24937 : ravinder singh : 2
4289 : berg : 2
5722 : bridge trilogy : 2
16684 : jude devereaux : 2
5727 : bridget jones : 2
30235 : theodore dreiser : 2
30233 : theodore boone : 2
30231 : theodicy : 2
16725 : julio verne : 2
30229 : theo : 2
5738 : brigid kemmerer : 2
5739 : brilliance saga : 2
30226 : theme social studies : 2
16712 : julianne donaldson : 2
5744 : brit : 2
16710 : julian barnes : 2
30222 : theme : 2
5755 : british books : 2
16703 : julia alvarez : 2
16699 : jugendbuch : 2
16698 : judy schachner : 2
16687 : judicial : 2
5767 : british historical fiction : 2
16841 : kahlil gibran : 2
16846 : kalayna price : 2
16635 : josephine angelini : 2
5453 : bookstores : 2
17046 : keto : 2
30378 : thriller romance : 2
17036 : kept : 2
5442 : bookself : 2
5446 : bookshelf 5

20945 : mystery agatha christie : 2
22851 : p p : 2
22852 : p2p : 2
22854 : pa : 2
1306 : a course in miracles : 2
1307 : a court of thorns and roses : 2
32559 : winslow : 2
20921 : myshelf : 2
20916 : myron bolitar mysteries : 2
1315 : a fantasy : 2
1321 : a g howard : 2
1323 : a galaxy far far away : 2
22875 : pagan witchcraft : 2
20895 : my top ten : 2
20960 : mystery crime suspense : 2
20977 : mystery medical : 2
21033 : mythos academy : 2
21031 : mythology religion : 2
1215 : 7 not intrested : 2
1220 : 700s : 2
32612 : witch books : 2
1230 : 8 : 2
21014 : myth fiction : 2
21007 : mystic : 2
1260 : 973 3 : 2
1239 : 813 5 : 2
20999 : mystery thriller spy : 2
1247 : 9 : 2
1250 : 9 12 : 2
20992 : mystery suspense thriller horror : 2
22833 : ozarks : 2
1259 : 911 : 2
23012 : parenting baby : 2
1548 : action mystery : 2
23015 : parenting childcare : 2
1944 : albert einstein : 2
32233 : watterson : 2
32230 : watergate : 2
20265 : mobsters : 2
20263 : mobs : 2
23212 : penderwicks : 2
3222

2347 : amish culture : 2
23392 : peter carey : 2
23393 : peter clines : 2
31992 : vp 1 : 2
19846 : methodology : 2
19845 : meth : 2
2358 : amnell : 2
31966 : vk : 2
31981 : volcanoes : 2
19834 : metaethics : 2
2366 : amos decker : 2
23403 : peter may : 2
23404 : peter mayle : 2
31977 : voice trait : 2
31976 : voice : 2
2387 : amy plum : 2
19717 : melody anne : 2
23451 : philippines : 2
31997 : vulkan : 2
23452 : phillip marlowe : 2
31828 : verslas : 2
2645 : anne bronte : 2
2653 : anne melody : 2
2655 : anne neville : 2
2656 : anne of cleves : 2
31822 : veronica mars : 2
31821 : vernor vinge : 2
23492 : philosophy metaphysics : 2
31813 : veritas : 2
23496 : philosophy of language : 2
2680 : anonymous : 2
31802 : vegetarian cooking : 2
31799 : vegetables : 2
2700 : anthony robbins : 2
31794 : vegan cooking : 2
19588 : mcguire : 2
31792 : vegan cookbook : 2
23509 : philosophy spiritual : 2
19576 : mccourt : 2
31781 : vaughn carrie : 2
19635 : medical anthropology : 2
31833 : vestibular :

27749 : siege of leningrad : 2
26854 : science geology : 2
29148 : sword and planet : 2
25937 : rilke : 2
10029 : dust lands : 2
27743 : sidhe : 2
26416 : rylan s books : 2
10028 : dust bowl : 2
14516 : historical jesus : 2
10846 : escritoras : 2
8014 : conservative : 2
8009 : conseguir : 2
12694 : funny women : 2
11969 : find in nypl : 2
29155 : swords : 2
12695 : funplunge : 2
7990 : connections : 2
28145 : sophomore : 2
11964 : finanzas personales : 2
8024 : conspiracy theory : 2
9041 : david gemell : 2
10034 : dutch literature : 2
14482 : historical england : 2
11991 : finnish : 2
29135 : swindlers : 2
8042 : contagious : 2
10822 : erotic literature : 2
9024 : david baldacci amos decker : 2
28654 : stephen covey : 2
9032 : david bowie top 100 : 2
10829 : erotik : 2
8037 : consumed eyes : 2
29139 : swiss literature : 2
27752 : sierra leone : 2
10831 : error : 2
14497 : historical fiction europe : 2
8033 : consulta : 2
14499 : historical fiction france : 2
25941 : ringworld : 2
28650

12860 : gatekeepers : 2
11174 : faith building : 2
9653 : do not want : 2
14908 : hotels : 2
13315 : goddess test : 2
7552 : clothbound classics : 2
13314 : goddess : 2
28512 : stage play : 2
11493 : favoriler : 2
14901 : hot guys : 2
14902 : hot highlanders : 2
9325 : design ux : 2
11494 : favorilerim : 2
28508 : staff recommendation : 2
27570 : sheriff : 2
9800 : douglas : 2
27416 : sfr : 2
28411 : spirtuality religion : 2
28413 : splintered : 2
11193 : fall 2017 : 2
27485 : sharon draper : 2
13305 : go to cookbooks : 2
28448 : sports star : 2
7553 : clothes : 2
28252 : space scifi : 2
9308 : deseret bookshelf : 2
13322 : gods and monsters : 2
27335 : services : 2
27418 : sh : 2
25624 : related : 2
28409 : spirtual : 2
9310 : desert island : 2
25629 : relationship books : 2
13131 : gettysburg : 2
28249 : space program : 2
11679 : feminist non fiction : 2
11180 : faith related : 2
11181 : faith religion : 2
7562 : clues : 2
28410 : spirtuality : 2
11182 : faith spiritual matters : 2
9

23265 : percy fawcett : 1
31676 : uwem akpan : 1
23185 : peak : 1
28308 : spelling bees : 1
28297 : spectacle : 1
32151 : war period : 1
31654 : us revolution : 1
26654 : savvy : 1
31651 : us navy : 1
23683 : pit bulls : 1
26925 : scott b smith : 1
31655 : us texas : 1
23184 : peach pit : 1
23167 : pc kristin cast : 1
26924 : scott and zelda : 1
23291 : period drama : 1
32149 : war on drugs : 1
28371 : spiritual practices : 1
26707 : scarlet : 1
28044 : socialissues : 1
26702 : scanning : 1
31671 : utopian fiction : 1
23688 : pivotal moments in american history : 1
23176 : pdfs : 1
23681 : pissed : 1
23687 : pivot point : 1
28053 : sociology anthropology : 1
23178 : pe : 1
23274 : percy jackson the olympians : 1
23179 : peabody : 1
28051 : sociological : 1
31675 : utveckling : 1
28055 : sociopath : 1
23278 : perez reverte : 1
32260 : we want : 1
23691 : pjo hoo : 1
26931 : scott j s : 1
26932 : scott kat : 1
23617 : picture brides : 1
28299 : speculative and fantastic : 1
26930 : scott

27347 : set in the uk : 1
22474 : oral : 1
27346 : set in the 80s : 1
33076 : year 4 : 1
33075 : year 2 : 1
22490 : organ donation : 1
27574 : sherlock but not so sherlock : 1
22491 : organic : 1
22510 : orientalism : 1
27579 : sherlock holmes mystery : 1
27580 : sherlock holmes pastiche : 1
27582 : sherlock pastiche five star : 1
27584 : sherlock stories : 1
22515 : original curious george : 1
27586 : sherlock201707 : 1
22516 : original language : 1
27588 : sherlockholmes : 1
22492 : organisation : 1
27327 : serious : 1
22493 : organise : 1
22495 : organization development : 1
22496 : organization trait : 1
27576 : sherlock holmes and acd : 1
22500 : organizational learning : 1
22501 : organizational strategy : 1
27336 : sesame street : 1
27334 : service industry : 1
27577 : sherlock holmes collection : 1
22506 : orhan : 1
27333 : service design : 1
27578 : sherlock holmes fiction : 1
27329 : sermons : 1
27328 : sermon on the mount : 1
32966 : xsanford : 1
27627 : shiv khera : 1
27698

33096 : yoga and meditation : 1
27354 : setting chicago : 1
27353 : setting austria : 1
33094 : yoda : 1
27553 : shelfari science fiction : 1
33092 : yet to purchase : 1
33089 : yerli roman : 1
27554 : shelfari science fiction shelf : 1
33088 : yerli : 1
22454 : oprah pick : 1
27555 : shelfari travel : 1
33087 : yen press : 1
27559 : shell : 1
33085 : yellowrock : 1
22448 : oppression : 1
22444 : opium trade : 1
33115 : young adult 2012 : 1
22443 : operative : 1
27545 : shelfari movedfrommctomc2 : 1
22433 : ook and gluk : 1
22434 : ook voorgelezen kringboek : 1
33110 : you can win : 1
33109 : you can heal your life : 1
22435 : oomph worthy books : 1
27358 : setting pennsylvania : 1
33108 : yotsuba : 1
22437 : opb : 1
22438 : open : 1
33107 : yoshiki nakamura : 1
27356 : setting europe : 1
22440 : operation : 1
33106 : yoshihiro togashi : 1
33105 : yorkshire : 1
33103 : yogi : 1
33102 : yogananda : 1
22442 : operations management : 1
27374 : sex gender : 1
27375 : sex oriented : 1
22411

30203 : thea harrison : 1
30202 : the zombie room : 1
25952 : rithmatist : 1
24933 : raven shadow : 1
25951 : rites : 1
30200 : the years of lyndon johnson : 1
29133 : swindle : 1
30197 : the wolf gift chronicles : 1
30196 : the witches : 1
24935 : ravin : 1
29192 : t a barron : 1
30239 : theological studies : 1
30017 : the plum tree : 1
30022 : the power of love : 1
29226 : taleb : 1
30020 : the power of a praying wife : 1
29228 : talent assessment : 1
30019 : the power : 1
25888 : richard jury : 1
29229 : talentontwikkeling : 1
30016 : the pledge : 1
29231 : tales from a not so happy heart bre : 1
29232 : tales from a not so talented pop st : 1
30015 : the pilgrimage : 1
25882 : richard evans : 1
30014 : the pigman : 1
30013 : the phantom of the opera : 1
25880 : richard condon : 1
30010 : the perfume collector : 1
30023 : the power of now : 1
30024 : the power of positive thinking : 1
30025 : the power of rest : 1
29224 : takshashila : 1
30044 : the queen s thief : 1
29217 : taj mah

24776 : quot hardbound : 1
30344 : thoughts : 1
29029 : supervision : 1
24777 : quotes : 1
29030 : supremacy : 1
24778 : quran : 1
24781 : qwilleran : 1
26038 : roberto bolano : 1
26037 : robert silverberg : 1
26036 : robert s book shelf : 1
30340 : thoughtful : 1
30338 : thought leader : 1
30337 : thought experiment : 1
30334 : thorough : 1
24787 : r c sproul : 1
24806 : raccoons : 1
24809 : race and ethnicity : 1
26006 : robert bloch : 1
30291 : thinker : 1
30295 : third person pov : 1
26016 : robert goolrick : 1
30292 : thinkers : 1
24834 : rachel ward : 1
29056 : susan crandall : 1
26014 : robert fulghum : 1
29057 : susan dennard : 1
30290 : think like a man : 1
30309 : thomas a kempis : 1
29060 : susan elia macneal : 1
24835 : rachels : 1
30289 : think and grow rich : 1
30288 : things that go boo : 1
24836 : racial discrimination : 1
26008 : robert charles wilson : 1
29063 : susan hill : 1
26007 : robert bryndza : 1
30286 : things not seen : 1
30297 : third shelf : 1
30298 : third

24172 : pre teen books : 1
31033 : tourettes syndrome : 1
31032 : tourettes : 1
28686 : steve alten : 1
28690 : steve dublanica : 1
31056 : tr ct nonfic : 1
28691 : steve harvey : 1
24177 : precious gems : 1
26378 : russian classic literature : 1
31029 : tour : 1
28692 : steve hockensmith : 1
24180 : predictable text : 1
31028 : tough times : 1
31026 : touching spirit bear : 1
24183 : predjudice : 1
28682 : stephenie meyer books : 1
31043 : towerteam v : 1
31046 : toxicology : 1
31055 : tr cooking : 1
28672 : stephen king tbr : 1
31054 : tr classics : 1
31051 : tpb s : 1
28673 : stephen king the gunslinger : 1
26394 : russisch : 1
28676 : stephen lawhead : 1
24159 : pre apocalyptic : 1
24160 : pre college : 1
26391 : russian writers : 1
24161 : pre crisis : 1
24162 : pre elementary : 1
26390 : russian ukrainian classics : 1
26389 : russian tbr : 1
31047 : toy : 1
28679 : stephen r lawhead : 1
26386 : russian oligarchs : 1
28651 : stephen clarke : 1
31084 : traded sold : 1
24075 : postc

23866 : poets and poetry : 1
23868 : poezija : 1
31358 : tweak : 1
28487 : spying : 1
31381 : twin towers : 1
31383 : twins books : 1
31384 : twist : 1
28469 : spy and mystery : 1
23839 : poetry and poetics : 1
26574 : sanguines : 1
23841 : poetry and short stories : 1
26573 : sanghvi : 1
31393 : tyler oakley : 1
31392 : tyler hamilton : 1
23843 : poetry classics : 1
31387 : twisty : 1
26572 : sang pemimpin : 1
26571 : sang pemimpi : 1
26570 : sanfrancisco earthquake : 1
23847 : poetry essays plays : 1
23850 : poetry in translation : 1
31385 : twist suspense : 1
23851 : poetry iran : 1
31025 : touching : 1
24184 : preeti shenoy : 1
24185 : prefered : 1
24511 : psycho pass books : 1
28844 : stuart : 1
28845 : stuarts : 1
28847 : student affairs : 1
24513 : psychoanalysis psychology : 1
24514 : psychoanalytic theory : 1
24515 : psychobabble : 1
24519 : psychological mystery : 1
28855 : studies  : 1
26204 : romantic poetry : 1
28853 : studied at school : 1
24523 : psychological warfare : 

6797 : child detective : 1
6796 : child custody case : 1
6795 : child custody battle : 1
6793 : child called it : 1
6792 : child books : 1
6791 : child birth : 1
6790 : child and such : 1
6789 : child advocacy : 1
6788 : child abuse survivor : 1
6787 : child abuse neglect : 1
6781 : chihuahuas : 1
6733 : chicago projects : 1
6730 : chic to the lit : 1
6679 : cheever : 1
6677 : cheer up : 1
6675 : checklists : 1
6674 : checklist : 1
6668 : check later : 1
6666 : check : 1
6660 : cheap from used bookstore : 1
6727 : chibi vampire : 1
6657 : chaucer : 1
6656 : chasing vermeer : 1
6655 : chase : 1
6654 : charlotte rogan : 1
6653 : charlotte k reviews : 1
6647 : charlie parker : 1
6643 : charlie lovett : 1
6686 : chelsea fine : 1
6688 : chelsea lately : 1
6689 : chelsea m cameron : 1
6693 : chennai : 1
6726 : chiaverini jennifer : 1
6725 : chiaverini : 1
6724 : chi books : 1
6723 : cheyenne : 1
6719 : chevalier : 1
6718 : chethan : 1
6713 : chet bernie : 1
6712 : chet and bernie mystery : 1

5529 : boutique law firm : 1
5525 : bourgeois : 1
5524 : bourdain : 1
5523 : bourbon kings : 1
5522 : bounty hunters : 1
5519 : boun : 1
5516 : bought on bookoutlet : 1
5630 : bram stoker : 1
5634 : brandon favs : 1
5471 : boredom : 1
5758 : british colonial africa : 1
5771 : british india : 1
5770 : british humour : 1
5766 : british hf : 1
5764 : british empire : 1
5763 : british crime fiction : 1
5761 : british country estate : 1
5760 : british counterespionage : 1
5759 : british contemporary fiction : 1
5752 : british aristocracy : 1
5732 : briggs janet : 1
5750 : britannica : 1
5749 : britain kristen : 1
5743 : bring with me : 1
5741 : brin : 1
5740 : brilliant writing : 1
5737 : brighton : 1
5736 : bright young things : 1
5735 : brigham young : 1
5772 : british irish : 1
5774 : british isles wish : 1
5780 : british navy : 1
5784 : british theatre : 1
5821 : brother : 1
5817 : brookner : 1
5815 : brooke : 1
5814 : bronx : 1
5804 : broken wheel : 1
5803 : broken silence : 1
5802 : b

10504 : emberverse : 1
10501 : emanline : 1
10500 : emails : 1
10498 : em portugues : 1
10497 : elyse : 1
10490 : elseworlds : 1
10489 : elric saga : 1
10488 : elric : 1
10487 : elon musk recommendations : 1
10485 : elon : 1
10484 : eloise : 1
10483 : eloisa james : 1
10482 : elmore leonard : 1
10618 : energy independence : 1
10622 : enfance : 1
10730 : epic family saga : 1
10749 : episcopal : 1
10744 : epicurean : 1
10738 : epic love story : 1
10737 : epic length : 1
10736 : epic historical fiction : 1
10734 : epic good vs evil : 1
10733 : epic fiction : 1
10728 : ephron : 1
10709 : environment natural : 1
10724 : eoa : 1
10723 : envy : 1
10722 : environmentalists : 1
10717 : environmental philosophy : 1
10716 : environmental law : 1
10715 : environmental issues : 1
10713 : environmental ethics : 1
10751 : epistolaire : 1
10757 : epska fantastika : 1
10759 : epub list : 1
10785 : eric emmanuel schmitt : 1
10784 : eric dickey : 1
10781 : eric blehm : 1
10780 : erialakirjandus : 1
10779

8102 : contractors : 1
8101 : contours of the heart : 1
8094 : continents : 1
8118 : cook books plant based : 1
8120 : cook books to check out : 1
8121 : cook books to look at : 1
8158 : cookbooks desserts : 1
8156 : cookbooks at home : 1
8152 : cookbooks and coffeetables : 1
8146 : cookbook vegan : 1
8145 : cookbook tiana : 1
8144 : cookbook slow cooker : 1
8142 : cookbook memoir stories : 1
8141 : cookbook love : 1
8138 : cookbook french : 1
8136 : cookbook dreams : 1
8129 : cookboks : 1
8123 : cook co : 1
8092 : contexts : 1
8089 : contest : 1
8164 : cookbooks food nutrition : 1
8040 : consumption : 1
8038 : consumer : 1
8035 : consultazione : 1
8034 : consultancy related : 1
8032 : construction company : 1
8031 : construction : 1
8028 : constantius : 1
8027 : constantine : 1
8022 : conspiracy fiction : 1
8088 : content : 1
8021 : conspiracy central : 1
8015 : conservatives : 1
8004 : conquistadors : 1
8000 : connor franta : 1
7999 : connolly john : 1
7998 : connolly : 1
8041 : cont

2443 : ancient persia : 1
2442 : ancient near east : 1
2439 : ancient london : 1
2436 : ancient israel : 1
2434 : ancient historical fiction : 1
2433 : ancient greek philosophy : 1
2430 : ancient greece rome : 1
2428 : ancient egypt and rome : 1
2392 : an angie and patrick story : 1
2388 : amy sedaris : 1
2314 : american literature across the age : 1
2333 : american wit and humor : 1
2350 : amish mennonite : 1
2349 : amish life : 1
2344 : amin maalouf : 1
2343 : ami mckay : 1
2341 : amerika : 1
2340 : americas greatest sin : 1
2336 : americangirl : 1
2334 : american writers : 1
2331 : american war of independence : 1
2385 : amy efaw : 1
2330 : american vampire : 1
2325 : american sniper : 1
2324 : american revolutionary war : 1
2321 : american president : 1
2319 : american poetry : 1
2318 : american pioneers : 1
2317 : american northeast : 1
2316 : american muslim : 1
2351 : amish society : 1
2352 : amish stories : 1
2354 : amish tripati : 1
2355 : amitav : 1
2384 : amy chua : 1
2380 :

198 : 100 book challenge : 1
189 : 10 words ns : 1
188 : 10 next : 1
1025 : 3000 books before kindergarten : 1
1044 : 3a theory culture : 1
1043 : 3a : 1
1042 : 39clues : 1
1037 : 37signals : 1
1036 : 350 p : 1
1035 : 33sow extras : 1
1034 : 338 7 : 1
1031 : 33 : 1
1024 : 300 to 400 : 1
1009 : 3 star shelf : 1
1023 : 300 sciences : 1
1022 : 300 400 pages : 1
1021 : 300 400 : 1
1019 : 30 days of night : 1
1016 : 30 book goal : 1
1046 : 3e art : 1
1047 : 3m checked 2015 : 1
1071 : 4 na : 1
1070 : 4 lib : 1
1066 : 4 enough : 1
1065 : 4 art photograph : 1
1064 : 4 and up : 1
1062 : 4 6 mensa list : 1
1059 : 4 5 star : 1
1058 : 4 5 or better : 1
1057 : 4 5 : 1
1055 : 3rd year uni : 1
1054 : 3rd trimester : 1
1053 : 3rd robert langdon adventure : 1
1005 : 3 sisters ranch barrel racing : 1
977 : 2nd world war : 1
976 : 2nd trimester : 1
974 : 2nd sheriff walt longmire : 1
973 : 2nd sequal to hatchet : 1
972 : 2nd semester : 1
970 : 2nd person : 1
966 : 2nd 6th : 1
965 : 2nc : 1
964 : 2gm : 1


3063 : art music theatre : 1
3062 : art music theater : 1
3060 : art music architecture etc : 1
3057 : art mostly figures : 1
3044 : art inspo : 1
3056 : art modern : 1
3055 : art miscellaneous : 1
3054 : art mexican : 1
3052 : art major : 1
3050 : art lit : 1
3049 : art journals : 1
3048 : art journaling : 1
3047 : art instructional : 1
3071 : art of seduction : 1
3073 : art opt : 1
3077 : art photography etc : 1
3079 : art post impress : 1
3107 : art theory and criticism : 1
3105 : art themed fiction : 1
3103 : art texts : 1
3100 : art technical : 1
3099 : art tbr : 1
3096 : art study guides : 1
3095 : art studies : 1
3094 : art student : 1
3093 : art street : 1
3092 : art store athenaeum : 1
3091 : art spiegelman : 1
3090 : art sketch etc : 1
3089 : art shit : 1
3088 : art school : 1
3085 : art related books : 1
3083 : art references : 1
3080 : art practical : 1
3046 : art instruction want : 1
3043 : art inspirations : 1
2975 : art arthistory : 1
2991 : art comics manga : 1
3009 : a

3705 : ayoklar s book shelf : 1
3701 : ayen : 1
3697 : awww : 1
3696 : aws1 : 1
3450 : austen mania : 1
3449 : austen jane : 1
3447 : austen fan fiction : 1
3205 : ash : 1
3217 : asia s se : 1
3215 : ashwin sanghvi : 1
3213 : ashwin : 1
3210 : ashley jennifer : 1
3208 : ashiri bo : 1
3207 : ashfall : 1
3206 : asheville : 1
3204 : aseli indonesia : 1
3188 : arty and visual : 1
3203 : asdfghjklnenndjd : 1
3202 : asddddddddddddddddddddddddddddd : 1
3199 : ascendance : 1
3197 : as the crow flies : 1
3195 : as a man thinketh : 1
3192 : as : 1
3191 : arundhati roy : 1
3190 : artzy : 1
3220 : asian american authors : 1
3221 : asian american fiction : 1
3224 : asian books : 1
3226 : asian experience : 1
3266 : assassins and spies : 1
3263 : assassination of president : 1
3262 : assassination attempt : 1
3260 : assassin targeting harvath s family : 1
3256 : assad khalil : 1
3255 : asprin : 1
3254 : asphyxia : 1
3252 : aspergers autism : 1
3250 : asperger syndrome : 1
3247 : aspects  : 1
3244 : 

17074 : khoury raymond : 1
17073 : khoury : 1
17071 : khloud : 1
17130 : kids books i love : 1
17070 : khan : 1
17064 : kgb : 1
17063 : keziah : 1
17061 : keys to drawing : 1
17052 : kevin stein : 1
17051 : kevin malarkey : 1
17044 : kerry widget : 1
17088 : kid jenn liked : 1
17089 : kid lawyer : 1
17126 : kids 2017 : 1
17123 : kidnappings : 1
17122 : kidnapping president s children : 1
17121 : kidnapping missing child : 1
17120 : kidnapping cold case : 1
17114 : kidlet age 3 to 5 : 1
17112 : kiddo books : 1
17108 : kiddie days : 1
17105 : kidd : 1
17104 : kidbooks : 1
17102 : kid spy : 1
17101 : kid shelf : 1
17098 : kid s lit : 1
17096 : kid s delight : 1
17095 : kid s books for work : 1
17092 : kid retro : 1
16896 : kat : 1
16892 : kashmir : 1
17969 : letters journals : 1
16616 : jordan sonnenblick : 1
16632 : joseph s : 1
16631 : joseph murphy : 1
16630 : joseph ellis : 1
16626 : joseph campbell : 1
16624 : joseph : 1
16620 : jose mauro de vasconcelos : 1
16619 : jos books : 1
166

17281 : king lear : 1
17278 : king graphic : 1
17277 : king david : 1
17422 : korean fiction : 1
17425 : korean picture brides : 1
17427 : korengal valley : 1
17545 : lacey weatherford : 1
17557 : lady julia : 1
17556 : lady jane grey : 1
17555 : lady and the tramp : 1
17554 : lady : 1
17549 : lackey  mercedes : 1
17547 : lackberg : 1
17546 : lack : 1
17428 : kotimainen : 1
17543 : labyrinth : 1
17542 : laborious : 1
17541 : laboratory : 1
17540 : labor : 1
17535 : la weatherly : 1
17534 : la rueda del tiempo : 1
17533 : la quartet : 1
17532 : la mia libreria : 1
17559 : lady lit : 1
17560 : lady s : 1
17561 : ladybug : 1
17562 : laguna : 1
17589 : langdon : 1
17587 : landvik lorna : 1
17586 : landvik : 1
17581 : land of elyon : 1
17580 : land : 1
17578 : lance : 1
17575 : lamb wally : 1
17574 : lalalala : 1
17573 : lakeview : 1
17572 : lakeside middle school : 1
17570 : lakers : 1
17569 : lake alex : 1
17568 : lairds fiancees : 1
17566 : laila ibrahim : 1
17530 : la casey : 1
17529 : 

19460 : matreidsla 2017 : 1
19458 : matica : 1
19457 : maths science : 1
19455 : mathias malzieu : 1
19453 : matheson : 1
19451 : mathematical : 1
19489 : max barry : 1
19490 : max books : 1
19492 : max frisch : 1
19495 : maximum : 1
19516 : may the force be with you : 1
19512 : may december romance : 1
19511 : may december : 1
19510 : may 2017 : 1
19505 : may 2012 inventory : 1
19501 : maximum ride vol 1 : 1
19499 : maximum ride manga : 1
19497 : maximum ride 1 : 1
19448 : math history : 1
19540 : mayle peter : 1
19391 : mary lawson : 1
19407 : masada : 1
19401 : mary westmacott : 1
19400 : mary todd lincoln : 1
19395 : mary queen of scots : 1
19394 : mary poppins : 1
19392 : mary o hara : 1
19387 : mary hoffman : 1
19443 : mates dates 1 : 1
19386 : mary higgins clarke : 1
19381 : mary e pearson : 1
19379 : mary doria russell : 1
19377 : mary boleyn : 1
19376 : mary beth chapman : 1
19375 : mary anning : 1
19372 : marx : 1
19371 : marvelcomics : 1
19408 : masallar : 1
19409 : masami t

20399 : monographs : 1
20360 : moma : 1
20357 : mom s shelf : 1
20354 : mom lit : 1
20352 : mom books : 1
20350 : molokai : 1
20348 : molly moon : 1
20346 : molly harper : 1
20342 : molecular : 1
20341 : moldova : 1
20340 : moksh : 1
20336 : moira young : 1
20335 : moines : 1
20334 : mohsin hamid : 1
20333 : mohini : 1
20332 : mohawk : 1
20331 : mohammed : 1
20359 : mom upper : 1
20361 : momentarily put aside : 1
20398 : monograph : 1
20387 : mongol : 1
20386 : money personal finance : 1
20385 : money money money : 1
20382 : money laundering : 1
20381 : money finance : 1
20380 : money business : 1
20379 : money books : 1
20378 : money and the law of attraction : 1
20373 : monastery : 1
20372 : monasteries : 1
20370 : monarch butterflies : 1
20369 : monarch 2015 : 1
20367 : mommys books : 1
20366 : mommyhood : 1
20365 : mommy s : 1
16499 : john constantine : 1
16497 : john cleaver : 1
16495 : john carter of mars : 1
12684 : funny in farsi : 1
12699 : futebol : 1
12697 : fushigi yuugi : 

10832 : erskine caldwell : 1
10833 : erstkontakt : 1
10837 : escape from furnace : 1
10838 : escape the ordinary 2015 : 1
10875 : espiritual : 1
10867 : espionage crime : 1
10865 : esperanza rising : 1
10858 : espanha : 1
10855 : esoterismo : 1
10854 : esoterik : 1
10853 : esoterie : 1
10851 : esoteric spirituality : 1
10850 : esoteric philosophy or science : 1
10848 : escuela : 1
10847 : escritores mexicanos : 1
10844 : escola : 1
10843 : escher : 1
10841 : escapology reviews : 1
10840 : escapism : 1
10839 : escaped convict : 1
10975 : eventyr kunst : 1
11073 : expose : 1
11084 : eye candy : 1
11082 : extreme sports : 1
11081 : extreme horror : 1
11080 : extraterrestrial : 1
11078 : extra : 1
11075 : extinct : 1
11074 : exrtrordinary extraterrestrials : 1
11072 : explosions : 1
11052 : expensive for my personal budget : 1
11071 : exploring quality : 1
11068 : exploring author : 1
11066 : exploring 20 books : 1
11064 : explore : 1
11063 : exploratology : 1
11060 : exploitation : 1
1105

15413 : in the collection : 1
15414 : in the company of killers : 1
15448 : independence : 1
15447 : indentured servants : 1
15446 : indelible plot : 1
15445 : indebted : 1
15443 : incredible hulk : 1
15442 : incredible : 1
15439 : income inequality : 1
15438 : includes of dimensions universes : 1
15435 : incas : 1
15429 : incantations : 1
15423 : in the stack : 1
15422 : in the pipeline : 1
15421 : in the past : 1
15420 : in the mood : 1
15419 : in the middle of nowhere : 1
15564 : information science : 1
15566 : information studies : 1
15371 : in hopes of bettering : 1
15653 : institutions : 1
15666 : intellectual capital : 1
15664 : integrity : 1
15663 : integration : 1
15662 : insurgent : 1
15660 : instrumental : 1
15657 : instruction cooking : 1
15656 : instruction art : 1
15654 : instituto : 1
15652 : institutional reform : 1
15640 : inspired my writing : 1
15651 : instant messaging : 1
15650 : instant messages : 1
15649 : instant : 1
15648 : instalove : 1
15647 : insta love or l

13846 : hades : 1
13839 : habitats : 1
13837 : habiburrahman el shirazy : 1
13836 : habe ich : 1
13835 : ha tbr challenge : 1
13834 : ha jin : 1
13833 : h storico : 1
13832 : h storia vera : 1
13831 : h2g2 : 1
13830 : h rider haggard : 1
13829 : h p mallory : 1
13826 : h i v e : 1
13823 : h authors : 1
13817 : gymnastics : 1
13814 : gwen hayes : 1
13813 : gwen cooper : 1
13848 : hafalan shalat delisa : 1
13850 : haggadah : 1
13877 : halloween storytime : 1
13851 : haha : 1
13872 : halliday gemma : 1
13871 : halleys comet : 1
13869 : hall 3 : 1
13868 : hall 2 : 1
13867 : halfblood chronicles : 1
13866 : halfblood : 1
13864 : half human half vampire : 1
13863 : half girlfriend : 1
13862 : half girl friend : 1
13861 : half gf : 1
13860 : half : 1
13858 : haldeman joe : 1
13857 : haldeman : 1
13855 : hairy maclary : 1
13854 : hairdresser : 1
13853 : hailey arthur : 1
14294 : herman koch : 1
14299 : hermeneutics : 1
15022 : human animal interactions : 1
14819 : horrible : 1
14816 : horor : 

In [31]:
#Update value of our tags
t_joined = t_joined[~del_filter]

print(t_joined.shape)
t_joined.head()

(27154, 3)


Unnamed: 0,tag_id,tag_name,count
11743,11743,fiction,9097
1642,1642,adult,6604
8055,8055,contemporary,5287
5090,5090,books,4818
1659,1659,adult fiction,4775


In [32]:
#Filter for tags that have been used atleast 10 or more
# NOTE - This cuts down the number of "tag_names" we have from 27,680 >> 4,450

# We are trying  to get high level tag names, therefore doing this kind of trimming doesn't feel too wrong
# (might be wrong here)

t_joined = t_joined[t_joined["count"] >= 10]
t_joined.shape

(4349, 3)

In [33]:
# from sklearn.cluster import KMeans

# num_clusters = 5

# km = KMeans(n_clusters=num_clusters)

# %time km.fit(tfidf_matrix)

# clusters = km.labels_.tolist()

In [34]:
t_sort_tag_name = t_joined.sort_values(by="tag_name")
t_sort_tag_name.head()

Unnamed: 0,tag_id,tag_name,count
27,27,fictitious,19
47,47,0,11
71,71,00 in class,19
90,90,01 folklore,22
98,98,02 fantasy,48


Because our data is in alphabetical order by 'tag_name', creating clusters by iterating through chunks of the data allow us to determine the affinity groups based on the word distanes.


In [35]:
t_sort_tag_name.shape

(4349, 3)

In [36]:
#Due to the large size and getting convergence warnings splitting up the tags into smaller chunks helps the 
#algorithm
tag_split = np.array_split(np.array(t_sort_tag_name['tag_name']),6)

In [37]:
clusters = []
exemplars = []

words = tag_split[0] #Replace this line
print("CHUNK #1 - size : {0}".format(len(words)))
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words])

affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", damping=0.5)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    exemplar = words[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)

    #Add to list for dataframe creation
    clusters.append(cluster)
    exemplars.append(exemplar)

    print(" - *%s:* %s" % (exemplar, cluster_str))
    print()

    


CHUNK #1 - size : 725




 - *0:* 0, 0wn, 1, 100, 1001, 2, 20s, 3, 39, 80s, 9 11, a, b, c

 - *1 star:* 01 folklore, 1 star, 3 star, 4 star, 5 star, bolitar

 - *100 best books of all time:* 100 best books of all time

 - *100 best business books:* 100 best business books

 - *1000 books before kindergarten:* 1000 books before kindergarten

 - *1001 books:* 100 books, 1001 books, 1001 books list, 1001 import, 1001 list, 1001books, bbc 100 books, biker books

 - *1001 children s books:* 1001 children s books, 1001 childrens books

 - *30 before 30:* 1001 before you die, 30 before 30, before 30

 - *a song of ice and fire:* a song of ice and fire

 - *aar top 100:* aar top 100, amazon 100, amazon top 100, bbc top 100, boxall 1001

 - *action:*  fictitious, abduction, academic, action, action packed, actor, actors, adaptation, addiction, adoption, amazon, arizona, armstrong, asoiaf, atwood, autism, aviation, backlog, batman, beautiful, canon, cartoon, cartoons

 - *adult fantasy:* 02 fantasy, adult fantasy, adult 

In [38]:
words = tag_split[1] #Replace this line
print("CHUNK #2 - size : {0}".format(len(words)))
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words])

affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", damping=0.5)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    exemplar = words[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)

    #Add to list for dataframe creation
    clusters.append(cluster)
    exemplars.append(exemplar)

    print(" - *%s:* %s" % (exemplar, cluster_str))
    print()

    


CHUNK #2 - size : 725




 - *chapter books:* chapter book, chapter books, charles bukowski, charles dickens, early chapter books, erin hunter books

 - *chick lit:* chic lit, chick flick, chick lit, chick lits, chicklit, chiclit, child lee, child lit, chuck palahniuk, church history, civil rights, czech lit, czech republic, dirk pitt

 - *chief inspector armand gamache:* chief inspector armand gamache

 - *childhood faves:* childhood faves, childhood favs, childhood friends, childhood memories, childhood nostalgia

 - *children classics:* childhood classics, children classics, children s classics, childrens classics, christian classics

 - *children lit:* child development, children lit, children s, children s lit, children teen, children youth, childrens, childrens lit, european lit

 - *children literature:* children literature, children picture, children s literature, childrens literature, chinese literature, christian literature, egyptian literature, european literature

 - *children s chapter books:* chil

In [39]:
tag_split[2] 

array(['female detective', 'female lead', 'female pov',
       'female protagonist', 'female writers', 'feminism', 'feminismo',
       'feminist', 'feminist books', 'feminist lit',
       'feminist literature', 'fey', 'fic', 'fictie', 'fiction',
       'fiction adult', 'fiction adventure', 'fiction and literature',
       'fiction christian', 'fiction classic', 'fiction classics',
       'fiction contemporary', 'fiction crime', 'fiction fantasy',
       'fiction general', 'fiction historical', 'fiction horror',
       'fiction humor', 'fiction literature', 'fiction mystery',
       'fiction romance', 'fiction sci fi', 'fiction scifi',
       'fiction short stories', 'fiction suspense', 'fiction thriller',
       'fictitious', 'fighter', 'fighters', 'fiksi', 'fiksi indonesia',
       'film', 'films', 'filosofi', 'filosofia', 'filosofie', 'finance',
       'finance and economics', 'finance business', 'finance economics',
       'finances', 'financial', 'fine art', 'first contact',
      

In [None]:
words = tag_split[2] #Replace this line
print("CHUNK #3 - size : {0}".format(len(words)))
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words])

affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", damping=0.5)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    exemplar = words[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)

    #Add to list for dataframe creation
    clusters.append(cluster)
    exemplars.append(exemplar)

    print(" - *%s:* %s" % (exemplar, cluster_str))
    print()

    


In [41]:
words = tag_split[3] #Replace this line
print("CHUNK #4 - size : {0}".format(len(words)))
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words])

affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", damping=0.5)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    exemplar = words[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)

    #Add to list for dataframe creation
    clusters.append(cluster)
    exemplars.append(exemplar)

    print(" - *%s:* %s" % (exemplar, cluster_str))
    print()

    


CHUNK #4 - size : 725




 - *july 2013:* judy blume, julia quinn, july 2013, june 2013, just for fun, may 2013

 - *karen kingsbury:* karen kingsbury, karen kingsbury books, mary higgins clark

 - *karen slaughter:* karen slaughter, karin slaughter, kay scarpetta, marvel unlimited

 - *kathy reichs:* kate daniels, kathy reichs, kathy reichs bones, lahaye jenkins

 - *kelley armstrong:* karen marie moning, kelley armstrong, kelly armstrong

 - *ken follet:* ken follet, ken follett, kurt vonnegut, need to get, nelson demille, net galley, new adult, new thought

 - *kick ass heroine:* kick ass heroine, kick ass heroines, kickass heroine

 - *kid lit:* kid lit, kid stuff, kiddie lit, kidlit, kidnapping, kids lit, kindergarten, kinsella, kleypas lisa, lit fic, mi biblioteca, myron bolitar, neil gaiman, nihilism

 - *kids books:* kid books, kid s books, kids books, kids chapter books, kids shelf, kids stuff, kinderboeken, lds books, leadership books, nook book

 - *kinsey milhone:* kinsey milhone, kinsey millhone

 

In [42]:
words = tag_split[4] #Replace this line
print("CHUNK #5 - size : {0}".format(len(words)))
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words])

affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", damping=0.5)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    exemplar = words[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)

    #Add to list for dataframe creation
    clusters.append(cluster)
    exemplars.append(exemplar)

    print(" - *%s:* %s" % (exemplar, cluster_str))
    print()

    


CHUNK #5 - size : 725




 - *not interested:* not completed, not interested, not out yet, not yet released

 - *nr:* norway, npr, nr, nyc, nyrb, obc, of, on, oz, p, pb, pd, peru, pm, pnr, pnr uf, r, rgrc

 - *on my shelf:* on my shelf, on my shelves, on shelf, on the shelf, our shared shelf

 - *other:* north america, northwest, october 2013, ohio, on deck, on hold, opera, orphans, other, others, otp, outdoor, outdoors, outlander, paper, potter, prophecy, queer, queer lit

 - *other fiction:* other comics, other fiction, other non fiction, other nonfiction, pop fiction, popular fiction, pulitzer fiction, pulp fiction, queer fiction, romantic fiction

 - *paranormal fantasy:* paranormal angels, paranormal fantasy, paranormal fiction, paranormal mystery, paranormal romance, paranormal supernatural, paranormal urban fantasy, paranormal vampires

 - *parenting:* on writing, painting, palahniuk, palestine, paperback, parenthood, parenting, pending, performing, pregnancy parenting, programming, running, sequencing



In [43]:
words = tag_split[5] #Replace this line
print("CHUNK #6 - size : {0}".format(len(words)))
words = np.asarray(words) #So that indexing with a list will work
lev_similarity = -1*np.array([[distance.levenshtein(w1,w2) for w1 in words] for w2 in words])

affprop = sklearn.cluster.AffinityPropagation(affinity="precomputed", damping=0.5)
affprop.fit(lev_similarity)
for cluster_id in np.unique(affprop.labels_):
    exemplar = words[affprop.cluster_centers_indices_[cluster_id]]
    cluster = np.unique(words[np.nonzero(affprop.labels_==cluster_id)])
    cluster_str = ", ".join(cluster)

    #Add to list for dataframe creation
    clusters.append(cluster)
    exemplars.append(exemplar)

    print(" - *%s:* %s" % (exemplar, cluster_str))
    print()

    


CHUNK #6 - size : 724
 - *sherilyn kenyon:* sherilyn kenyon, sherrilyn kenyon

 - *shonen manga:* shojo manga, shonen manga, shoujo manga, shounen manga, showalter gena

 - *short:* shojo, shonen, short, shorts, shoujo, shounen, shreve, skimm, spirit, sport, sports, story, sweet, swoon worthy, thomas, thor, tudor, whodunit, whodunnit

 - *short stories:* sherlock holmes, short stories, short story, shortstories, spy stories, survival stories, utopia dystopia, war stories

 - *short stories essays:* short stories and essays, short stories essays

 - *short story collections:* short story collection, short story collections, story collections

 - *sidney sheldon:* sidney sheldon, sidneysheldon, sydney sheldon

 - *sir arthur conan doyle:* sir arthur conan doyle

 - *social:* sherlockian, shinigami, silly, silva, social, social work, socialism, society, sociology, someday, sonlight, sophia, soviet, suicide, surreal, survival, technical, tortall, utopia

 - *social media:* social commentar



In [44]:
#Potential clustered genres
genre_clusters = {'Exempler':exemplars,'Cluster':clusters}
df_genre_clusters = pd.DataFrame(genre_clusters)
df_genre_clusters

Unnamed: 0,Exempler,Cluster
0,0,"[0, 0wn, 1, 100, 1001, 2, 20s, 3, 39, 80s, 9 1..."
1,1 star,"[01 folklore, 1 star, 3 star, 4 star, 5 star, ..."
2,100 best books of all time,[100 best books of all time]
3,100 best business books,[100 best business books]
4,1000 books before kindergarten,[1000 books before kindergarten]
...,...,...
516,world war i,"[sword laser, world lit, world war 1, world wa..."
517,wwi,"[sjc, swiss, twd, wlw, woc, wot, wtf, ww 2, ww..."
518,young adult,"[young adult, young adult lit, young adults, y..."
519,young adult fantasy,"[young adult books, young adult contemporary, ..."


### Progress! 


Essentially we are able to break down the 34,000 plus tags into clustered groups of about 520. From here we can apply another level of processing to try and use the general purpose tags, and from their determine a smaller subset of genres.