## Setting up the training data

In [1]:
### Import documents
from marquez_raw import marquez_docs
from cortazar_raw import cortazar_docs
from borges_raw import borges_docs

### Import sklearn modules
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

### Combining documents into a single document for training
combined_docs = marquez_docs + cortazar_docs + borges_docs

### Creating label list for training documents
writers_labels = [0] * len(marquez_docs) + [1] * len(cortazar_docs) + [2] * len(borges_docs)

### Creating list of writers
writers = ["Gabriel García Márquez", "Julio Cortázar", "Jorge Luis Borges", "someone else"]

### Print some samples
print("\n~A Sample from Márquez's Story~\n", marquez_docs[86])
print("\n~A Sample from Cortázar's Story~\n", cortazar_docs[86])
print("\n~A Sample from Borges's Story~\n", borges_docs[86])


~A Sample from Márquez's Story~
 Ella era la prioridad del poder tradicional sobre la autoridad transitoria, el predominio de la clase sobre la plebe, la trascendencia de la sabiduría divina sobre la improvisación mortal

~A Sample from Cortázar's Story~
 «Ciérrale los ojos», pidió llorando una de las mujeres

~A Sample from Borges's Story~
 El hecho es que hasta ahora las pesquisas más diligentes han sido estériles


## Receiving the input

In [2]:
mystery_excerpt = input("Please, paste the excerpt that you wish to identify.\n> ")

Please, paste the excerpt that you wish to identify.
> Leticia estuvo magnífica, no se le movía ni un dedo cuando llegó el tren. Como no podía girar la cabeza la echaba para atrás, juntando los brazos al cuerpo casi como si le faltaran; aparte el verde de la túnica, era como mirar la Venus del Nilo. En la tercera ventanilla vimos a un muchacho de rulos rubios y ojos claros que nos hizo una gran sonrisa al descubrir que Holanda y yo lo saludábamos. El tren se lo llevó en un segundo, pero eran las cuatro y media y todavía discutíamos si vestía de oscuro, si llevaba corbata roja y si era odioso o simpático. El jueves yo hice la actitud del desaliento, y recibimos otro papelito que decía: “Las tres me gustan mucho. Ariel.” Ahora él sacaba la cabeza y un brazo por la ventanilla y nos saludaba riendo. Le calculamos dieciocho años (seguras que no tenía más de dieciséis) y convinimos en que volvía diariamente de algún colegio inglés. Lo más seguro de todo era el colegio inglés, no aceptábamos 

## Training the vector and vectorizing the excerpt

In [3]:
### Create the bag of words vectorizer
bow_vectorizer = CountVectorizer()

### Train the vectorizer on the training documents
stories_vectors = bow_vectorizer.fit_transform(combined_docs)

### Vectorize the excerpt that should be identified
mystery_vector = bow_vectorizer.transform([mystery_excerpt])

## Training the statistical classifier

In [4]:
### Create an instance of the statistical classifier
story_classifier = MultinomialNB()

### Train the classifier on the vectorized stories and the labels
story_classifier.fit(stories_vectors, writers_labels)

MultinomialNB()

## Make a prediction and print it

In [5]:
### Make a prediction with the classifier
prediction = story_classifier.predict(mystery_vector)
mystery_writer_label = prediction[0] if prediction[0] else 3
print("The excerpt was probably written by {}!".format(writers[mystery_writer_label]))

The excerpt was probably written by Julio Cortázar!
