In [3]:
import pandas as pd
import sys
sys.path.append('src')
import cleansing as cl
import len_manip as lm

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     /home/sinatxe/nltk_data...
[nltk_data]   Package vader_lexicon is already up-to-date!


# Selinium Driver

In [2]:
url_blog = "http://estersinatxe.blogspot.com/"

In [3]:
driving = cl.driver_blospot(url_blog,8,8)

#### Checking the import from Selenium driver

In [4]:
tit = driving[0]
texto = driving[1]

In [5]:
tit[3],texto[3]

('En mis recuerdos',
 'En mis recuerdos\n\n\nEn mis recuerdos siempre hay un cenicero, ropa sucia en el suelo y más de un reloj perdiendo el tiempo.\n\nPuedes encontrar cuadernos hechos con hojas de un otoño perenne; también hay un parque eterno que al atardecer se deja liar tras una cortina de humo.\n\nTodas las piedras del camino tiran sus tropiezos sobre mis tejados y esconden las casas sin construir.\n\nCada mirada perdida encuentra un secreto y cada mano inocente guarda el silencio del que calla para siempre.\n\nEn mis recuerdos siempre hay cenizas porque me da miedo el fuego.\n\nEster Sinatxe\n(28-09-2016)\nPublicado por Sinatxe en 21:46:00 No hay comentarios:\nEnviar por correo electrónico\nEscribe un blog\nCompartir con Twitter\nCompartir con Facebook\nCompartir en Pinterest\nEtiquetas: 2016, Camino, cenicero, cenizas, Cuadernos, Otoño, Piedra, Prosa poética, rercuerdo, Silencio, tiempo, tropiezo')

### Cleaning data

In [6]:
lista = texto
indexando = "Enviar por correo electrónico"
firmando = "Ester Sinatxe"
textos = cl.cleaning_texts(lista,indexando,firmando) #function in cleansing.py

In [7]:
textos[3]

'En mis recuerdos siempre hay un cenicero, ropa sucia en el suelo y más de un reloj perdiendo el tiempo.  Puedes encontrar cuadernos hechos con hojas de un otoño perenne; también hay un parque eterno que al atardecer se deja liar tras una cortina de humo.  Todas las piedras del camino tiran sus tropiezos sobre mis tejados y esconden las casas sin construir.  Cada mirada perdida encuentra un secreto y cada mano inocente guarda el silencio del que calla para siempre.  En mis recuerdos siempre hay cenizas porque me da miedo el fuego.'

## DataFrame
- we create a dataframe of the texts with the title and the content

In [8]:
listando = []
for i in range(len(tit)):
    dicc= {}
    dicc["Titulo"] = tit[i]
    dicc["text"] = textos[i]
    listando.append(dicc)
textos_df = pd.DataFrame(listando)
textos_df.head(3)

Unnamed: 0,Titulo,text
0,"Cómo despedirse de alguien, a quien ya no salu...",A Patricia Primero: Dibújate un interrogante ...
1,Números rojos,Números rojos Subí la apuesta a que te bajaba...
2,En espiral,"Sufro una crisis de infertilidad, y ya no sé c..."


### Lenguage manipulation

In [9]:
textos_df["english"] = textos_df["text"].apply(lm.english) #translating text into english

In [10]:
textos_df.rename(columns = {"Titulo":"tit","text":"tex","english":"tex_en"},inplace = True)

In [13]:
textos_df["tok_en"] = textos_df.tex_en.apply(lm.tokenizer) #function in len_manip.py
textos_en = textos_df


#### in the tonkenizer function we use stemming and lemmatization: 
- Stemming uses the stem of the word, while lemmatization uses the context in which the word is being used
    - Stemming algorithms work by cutting off the end or the beginning of the word, taking into account a list of common prefixes and suffixes that can be found in an inflected word. This indiscriminate cutting can be successful in some occasions, but not always, and that is why we affirm that this approach presents some limitations.
    - Lemmatization, on the other hand, takes into consideration the morphological analysis of the words. To do so, it is necessary to have detailed dictionaries which the algorithm can look through to link the form back to its lemma.

In [12]:
textos_en.sample(3)

Unnamed: 0,tit,tex,tex_en,tok_en
43,Poesía urbana,¿Comparas mis ojos con estrellas? Mejor invíta...,Do you compare my eyes with stars?Better invit...,compare eye invite bottle urban poetry learn g...
47,De cadencia y otras faltas de ritmo.,Dejó que el tiempo pasara como quien deja corr...,He let time go as he lets the water run a hang...,let time let water run hangover morning let ha...
9,Y otros destinos escritos,Me he acordado de la última vez que no me enam...,I have remembered the last time I did not fall...,remember time fall love liver break atillo sto...


In [14]:
textos_en.to_csv("export/text_en.csv",index=False)

In [10]:
textos_en["sentiments"] = textos_en.tok_en.apply(lm.sentimental)

In [11]:
textos_en[["polaridad","subjetividad","neg","neu","pos","compound"]] = pd.DataFrame(textos_en.sentiments.tolist(),index= textos_en.index)

In [12]:
textos_en.head(3)

Unnamed: 0,tit,tex,tex_en,tok_en,sentiments,polaridad,subjetividad,neg,neu,pos,compound
0,"Cómo despedirse de alguien, a quien ya no salu...",A Patricia Primero: Dibújate un interrogante ...,A Patricia first: Draw a question on the lips ...,patricia draw question lip match white disbeli...,"[0.04540816326530611, 0.3739795918367347, 0.23...",0.045408,0.37398,0.234,0.582,0.185,-0.8454
1,Números rojos,Números rojos Subí la apuesta a que te bajaba...,Red numbers I went up the bet that lowered you...,red number go bet lower pant end buy battery c...,"[0.09999999999999999, 0.38571428571428573, 0.1...",0.1,0.385714,0.107,0.556,0.338,0.9393
2,En espiral,"Sufro una crisis de infertilidad, y ya no sé c...","I suffer a crisis of infertility, and I do not...",suffer crisis infertility know lethargy mascot...,"[-0.03958333333333334, 0.6124999999999999, 0.2...",-0.039583,0.6125,0.293,0.56,0.147,-0.872


In [13]:
textos_en["num_pal"] = textos_en.tex.apply(lm.cuentastok) # function in len_manip.py

In [14]:
textos_en.sample(3)

Unnamed: 0,tit,tex,tex_en,tok_en,sentiments,polaridad,subjetividad,neg,neu,pos,compound,num_pal
25,Treinta y tantos otoños.,"Hoy se sienta, altiva, en el mismo banco en el...","Today he feels, alert, in the same bank he stu...",today feel alert bank stutter year look childh...,"[0.08691460055096417, 0.45344352617079886, 0.1...",0.086915,0.453444,0.132,0.6,0.268,0.9349,934
3,En mis recuerdos,"En mis recuerdos siempre hay un cenicero, ropa...","In my memories there is always an ashtray, dir...",memory ashtray dirty clothe floor clock lose t...,"[-0.22999999999999998, 0.6399999999999999, 0.2...",-0.23,0.64,0.29,0.572,0.138,-0.802,631
5,Notas al margen,"A veces me enamoro, otras abro los ojos. No si...","Sometimes I fall in love, others open my eyes....",fall love open eye write like notebook coffee ...,"[-0.009166666666666662, 0.3391666666666667, 0....",-0.009167,0.339167,0.277,0.525,0.198,-0.4019,644


In [15]:
text_sent = textos_en
text_sent.to_csv("export/text_sent.csv",index = False)