# Carga Limpieza y selección de datos

En esta primera fase aplicamos los procesos necesarios para limpiar el texto y seleccionar búsquedas escritas en inglés:

* Carga de datos
* Limpieza de datos
* Detección de idioma

In [1]:
import pandas as pd
import re
from textblob import TextBlob
import langdetect as lang

"""
cargamos fichero y seleccionamos campos
"""

df = pd.read_csv('C:/Users/Paqui/Programas Python/Capstone project/queries003.csv')
df1 = df[['customer','country','query']]

"""
contamos el número de búsquedas por usuarios
"""

df_busc_user= df1.groupby('customer').count()
media_busquedas= df_busc_user.mean()

"""
contamos el número de diferentes búsquedas por usuarios
"""

df_difbusc_user= df1.groupby('customer')['query'].nunique()
media_difbusquedas= df_difbusc_user.mean()

"""
Creamos un dataframe agrupado por customer y query
"""
df2 = pd.DataFrame({'count' : df1.groupby( [ "customer", "country", "query"] ).size()}).reset_index()
print df2.head()
"""
Contamos con cuantas querys nos hemos quedado
"""
print "Querys no unificadas", df1['query'].count()
print "Querys unificadas",    df2['query'].count()



"""
Eliminamos los special caracters, menos los espacios y los apóstrofes
Con la función strip nos quitamos los espacios al inicio y al final de la línea
"""

df2['query_2'] = df2['query'].map(lambda x: re.sub(r"[^\w' ]", '', x))
df2['query_2'] = df2['query_2'].map(lambda x: re.sub(r"_", '', x))
df2['query_2'] = df2['query_2'].str.strip()
df2.head()
print df2.head()


"""
Eliminamos las querys que contienen solo números con espocios o solo espacios y contamos cuantas tenemos
"""
df2['query_2'] = df2['query_2'].map(lambda x: re.sub(r"^[0-9 ]+$", '', x))
print df2.head()


print "Querys no numéricas",    df2['query_2'].count()


"""
Eliminamos las filas con texto vacío
"""

df3 = df2[df2['query_2'] != ""]
print "Querys no vacías",    df3['query_2'].count()

print df3.head()

"""
Si la query tiene menos de 3 carácteres entonces usamos el langdetect porque el otro 
da error
"""

def detect_lang(query):
    if len(query) > 3:
        return TextBlob(query).detect_language()
    else:
        return lang.detect(query)
    

df3['language'] = df3['query_2'].apply(detect_lang)
df3.head()
df3.to_csv('C:/Users/Paqui/Programas Python/Capstone project/queries003_corrected.csv')

print 'FINISHED'
"""
for i in xrange(312112,315655):
    text = df3.iloc[i,3]
    print text
    language = lang.detect(text)
    print i, ": ", language
"""

ImportError: No module named textblob

# Normalización de búsquedas en inglés

Selección del idioma (inglés)
Diccionario de palabras correctas en inglés del módulo P01
Detecta palabras incorrectas y genera fichero de errores

In [2]:
import pandas as pd
import pickle
import sys
sys.path.append('C:/Users/Paqui/Programas Python/Capstone project')
import P02B_Spelling_corrector6 as spelling



df = pd.read_csv('C:/Users/Paqui/Programas Python/Capstone project/queries001_corrected.csv')

df1 = df[['customer','query_2', 'language', 'country']]

df1.head()

print 'Queries con todos los idiomas:',df1['query_2'].count()

df_english = df1[df1.language == 'en']
print df_english.head()

print 'Queries con idioma inglés :',df_english['query_2'].count()

inputfile = open('C:/Users/Paqui/Programas Python/Capstone project/Counter copy/errors001_counter', 'rb')

errors = pickle.load(inputfile)

errors_str = " ".join(str(x) for x in errors)

print errors_str

def correct_spelling(query):
    words = query.split()
    query_2 = ""
    
    for word in words:
        
        corrected_word = ""
        single_word = " " + word.lower() + " " 
        "We want to match the whole single  word in the words errors string"
        if single_word in errors_str:
            corrected_word = spelling.correction(word.lower())
            query_2 = query_2 + " " + corrected_word
        else: 
            query_2 = query_2 + " " + word
    
    return query_2


df_english['query_spel_corr'] = df_english['query_2'].apply(lambda query: correct_spelling(query))

"""
Creamos un dataframe agrupado por customer y query para eliminar duplicados una vez corregido
"""
df_english_corr = pd.DataFrame({'count' : df_english.groupby( [ "customer", "country", "query_spel_corr", "language"] ).size()}).reset_index()

"""
Contamos con cuantas querys nos hemos quedado
"""
print "Querys corregidas no unificadas", df_english['query_spel_corr'].count()
print "Querys coregidas  unificadas",    df_english_corr['query_spel_corr'].count()


df_english.to_csv('C:/Users/Paqui/Programas Python/Capstone project/queries001_spell_corrected_comparison.csv')
df_english_corr.to_csv('C:/Users/Paqui/Programas Python/Capstone project/queries001_spell_corrected.csv')


print 'FINISHED'

ImportError: No module named P02B_Spelling_corrector6

Corrige palabras incorrectas con el diccionario de las palabras correctas del fichero procesado en el paso anterior (módulo P02A2)
Calcula sugerencias de corrección (eliminando letras, insertando letras, transponiendo letras, separando letras etc) en base a la palabra conocida con más frecuencia del diccionario
Utiliza también la función suggest de la librería enchant para hacer sugerencias en el caso en que la corrección más simple anterior no funciona


In [3]:
# -*- coding: utf-8 -*-
"""

"""
import pandas as pd
import re
from collections import Counter
import enchant as ench
import pickle
import nltk
from PyDictionary import PyDictionary
import timeit

dictionary=PyDictionary()

"""
Leemos el fichero corregido y con el idioma asignado y nos quedamos con los campos que nos interesan
"""
df_words = pd.read_csv('C:/Users/Paqui/Programas Python/Capstone project/queries003_corrected.csv')
df_words1 = df_words[['customer','query_2', 'language']]


"""
Seleccionamos las queries en inglés y vemos cuantas hay
"""
df_words2 = df_words1[df_words1['language'] == 'en']

df_words2.head()
print "Querys corregidas en todos los idiomas ",    df_words1['query_2'].count()
print "Querys en inglés ",    df_words2['query_2'].count()

"""
Creamos un variable string juntando todas las queries. Ponemos en minúsculas todas las 
palabras
"""
size =  int(df_words2['query_2'].count() -1)
print size
df_words3 = df_words2.iloc[0:size, 1]
string = pd.DataFrame(' '.join(df_words3.tolist()), columns=['query_2'], index=[0]).iloc[0,0]
string = string.lower()
print string

"""
Definimos el idioma que vamos a usar para la libreria Enchant y el vocabulario inglés de 
la libreria nltk
"""
diction = ench.Dict("en_UK")
english_vocab = set(w.lower() for w in nltk.corpus.words.words())

"""
Definimos la función que nos permitirá buscar una palabra en el diccionario de Python y ver
si la encuentra (se puede buscar en el normal o usando la versión google)
"""

def dictionary_meaning(word):
    try:
        meaning_1 = dictionary.meaning(word) 
        
    except:
        pass
    try:
        meaning_2 = dictionary.googlemeaning(word) 
         
    except:
        pass
    
    if meaning_1 == None and meaning_2 == None:
        return False
    else:
        return True



def words(text): return re.findall(r'\w+', text.lower())


"""
Comprobamos usando varios métodos si la palabra existe o no:
    libreria enchant 
    libreria nltk
    Diccionario python
En caso que no exista en ninguno no la adjuntaremos al contador final de palabras
Si la palabra ya ha sido chequeada entonces la adjuntmmos o no directamente
"""

WORDS = Counter(words(string))

print WORDS
string_errors = ""

start_time = timeit.default_timer()


inputfile_001 = open('C:/Users/Paqui/Programas Python/Capstone project/Counter copy/counter', 'rb')

WORDS_exist001 = Counter (pickle.load(inputfile_001))

inputfile_002 = open('C:/Users/Paqui/Programas Python/Capstone project/Counter copy/counter_002', 'rb')

WORDS_exist002 = Counter (pickle.load(inputfile_002))

WORDS_exist = WORDS_exist001 + WORDS_exist002
"""
Primero miramos si la palabara ya está en el diccionario procesado en pasos anteriores, si no
Comprobamos usando varios métodos si la palabra existe o no:
    libreria enchant 
    libreria nltk
    Diccionario python
En caso que no exista en ninguno no la adjuntaremos al contador final de palabras
Si la palabra ya ha sido chequeada entonces la adjuntmmos o no directamente
"""
for word in WORDS:
    if word in WORDS_exist.keys():
        pass
    else:
        if diction.check(word) == True:
            pass
        else:
            if word in english_vocab:
                pass          
            else: 
                if dictionary_meaning(word) == True: 
                    pass
                else:
                    string_errors = string_errors + " " + word
               
errors = string_errors.split()
print errors
stop_time = timeit.default_timer()    
for word in errors:
    del WORDS[word]
    
stop_time = timeit.default_timer()

print'Tiempo de ejecución',  stop_time - start_time

"""
Ahora creamos el contador con todas las palabras correctas seleccionadas que nos servirá
para corregir el spelling
"""
print "WORDS FINAL", WORDS

WORDS
with open('C:/Users/Paqui/Programas Python/Capstone project/counter_003', 'wb') as outputfile:
    pickle.dump(WORDS , outputfile)
    


errors
with open('C:/Users/Paqui/Programas Python/Capstone project/errors003_counter', 'wb') as outputfile:
    pickle.dump(errors , outputfile)
    
print 'FINISHED'


ImportError: No module named enchant

Aplica el módulo P02B para cada una de las palabras incorrectas del fichero P02A2 y crea el csv output con las queries corregidas

In [4]:
# -*- coding: utf-8 -*-
"""

"""

from collections import Counter
import pickle
import numpy as np
import enchant as ench


diction = ench.Dict("en_UK")

"""
Abrimos los  contadores de palabras procesados anteriormente para cada uno de los ficheros
"""

inputfile_001 = open('C:/Users/Paqui/Programas Python/Capstone project/Counter copy/counter', 'rb')

WORDS_001 = Counter (pickle.load(inputfile_001))
        
inputfile_002 = open('C:/Users/Paqui/Programas Python/Capstone project/Counter copy/counter_002', 'rb')

WORDS_002 = Counter (pickle.load(inputfile_002))

inputfile_003 = open('C:/Users/Paqui/Programas Python/Capstone project/Counter copy/counter_003', 'rb')

WORDS_003 = Counter (pickle.load(inputfile_003))

"""
Creamos un contador sumando los contadores individuales de cada archivo
"""

WORDS = WORDS_001 + WORDS_002 + WORDS_003


print  'Number of different words: ' ,len(WORDS.keys())
print  'Sum of values of words:', sum(WORDS.values())


def P(word, N=sum(WORDS.values())): 
    "Probability of `word`. No dividimos por el número de palabras de esta forma"
    "nos evitamos probabilidades cercanas a 0"
    return WORDS[word]
 
def correction(word): 
    "We transform the word to lower case"
    word = word.lower()
    "Most probable spelling correction for word."
    corrected_word1 = max(candidates(word), key=P)
    "Probability of the word."
    p1 = P(corrected_word1)
    
    "Most probable spelling correction for the word splitting subset."
    corrected_word2 = max_split(word)
    
    "If word was not corrected using the basic corrector we use enchant suggestions and we"
    "select the one with more probability to appear in our text"
    if corrected_word1 == word:
        suggestions = diction.suggest(word)
        p_aux = 0
        p_sug = 0
        word_sug = ""
        for item  in suggestions:
            p_aux = P(item)
            if p_aux > p_sug:
                p_sug = p_aux
                word_sug = item
        "We select depending on probability the corrected word or the two words form the splitting subset"
        if corrected_word2[1] > p_sug:
            return corrected_word2[0][0] + " " + corrected_word2[0][1]
        else:
            if p_sug > 0:
                return word_sug
            else:
                return word
    "If word corrected with the basic corrector then we return the word"   
    if corrected_word1 != word:
        "We select depending on probability the corrected word or the two words form the splitting subset"
        if corrected_word2[1] > p1:
            return corrected_word2[0][0] + " " + corrected_word2[0][1]
        else:
            return corrected_word1
    
 


def candidates(word): 
    "Generate possible spelling corrections for word."
   
    return (known([word]) or known(edits1(word)) or known(edits2(word)) or [word])

def known(words): 
    "The subset of `words` that appear in the dictionary of WORDS."
    
    return set(w for w in words if w in WORDS)

def edits1(word):
    "All edits that are one edit away from `word`."
    letters    = 'abcdefghijklmnopqrstuvwxyz'
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    deletes    = [L + R[1:]               for L, R in splits if R]
    transposes = [L + R[1] + R[0] + R[2:] for L, R in splits if len(R)>1]
    replaces   = [L + c + R[1:]           for L, R in splits if R for c in letters]
    inserts    = [L + c + R               for L, R in splits for c in letters]
    return set(deletes + transposes + replaces + inserts)

def splits(word):
    "All word splits."
    
    splits     = [(word[:i], word[i:])    for i in range(len(word) + 1)]
    
  
    return splits
     



def edits2(word): 
    "All edits that are two edits away from `word`."
    return (e2 for e1 in edits1(word) for e2 in edits1(e1))



def max_split(word):
    "All word splits."
    words_splits = splits(word)
    
    p = np.zeros(len(words_splits))
    
    "Calculating the sum of probabilities of all word splits, the two words must have" 
    "probability bigger than 0 (appear at least one time in the words dictionry"
    "The words must have a length bigger than one to avoid single letters"
    i = 0
    for word in words_splits:
        p_0 = P(word[0])
        p_1 = P(word[1])
        if (p_0 > 0 and len(word[0] )> 1)  and (p_1 >0 and len(word[1])>1):
            p[i] = p_0 + p_1
        else: 
            p[i] = 0
       
        i = i + 1
  
    j = p.argmax()

     
    return (words_splits[j], p[j])

print correction('CHIDREN')

ImportError: No module named enchant

# Buscamos títulos en la API de Google Books

Llama a la API de Google Books con el texto normalizado para recuperar información del libro

In [None]:
# -*- coding: utf-8 -*-
"""
Created on Sat May 20 13:56:37 2017

"""

import os
import requests

class gbooks():
    googleapikey=

    def search(self, value):
        parms = {"q":value, 'key':self.googleapikey}
        r = requests.get(url="https://www.googleapis.com/books/v1/volumes", params=parms)
        print r.url
        rj = r.json()

        print rj["totalItems"]
        
        for i in rj["items"]:
            try:
                print repr(i["volumeInfo"]["title"])
                print repr(i["volumeInfo"]["authors"])
                print repr(i["volumeInfo"]["categories"])
            except:
                pass
        
if __name__ == "__main__":
    bk = gbooks()
    bk.search("dorian grey")