# Análisis de búsquedas

Esta sección tiene como objetivo analizar el evento 'searched products', el cual representa una búsqueda en la pagina web. 
Cargamos el DataFrame original:

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from wordcloud import WordCloud
from PIL import Image
%matplotlib inline
plt.style.use('default')
sns.set()

#Cargo el DataFrame
df = pd.read_csv('events.csv', low_memory = False, parse_dates = ['timestamp'], infer_datetime_format = True,
                    dtype = {'event': 'category','condition': 'category','storage': 'category', 'color': 'category', 'staticpage': 'category', 'campaign_source': 'category', 'search_engine': 'category', 'channel': 'category', 'new_vs_returning': 'category', 'region': 'category', 'country': 'category', 'device_type': 'category'})

### Términos más buscados

Para analizar los términos, primero juntamos todas las palabras utilizadas en las búsquedas. Para evitar palabras duplicadas, las convertimos todas a mayúsculas.

In [None]:
search_terms = df.loc[df["event"]== "searched products",["search_term"]]["search_term"].dropna().tolist()
text = " ".join(search_terms).upper()

La mejor forma de apreciar esta información es utilizando un gráfico donde el tamaño de cada palabra represente el número de apariciones en la búsqueda.
Con el fin de hacerlo mas agradable, utilizaremos el logo de Trocafone para darle forma al conjunto de palabras.

In [None]:
# Carga de imagen
image_array = np.array(Image.open("imagenes/logo_500x500.png"))
# Conversion de pixeles para usarla como mascara
transformed_image_array = np.ndarray((image_array.shape[0],image_array.shape[1]), np.int32)
for i in range(len(image_array)):
    transformed_image_array[i] = list(map(lambda val: 0 if val == 0 else 255, image_array[i]))
    

In [None]:
wc = WordCloud(max_words=2000,max_font_size=500,min_font_size=3\
               ,mask=transformed_image_array, background_color="white"\
               ,collocations=False # Considerar solo una palabra y no frases
              ).generate(text)

plt.figure(figsize=(8,8))
plt.imshow(wc,interpolation="kaiser")
plt.axis("off")
plt.show()

Se puede observar que la palabra mas buscada es 'IPHONE', seguido por SAMSUNG,GALAXY,6S,MOTO, entre otras.