In [1]:
import numpy as np
import pandas as pd
import unicodedata
from nltk.corpus import stopwords

from sklearn.decomposition import TruncatedSVD
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.preprocessing import Normalizer

In [2]:
pd.set_option('display.max_columns', None)  
pd.set_option('display.expand_frame_repr', False)
pd.set_option('max_colwidth', -1)

In [3]:
ruta_data = "../data"
ruta_train = ruta_data + "/train.csv"
ruta_test = ruta_data + "/test.csv"

In [4]:
def strip_accents(text):

    try:
        text = unicode(text, 'utf-8')
    except NameError: # unicode is a default on python 3 
        pass

    text = unicodedata.normalize('NFD', text)\
           .encode('ascii', 'ignore')\
           .decode("utf-8")

    return str(text)

In [5]:
stop_words_sp = set(stopwords.words('spanish'))
aux = set()
for word in stop_words_sp:
    aux.add(strip_accents(word))
    
stop_words_sp = stop_words_sp.union(aux)

In [6]:
descr_train = pd.read_csv(f"{ruta_data}/descripciones_train_limpias.csv")
descr_test = pd.read_csv(f"{ruta_data}/descripciones_test_limpias.csv")

In [7]:
descr_train = descr_train.fillna("")
descr_test = descr_test.fillna("")

In [8]:
descr_train = descr_train["descripcion"].apply(lambda x: strip_accents(x))
descr_test = descr_test["descripcion"].apply(lambda x: strip_accents(x))

In [9]:
tfidf_vectorizer = TfidfVectorizer(max_df=0.8, min_df=2,
                                   stop_words=stop_words_sp)

In [27]:
tf_vect = tfidf_vectorizer.fit(descr_train)

In [10]:
tf_vect_test = tfidf_vectorizer.fit(descr_test)

In [28]:
term_doc_m = tf_vect.transform(descr_train)

In [12]:
term_doc_m_test = tf_vect_test.transform(descr_test)

In [14]:
consulta = tf_vect_test.transform(["recamara cerradas cerrada inversion conjunto jacuzzi recamaras lujo privadas premium jacuzzi jacuzy  torre hectareas bodega granero caoba asador montaña montana sauna vapor rancho estancia has hectarea hectareas campo terraza ganado comercial niveles nivel pisos remodelado remodelada acondicionado vigilancia marmol terrazas estacionamiento panoramica recepcion centro"]).T

In [15]:
score_test = term_doc_m_test*consulta

In [31]:
scores_train = pd.DataFrame(np.array(score.todense()), columns=["score_tfidf"])

In [17]:
scores_test = pd.DataFrame(np.array(score_test.todense()), columns=["score_tfidf"])

In [32]:
scores_train.to_csv(f"{ruta_data}/features/scores_tfidf_train.csv", index=False)

In [18]:
scores_test.to_csv(f"{ruta_data}/features/scores_tfidf_test.csv", index=False)

### Armamos una consulta sobre propiedades caras

In [27]:
train = pd.read_csv(f"{ruta_data}/train.csv")

In [38]:
train.nlargest(50, "precio")["descripcion"]

174276    excelente oficina en venta en torre world trade center, bonita vista panorámica, 208m2 de construcción. \nmantenimiento $64.00 pesos por m2 \ncaracterísticas: 15 privados (2 de ellos cuentan con baño y vista panorámica y otros 2 con instalaciones de agua y tarja), 1/2 baño, 2 bodegas, recepción con sala de espera. previa cita!                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      