# Intro to ML

La práctica de hoy consiste en un simulacro de como empezar un proyecto de analítica / Machine Learning desde el principio.

Cómo hemos comentado en clases anteriores, el primer paso, antes incluso que ponerse a analizar el dataset, es plantearse la estrategía a seguir o como plasmar un problema de negocio en un problema de datos.

Nuestro cliente, una importante hotelera mallorquina (oh, sorpresa). No tiene muy claro que es lo que quiere, simplemente sabe que todo el mundo usa IA actualmente y no quiere quedarse atrás. Hablando con ellos, hemos accedido a hacer una propuesta para ayudarles a entender que valor podrían extraer del análisis de datos / modelización. Por el momento, sabemos que están preocupados por la reputación de sus hoteles y que les interesa saber que motiva que un cliente deje una buena review.

Para tal proposito, disponemos de un dataset con reviews de hoteles en Europa. El dataset se encuentra en la carpeta `data` junto con una descripción de los campos disponibles.

## Trabajo por equipos

#### 1. Revisa el fichero `data_format.txt` para saber que variables tenemos disponibles. A partir de las variables, plantea al menos 3 preguntas que te permitan entender el dataset: por ejemplo:

> Cómo varía la puntuación media de un hotel a lo largo del tiempo ?

1. Vemos que tenemos una variable temporal `review_date` disponible. Plantea cómo podríamos transformar esta variable de forma que pueda aportar valor a la modelizción. Piensa que en un contexto de turismo la estacionalidad es un factor muy importante.

1. Vemos que de todas las variables que tenemos, 3 son texto (2 texto libre y 1 tags). Piensa como vas a tratar esas variables. (Nota: muchas veces nos sabremos de antemano cómo tratar una transformación de un tipo de dato. Usar google es legal.)

1. Vemos que como variable numéricas tenemos la Lat/Long. Cómo podríamos usarla ? Que tipo de nuevas features se podrían calcular a partir de ellas que nos aporten informacion ?

1. Si queremos saber que afecta a una review positiva/negativa, como podríamos reducir el problema de ML supervisado ? Preferímos regresion o clasificacion?



## Trabajo entregable

**Ahora que más o menos tenemos una idea inicial de como tratar el dataset...**

NOTA: el objetivo es ver que sabemos usar los pipelines de sklear. No nos volvamos locos con hacer un trabajo completo.

1. Carga las librerías básicas para el analisis de datos
1. Realiza una limpieza no exhaustiva de los datos
1. Separa los datos en train y test. OJO: no queremos filtrar información! Hay que pensar bien como queremos hacer la separación...
1. Plantea una primera aproximación utilizando un modelo lineal y dibuja una arquitectura de cómo quedaría el `pipeline` de transformación + modelización tipo el mostrado en la clase práctiva de la W5
1. Entrena el modelo y revisa las variables/palabras que son sido más importantes.
1. Cuentale al cliente un mensaje clave sobre que tipo de cosas tienen más en cuenta los clientes: `Si no quieres una mala review no sirvas comida fría`

## Resposta

### 1. Carga las librerías básicas para el analisis de datos

#### Llibreries mínimes per càrrega i anàlisi bàsic de les dades

In [1]:
import numpy as np
import pandas as pd

### 2. Realiza una limpieza no exhaustiva de los datos

#### Carregam les dades

In [2]:
data_file_list = [
    'data/hotel_reviews_dataset_part_1.csv',
    'data/hotel_reviews_dataset_part_2.csv', 
    'data/hotel_reviews_dataset_part_3.csv',
    'data/hotel_reviews_dataset_part_4.csv']

df = pd.DataFrame()

for file in data_file_list:
    print(f"Loading {file}")
    df = pd.concat([df, pd.read_csv(file)], ignore_index = True)

Loading data/hotel_reviews_dataset_part_1.csv
Loading data/hotel_reviews_dataset_part_2.csv
Loading data/hotel_reviews_dataset_part_3.csv
Loading data/hotel_reviews_dataset_part_4.csv


In [3]:
df.head(3)

Unnamed: 0,Hotel_Address,Additional_Number_of_Scoring,Review_Date,Average_Score,Hotel_Name,Reviewer_Nationality,Negative_Review,Review_Total_Negative_Word_Counts,Total_Number_of_Reviews,Positive_Review,Review_Total_Positive_Word_Counts,Total_Number_of_Reviews_Reviewer_Has_Given,Reviewer_Score,Tags,days_since_review,lat,lng
0,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,8/3/2017,7.7,Hotel Arena,Russia,I am so angry that i made this post available...,397,1403,Only the park outside of the hotel was beauti...,11,7,2.9,"[' Leisure trip ', ' Couple ', ' Duplex Double...",0 days,52.360576,4.915968
1,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,8/3/2017,7.7,Hotel Arena,Ireland,No Negative,0,1403,No real complaints the hotel was great great ...,105,7,7.5,"[' Leisure trip ', ' Couple ', ' Duplex Double...",0 days,52.360576,4.915968
2,s Gravesandestraat 55 Oost 1092 AA Amsterdam ...,194,7/31/2017,7.7,Hotel Arena,Australia,Rooms are nice but for elderly a bit difficul...,42,1403,Location was good and staff were ok It is cut...,21,9,7.1,"[' Leisure trip ', ' Family with young childre...",3 days,52.360576,4.915968


#### Anàlisi estadístic bàsic

In [4]:
df.describe()

Unnamed: 0,Additional_Number_of_Scoring,Average_Score,Review_Total_Negative_Word_Counts,Total_Number_of_Reviews,Review_Total_Positive_Word_Counts,Total_Number_of_Reviews_Reviewer_Has_Given,Reviewer_Score,lat,lng
count,515738.0,515738.0,515738.0,515738.0,515738.0,515738.0,515738.0,512470.0,512470.0
mean,498.081836,8.397487,18.53945,2743.743944,17.776458,7.166001,8.395077,49.442439,2.823803
std,500.538467,0.548048,29.690831,2317.464868,21.804185,11.040228,1.637856,3.466325,4.579425
min,1.0,5.2,0.0,43.0,0.0,1.0,2.5,41.328376,-0.369758
25%,169.0,8.1,2.0,1161.0,5.0,1.0,7.5,48.214662,-0.143372
50%,341.0,8.4,9.0,2134.0,11.0,3.0,8.8,51.499981,0.010607
75%,660.0,8.8,23.0,3613.0,22.0,8.0,9.6,51.516288,4.834443
max,2682.0,9.8,408.0,16670.0,395.0,355.0,10.0,52.400181,16.429233


Ens crida l'atenció que la latitud i la longitud tenguin un recorregut tan petit. 
Sembla com si tots els hotels que la tenen informada, siguin de la mateixa regió. 
També es pot veure que hi ha valors de latitud i longitud que no estan informats.

La variable `days_since_review` no és numèrica (!). 
S'haurà d'analitzar el seu contingut per veure si pot ser 
transformada a numèrica entera.

#### Valoració de la importància dels valors *nan*

Miram si tenim valors *nan* a qualque columna ...

In [5]:
df.info(show_counts=True)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 515738 entries, 0 to 515737
Data columns (total 17 columns):
 #   Column                                      Non-Null Count   Dtype  
---  ------                                      --------------   -----  
 0   Hotel_Address                               515738 non-null  object 
 1   Additional_Number_of_Scoring                515738 non-null  int64  
 2   Review_Date                                 515738 non-null  object 
 3   Average_Score                               515738 non-null  float64
 4   Hotel_Name                                  515738 non-null  object 
 5   Reviewer_Nationality                        515738 non-null  object 
 6   Negative_Review                             515738 non-null  object 
 7   Review_Total_Negative_Word_Counts           515738 non-null  int64  
 8   Total_Number_of_Reviews                     515738 non-null  int64  
 9   Positive_Review                             515738 non-null  object 
 

Veim que **hi ha valors nuls** a les coordenades geogràfiques
(camps `lat` i `lng`) d'alguns registres.
Ho haurem de tenir en compte si volem classificar els hotels en categories
que depenguin de la seva ubicació i la inferim de les coordenades geogràfiques.

#### Estudi de les variables predictores i creació de noves

Per tal de mantenir aquest *notebook* compacte, 
s'ha optat per fer l'estudi de les variables en 
el quadern `hr_features_study.ipynb` 
que es subministra conjuntament amb aquest.

Aquest estudi inclou també l'explicació del perquè 
de la creació de noves 
caràcterístiques.

#### Preparació de la nostra l'arquitectura de *pipelines* 

Rescatam les classes SelectColumns i DropColumns del notebook `W5/ 5 - Intro to ML.ipynb`
i afegim les noves que necessitam.

In [6]:
from sklearn.base import TransformerMixin

### aux functions

class SelectColumns(TransformerMixin):
    def __init__(self, columns: list) -> pd.DataFrame:
        if not isinstance(columns, list):
            raise ValueError('Specount the columns into a list')
        self.columns = columns
    def fit(self, X, y=None): # we do not need to specify the target in the transformer. We leave it as optional arg for consistency
        return self
    def transform(self, X):
        return X[self.columns]
    
class DropColumns(TransformerMixin):
    def __init__(self, columns: list) -> pd.DataFrame:
        if not isinstance(columns, list):
            raise ValueError('Specify the columns into a list')
        self.columns = columns
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        return X.drop(self.columns, axis=1)

Amb aquesta nova classe podrem extreure les dades numériques 
de columnes amb números, seguides de unitats, 
com per exemple la `days_since_review`

In [7]:
class Extract2Num(TransformerMixin):
    def __init__(self, columns: list) -> pd.DataFrame:
        if not isinstance(columns, list):
            raise ValueError('Specify the columns into a list')
        self.columns = columns
    def fit(self, X, y=None):
        return self
    def transform(self, X):
        _X = pd.DataFrame()
        for column in self.columns: 
            _X[column] = X[column].str.extract(r'(\d+)')
        return X.drop(self.columns, axis = 1).join(_X)

Separarem les variables en tres classes:
- les numèriques que necessiten netejar valors *nan* i després escalar
- les numèriques que necessiten ésser extretes des d'una cadena (`days_since_review`)
- les variables categòriques, que necessiten una transformació (per exemple, codificar)

In [8]:
from sklearn.pipeline import Pipeline

In [9]:
extract_cols_list = [
    'days_since_review']

cat_cols_list = [
    'Hotel_Address', 
    'Hotel_Name',
    'Review_Date',
    'Reviewer_Nationality',
    'Negative_Review',
    'Positive_Review',
    'Tags',
    'lat', 
    'lng']

In [10]:
from sklearn.preprocessing import MinMaxScaler

drop_column_step = ('drop_column', DropColumns(cat_cols_list))

extract_step = ('extract', Extract2Num(extract_cols_list))

scaler_step = ('scaler', MinMaxScaler())

num_pipe_steps = [drop_column_step, extract_step] #, scaler_step]

num_pipe = Pipeline(num_pipe_steps)

In [11]:
from sklearn.preprocessing import OneHotEncoder

select_col_step = ('select', SelectColumns(cat_cols_list))  ##

#one_hot_step = ('sex_one_hot', OneHotEncoder(sparse=False))

cat_pipe_steps = [select_col_step] #, one_hot_step]

cat_pipe = Pipeline(cat_pipe_steps)

Després les tornam a unir per a obtenir el conjunt de registres a processar

In [12]:
from sklearn.pipeline import FeatureUnion

transformer_list = [('num_pipe', num_pipe),
                    ('cat_pipe', cat_pipe)]

### Juntam els dos itineraris 

data_prep_pipe = FeatureUnion(transformer_list=transformer_list)

data_prep_step = ('data_prep', data_prep_pipe)

In [13]:
from sklearn.ensemble import RandomForestClassifier

### Ara ja podem aplicar el nostre classificador

classifier_step = ('model', RandomForestClassifier())  ##

pipe_steps = [data_prep_step, classifier_step]

pipe = Pipeline(pipe_steps)

Seguim preparant per fer la nostra classificació ...

In [15]:
## Separam la variable dependent

X = df.drop(['Reviewer_Score'], axis = 1)

## Classificador: si la puntuació és més gran que goodScore, aleshores la consideram bona

minGoodScore = 7.0

y = df['Reviewer_Score'] >= minGoodScore

## A veure que tenim ...
y.value_counts(dropna = False)

True     428887
False     86851
Name: Reviewer_Score, dtype: int64

### 3. Separa los datos en train y test. 
OJO: no queremos filtrar información! Hay que pensar bien como queremos hacer la separación...

In [16]:
from sklearn.model_selection import train_test_split

## Ho feim reproduible per poder depurar millor

np.random.seed(42)

## Feim partició train | test

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.15)

In [17]:
# Com que les columnes de la transformada es desordenen, haurem de construir la llista de nou en l'ordre apropiat

trans_columns = [element for element in X.columns if element not in cat_cols_list] + cat_cols_list

In [None]:
X_train_trans = pd.DataFrame(
    pipe.fit_transform(X_train),
    columns = trans_columns)

In [23]:
X_train.head(3)

Unnamed: 0,Hotel_Address,Additional_Number_of_Scoring,Review_Date,Average_Score,Hotel_Name,Reviewer_Nationality,Negative_Review,Review_Total_Negative_Word_Counts,Total_Number_of_Reviews,Positive_Review,Review_Total_Positive_Word_Counts,Total_Number_of_Reviews_Reviewer_Has_Given,Tags,days_since_review,lat,lng
264651,97 Great Russell Street Bloomsbury Camden Lond...,406,8/8/2016,8.2,Radisson Blu Edwardian Kenilworth,Argentina,Very small room,4,2011,No Positive,0,15,"[' Leisure trip ', ' Couple ', ' Standard Doub...",360 day,51.517972,-0.12805
150426,33 37 Hogarth Road Kensington and Chelsea Lond...,989,8/31/2016,8.4,Park Grand London Kensington,United Kingdom,The view from the window was pigeon nests and...,11,4660,The bedroom was clean and modern with good fa...,10,1,"[' Leisure trip ', ' Solo traveler ', ' Superi...",337 day,51.493847,-0.191758
308128,Damrak 1 5 Amsterdam City Center 1012 LG Amste...,973,5/31/2016,8.0,Park Plaza Victoria Amsterdam,United Kingdom,Nothing,2,4820,Location perfect and customer service was exc...,9,2,"[' Leisure trip ', ' Couple ', ' Double Room '...",429 day,52.377278,4.897818


In [None]:
X_train_trans.head(3)

In [138]:
y_train.head(3)

264651     True
150426    False
308128     True
Name: Reviewer_Score, dtype: bool

In [None]:
## train all pipeline from raw data
pipe.fit(X_train, y_train)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.impute import SimpleImputer
from sklearn.pipeline import Pipeline## Les passes de les *pipeline* són duples ("nom2", funció())

imputation_step = ('imputer', SimpleImputer(strategy='mean'))
scaling_step = ('scaler', StandardScaler())

## Llista tractament numèric
scalar_steps = [imputation_step, scaling_step]

## Finalmente llamamos al creador de pipeline
scalar_pipe = Pipeline(scalar_steps)

X_train_transformed = scalar_pipe.fit_transform(X_train)
X_test_transformed = scalar_pipe.transform(X_test)

print('X_train: \n')
print('Mean before pipeline: \n', X_train.mean())
print('Mean after pipeline (imputer + scaler): \n', X_train_transformed.mean(axis=0))

print('\n X_test: \n')
print('Mean before pipeline: \n', X_test.mean())
print('Mean after pipeline (imputer + scaler): \n', X_test_transformed.mean(axis=0))

### 4. Plantea una primera aproximación utilizando un modelo lineal ... 
... y dibuja una arquitectura de cómo quedaría el `pipeline` de transformación + modelización tipo el mostrado en la clase práctiva de la W5

### 5. Entrena el modelo y revisa las variables/palabras que han sido más importantes.

### 6. Cuéntale al cliente un mensaje clave ... 
... sobre que tipo de cosas tienen más en cuenta los clientes: `Si no quieres una mala review no sirvas comida fría`