In [3]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.special as special
from scipy.optimize import curve_fit
import seaborn as sns
from sklearn.metrics import r2_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

### Acciones de preprocesamiento necesarias: Nulos y Outliers

In [4]:
#Cargar archivo csv 
df= pd.read_csv('Porto_clean.csv')
df.head(10)

Unnamed: 0,host_response_time,neighbourhood,host_is_superhost,room_type,host_has_profile_pic,host_identity_verified,property_type,has_availability,instant_bookable,id,...,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,review_scores_value,calculated_host_listings_count,calculated_host_listings_count_entire_homes,calculated_host_listings_count_private_rooms,reviews_per_month
0,3,1,1,1,1,1,1,1,2,41339,...,4.73,4.85,4.88,4.85,4.62,4.69,1.0,1.0,0.0,0.18
1,3,1,1,1,1,1,1,1,2,55111,...,4.8,4.75,4.9,4.9,4.79,4.79,3.0,3.0,0.0,0.17
2,3,1,1,1,1,1,1,1,2,73828,...,5.0,4.87,5.0,5.0,4.93,4.8,3.0,3.0,0.0,0.13
3,1,1,2,1,1,1,1,1,2,87873,...,4.87,4.89,4.97,4.94,4.52,4.81,4.0,2.0,2.0,1.6
4,1,1,2,1,1,1,1,1,2,94701,...,4.84,4.84,4.94,4.95,4.85,4.77,1.0,1.0,0.0,1.81
5,1,2,1,1,1,1,18,1,2,96394,...,5.0,5.0,5.0,5.0,5.0,4.91,1.0,1.0,0.0,0.11
6,1,2,1,2,1,2,3,1,2,100521,...,4.8,4.8,4.9,4.9,4.8,4.7,1.0,0.0,1.0,0.0
7,1,1,1,1,1,1,1,1,1,104045,...,4.7,4.7,4.86,4.92,4.27,4.68,1.0,1.0,0.0,1.89
8,1,1,2,1,1,1,16,1,2,105347,...,4.96,4.99,4.96,4.94,4.58,4.9,1.0,1.0,0.0,1.15
9,2,1,1,2,1,1,8,1,2,108153,...,4.87,4.8,4.87,4.73,4.53,4.73,2.0,1.0,1.0,0.15


In [5]:
#Verificamos los valores nulos
df.isnull().sum()

host_response_time                              0
neighbourhood                                   0
host_is_superhost                               0
room_type                                       0
host_has_profile_pic                            0
host_identity_verified                          0
property_type                                   0
has_availability                                0
instant_bookable                                0
id                                              0
host_id                                         0
host_response_rate                              0
host_acceptance_rate                            0
host_listings_count                             0
host_total_listings_count                       0
latitude                                        0
longitude                                       0
accommodates                                    0
bedrooms                                        0
beds                                            0


### Analizar 10 casos de correlación logística que existe entre diferentes variables de nuestra base de datos, aplicando la herramienta de “Regresión Logística”

#### Modelo 1

In [7]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['beds', 'bedrooms', 'accommodates']]
Var_Dep = df['host_is_superhost']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [11]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[2794   31]
 [1455   28]]
Precisión del modelo:
0.6575664862320546
Exactitud del modelo:
0.6550603528319405
Sensibilidad del modelo:
0.9890265486725663


#### Modelo 2

In [12]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['beds', 'bedrooms', 'accommodates']]
Var_Dep = df['has_availability']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [13]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[4274    0]
 [  34    0]]
Precisión del modelo:
0.9921077065923862
Exactitud del modelo:
0.9921077065923862
Sensibilidad del modelo:
1.0


#### Modelo 3

In [14]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['price', 'property_type', 'host_identity_verified']]
Var_Dep = df['instant_bookable']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 2, 1, ..., 2, 1, 1], shape=(4308,))

In [15]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[2652  168]
 [1223  265]]
Precisión del modelo:
0.6843870967741935
Exactitud del modelo:
0.6771123491179202
Sensibilidad del modelo:
0.9404255319148936


#### Modelo 4

In [16]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['host_is_superhost', 'bedrooms', 'accommodates']]
Var_Dep = df['host_response_time']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [18]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='macro')
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='macro')
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[3885    0    0    0]
 [ 238    0    0    0]
 [ 129    0    0    0]
 [  56    0    0    0]]
Precisión del modelo:
0.22545264623955433
Exactitud del modelo:
0.9018105849582173
Sensibilidad del modelo:
0.25


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### Modelo 5

In [19]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['availability_365', 'host_total_listings_count', 'estimated_occupancy_l365d']]
Var_Dep = df['has_availability']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [20]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[4281    0]
 [  27    0]]
Precisión del modelo:
0.9937325905292479
Exactitud del modelo:
0.9937325905292479
Sensibilidad del modelo:
1.0


#### Modelo 6

In [24]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['number_of_reviews_ltm', 'availability_365', 'review_scores_location']]
Var_Dep = df['estimated_occupancy_l365d']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([  0, 255,  12, ...,  54,   0,  18], shape=(4308,))

In [27]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='macro')
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='macro')
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[1092    0    0 ...    0    0    0]
 [ 292    0    0 ...    0    0    0]
 [   7    0    0 ...    0    0    0]
 ...
 [   0    0    0 ...    0    0    1]
 [   0    0    0 ...    0    0   27]
 [   0    0    0 ...    0    0  491]]
Precisión del modelo:
0.024820312605068732
Exactitud del modelo:
0.3869545032497679
Sensibilidad del modelo:
0.039183737881438994


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### Modelo 7

In [29]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['review_scores_communication', 'review_scores_value', 'review_scores_checkin']]
Var_Dep = df['number_of_reviews']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([0., 0., 0., ..., 0., 1., 0.], shape=(4308,))

In [31]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='macro')
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='macro')
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[515   0   0 ...   0   0   0]
 [ 30 188   0 ...   0   0   0]
 [ 33  92   0 ...   0   0   0]
 ...
 [  0   0   0 ...   0   0   0]
 [  2   0   0 ...   0   0   0]
 [  0   0   0 ...   0   0   0]]
Precisión del modelo:
0.005582563314558595
Exactitud del modelo:
0.19428969359331477
Sensibilidad del modelo:
0.010599472769854063


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


#### Modelo 8

In [32]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['host_response_rate', 'host_listings_count', 'review_scores_rating']]
Var_Dep = df['host_is_superhost']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [33]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[2298  510]
 [ 879  621]]
Precisión del modelo:
0.7233238904627006
Exactitud del modelo:
0.6775766016713092
Sensibilidad del modelo:
0.8183760683760684


#### Modelo 9

In [34]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['host_response_time', 'host_identity_verified', 'host_acceptance_rate']]
Var_Dep = df['host_has_profile_pic']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [35]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[4245    0]
 [  63    0]]
Precisión del modelo:
0.9853760445682451
Exactitud del modelo:
0.9853760445682451
Sensibilidad del modelo:
1.0


#### Modelo 10

In [36]:
#Declaramos las variables dependientes e independientes para la regresión Logística
Vars_Indep = df[['price', 'host_identity_verified', 'availability_30']]
Var_Dep = df['instant_bookable']

#Redefinimos las variables
X= Vars_Indep
y= Var_Dep

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state= None)

#Se escalan todos los datos
escalar = StandardScaler()

#Para realizar el escalamiento de las variables "X" tanto de entrenamiento como de prueba, utilizaremos fit_transform
X_train = escalar.fit_transform(X_train)
X_test = escalar.transform(X_test)

#Definimos el algoritmo a utilizar
from sklearn.linear_model import LogisticRegression
algoritmo = LogisticRegression()

#Entrenamos el modelo
algoritmo.fit(X_train, y_train)

#Realizamos una predicción
y_pred = algoritmo.predict(X_test)
y_pred

array([1, 1, 1, ..., 1, 1, 1], shape=(4308,))

In [37]:
#Verifico la matriz de Confusión
from sklearn.metrics import confusion_matrix
matriz = confusion_matrix(y_test, y_pred)
print('Matriz de Confusión:')
print(matriz)

#Calculo la precisión del modelo
from sklearn.metrics import precision_score
precision = precision_score(y_test, y_pred, average='binary', pos_label=1)
print('Precisión del modelo:')
print(precision)

#Calculo la exactitud del modelo
from sklearn.metrics import accuracy_score

exactitud = accuracy_score(y_test, y_pred)
print('Exactitud del modelo:')
print(exactitud)

#Calculo la sensibilidad del modelo
from sklearn.metrics import recall_score
sensibilidad = recall_score(y_test, y_pred, average='binary', pos_label=1)
print('Sensibilidad del modelo:')
print(sensibilidad)

Matriz de Confusión:
[[2762  121]
 [1245  180]]
Precisión del modelo:
0.6892937359620663
Exactitud del modelo:
0.6829155060352832
Sensibilidad del modelo:
0.9580298300381547


### Convertir las variables que sean necesarias en variables de tipo  dicotómica con las categorías que se consideren pertinentes, aplicando la herramienta de  “Regresión Logística”

#### host_response_time

In [38]:
#Obtenemos el límite superior y el límite inferior de la columna objetivo
Max=df['host_response_time'].max()
Min=df['host_response_time'].min()
Limites = [Min, Max]
Limites

[np.int64(1), np.int64(4)]

In [39]:
#Categorización de variables
#Declaramos 2 intervalos
intervalos=np.linspace(0.9, 4.1, 3)
intervalos

array([0.9, 2.5, 4.1])

In [40]:
#Creamos las categorías
categorias= ['Fast response time', 'Slow resposne time']

#Ajustar máximo de filas
pd.options.display.max_rows = None

#Finalmente creamos las categorías en la columna numérica
df['host_response_time']=pd.cut(x=df['host_response_time'], bins=intervalos, labels=categorias)

df['host_response_time'].value_counts()

host_response_time
Fast response time    13687
Slow resposne time      673
Name: count, dtype: int64

#### estimated_occupancy_l365d

In [41]:
#Obtenemos el límite superior y el límite inferior de la columna objetivo
Max=df['estimated_occupancy_l365d'].max()
Min=df['estimated_occupancy_l365d'].min()
Limites = [Min, Max]
Limites

[np.int64(0), np.int64(255)]

In [42]:
#Categorización de variables
#Declaramos 2 intervalos
intervalos=np.linspace(0, 255.1, 3)
intervalos

array([  0.  , 127.55, 255.1 ])

In [44]:
#Creamos las categorías
categorias= ['High occupancy', 'Low occupancy']

#Ajustar máximo de filas
pd.options.display.max_rows = None

#Finalmente creamos las categorías en la columna numérica
df['estimated_occupancy_l365d']=pd.cut(x=df['estimated_occupancy_l365d'], bins=intervalos, labels=categorias)

df['estimated_occupancy_l365d'].value_counts()

estimated_occupancy_l365d
High occupancy    6391
Low occupancy     4213
Name: count, dtype: int64

#### number_of_reviews

In [45]:
#Obtenemos el límite superior y el límite inferior de la columna objetivo
Max=df['number_of_reviews'].max()
Min=df['number_of_reviews'].min()
Limites = [Min, Max]
Limites

[np.float64(0.0), np.float64(211.0)]

In [46]:
#Categorización de variables
#Declaramos 2 intervalos
intervalos=np.linspace(0, 211, 3)
intervalos

array([  0. , 105.5, 211. ])

In [47]:
#Creamos las categorías
categorias= ['Low number of reviews', 'High number of reviews']

#Ajustar máximo de filas
pd.options.display.max_rows = None

#Finalmente creamos las categorías en la columna numérica
df['number_of_reviews']=pd.cut(x=df['number_of_reviews'], bins=intervalos, labels=categorias)

df['number_of_reviews'].value_counts()

number_of_reviews
Low number of reviews     10897
High number of reviews     1808
Name: count, dtype: int64

### Realizar una tabla de todos los coeficientes de precisión, exactitud y sensibilidad obtenidos para cada correlación analizada

In [48]:
#Generamos una tabla con los coeficientes de cada modelo
tabla_coeficientes = {
    "Variable objetivo": [
        'host_is_superhost',
        'has_availability',
        'instant_bookable',
        'host_response_time',
        'has_availability',
        'estimated_occupancy_l365d',
        'number_of_reviews',
        'host_is_superhost',
        'host_has_profile_pic',
        'instant_bookable'
    ],
    'Variables independientes': [
        'beds, bedrooms, accommodates',
        'beds, bedrooms, accommodates',
        'price, property_type, host_identity_verified',
        'host_is_superhost, bedrooms, accommodates',
        'availability_365, host_total_listings_count, estimated_occupancy_l365d',
        'number_of_reviews_ltm, availability_365, review_scores_location',
        'review_scores_communication, review_scores_value, review_scores_checkin',
        'host_response_rate, host_listings_count, review_scores_rating',
        'host_response_time, host_identity_verified, host_acceptance_rate',
        'price, host_identity_verified, availability_30'
    ],
    'Coeficiente de precisión': [
        0.66,
        0.99,
        0.68,
        0.22,
        0.99,
        0.02,
        0.01,
        0.72,
        0.98,
        0.69
    ],
    'Coeficiente de exactitud': [
        0.65,
        0.99,
        0.68,
        0.90,
        0.99,
        0.39,
        0.19,
        0.68,
        0.98,
        0.68
    ],
    'Coeficiente de sensibilidad': [
        0.99,
        1,
        0.94,
        0.25,
        1,
        0.04,
        0.01,
        0.82,
        1,
        0.96
    ],
}
df_coeficientes = pd.DataFrame(tabla_coeficientes)
df_coeficientes

Unnamed: 0,Variable objetivo,Variables independientes,Coeficiente de precisión,Coeficiente de exactitud,Coeficiente de sensibilidad
0,host_is_superhost,"beds, bedrooms, accommodates",0.66,0.65,0.99
1,has_availability,"beds, bedrooms, accommodates",0.99,0.99,1.0
2,instant_bookable,"price, property_type, host_identity_verified",0.68,0.68,0.94
3,host_response_time,"host_is_superhost, bedrooms, accommodates",0.22,0.9,0.25
4,has_availability,"availability_365, host_total_listings_count, e...",0.99,0.99,1.0
5,estimated_occupancy_l365d,"number_of_reviews_ltm, availability_365, revie...",0.02,0.39,0.04
6,number_of_reviews,"review_scores_communication, review_scores_val...",0.01,0.19,0.01
7,host_is_superhost,"host_response_rate, host_listings_count, revie...",0.72,0.68,0.82
8,host_has_profile_pic,"host_response_time, host_identity_verified, ho...",0.98,0.98,1.0
9,instant_bookable,"price, host_identity_verified, availability_30",0.69,0.68,0.96
