In [1]:
# Librerías utilizadas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression

In [2]:
df = pd.read_csv('Mexico_City.csv') # Cargar ya el dataset limpio de NAs y Outliers
df.shape

(26401, 76)

In [3]:
# Conversión variable categórica 'host_is_superhost' a numérica
df['host_is_superhost'] = df['host_is_superhost'].map({'t': 1, 'f': 0})
print(df['host_is_superhost'])

0        0
1        0
2        0
3        0
4        1
        ..
26396    0
26397    0
26398    1
26399    0
26400    0
Name: host_is_superhost, Length: 26401, dtype: int64


In [4]:
# seleccionar solo las variables numéricas
df_num = df.select_dtypes(include='number')
matriz_corr = df_num.corr().round(4)

**1. Calificación general de los huéspedes (review scores rating**)

In [77]:
# Creación con mi aportación ayuda de material de clase del profe Fredy y  de IA 

In [5]:
# Mostrar las correlaciones de 'review_scores_rating' con otras variables
matriz_corr['review_scores_rating'].sort_values(ascending=False).head(10)

review_scores_rating           1.0000
review_scores_value            0.6591
review_scores_accuracy         0.6475
review_scores_cleanliness      0.5536
review_scores_communication    0.5299
review_scores_checkin          0.4924
review_scores_location         0.3136
host_is_superhost              0.1821
minimum_nights_avg_ntm         0.0773
id                             0.0737
Name: review_scores_rating, dtype: float64

In [None]:
# Modelo de regresión lineal múltiple para predecir 'review_scores_rating' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['review_scores_accuracy', 'review_scores_value', 'review_scores_cleanliness',
             'review_scores_communication', 'review_scores_checkin']]

y = df['review_scores_rating']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos para calificación general:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Calificación general = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos para calificación general: [0.30409174 0.27871496 0.15878669 0.18068229 0.13661208]
Intercepto: -0.30521517986350233
Coeficiente de determinación: 0.5822853052796246
Coeficiente de correlación: 0.7630762119733682
Modelo matemático:
Calificación general = -0.3052 + 0.3041*review_scores_accuracy + 0.2787*review_scores_value + 0.1588*review_scores_cleanliness + 0.1807*review_scores_communication + 0.1366*review_scores_checkin


**2. Tasa de aceptación (host acceptance rate)**

In [7]:
# Mostrar las correlaciones de 'host_acceptance_rate' con otras variables
matriz_corr['host_acceptance_rate'].sort_values(ascending=False).head(10)

host_acceptance_rate         1.0000
host_response_rate           0.4968
estimated_occupancy_l365d    0.2175
number_of_reviews_ltm        0.1885
availability_365             0.1662
reviews_per_month            0.1574
number_of_reviews_ly         0.1519
availability_eoy             0.1471
estimated_revenue_l365d      0.1467
host_is_superhost            0.1450
Name: host_acceptance_rate, dtype: float64

In [None]:
# Modelo de regresión lineal múltiple para predecir 'host_acceptance_rate' usando las variables más correlacionadas 
from sklearn.linear_model import LinearRegression
# Definir variables independientes y dependiente
X = df[['host_response_rate', 'estimated_occupancy_l365d']]
y = df['host_acceptance_rate']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de tasa de aceptación:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Tasa de aceptación del host = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de tasa de aceptación: [0.53236518 0.00762829]
Intercepto: 43.82315165987614
Coeficiente de determinación: 0.2623251360538845
Coeficiente de correlación: 0.512176860131229
Modelo matemático:
Tasa de aceptación del host = 43.8232 + 0.5324*host_response_rate + 0.0076*estimated_occupancy_l365d


**3. Anfitrión es buen anfitrión (Host is superhost)**

In [9]:
# Mostrar las correlaciones de 'host_is_superhost' con otras variables
matriz_corr['host_is_superhost'].sort_values(ascending=False).head(10)

host_is_superhost              1.0000
estimated_occupancy_l365d      0.3511
number_of_reviews_ltm          0.3353
number_of_reviews_ly           0.3020
number_of_reviews              0.2635
estimated_revenue_l365d        0.2627
reviews_per_month              0.2172
host_response_rate             0.2166
review_scores_rating           0.1821
review_scores_communication    0.1709
Name: host_is_superhost, dtype: float64

In [None]:
# Modelo de regresión lineal múltiple para predecir 'host_is_superhost' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['estimated_occupancy_l365d', 'number_of_reviews_ltm','host_response_rate']]
y = df['host_is_superhost']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de super anfitrión:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Host es superhost = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de super anfitrión: [0.00111826 0.00420437 0.01534833]
Intercepto: -1.2778747851691548
Coeficiente de determinación: 0.15104201148888552
Coeficiente de correlación: 0.3886412375043152
Modelo matemático:
Host es superhost = -1.2779 + 0.0011*estimated_occupancy_l365d + 0.0042*number_of_reviews_ltm + 0.0153*host_response_rate


**4. Host total listings count**

In [11]:
# Mostrar las correlaciones de 'host_total_listings_count' con otras variables
matriz_corr['host_total_listings_count'].sort_values(ascending=False).head(10)

host_total_listings_count                      1.0000
host_listings_count                            0.7927
calculated_host_listings_count                 0.6373
calculated_host_listings_count_entire_homes    0.3605
host_acceptance_rate                           0.1317
host_response_rate                             0.1053
availability_90                                0.0929
availability_60                                0.0897
availability_eoy                               0.0871
maximum_maximum_nights                         0.0833
Name: host_total_listings_count, dtype: float64

In [25]:
# Modelo de regresión lineal múltiple para predecir 'host_total_listings_count' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['host_listings_count', 'calculated_host_listings_count']]
y = df['host_total_listings_count']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de host total listings count:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Host total listings count = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de host total listings count: [0.85375613 0.14553641]
Intercepto: 1.4001315540320904
Coeficiente de determinación: 0.6332144901223933
Coeficiente de correlación: 0.7957477553360696
Modelo matemático:
Host total listings count = 1.4001 + 0.8538*host_listings_count + 0.1455*calculated_host_listings_count


**Capacidad de alojamiento (Accommodates)**

In [13]:
# Mostrar las correlaciones de 'accommodates' con otras variables
matriz_corr['accommodates'].sort_values(ascending=False).head(10)

accommodates                                   1.0000
bedrooms                                       0.6493
beds                                           0.5513
price                                          0.3978
bathrooms                                      0.3791
estimated_revenue_l365d                        0.2163
estimated_occupancy_l365d                      0.1465
number_of_reviews_ltm                          0.1430
calculated_host_listings_count_entire_homes    0.1409
number_of_reviews_ly                           0.1348
Name: accommodates, dtype: float64

In [32]:
# Modelo de regresión lineal múltiple para predecir 'accommodates' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['bedrooms', 'beds', 'price', 'bathrooms']]
y = df['accommodates']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de capacidad de alojamiento", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Capacidad de alojamiento = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de capacidad de alojamiento [9.85357473e-01 6.42856530e-01 4.05153019e-04 9.09922957e-02]
Intercepto: 0.0667443898157023
Coeficiente de determinación: 0.531362260313788
Coeficiente de correlación: 0.7289459927277109
Modelo matemático:
Capacidad de alojamiento = 0.0667 + 0.9854*bedrooms + 0.6429*beds + 0.0004*price + 0.0910*bathrooms


**Habitaciones (Bedrooms)**

In [31]:
# Mostrar las correlaciones de 'bedrooms' con otras variables
matriz_corr['bedrooms'].sort_values(ascending=False).head(10)

bedrooms                   1.0000
accommodates               0.6493
bathrooms                  0.5238
beds                       0.4448
price                      0.3489
estimated_revenue_l365d    0.1347
maximum_minimum_nights     0.1205
minimum_nights_avg_ntm     0.1109
minimum_nights             0.1066
minimum_minimum_nights     0.0931
Name: bedrooms, dtype: float64

In [36]:
# Modelo de regresión lineal múltiple para predecir 'bedrooms' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['accommodates', 'bathrooms', 'beds']]
y = df['bedrooms']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de habitaciones:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Habitaciones = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de habitaciones: [0.2058715  0.36274987 0.10717309]
Intercepto: 0.14557316015793775
Coeficiente de determinación: 0.5210251475097749
Coeficiente de correlación: 0.721820717013425
Modelo matemático:
Habitaciones = 0.1456 + 0.2059*accommodates + 0.3627*bathrooms + 0.1072*beds


**Precio (price)**

In [37]:
# Mostrar las correlaciones de 'price' con otras variables
matriz_corr['price'].sort_values(ascending=False).head(10)

price                                          1.0000
accommodates                                   0.3978
bedrooms                                       0.3489
bathrooms                                      0.2750
beds                                           0.2479
estimated_revenue_l365d                        0.2243
calculated_host_listings_count_entire_homes    0.2046
latitude                                       0.1571
maximum_minimum_nights                         0.1133
reviews_per_month                              0.0956
Name: price, dtype: float64

In [46]:
# Modelo de regresión lineal múltiple para predecir 'price' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['accommodates', 'bedrooms', 'bathrooms', 'calculated_host_listings_count_entire_homes']]
y = df['price']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de precio", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Precio = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de precio [102.50160806  95.70112706 113.00372323  28.03935832]
Intercepto: 412.20451104882784
Coeficiente de determinación: 0.20545924968614626
Coeficiente de correlación: 0.45327612962315394
Modelo matemático:
Precio = 412.2045 + 102.5016*accommodates + 95.7011*bedrooms + 113.0037*bathrooms + 28.0394*calculated_host_listings_count_entire_homes


**Calificación del valor percibido (review scores value)**

In [47]:
# Mostrar las correlaciones de 'review_scores_value' con otras variables
matriz_corr['review_scores_value'].sort_values(ascending=False).head(10)

review_scores_value            1.0000
review_scores_rating           0.6591
review_scores_accuracy         0.6044
review_scores_cleanliness      0.5098
review_scores_communication    0.4884
review_scores_checkin          0.4597
review_scores_location         0.3395
host_is_superhost              0.1340
minimum_minimum_nights         0.0808
minimum_nights_avg_ntm         0.0790
Name: review_scores_value, dtype: float64

In [76]:
# Modelo de regresión lineal múltiple para predecir 'review_scores_value' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['review_scores_rating', 'review_scores_accuracy',
                 'review_scores_communication']]
y = df['review_scores_value']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de review scores value:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Review scores value = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de review scores value: [0.44839672 0.33349952 0.20762428]
Intercepto: -0.002664225805133924
Coeficiente de determinación: 0.50200797697564
Coeficiente de correlación: 0.7085252126605235
Modelo matemático:
Review scores value = -0.0027 + 0.4484*review_scores_rating + 0.3335*review_scores_accuracy + 0.2076*review_scores_communication


**Baños (bathrooms)**

In [75]:
# Mostrar las correlaciones de 'bathrooms' con otras variables
matriz_corr['bathrooms'].sort_values(ascending=False).head(10)

bathrooms                 1.0000
bedrooms                  0.5238
accommodates              0.3791
price                     0.2750
beds                      0.2276
maximum_minimum_nights    0.1169
minimum_nights_avg_ntm    0.0964
minimum_nights            0.0810
minimum_minimum_nights    0.0596
review_scores_value       0.0526
Name: bathrooms, dtype: float64

In [74]:
# Modelo de regresión lineal múltiple para predecir 'bathrooms' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['bedrooms', 'maximum_minimum_nights']]
y = df['bathrooms']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de baños:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Bathrooms = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de baños: [0.45867116 0.02826581]
Intercepto: 0.6477542185151096
Coeficiente de determinación: 0.2772848261329628
Coeficiente de correlación: 0.526578414040077
Modelo matemático:
Bathrooms = 0.6478 + 0.4587*bedrooms + 0.0283*maximum_minimum_nights


**Reseñas por mes (reviews per month)**

In [66]:
# Mostrar las correlaciones de 'reviews_per_month' con otras variables
matriz_corr['reviews_per_month'].sort_values(ascending=False).head(10)

reviews_per_month            1.0000
number_of_reviews_ltm        0.6882
estimated_occupancy_l365d    0.6784
number_of_reviews_ly         0.5148
estimated_revenue_l365d      0.4619
number_of_reviews            0.3753
number_of_reviews_l30d       0.2786
host_is_superhost            0.2172
id                           0.1695
host_acceptance_rate         0.1574
Name: reviews_per_month, dtype: float64

In [73]:
# Modelo de regresión lineal múltiple para predecir 'reviews_per_month' usando las variables más correlacionadas 

# Definir variables independientes y dependiente
X = df[['number_of_reviews_ltm', 'estimated_occupancy_l365d']]
y = df['reviews_per_month']

# Ajustar modelo
model = LinearRegression()
model.fit(X, y)

# Coeficiente de intercepto y coeficientes
print(f"Coeficientes obtenidos de reseñas por mes:", model.coef_)
print(f"Intercepto:", model.intercept_)

coef_deter = model.score(X, y)  # Coef de determinación
print("Coeficiente de determinación:", coef_deter)

coef_corre = np.sqrt(coef_deter)  # Coef de correlación
print("Coeficiente de correlación:", coef_corre)

# Resultados del modelo
modelo_str = f"Reseñas por mes = {model.intercept_:.4f}"
for c, v in zip(model.coef_, X.columns):
    signo = "+" if c >= 0 else "-"
    modelo_str += f" {signo} {abs(c):.4f}*{v}"
print("Modelo matemático:")
print(modelo_str)

Coeficientes obtenidos de reseñas por mes: [0.03068425 0.00421129]
Intercepto: 0.7963021156545593
Coeficiente de determinación: 0.5048708793095233
Coeficiente de correlación: 0.7105426653688879
Modelo matemático:
Reseñas por mes = 0.7963 + 0.0307*number_of_reviews_ltm + 0.0042*estimated_occupancy_l365d
