# Análisis de Datos de Facebook con Regresión Lineal Múltiple

En este notebook, cargaremos un dataset de Facebook, modificaremos etiquetas para un mejor análisis, dividiremos los datos en conjuntos de entrenamiento y prueba, aplicaremos un modelo de regresión lineal múltiple y evaluaremos su desempeño.

In [20]:
# Importar librerías necesarias
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.preprocessing import LabelEncoder

# Cargar el dataset
df = pd.read_csv('dataset_Facebook.csv', sep=',')

# Manejar valores faltantes
df = df.dropna()

# Mostrar las primeras filas
df.head()

Unnamed: 0,Page total likes,Type,Category,Post Month,Post Weekday,Post Hour,Paid,Lifetime Post Total Reach,Lifetime Post Total Impressions,Lifetime Engaged Users,Lifetime Post Consumers,Lifetime Post Consumptions,Lifetime Post Impressions by people who have liked your Page,Lifetime Post reach by people who like your Page,Lifetime People who have liked your Page and engaged with your post,comment,like,share,Total Interactions
0,139441,Photo,2,12,4,3,0.0,2752,5091,178,109,159,3078,1640,119,4,79.0,17.0,100
1,139441,Status,2,12,3,10,0.0,10460,19057,1457,1361,1674,11710,6112,1108,5,130.0,29.0,164
2,139441,Photo,3,12,3,3,0.0,2413,4373,177,113,154,2812,1503,132,0,66.0,14.0,80
3,139441,Photo,2,12,2,10,1.0,50128,87991,2211,790,1119,61027,32048,1386,58,1572.0,147.0,1777
4,139441,Photo,2,12,2,3,0.0,7244,13594,671,410,580,6228,3200,396,19,325.0,49.0,393


## Modificación de etiquetas

Para facilitar el análisis, renombraremos las columnas para eliminar espacios y convertiremos variables categóricas en variables numéricas mediante codificación.

In [21]:
# Renombrar columnas para eliminar espacios y poner en minúsculas
df.columns = df.columns.str.replace(' ', '_').str.lower()

# Codificar variable categórica 'type'
le = LabelEncoder()
df['type'] = le.fit_transform(df['type'])

# Mostrar las primeras filas después de la modificación
df.head()

Unnamed: 0,page_total_likes,type,category,post_month,post_weekday,post_hour,paid,lifetime_post_total_reach,lifetime_post_total_impressions,lifetime_engaged_users,lifetime_post_consumers,lifetime_post_consumptions,lifetime_post_impressions_by_people_who_have_liked_your_page,lifetime_post_reach_by_people_who_like_your_page,lifetime_people_who_have_liked_your_page_and_engaged_with_your_post,comment,like,share,total_interactions
0,139441,1,2,12,4,3,0.0,2752,5091,178,109,159,3078,1640,119,4,79.0,17.0,100
1,139441,2,2,12,3,10,0.0,10460,19057,1457,1361,1674,11710,6112,1108,5,130.0,29.0,164
2,139441,1,3,12,3,3,0.0,2413,4373,177,113,154,2812,1503,132,0,66.0,14.0,80
3,139441,1,2,12,2,10,1.0,50128,87991,2211,790,1119,61027,32048,1386,58,1572.0,147.0,1777
4,139441,1,2,12,2,3,0.0,7244,13594,671,410,580,6228,3200,396,19,325.0,49.0,393


## División de datos en entrenamiento y prueba

Separamos las variables independientes (X) y la variable dependiente (y), y dividimos el dataset en conjuntos de entrenamiento y prueba.

In [22]:
# Definir variables independientes y dependiente
X = df.drop('total_interactions', axis=1)
y = df['total_interactions']

# Dividir en entrenamiento y prueba (80% entrenamiento, 20% prueba)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Mostrar tamaños de los conjuntos
print(f'Tamaño entrenamiento: {X_train.shape[0]}')
print(f'Tamaño prueba: {X_test.shape[0]}')

Tamaño entrenamiento: 396
Tamaño prueba: 99


## Aplicación del modelo de Regresión Lineal Múltiple

Entrenamos un modelo de regresión lineal múltiple con los datos de entrenamiento.

In [23]:
# Crear y entrenar el modelo
model = LinearRegression()
model.fit(X_train, y_train)

# Mostrar coeficientes del modelo
coef_df = pd.DataFrame({'Variable': X.columns, 'Coeficiente': model.coef_})
coef_df

Unnamed: 0,Variable,Coeficiente
0,page_total_likes,-1.3752510000000001e-17
1,type,-2.667094e-14
2,category,9.071024e-13
3,post_month,1.072144e-13
4,post_weekday,-1.003431e-13
5,post_hour,1.6839e-14
6,paid,-2.080853e-13
7,lifetime_post_total_reach,-1.652517e-16
8,lifetime_post_total_impressions,3.701412e-17
9,lifetime_engaged_users,6.124957e-16


## Evaluación del modelo

Evaluamos el desempeño del modelo con los datos de prueba usando el error cuadrático medio (MSE) y el coeficiente de determinación (R²).

In [24]:
# Predecir con el conjunto de prueba
y_pred = model.predict(X_test)

# Calcular métricas
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f'Mean Squared Error (MSE): {mse:.2f}')
print(f'Coeficiente de determinación (R²): {r2:.2f}')

Mean Squared Error (MSE): 0.00
Coeficiente de determinación (R²): 1.00
