# Práctica 2

Mediante la técnica de Webscraping se obtuvo una base de datos que contiene información sobre artículos de Machine Learning. Las características de entrada en el archivo son:

* Title: título del artículo
* url: ruta al artículo
* Word count: número de palabras del artículo
* '#' of links: enlaces externos del artículo
* '#' of comments: número de comentarios
* '#' of Images video: imágenes o videos que contiene el artículo
* Elapsed days: días transcurridos desde que se creó el artículo
* '#' shares: veces que se compartío el artículo

## Regresión Lineal múltiple

In [1]:
import numpy as np
import pandas as pd
import mlflow
import mlflow.sklearn
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [2]:
# Cargar datos
df = pd.read_csv('data/ml_articles_data.csv', sep=';')
df['# of comments'].fillna(0, inplace=True)
filtered_data = df[(df['Word count'] <= 3500) & (df['# Shares'] <= 80000)]
sum_feature = (filtered_data['# of Links'] + filtered_data['# of comments'] + filtered_data['# Images video'])


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['# of comments'].fillna(0, inplace=True)


In [3]:
# Variables
X = pd.DataFrame()
X['Word count'] = filtered_data['Word count']
X['Sum'] = sum_feature
y = filtered_data['# Shares']

In [4]:
# Entrenar modelo
model = LinearRegression()
model.fit(X, y)

In [5]:
# Predicción y métricas
predictions = model.predict(X)
mse = mean_squared_error(y, predictions)
r2 = r2_score(y, predictions)

In [8]:
# Experimento MLflow
mlflow.set_tracking_uri("http://127.0.0.1:9090")
mlflow.set_experiment("Article Share Prediction")

2025/05/18 23:23:38 INFO mlflow.tracking.fluent: Experiment with name 'Article Share Prediction' does not exist. Creating a new experiment.


<Experiment: artifact_location='mlflow-artifacts:/4', creation_time=1747628618362, experiment_id='4', last_update_time=1747628618362, lifecycle_stage='active', name='Article Share Prediction', tags={}>

In [10]:
with mlflow.start_run(run_name="RM_Run"):
    mlflow.log_param("features", ["Word count", "Sum"])
    mlflow.log_metric("mse", mse)
    mlflow.log_metric("r2", r2)
    mlflow.sklearn.log_model(model, "model")

    print("Modelo registrado y métricas guardadas en MLflow")



Modelo registrado y métricas guardadas en MLflow
🏃 View run RM_Run at: http://127.0.0.1:9090/#/experiments/4/runs/85e569247ab84cd1b0b35c94b5e12422
🧪 View experiment at: http://127.0.0.1:9090/#/experiments/4
