1️⃣ Qué son

Son archivos “pickle”, usados para serializar objetos de Python.

“Serializar” significa convertir un objeto de Python (modelo, lista, diccionario, DataFrame, etc.) en un flujo de bytes que se puede guardar en disco y luego recuperar intacto.

El nombre .pkl viene de “pickle”, aunque algunas personas a veces los escriben mal como .pk1.

2️⃣ Para qué se usan

Guardar modelos de Machine Learning entrenados (RandomForest, XGBoost, etc.).

Guardar estructuras de datos complejas para usarlas después sin recalcularlas.

Transferir objetos entre programas Python.

3️⃣ Cómo leer un archivo .pkl (pickle) en Python

In [None]:
import pickle
from sklearn.metrics import accuracy_score

# Cargar un modelo desde un archivo
with open('modelo.pkl', 'rb') as f:
    modelo = pickle.load(f)

# Usar el modelo
pred = modelo.predict([[1.0, 2.0, 3.0]])
print(pred)

accuracy = accuracy_score(w, pred)

print("-" * 30)
print("Paso 4: Evaluación del modelo")
print(f"Precisión (Accuracy) en el conjunto de validación: {accuracy:.2%}")
print("Explicación: Este valor representa el porcentaje de predicciones correctas que hizo el modelo sobre el conjunto de validación.")
print("Un valor más alto es mejor. Nos da una idea de cómo se comportará el modelo con datos nuevos.")
print("-" * 30)

[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


[3]


ValueError: Found input variables with inconsistent numbers of samples: [50, 1]

4️⃣ Cómo guardar un objeto en .pkl

In [16]:
# --- 0. Importar librerías ---
import pandas as pd
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import pickle

In [11]:
## 1. Cargar los datos
print("📂 Leyendo archivos CSV...")

train = pd.read_csv("../data/dtpr/train.csv", sep=";", encoding="utf-8")
test = pd.read_csv("../data/dtpr/test.csv", sep=";", encoding="utf-8")

print("✅ Archivos cargados")
train.head()

📂 Leyendo archivos CSV...
✅ Archivos cargados


Unnamed: 0,TIPO_TARIFA,MONTO_TRANSACCION,MEDIO_ACCESO,LATITUDE_USO,LONGITUDE_USO
0,1,790,2,-3873991,-7259023
1,3,330,1,-3873626,-7259045
2,1,790,2,-3873803,-7258556
3,1,660,2,-3873748,-7258936
4,2,220,1,-387394,-7258799


In [14]:
## 2. Preprocesamiento de datos
train_df_processed = train.copy()
test_df_processed = test.copy()

# --- Conversión de LAT y LONG ---
for df in [train_df_processed, test_df_processed]:
    df["LATITUDE_USO"] = df["LATITUDE_USO"].astype(str).str.replace(",", ".", regex=False).astype(float)
    df["LONGITUDE_USO"] = df["LONGITUDE_USO"].astype(str).str.replace(",", ".", regex=False).astype(float)

    df["LATITUDE_USO"].fillna(df["LATITUDE_USO"].median(), inplace=True)
    df["LONGITUDE_USO"].fillna(df["LONGITUDE_USO"].median(), inplace=True)

# --- Eliminar columna objetivo en test ---
# if TARGET in test_df_processed.columns:
    # test_df_processed = test_df_processed.drop(columns=[TARGET])

print("Datos preprocesados (lat/long convertidos a float, test sin target).")

Datos preprocesados (lat/long convertidos a float, test sin target).


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["LATITUDE_USO"].fillna(df["LATITUDE_USO"].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df["LONGITUDE_USO"].fillna(df["LONGITUDE_USO"].median(), inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the inte

In [None]:
FEATURES = ['MEDIO_ACCESO', 'LATITUDE_USO', 'LONGITUDE_USO']
TARGET = 'TIPO_TARIFA'

X = df[FEATURES]
y = df[TARGET]

# Dividir los datos en entrenamiento y validación (80% para entrenar, 20% para validar)
X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2, random_state=42)
print(f"Datos divididos: {len(X_train)} para entrenamiento, {len(X_val)} para validación.")

"""
Parametros de entrada:

A1
MEDIO_ACCESO 1
LATITUDE_USO 50
PREDICTION TIPO_TARIFA 1

A2
MEDIO_ACCESO 1
LATITUDE_USO 60
PREDICTION  TIPO_TARIFA 1

A3
MEDIO_ACCESO 2
LATITUDE_USO 60
PREDICTION  TIPO_TARIFA 2

VOTACION
TT1 = 2
TT2 = 1

=> TIPO_TARIFA = 1

"""

modelo = RandomForestClassifier(
    n_estimators=100, 
    random_state=42, 
    verbose=1
)


# Supongamos que tienes un modelo entrenado
# modelo = RandomForestClassifier()
modelo.fit(X_train, y_train)

# Guardarlo
with open('modelo.pkl', 'wb') as f:
    pickle.dump(modelo, f)

Datos divididos: 200 para entrenamiento, 50 para validación.


[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


In [22]:
import pickle
from sklearn.metrics import accuracy_score

# Cargar un modelo desde un archivo
with open('modelo.pkl', 'rb') as f:
    modelo = pickle.load(f)

# Usar el modelo
pred = modelo.predict([[1.0, 2.0, 3.0]])
print(pred)

accuracy = accuracy_score(y_val, pred)

print("-" * 30)
print("Paso 4: Evaluación del modelo")
print(f"Precisión (Accuracy) en el conjunto de validación: {accuracy:.2%}")
print("Explicación: Este valor representa el porcentaje de predicciones correctas que hizo el modelo sobre el conjunto de validación.")
print("Un valor más alto es mejor. Nos da una idea de cómo se comportará el modelo con datos nuevos.")
print("-" * 30)

[3]


[Parallel(n_jobs=1)]: Done  49 tasks      | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished


ValueError: Found input variables with inconsistent numbers of samples: [50, 1]