# Proyecto Final - Prediccion de consumos
El proyecto tiene con la finalidad de realizar la prediccion de un consumo en año mes.

## Paso 1 - Obtener la data

### Paso 1.1 - Crear Conexion
Creamos la conexion a la BD de donde obtendremos la data a trabajar.

In [1]:
from sqlalchemy import create_engine
import pandas as pd

# Crear el motor de conexión
engine = create_engine('postgresql+psycopg2://postgres:postgres@localhost:5432/postgres')

### Paso 1.2 - Obtener la data
Realizamos la consulta y cargamos la data en el dataFrame

In [3]:
# Leer datos desde PostgreSQL
#query = "select * from public.consumos c where c.anio in (2022,2023)"
query = "select * from public.consumos c where c.anio in (2023) limit 1000"
df = pd.read_sql_query(query, engine)

### Paso 1.3 - Validar la data
Validaremos la data cargada en el dataFrame

In [4]:
# Mostrar las primeras filas del DataFrame
print(df.head())

# Estadísticas descriptivas generales
print(df.describe())

   idproducto ciclo  periodo        equipo observacion_lectura  \
0   1287551.0    11   5186.0        14358.              NORMAL   
1   1377321.0     4   5160.0     17-091675              NORMAL   
2    803431.0    17   5173.0   22047-23153              NORMAL   
3   1490001.0     4   5160.0  Q19HA002604P              NORMAL   
4   1227921.0     4   5160.0      13-65471              NORMAL   

                    tipo estado_tecnico                           nombre  \
0    Diferencia Lecturas   CON SERVICIO  FONDO  MUNICIPAL  DE VIVIENDA     
1    Diferencia Lecturas   CON SERVICIO            SUAREZ NIÑO & CIA SCA   
2    Diferencia Lecturas   CON SERVICIO          MARTHA  LADY  LONDONO     
3    Diferencia Lecturas   CON SERVICIO      URBE  CONSTRUCCIONES  SAS     
4  Cobro Lectura Critica   CON SERVICIO   DIANA  MILENA  PEÑA  ESTUPIÑAN   

                                       direccion          ruta  ...  \
0                                    MZ 40 CS 52  113004875200  ...   
1  C

# Paso 2 - Generar el modelo

### Guardamos una copia para no repetir el proceso del paso 1

In [None]:
## Copia del df original
#df_origina = df.copy()
#df = df_origina.copy()

## Paso 2.1 Elminacion
Limpiamos el dataFrame quitando las columnas que no cuentan con informacion relevante

In [5]:
# Eliminar columnas innecesarias o que no sean útiles para la predicción
df = df.drop(columns=['periodo', 'cuentas_con_saldo', 'consumo_mes_1',
                      'consumo_mes_2',
                      'consumo_mes_3',
                      'consumo_mes_4',
                      'consumo_mes_5',
                      'consumo_mes_6','lectura_actual', 'lectura_anterior', 
'contrato', 'equipo','nombre','direccion','direc_predio','marca','ref_tipo','ruta'])

# Mostramos las columnas
print(df.columns)


Index(['idproducto', 'ciclo', 'observacion_lectura', 'tipo', 'estado_tecnico',
       'barrio', 'uso', 'estrato', 'zona', 'anio', 'mes', 'cantidadfestivos',
       'consumo_actual', 'consumo_promedio'],
      dtype='object')


## Paso 2.2 Limpiar Columnas
Con las columnas que trabajaremos hay que limpiarlas, es decir, quitar los nulos y las muestras que no cuenten con informacion completa.

In [6]:
# Convertimos en cero la columanas vacias de los dias festivos
df['cantidadfestivos'] = df['cantidadfestivos'].fillna(0)

# Conversion de columans a numero
df["cantidadfestivos"] = df["cantidadfestivos"].astype(str).astype(int)
df["ciclo"] = df["ciclo"].astype(str).astype(int)

# Quitamos las filas con valores nulos
df = df.dropna()

In [20]:
df.columns

Index(['idproducto', 'ciclo', 'observacion_lectura', 'tipo', 'estado_tecnico',
       'barrio', 'uso', 'estrato', 'zona', 'anio', 'mes', 'cantidadfestivos',
       'consumo_actual', 'consumo_promedio'],
      dtype='object')

## Paso 2.3 Columnas categoricas
Realizamos el proceso de realizar las columnas categoricas, es aqui donde las etiquetas no numericas, nos brindan informacion relevante para la prediccion.

In [7]:
import dask.dataframe as dd

# Convertir DataFrame de pandas a Dask DataFrame
ddf = dd.from_pandas(df, npartitions=2)

# Convertir las columnas especificadas a tipo categórico
categorical_columns = ['observacion_lectura', 'tipo', 'estado_tecnico', 'barrio', 'uso', 'estrato']
ddf = ddf.categorize(columns=categorical_columns)

# Aplicar get_dummies con Dask
ddf_dummies = dd.get_dummies(ddf, columns=categorical_columns).compute()

In [8]:
# Mostramos las columnas
print(ddf_dummies.columns)

Index(['idproducto', 'ciclo', 'zona', 'anio', 'mes', 'cantidadfestivos',
       'consumo_actual', 'consumo_promedio',
       'observacion_lectura_ALTO CONSUMO CONFIR POR CRITICA',
       'observacion_lectura_BAJO LLAVE',
       ...
       'estrato_1 - BAJO BAJO', 'estrato_1 - COMERCIAL',
       'estrato_1 - INDUSTRIAL', 'estrato_1 - OFICIAL',
       'estrato_1 - PROVISIONAL', 'estrato_2 - BAJO', 'estrato_3 - MEDIO BAJO',
       'estrato_4 - MEDIO', 'estrato_5 - MEDIO ALTO', 'estrato_6 - ALTO'],
      dtype='object', length=305)


## Paso 2.4 Parametros X y Y
Dividimos en variables "x" y "y" siendo "y" nuestra variable objetivo.

In [9]:
# Dividir los datos en características (X) y etiquetas (y)
X = ddf_dummies.drop(columns=['consumo_actual'])
y = ddf_dummies['consumo_actual']

In [25]:
# pd.set_option('display.max_columns', None)
# pd.set_option("max_rows", None)

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

# print(X.dtypes)
# print(X.columns)
for col in X.columns:
    print("'"+col+"',")


'idproducto',
'ciclo',
'zona',
'anio',
'mes',
'cantidadfestivos',
'consumo_promedio',
'observacion_lectura_ALTO CONSUMO CONFIR POR CRITICA',
'observacion_lectura_BAJO LLAVE',
'observacion_lectura_DESACUMULACION DE CONSUMO',
'observacion_lectura_DESOCUPADO',
'observacion_lectura_DIRECTO',
'observacion_lectura_FRENADO',
'observacion_lectura_FUGA IMPERCEPTIBLE',
'observacion_lectura_INACCESIBLE',
'observacion_lectura_INUNDADO',
'observacion_lectura_MEDIDOR CON CONCRETO Y/O REJA',
'observacion_lectura_MEDIDOR NUEVO',
'observacion_lectura_NORMAL',
'observacion_lectura_SUSPENDIDO',
'observacion_lectura_TAPADO',
'observacion_lectura_USUARIO CONSUMOS MINIMOS',
'observacion_lectura_VOLTEADO',
'tipo_Cobro Lectura Critica',
'tipo_Consumo Estimado',
'tipo_Diferencia Lecturas',
'tipo_Promedio Estrato',
'tipo_Promedio Usuario',
'estado_tecnico_CON SERVICIO',
'estado_tecnico_CORTADO',
'estado_tecnico_SUSCRIPTOR INACTIVO',
'estado_tecnico_SUSPENDIDO FALTA  DE PAGO',
'estado_tecnico_USUARIO CON CORTE E

## Paso 2.5 Entrenando el modelo
Aqui entrenaremos el modelo sacando conjunto de datos train y test.
Indicamos el tamaño de la muestra y limitamos el numero de estimadores, la cantidad de pasos y realizamos el proceso en nucleos simultaneos de la cpu.

In [11]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo con parámetros ajustados
model = RandomForestRegressor(n_estimators=50, max_depth=20, random_state=42, n_jobs=-1)
model.fit(X_train, y_train)

In [9]:
## REAL
# from sklearn.model_selection import train_test_split
# from sklearn.ensemble import RandomForestRegressor

# # Dividir en conjuntos de entrenamiento y prueba
# X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# # Entrenar el modelo
# model = RandomForestRegressor(n_estimators=100, random_state=42)
# model.fit(X_train, y_train)

## Paso 2.6 Probando el modelo
En este paso realizaremos la validacion del modelo con los datos de prueba.
Adicional se calculara el error cuadratico del modelo.

In [12]:
from sklearn.metrics import mean_squared_error

# Evaluar el modelo
y_pred = model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print(f'Error cuadrático medio: {mse}')

Error cuadrático medio: 110.07817863481814


## Paso 2.7 Exportamos el modelo
Exportamos el modelo entrenado.

In [13]:
import joblib
# Guardar el modelo entrenado
joblib.dump(model, 'consumo_epa_prediction_model.pkl')

['consumo_epa_prediction_model.pkl']

In [18]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)
print(X_test.columns)

print(X_test.dtypes)

Index(['idproducto', 'ciclo', 'zona', 'anio', 'mes', 'cantidadfestivos',
       'consumo_promedio',
       'observacion_lectura_ALTO CONSUMO CONFIR POR CRITICA',
       'observacion_lectura_BAJO LLAVE',
       'observacion_lectura_DESACUMULACION DE CONSUMO',
       ...
       'estrato_1 - BAJO BAJO', 'estrato_1 - COMERCIAL',
       'estrato_1 - INDUSTRIAL', 'estrato_1 - OFICIAL',
       'estrato_1 - PROVISIONAL', 'estrato_2 - BAJO', 'estrato_3 - MEDIO BAJO',
       'estrato_4 - MEDIO', 'estrato_5 - MEDIO ALTO', 'estrato_6 - ALTO'],
      dtype='object', length=304)
idproducto                                             float64
ciclo                                                    int32
zona                                                     int64
anio                                                     int64
mes                                                      int64
cantidadfestivos                                         int32
consumo_promedio                                  

In [22]:
import pickle

with open("modelo_consumo_pickle.pkl", "wb") as f:
    pickle.dump(model, f)