# Proyecto Final - Prediccion de consumos
El proyecto tiene con la finalidad de realizar la prediccion de un consumo en año mes.

## Paso 1 - Obtener la data

### Paso 1.1 - Crear Conexion
Creamos la conexion a la BD de donde obtendremos la data a trabajar.

In [2]:
from sqlalchemy import create_engine
import pandas as pd

# Crear el motor de conexión
engine = create_engine('postgresql+psycopg2://postgres:postgres@postgres-dm:5432/postgres')

### Paso 1.2 - Obtener la data
Realizamos la consulta y cargamos la data en el dataFrame

In [3]:
# Leer datos desde PostgreSQL
query = "select * from public.consumos c where c.anio in (2022,2023)"
df = pd.read_sql_query(query, engine)

### Paso 1.3 - Validar la data
Validaremos la data cargada en el dataFrame

In [4]:
# Mostrar las primeras filas del DataFrame
print(df.head())

# Estadísticas descriptivas generales
print(df.describe())

   idproducto ciclo  periodo     equipo observacion_lectura  \
0   1238581.0     7   5163.0   16002837              TAPADO   
1    645441.0    14   5170.0  07-033833              NORMAL   
2    745361.0    11   5186.0   80100591              NORMAL   
3   1090291.0    19   5118.0    7217914              NORMAL   
4    269851.0     9   5203.0    7219450              NORMAL   

                  tipo estado_tecnico                              nombre  \
0     Promedio Usuario   CON SERVICIO              RAUL  TEJADA  ALZATE     
1  Diferencia Lecturas   CON SERVICIO               LUZ  MERY  MOYA  MELO   
2  Diferencia Lecturas   CON SERVICIO  DUQUE  VALENCIA  MARTHA  EDELMIRA    
3  Diferencia Lecturas   CON SERVICIO         GLORIA  STELLA  GIRALDO  R.   
4  Diferencia Lecturas   CON SERVICIO            ESNEDA MARIA HOYOS GOMEZ   

       direccion          ruta  ...  consumo_actual  consumo_promedio  \
0  CR 22  18 - 5  073002298750  ...            16.0              17.0   
1      ET 4 

# Paso 2 - Generar el modelo

In [5]:
## Copia del df original
#df_origina = df.copy()
df = df_origina.copy()

In [6]:
# Eliminar columnas innecesarias o que no sean útiles para la predicción
df = df.drop(columns=['periodo', 'cuentas_con_saldo', 'consumo_mes_1',
                      'consumo_mes_2',
                      'consumo_mes_3',
                      'consumo_mes_4',
                      'consumo_mes_5',
                      'consumo_mes_6','lectura_actual', 'lectura_anterior', 
'contrato', 'equipo','nombre','direccion','direc_predio','marca','ref_tipo','ruta'])

# Mostramos las columnas
print(df.columns)


Index(['idproducto', 'ciclo', 'observacion_lectura', 'tipo', 'estado_tecnico',
       'barrio', 'uso', 'estrato', 'zona', 'anio', 'mes', 'cantidadfestivos',
       'consumo_actual', 'consumo_promedio'],
      dtype='object')


In [7]:
# Convertimos en cero la columanas vacias de los dias festivos
df['cantidadfestivos'] = df['cantidadfestivos'].fillna(0)

# Conversion de columans a numero
df["cantidadfestivos"] = df["cantidadfestivos"].astype(str).astype(int)
df["ciclo"] = df["ciclo"].astype(str).astype(int)

# Quitamos las filas con valores nulos
df = df.dropna()

In [8]:
import dask.dataframe as dd

# Convertir DataFrame de pandas a Dask DataFrame
ddf = dd.from_pandas(df, npartitions=2)

# Convertir las columnas especificadas a tipo categórico
categorical_columns = ['observacion_lectura', 'tipo', 'estado_tecnico', 'barrio', 'uso', 'estrato']
ddf = ddf.categorize(columns=categorical_columns)

# Aplicar get_dummies con Dask
ddf_dummies = dd.get_dummies(ddf, columns=categorical_columns).compute()


In [9]:
# Mostramos las columnas
print(ddf_dummies.columns)

Index(['idproducto', 'ciclo', 'zona', 'anio', 'mes', 'cantidadfestivos',
       'consumo_actual', 'consumo_promedio',
       'observacion_lectura_ FUERA DE RUTA', 'observacion_lectura_--',
       ...
       'estrato_1 - ESPECIAL', 'estrato_1 - INDUSTRIAL', 'estrato_1 - OFICIAL',
       'estrato_1 - PROVISIONAL', 'estrato_2 - BAJO', 'estrato_3 - COMERCIAL',
       'estrato_3 - MEDIO BAJO', 'estrato_4 - MEDIO', 'estrato_5 - MEDIO ALTO',
       'estrato_6 - ALTO'],
      dtype='object', length=611)


In [11]:
# Dividir los datos en características (X) y etiquetas (y)
X = ddf_dummies.drop(columns=['consumo_actual'])
y = ddf_dummies['consumo_actual']

In [12]:
# pd.set_option('display.max_columns', None)
# pd.set_option("max_rows", None)

pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None)

print(X.dtypes)

idproducto                                             float64
ciclo                                                    int64
zona                                                     int64
anio                                                     int64
mes                                                      int64
cantidadfestivos                                         int64
consumo_promedio                                       float64
observacion_lectura_ FUERA DE RUTA                        bool
observacion_lectura_--                                    bool
observacion_lectura_---------------------------           bool
observacion_lectura_AGUA NO FACTURADA                     bool
observacion_lectura_AL DIA                                bool
observacion_lectura_ALTO CONSUMO CON DA?OS INTERNOS       bool
observacion_lectura_ALTO CONSUMO CON RELECTURA            bool
observacion_lectura_ALTO CONSUMO CONFIR POR CRITICA       bool
observacion_lectura_BAJO CONSUMO CON RELECTURA         

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor

# Dividir en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo
model = RandomForestRegressor(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

NameError: name 'X' is not defined