## Practica del dataset no final.

## Resumen

Se analizará un dataset extraído de UCI Machine Learning Repository.

Contiene alrededor de 4 años de datos de consumo de electricidad para un hogar ubicado en francia, recopilados entre diciembre de 2006 y noviembre de 2010(47 meses). Los datos incluyen información sobre potencia activa global, potencia reactiva global, voltaje, intensidad global, submedición 1 (cocina), submedición 2. (lavadero), y submedición 3 (calentador de agua eléctrico y aire acondicionado). Con 2.075.259 mediciones en total y algunos valores faltantes en las mediciones (casi el 1,25% de las filas).
La informacion fue extraida de una casa localizada en Sceaux, Paris.

Con este dataset podemos comprender un poco mejor acerca de como funciona la electricidad en un hogar e intentar predecir cuales serán los consumos de electricidad futura basándonos en datos pasados.

Con las previsiones de demanda futura, la producción y distribución de energía se pueden optimizar para satisfacer las necesidades de la creciente población. Las aplicaciones de modelos de aprendizaje profundo al problema de pronóstico de carga eléctrica están ganando interés entre los investigadores y la industria. Sin embargo, pronosticar la demanda de los hogares individuales es una tarea desafiante debido a la diversidad de patrones de consumo de energía.

La fluctuación del consumo de energía eléctrica depende principalmente del número de aparatos eléctricos domésticos y del comportamiento de los residentes. El consumo eléctrico de los hogares se deriva de la ocupación del hogar.

El objetivo de este trabajo es llegar a explicar el consumo de energía, cuales son las variables de mayor impacto, además de aplicar modelos de aprendizaje automático enfocados en las series temporales tanto de baja como alta frecuencia.
También con lo aprendido del objetivo podemos realizar un uso mas eficiente del consumo de electricidad o reducir el consumo, es importante comprender además el uso futuro de la electricidad.

## Hipotesis:

- Durante los meses de invierno, se espera un aumento en el consumo de energía debido a la calefacción, mientras que en los meses de verano, el consumo podría aumentar debido al uso de sistemas de refrigeración.

- La variación estacional en el consumo de energía del hogar afectará los niveles de potencia activa y reactiva, así como el factor de potencia.

- La variación del voltaje en la red eléctrica del hogar estará relacionada con fluctuaciones en la potencia reactiva y el factor de potencia.

- Se espera que el uso de dispositivos de alta potencia, como electrodomésticos grandes y sistemas de calefacción, tenga una correlación positiva con la potencia activa total del hogar.

- El comportamiento de apagar y encender dispositivos electrónicos afectará los niveles de potencia reactiva y activa durante el día.

- Existe una correlación negativa entre la potencia reactiva y el factor de potencia, indicando un uso eficiente o ineficiente de la energía eléctrica.

- La adopción de electrodomésticos más eficientes energéticamente estará relacionada con una disminución en el consumo de potencia activa y un aumento en el factor de potencia.

- Una reducción total en la potencia reactiva podría llegar a ser significativa para el ahorro de energía.

¿ Existe alguna relacion entre variables? ¿ Que sector del hogar tiene un mayor gasto y cual es el que mas varia? ¿ El consumo de electricidad depende en parte de la epoca del año ?

¿ Es posible una reduccion total o parcial de la potencia reactiva? Al analizar los costos por disminuir la potencia reactiva, ¿ es esta realmente conveniente para el consumidor ? Sistemas UPS.

¿ Durante las noches existe una mejora significativa en el factor de potencia? Al haber poca demanda de luz por las noches y una reduccion de carga ¿afecta esto al consumo de potencia reactiva ?



## Objetivos

- Predicción de Consumo de Energía: Predecir el consumo futuro de energia activa total basados en datos historicos y demas variables.

- Análisis de Eficiencia Energética: Evaluar la eficiencia energetica de un sistema analizando el factor de potencia y la relación entre la energía activa y reactiva.

- Detección de Anomalías: Identificar patrones inusuales.

## Contexto Comercial 

El contexto comercial se centra en optimizar el uso de la energia eléctrica, mejorar la distribucion de carga eléctrica, identificar posibles problemas de calidad energetica, cumplir con los objetivos sostenibles y ayudar a garantizar el cumplimiento de normativas y estandares.

Esto puede inferir en algunos sectores de la industria como: industria manufacturera, sector energetico, sectores de energia renovable, proveedores de servicios energeticos(Empresas que suministran electricidad), etc. 

## Problemas Comerciales

Calidad de Energía: Se experimentan problemas de calidad de energía los cuales podrian llegar a generarse debido al voltaje e impedancia.

Inconsistencia en el Factor de Potencia: El factor de potencia varía significativamente lo cual lleva a una penalizacion por un uso inadecuado.

Baja Eficiencia Energética: La eficiencia energética del sistema es baja.

# Contexto analitico

El trabajo busca aprovechar los datos para tomar decisiones informadas, mejorar la eficiencia, garantizar la calidad de la energía y cumplir con los requisitos normativos, contribuyendo así al funcionamiento óptimo y sostenible del sistema eléctrico.



In [None]:
#from google.colab import drive
import numpy as np
import pandas as pd
import os
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
from time import time

**Variables**

1)Date: Contiene la fecha en formato dd/mm/aaaa

2)Time: Contiene la hora en formato hh/mm/ss

3)Global_active_power: Contiene la potencia activa global promedio por minuto del hogar(en kilovatios o kW).

4)global_reactive_power: potencia reactiva promedio por minuto global del hogar(en kilovatios)

5)voltage o voltaje: voltaje promedio por minutos(en voltios)

6)Global_intensity: intensidad de corriente promedio por minuto global del hogar (en amperios)

7)Sub_metering_1: submedición de energía N°1 (en vatios por hora de energía activa). Corresponde a la cocina, que contiene principalmente lavavajillas, horno y microondas (los fogones no son eléctricos sino de gas).

8)Sub_metering_2: submedición de energía N° 2 (en vatios-hora de energía activa). Corresponde al lavadero, que contiene lavadora, secadora, frigorífico y luz.

9)Sub_metering_3: submedición de energía N° 3 (en vatios-hora de energía activa). Corresponde a un termo eléctrico y a un aire acondicionado.

Formas de acceder al archivo


In [None]:
#drive.mount('/content/gdrive')
#%cd '/content/gdrive/MyDrive/ProgramaciónDrive'
#dfe = pd.read_csv("/content/gdrive/MyDrive/ProgramaciónDrive/household_power_consumption.txt", delimiter=";")
#dfe = pd.read_csv("D:\\Usuarios\\Usuario-MM1\\Downloads\\household_power_consumption.txt", delimiter=";")
dfe = pd.read_csv("C:\\Users\\Pablo\\Downloads\\datasets\\Consumo_Energia\\household_power_consumptionOriginal.txt", delimiter=";", low_memory=False)

In [None]:
print('Filas y columnas de la data:', dfe.shape)
dfe.tail(2)

In [None]:
print("Informacion del dataset: ")
dfe.info()

## Transformacion de los datos.
Primero creamos las variables de tiempo que creamos necesarias para analisar el dataset.
Las cuales se componen de:

1) date_time: fecha + hora
2) date: fecha
3) time: hora
4) year: año
5) quarter: trimestre
6) month: mes
7) day: dia

In [None]:
#Creamos una sola columna llamada date_time
dfe['date_time'] = pd.to_datetime(dfe['Date'] + ' ' + dfe['Time'])
#reasignamos el tipo de dato a las columnas de date y time.
dfe['Date']=pd.to_datetime(dfe['Date'])
dfe['Time']=pd.to_datetime(dfe['Time'])
#Creamos la columna 'weekday' que indica si el dia es un dia de la semana (weekday = 1) o si es fin de semana(weekday= 0 =weekend)
dfe['weekend'] = dfe['date_time'].apply(lambda x: x.weekday() < 5).astype(int)
#Creamos la columna 'weekday' que indica el numero de la semana. 0 = Lunes, 1 = Martes, 6 = Domingo
dfe['weekday'] = dfe['date_time'].apply(lambda x: x.weekday())

# Creamos las columnas de año, trimestre, mes y dia.
dfe['year'] = dfe['date_time'].apply(lambda x: x.year)
dfe['quarter'] = dfe['date_time'].apply(lambda x: x.quarter)
dfe['month'] = dfe['date_time'].apply(lambda x: x.month)
dfe['day'] = dfe['date_time'].apply(lambda x: x.day)

dfe.sort_values('date_time', inplace=True, ascending=True)
dfe.tail(5)

Datos con valores nulos.

In [None]:
dfe.isna().sum()

In [None]:
dfe[dfe['Sub_metering_3'].isna()]

Transformacion de los datos.

In [None]:
#Defino la funcion flotante que "intentara" convertir el dato de string a float.
#De lo contrario, devolvera el valor de cero como flotante.
def flotante(string):
    try:
        return float(string)
    except:
        return float(0)

float_cols = ['Global_active_power', 'Global_reactive_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
for col in float_cols:
    dfe[col] = dfe[col].apply(lambda x: flotante(x))

In [None]:
print(dfe.dtypes)

## Columnas calculadas a partir de los datos.
Teniendo en cuenta que nos encontramos en un circuito alterno y en un sistema senoidal se calculara

1) Potencia aparente: S = √(P2+ Q2)

- P2 = Potencia activa global(Al cuadrado)
- Q2 = Potencia reactiva global(Al cuadrado)
- S = Potencia aparente

2) Factor de potencia: fdp = P/S
- fdp = factor de potencia
- P = potencia activa
- S = Potencia Aparente.

3) Potencia instantanea: p(t) = v(t) * i(t)
- p = potencia instantanea
- v = voltaje
- i = intensidad
- los valores se calculan en base al tiempo(t).

4) Angulo ϕ de la fase: ϕ = arcocoseno(FP) o ϕ = cos−1(FP)
- ϕ = angulo de la fase
- FP = Factor de potencia
- Como la fórmula para el cálculo del ángulo de fase en función del factor de potencia es: FP = cos(ϕ). Esto significa que el ángulo de fase (ϕ) es el coseno inverso o arcocoseno del factor de potencia (FP).

5) Impedancia(Z): Z = V/I
- Z = Impedancia
- V = voltaje
- I = Intensidad

Otras columnas que podrian llegar a calcularse, pero que en este trabajo no se realizaran son:

Reactancia(x): x = Z * sin(ϕ)
- x = reactancia
- Z = impedancia
- ϕ = angulo de la fase

Resistencia(r): r = Z * √(1- (X2/Z2))

- r = resistencia
- Z = impedancia total
- X = reactancia

In [None]:
from math import *

## Potencia aparente

In [None]:
pag = dfe.Global_active_power*1000
prg = dfe.Global_reactive_power*1000
pa = (pag**2)+(prg**2)
pa = pa.apply(lambda x: sqrt(x))
dfe.insert(loc=4,column='apparent_power',value=pa)

## Factor de potencia

In [None]:
pf = (dfe.Global_active_power/(dfe.apparent_power/1000))
dfe.insert(loc=4,column='power_factor',value=pf)

## Potencia instantanea

In [None]:
pi = (dfe.Voltage*dfe.Global_intensity)
dfe.insert(loc=5,column='instant_power',value=pi)

## Angulo de la fase

In [None]:
angulo_fase = dfe.power_factor.values
angulo = []
angulo_radianes = 180/np.pi
for x in angulo_fase:
    angulo.append((acos(x))*angulo_radianes)
angulo = pd.Series(angulo)
dfe.insert(loc=5,column='phase_angle',value=angulo)

## Impedancia

In [None]:
imp = (dfe.Voltage/dfe.Global_intensity)
dfe.insert(loc=5,column='impedance',value=imp)

In [None]:
dfe.isna().sum()

In [None]:
dfe.dropna(subset=['Sub_metering_3'],inplace=True)
dfe.dropna(subset=['phase_angle'],inplace=True)
for i in dfe.columns:
    print(f'{i.capitalize()} tiene {pd.isna(dfe[i]).sum()} valores nulos')


## Explicacion de algunas variables

- Energia activa total(p): Representa la parte de la potencia eléctrica que realiza trabajo útil, como la alimentación de dispositivos eléctricos y maquinaria.

- Energia reactiva total(q): Representa la parte de la potencia eléctrica que no realiza trabajo útil, sino que circula entre la fuente de alimentación y las cargas inductivas o capacitivas.

- Voltaje(v): Es la diferencia de potencial eléctrico entre dos puntos y se mide en voltios. Es esencial para determinar la potencia eléctrica en un sistema.

- Intensidad global de la corriente(i): Representa el flujo de carga eléctrica en un circuito y se mide en amperios. La intensidad de corriente está relacionada con la potencia mediante la ley de Ohm (P = VI).

- Impedancia(z): Es la oposición total al flujo de corriente en un circuito de corriente alterna. Incluye la resistencia (componente real) y la reactancia (componente imaginario). La impedancia se relaciona con el voltaje y la corriente mediante la ley de Ohm para corriente alterna (V = IZ).

- Factor de potencia(pf): Es la relación entre la potencia activa (P) y la potencia aparente (S). Se calcula como el coseno del ángulo de fase (PF = cos(φ)). Un factor de potencia cercano a 1 indica una carga eficiente.

- Ángulo de fase(φ): Es el ángulo entre la corriente y el voltaje en un circuito de corriente alterna. El coseno de este ángulo es igual al factor de potencia. Un ángulo de fase cercano a cero indica una carga resistiva pura, mientras que un ángulo mayor indica la presencia de componentes reactivos. Un ángulo de fase positivo indica ademas que la corriente está rezagada con respecto al voltaje, y un ángulo negativo indica que la corriente está adelantada con respecto al voltaje.

El ángulo que forman el lado horizontal y la hipotenusa se llama ángulo de fase. Este ángulo representa el desfase entre la corriente y el voltaje.

En un circuito puramente resistivo, la corriente y el voltaje están en fase, por lo que el ángulo de fase es cero y el factor de potencia es 1.

En un circuito inductivo, la corriente se retrasa con respecto al voltaje, por lo que el ángulo de fase es negativo y el factor de potencia es menor que 1.

En un circuito capacitivo, la corriente se adelanta con respecto al voltaje, por lo que el ángulo de fase es positivo y el factor de potencia es menor que 1.

Podemos decir entonces que: 

La energía activa total (p) y la energía reactiva total (q) contribuyen a la potencia aparente (s). La potencia aparente (s) está relacionada con el voltaje (v) y la corriente (i) a través de la impedancia (z).
El factor de potencia (pf) indica la eficiencia del sistema y está relacionado con el ángulo de fase (φ), que representa la relación temporal entre voltaje y corriente en sistemas de corriente alterna.

 ## Series de tiempo
Crearemos 2 dataframes adicionales a partir del actual para manipularlo en series de tiempo. Para el analisis de los graficos usaremos tanto dfe como dfe_agg y en caso de necesitar mayor cantidad de datos, pero reducida, se creara un dataframe con instancias por hora.

Lo que nos quedaria:

0 - Dataframe original(dfe) que cuenta con 2.075.259 filas representando intancias por minuto

1 - Dataframe diario(dfe_d) que cuenta con 1.433 filas representando intancias por dia

2 - Dataframe horario(dfe_h) que cuenta con 34.589 filas representando intancias por hora

In [None]:
#dfe_d = dfe.resample('D',on='date_time').mean()
dfe_d = dfe.groupby('Date').agg(Global_active_power=('Global_active_power', sum)
                                  ,Global_reactive_power = ('Global_reactive_power', sum)
                                  ,power_factor=('power_factor',sum)
                                  ,impedance=('impedance',sum)
                                  ,phase_angle=('phase_angle',sum)
                                  ,instant_power=('instant_power',sum)
                                  ,apparent_power=('apparent_power', sum)
                                  ,Voltage = ('Voltage', sum)
                                  ,Global_intensity =('Global_intensity', sum)
                                  ,Sub_metering_1=('Sub_metering_1', sum)
                                  ,Sub_metering_2=('Sub_metering_2', sum)
                                  ,Sub_metering_3=('Sub_metering_3', sum))

In [None]:
# remuestreo de datos durante una hora
# Usar parametro de on = date_time, que tiene el formato de fecha-hora.
dfe_h = dfe.resample('H',on='date_time').mean()
dfe_h.shape

dfe_h.drop('Time',axis=1,inplace=True)
dfe_d.reset_index(inplace=True)
#Date deja de ser el indice y pasa a ser columna.

In [None]:
dfe_d['power_factor'] = dfe_d['power_factor']/1440
dfe_d['phase_angle'] = dfe_d['phase_angle']/1440
dfe_d['Voltage'] = dfe_d['Voltage']/1440
dfe_d['Global_intensity'] = dfe_d['Global_intensity']/1440

## Graficos y analisis de variables (EDA)

In [None]:
plt.figure(figsize=(9, 8))
plt.scatter(dfe['Global_active_power'],dfe['Global_reactive_power'],cmap='viridis',alpha=0.7)
plt.title('Potencia activa vs Potencia reactiva')
plt.xlabel('Potencia activa')
plt.ylabel('Potencia reactiva')
plt.show()

Potencia activa total vs Potencia reactiva total

A simple vista no se observa algun tipo de relacion, ya que se ve mucha dispersion en los datos, y un caso particular para algunos datos con potencia reactiva = 0.

Lo que se puede observar, es una cantidad de datos que poseen cierta Potencia activa, pero nada de potencia reactiva, es decir, se aprovecha de una manera eficiente la energia y la perdida es casi nula.

Entendemos entonces, que si tenemos cargas **resistivas**(Factor de potencia=1) tenemos solamente potencia activa.(Como es el caso de la linea horizontal del grafico)

De lo contrario, si tenemos cargas **inductivas**, podriamos llegar a tener cierto valor positivo de potencia reactiva.

Tambien puede existir la presencia de **cargas capacitivas**, que desfasa la tension con la corriente. Debido al desfase, la corriente de la carga supera a la tension de la misma, con lo que se reduce el factor de potencia del circuito.

ejemplos de cargas resistivas(planchas o hornos electricos)
ejemplos de cargas inductivas(motores, bobinas)
ejemplos de cargas capacitivas(algunos cargadores de notebooks antiguos)

In [None]:
ax = dfe.groupby(['Time']).mean()['Voltage'].rolling(30).mean().plot(linewidth=2)
plt.ylabel('Voltaje')
plt.title('Variacion del promedio del voltaje a lo largo de 1 dia.')

Voltaje vs tiempo

Observamos que el voltaje varia pero dentro de un marco razonable de wats, aunque este analisis este hecho para el promedio de voltage en 1 dia.

Las fluctuaciones de voltaje, son elevaciones y reducciones espontáneas en la energía eléctrica que puede llegar a dañar los equipos. Por ejemplo, hace que las luces de una pantalla parpadeen o brillen más.

Pueden originarse en la generación, pero más frecuentemente son producidas por los equipos o cargas conectadas al sistema eléctrico. Los principales generadores de fluctuaciones de voltaje son:

- Hornos de arco: son los más usados en la industria del acero y fundición.
- Máquinas soldadoras
- Alternadores (generadores eólicos e impulsados por combustión interna).
- Motores.
- Arranques/Paradas de Motores tales como Aires Acondicionados, Elevadores y otros con motores de alto consumo eléctrico.
- Conmutación de equipos con elementos calefactores tales como impresoras láser, copiadoras, etc.
- Arranque-Parada de equipos de soldar.
- La baja de voltaje en las redes de distribución, en horas de alto consumo.
- Alta impedancia en la distribución eléctrica

Las fluctuaciones de tensión se pueden gestionar mediante el uso de un regulador de tensión o utilizar un sistema de suministro de energia ininterrumpida(UPS, Uninterruptable Power Supply).

In [None]:
dfe.groupby(['Date']).mean()[['Sub_metering_1','Sub_metering_2','Sub_metering_3']].rolling(10).mean().plot(linewidth=2)

# Visualizar boxplots para submediciones
plt.figure(figsize=(6, 9))
sns.boxplot(x='variable', y='value', data=pd.melt(dfe[['Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']]),orient='v')
plt.show()

Por lo que vemos, la sub medicion 3, que la componen un termotanque electrico y un aire acondicionado es la de mayor gasto.

Deberia analizarse el tipo de carga ya sea inductiva, capacitiva o resistiva de los elementos en cuestion para dar un mejor analisis.

In [None]:
plt.figure(figsize=(12, 8))
plt.subplot(2, 3, 1)
sns.histplot(dfe['Global_active_power'], kde=True)
plt.subplot(2, 3, 2)
sns.histplot(dfe['Global_reactive_power'], kde=True)
plt.subplot(2, 3, 3)
sns.histplot(dfe['Voltage'], kde=True)
plt.subplot(2, 3, 4)
sns.histplot(dfe['Global_intensity'], kde=True)
plt.subplot(2, 3, 5)
sns.histplot(dfe['impedance'], kde=True)
plt.subplot(2, 3, 6)
sns.histplot(dfe['power_factor'], kde=True)

plt.tight_layout()
plt.show()

# Heatmap

In [None]:
# Crear matriz de correlación
correlation_matrix = dfe.copy()
correlation_matrix.drop(['Date','Time','year','quarter','month','day','weekday','weekend','date_time'], axis=1, inplace=True)
correlation_matrix = correlation_matrix.corr()
# Visualizar la matriz de correlación en un mapa de calor
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='winter', fmt=".2f")
plt.show()

# Correlacion entre variables (Heatmap)

- Las variables de potencia instantanea, potencia aparente e intensidad global, dependen de la energia activa total. Ademas de ser al 100% correlativas entre si. Esto implicaria el posible descarte de las mismas conversando la que tenga mayor poder predictivo.
- El angulo de fase y el factor de potencia lleva una correlacion negativa casi perfecta.

Simplemente observar una correlación fuerte no proporciona evidencia directa de que un cambio en una variable causa un cambio en la otra. Es importante interpretar los resultados con precaución y considerar otras posibles explicaciones antes de hacer afirmaciones causales.

In [None]:
def time_series(dfe_agg,column,x_axis,title=''):
    n_rows = len(column)
    fig, axes = plt.subplots(nrows=n_rows, figsize=(10, 30))
    fig.tight_layout(h_pad=5)

    for i in range(n_rows):
        ax = axes[i]
        media = dfe_agg[column[i]].mean()
        maximo = dfe_agg[column[i]].max()
        estandar = dfe_agg[column[i]].std(axis=0,numeric_only=True)
        ax.axhline(media,color ='black', linestyle='--', alpha=0.3, linewidth=3, label='Media')
        ax.axhline(maximo,color ='blue', linestyle='dashdot', alpha=0.3, linewidth=3, label='Maximo')
        ax.axhline(estandar,color ='red', linestyle='dashdot', alpha=0.3, linewidth=3, label='Desviacion estandar')
        sns.lineplot(data=dfe_agg, x=x_axis, y=column[i], ax=ax)
        ax.set_title(f'{column[i]} {title}')

    return plt.show()

In [None]:
float_cols = ['Global_active_power', 'Global_reactive_power','power_factor','impedance','phase_angle','instant_power','apparent_power', 'Voltage', 'Global_intensity', 'Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']

In [None]:
porcion_df = dfe_d[:365]
# Analisis de las variables a lo largo de 1 año
by_date = time_series(porcion_df,float_cols,'Date')

In [None]:
def grafico_de_caja(df,column, title=''):
    n_rows = len(column)
    fig, axes = plt.subplots(nrows=n_rows, figsize=(15, 20))
    fig.tight_layout()

    for i in range(n_rows):
        ax = axes[i]
        sns.boxplot(data=df[column[i]], ax=ax, orient='h')
        ax.set_title(f'{column[i]} {title}', loc="right")
    return plt.show()

In [None]:
box_plot = grafico_de_caja(dfe_d,float_cols)

Algunos valores de outliers podrian etiquetarse, como por ejemplo, los outliers de la variable power_factor, que estarian indicando bajos valores del factor de potencia(fdp). Lo que generan estos bajos valores de fdp, son que para una misma potencia activa, se requeriria una mayor demanda de corriente, lo que implica la necesidad de utilizar cables de mayor sección.

In [None]:
dfe_correlations = dfe_h.drop(['Date','year','quarter','month','day','weekend','weekday'], axis=1)

In [None]:
def target(df, columna_objetivo):
    columns = df.columns # Obtener las columnas del DataFrame
    contra_columnas = [col for col in columns if col != columna_objetivo] # Filtrar las columnas para excluir la columna objetivo
    num_plots = len(contra_columnas) # Calcular el número de subgráficos necesarios
    # Calcular el número de filas y columnas para organizar los subgráficos
    num_rows = (num_plots // 3) + 1 # Organizar en filas de a lo sumo 3 subgráficos
    num_cols = min(num_plots, 3)
    # Crear la figura y los ejes
    fig, axes = plt.subplots(num_rows,num_cols, figsize=(15, 5*num_rows))
    fig.suptitle(f'Scatterplots: {columna_objetivo} vs demas columnas', y=1.02)
    
    if num_rows == 1 and num_cols == 1:
        axes = [[axes]] # Asegurarse de que 'axes' sea una matriz bidimensional para manejar el caso de una sola fila o columna
    
    for i in range(num_rows): # Iterar sobre las columnas restantes y crear los scatterplots
        for j in range(num_cols):
            if i * 3 + j < num_plots:
                contra_columna = contra_columnas[i * 3 + j]
                axes[i][j].scatter(df[contra_columna], df[columna_objetivo], alpha=0.5)
                axes[i][j].set_xlabel(contra_columna)
                axes[i][j].set_ylabel(columna_objetivo)
    
    plt.tight_layout()  #Ajustar el diseño y mostrar el gráfico
    plt.show()

In [None]:
target(dfe_correlations, 'impedance')

In [None]:
dfe_h.reset_index(inplace=True)

dfe_h['year'] = dfe_h['date_time'].apply(lambda x: x.year)
dfe_h['quarter'] = dfe_h['date_time'].apply(lambda x: x.quarter)
dfe_h['month'] = dfe_h['date_time'].apply(lambda x: x.month)
dfe_h['day'] = dfe_h['date_time'].apply(lambda x: x.day)
dfe_h['weekend'] = dfe_h['date_time'].apply(lambda x: x.weekday() < 5).astype(int)
dfe_h['hour'] = dfe_h['date_time'].apply(lambda x: x.hour)
dfe_h['weekday'] = dfe_h['date_time'].apply(lambda x: x.weekday())

In [None]:
def variable_tiempo(df,variable):
    columnas_tiempo = ['year','quarter','month','weekday','hour','weekend']
    plt.figure(figsize=(18, 14))
    y = 3
    x = 2
    z = 1
    for col in columnas_tiempo:
        plt.subplot(x,y,z)
        z += 1
        df.groupby(col)[variable].sum().plot(kind='bar',color='green')
        plt.title(f'{variable} vs {col}')
        plt.xlabel(col)
        plt.ylabel(variable)

Las fechas de inicio y fin de las estaciones del año en Francia son:

- Primavera: del 21 de marzo al 20 de junio.(2do cuarto)
- Verano: del 21 de junio al 20 de septiembre.(3er cuarto)
- Otoño: del 21 de septiembre al 20 de diciembre.(4to cuarto)
- Invierno: del 21 de diciembre al 20 de marzo. (1er cuarto)

In [None]:
variable_tiempo(dfe_h,'Global_active_power')


Como los datos corresponden a una casa situada en francia, sabemos que el verano comienza a partir del 21 de junio. 
El año 2006 podria excluirse del analisis debido a la falta de datos que el mismo presenta.

# Energia activa total o global

- Año: Podemos observar que la energia activa fue disminuyendo a partir del año 2007.

- Trimestre/Mes: Podemos concluir que no es tal como esperabamos, y existe un aumento en otoño el cual comienza a decaer. El gasto de energia activa se ve en caida durante el perido de invierno-primavera, aunque el gasto es mayor en invierno que verano y el cuarto con menor gasto de energia activa es verano(3er cuarto)

- Hora: El mayor consumo energetico se encuentra en la franja horaria 19h-21h y el menor consumo en las primeras 6 horas del dia.

- Fin de semana: Cabe mencionar que la suma de los dias de fin de semana llega casi a 12.500 kW consumidos contra aprox. 25.000 kW de los dias de la semana, es decir que los fines de semana es mayor el consumo por la diferencia de dias(2 dias = 12.500 kW es decir, 6.250kW por dia vs 5 dias = 25.000kW que equivalen a 5.000 kW por dia.) Porcentualmente durante los fines de semana el consumo de energia es un 25% mayor.

# Impedancia
impedancia: resistencia representada por un elemento al pasar por un circuito alterno. Alta impedancia: flujo de corriente limitado, baja impedancia: flujo de corriente mas libre, mas optimo.
- Respecto a las horas, se puede decir que existe una mayor impedancia durante la noche(23h-06h).
- El trimestre con mayor resistencia medida en Ohms es el tercer trimestre, como vimos que coincide con el trimestre de menor gasto de energia activa.
- El mes con mayor resistencia es agosto.

In [None]:
# Graficos extra

#sns.jointplot(x='Global_active_power',y='power_factor',data=dfe,kind='scatter')

#sns.jointplot(x='Global_active_power',y='power_factor',data=dfe_agg,kind='reg')

"""
sns.barplot(x='month', y='Global_active_power',data=dfe_agg, color='purple')
plt.title('Energia activa total por mes')
plt.xlabel('Meses')
plt.ylabel('kW')


submedidas = ['Sub_metering_1', 'Sub_metering_2', 'Sub_metering_3']
dfe_h['Total_Submediciones'] = dfe_h[submedidas].sum(axis=1)
fig, ax = plt.subplots(figsize=(10, 6))
dfe_h[submedidas].plot(kind='kde', stacked=False, ax=ax, colormap='viridis')
ax.set_title('Consumo por Submedida')
ax.set_xlabel('Muestras')
ax.set_ylabel('Consumo (kW)')
ax.legend(loc='upper right')
plt.show()

"""

In [None]:
from pingouin import *
import statsmodels.formula.api as sm

Primera condicion para regresion lineal
- Testear beta: los valores del 2,25% a 97,5% no deben estar en un rango, donde sea posible que esa variable valga 0.

A - [positivo-negativo] se descarta ó [negativo-positivo] se descarta

B - [positivo-positivo] valida

C - [negativo-negativo] valida


'Variable_que_necesito_explicar~variable_que_uso_para_explicar'

'y~x'

en este caso es 1 sola variable x.

la primer variable corresponde a y, y es la variable que quiero explicar.

la segunda variable corresponde a x y es la variable a partir de la cual voy a explicar y.

In [None]:
#dfe_agg.head(10)
dfe_agg = dfe_d.dropna(axis=0)
dfe= dfe.dropna(axis=0)

In [None]:
model1 = 'impedance~Global_active_power+Global_reactive_power+phase_angle'
lm1 = sm.ols(formula= model1,data=dfe).fit()
print(lm1.summary())

La potencia reactiva total, podria llegar a explicarse a traves de las variables: factor de potencia, potencia activa total y potencia aparente.

Pese a que el factor de potencia es una columna calculada no se obtiene un r cuadrado del 100%.

En la variable de intensidad global o intensidad de la corriente, la submedida 3, aporta aprox 0.2 al r2, esto podria no significar realmente, pero al tener en cuenta los factores que afectan a la intensidad de la corriente se tiene en cuenta para la explicacion de los datos.

Global_active_power~impedancia+Voltage+power_factor = r2: 0.736

Global_reactive_power(power_factor, Global_active_power,Apparent_Power) = r2: 0.832

power_factor(Global_active_power+Apparent_Power+Global_reactive_power) = r2: 0.806

Global_intensity~impedancia+Global_reactive_power+Sub_metering_3+power_factor = r2: 0.755

In [None]:
dfe.head(1)

In [None]:
def normalize(df):
    result = df.copy()

    for feature_name in df.columns:
        max_val = df[feature_name].max()
        min_val = df[feature_name].min()
        result[feature_name] = (df[feature_name] - min_val) / (max_val - min_val)

    return result

## Normalizacion del dataframe de manera manual

In [None]:
dfe_norm = normalize(dfe[['Global_active_power','Global_reactive_power','power_factor','impedance','Voltage',]])

## Algoritmos y Modelos

A continuacion se mencionan algunos de los modelos que podrian llegar a realizarse:

- Regresión Lineal

No hay parámetros específicos para series temporales, pero puedes considerar técnicas como la regularización (ridge, lasso) según sea necesario.

- K-Means

Parámetros: n_clusters: número de clusters.

- DBSCAN (Density-Based Spatial Clustering of Applications with Noise)

Parámetros: eps: radio máximo para que dos puntos estén en el mismo vecindario.
min_samples: número mínimo de puntos en un vecindario para formar un cluster.

- ARIMA (AutoRegressive Integrated Moving Average)

Parámetros: Orden (p, d, q): p es el orden de la parte autoregresiva, d es el orden de diferenciación y q es el orden de la parte de media móvil.

- Redes Neuronales Recurrentes (RNN) con LSTM (Long Short-Term Memory)

Parámetros: Capas LSTM, número de unidades, función de activación, etc.

## Regresion lineal

a continuacion se realizara una regresion lineal y se evaluara a partir del error cuadratico medio(mean squared error, mse)

MSE = (1/n) * Σ (real-predicción)2

- Σ = Sumatoria
- n = tamaño de la muestra
- actual: el valor de real de los datos
- pronostico: el valor pronosticado de los datos




In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
# Se aplicaron las siguientes lineas en el dataframe normalizado que excluye algunas columnas
# En la variable X separamos las demas columnas de la objetivo que en este caso es la variable y, que hace ademas referencia a la energia activa total.
X = dfe_norm.drop('Global_active_power', axis=1)
y = dfe_norm['Global_active_power']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
model = LinearRegression()
model.fit(X_train, y_train)
predictions = model.predict(X_test)
# Calculamos el error cuadratico medio
error_cuadrado = mean_squared_error(y_test, predictions)
print(f'Mean Squared Error: {error_cuadrado}')

plt.scatter(y_test, predictions)
plt.show()

In [None]:
columna_objetivo = 'Global_active_power'

train_size = int(len(dfe) * 0.8)
train, test = dfe[:train_size], dfe[train_size:]

order = (1, 1, 1)  # (p, d, q)
seasonal_order = (1, 1, 1, 12)  # (P, D, Q, s)
model = SARIMAX(train[target_column], order=order, seasonal_order=seasonal_order)
results = model.fit()

In [None]:
import pandas as pd
import numpy as np
from statsmodels.tsa.statespace.sarimax import SARIMAX
import matplotlib.pyplot as plt

# Crear un DataFrame de ejemplo
# Reemplaza esto con la carga de tu propio DataFrame
data = {
    'Energia_Activa': np.random.rand(100),
    'Energia_Reactiva': np.random.rand(100),
    'Voltaje': np.random.rand(100),
    'Intensidad_Global': np.random.rand(100),
    'Submedicion_1': np.random.rand(100),
    'Submedicion_2': np.random.rand(100),
    'Submedicion_3': np.random.rand(100)
}

df = pd.DataFrame(data)

# Seleccionar la columna que deseas predecir (por ejemplo, 'Energia_Activa')
target_column = 'Energia_Activa'

# Dividir el DataFrame en conjuntos de entrenamiento y prueba
train_size = int(len(df) * 0.8)
train, test = df[:train_size], df[train_size:]

# Entrenar el modelo SARIMA
order = (1, 1, 1)  # (p, d, q)
seasonal_order = (1, 1, 1, 12)  # (P, D, Q, s)
model = SARIMAX(train[target_column], order=order, seasonal_order=seasonal_order)
results = model.fit()

# Realizar predicciones en el conjunto de prueba
start_index = len(train)
end_index = len(train) + len(test) - 1
predictions = results.predict(start=start_index, end=end_index, dynamic=False, typ='levels')

# Visualizar los resultados
plt.plot(train[target_column], label='Train')
plt.plot(test[target_column], label='Test')
plt.plot(predictions, label='SARIMA Predictions')
plt.legend()
plt.show()
