## **Carga y Transformación de los Datos de Fallas (Aperturas) de la Red Eléctrica**

El presente dataset fue construido con datos de las bases de datos de diferentes sistemas de la Empresa de Energía, los cuales fueron suministrados directamente por XYZ, información recopilada del sistema OMS (Outage Management System) -> Fallas y del GIS (Geographic Information System) -> Zonas según el filtro por los municipios correspondientes: **PIJAO**, **BUENAVISTA**, **MONTENEGRO**, **CALARCÁ**, y **SALENTO** del Departamento del Quindío.

El Dataset contiene información en Años, Meses, Días, Horas, Minutos y Segudos de las fallas o aperturas que se han presentado en el periodo comprendido desde el 01/01/2021 hasta el 30/06/2023 [Dos (2) años y medio (1/2)] de las fallas (aperturas) de la red electrica.

In [2]:
from google.colab import drive
import pandas as pd

drive.mount('/content/drive')

import os

# Cambia el directorio actual al de la carpeta en Google Drive
os.chdir("/content/drive/MyDrive/Proyecto_de_Grado/Datasets/DS_Base")

# Lista el contenido de la carpeta
#!ls

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


En primera instancia cargamos el dataframe de fallas prestablecido según proceso de extracción y preparación preliminar realizar a través de: **"ETL_FALLAS_1_-_(EXTRACCIÓN).ipynb"**, el cual parte del Dataset: **"DATASET_FALLAS_-_BASE.xlsx¨**.

In [3]:
df_fallas = pd.read_excel('DATASET_FALLAS_-_BASE.xlsx')
df_fallas.head()

Unnamed: 0,FECHA_INICIO,FECHA_FIN,MUNICIPIO,ZONA
0,01/01/2021 10:31:12,01/01/2021 10:54:02,SALENTO,U
1,01/01/2021 10:36:56,01/01/2021 15:39:02,PIJAO,R
2,01/01/2021 15:14:42,09/01/2021 14:22:15,SALENTO,R
3,01/01/2021 16:13:49,01/01/2021 18:16:02,SALENTO,R
4,01/01/2021 16:21:03,01/01/2021 18:15:38,SALENTO,R


Observamos la información de la estructura del dataframe de fallas:

In [4]:
print(df_fallas.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14955 entries, 0 to 14954
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   FECHA_INICIO  14955 non-null  object
 1   FECHA_FIN     14955 non-null  object
 2   MUNICIPIO     14955 non-null  object
 3   ZONA          14883 non-null  object
dtypes: object(4)
memory usage: 467.5+ KB
None


Re-asignamos los tipo de datos correspondientes según naturaleza de la caracteristica, toda vez que según comprobación anterior evidenciamos que todos los campos fueron tipificados de tipo "object":

In [8]:
#df["FECHA_INICIO"]=df["FECHA_INICIO"].astype("datatime")
df_fallas['FECHA_INICIO'] = pd.to_datetime(df_fallas['FECHA_INICIO']) #No se hace necesario
df_fallas['FECHA_FIN'] = pd.to_datetime(df_fallas['FECHA_FIN']) #No se hace necesario
#df_fallas['DURACION'] = pd.to_timedelta(df_fallas['DURACION'])
df_fallas["MUNICIPIO"]=df_fallas["MUNICIPIO"].astype("category")
df_fallas["ZONA"]=df_fallas["ZONA"].astype("category")

Observamos nuevamente la información de la estructura del dataframe de fallas según ajustes de tipos de datos realizados sobre las caracteristicas:

In [9]:
print(df_fallas.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14955 entries, 0 to 14954
Data columns (total 4 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   FECHA_INICIO  14955 non-null  datetime64[ns]
 1   FECHA_FIN     14955 non-null  datetime64[ns]
 2   MUNICIPIO     14955 non-null  category      
 3   ZONA          14883 non-null  category      
dtypes: category(2), datetime64[ns](2)
memory usage: 263.3 KB
None


- ### **Descripción de los Campos del Dataset de Fallas:**

- **FECHA_INICIO:** Identificación del momento exacto en el cual se presenta la apertura (falla) de la red en un punto geografico determinado. Está es una variable de tipo datetime con formato: [DÍA/MES/AÑO HORA:MINUTO:SEGUNDO]

- **FECHA_FIN:** Identificación del momento exacto en el cual se restablece (normaliza ó soluciona) la apertura presentada en un punto geografico determinado. Está es una variable de tipo datetime con formato: [DÍA/MES/AÑO HORA:MINUTO:SEGUNDO]

- **DURACION:** Identificación del tiempo transcurrido entre la FECHA_INICIO y FECHA_FIN de la apertura presentada. Esta variable se mide en Días, Horas, Minutos, Segundo y Milisegundos. Está es una variable de tipo timedelta con formato: [DÍAS HORA:MINUTO:SEGUNDO]

- **UBICACION:** Identificación geografica del municipio en donde se encuentra úbicado el elemento técnologico más contiguo aguas arriba (Elemento Padre) a la apertura presentada. Está es una variable de tipo category.

- **ZONA:** Identificación del tipo de área en donde se encuentra úbicado el elemento técnologico en relación a la apertura presentada, esta puede ser de tipo:
  - U -> Urbana.
  - R -> Rural.
  
  Está es una variable de tipo category.

In [10]:
df_fallas.head()

Unnamed: 0,FECHA_INICIO,FECHA_FIN,MUNICIPIO,ZONA
0,2021-01-01 10:31:12,2021-01-01 10:54:02,SALENTO,U
1,2021-01-01 10:36:56,2021-01-01 15:39:02,PIJAO,R
2,2021-01-01 15:14:42,2021-09-01 14:22:15,SALENTO,R
3,2021-01-01 16:13:49,2021-01-01 18:16:02,SALENTO,R
4,2021-01-01 16:21:03,2021-01-01 18:15:38,SALENTO,R


Se revisan campos con valores nulos en el dataframe de fallas, confirmando que ninguna variable contiene datos núlos en sus registros:

In [11]:
df_fallas.isnull().sum()

FECHA_INICIO     0
FECHA_FIN        0
MUNICIPIO        0
ZONA            72
dtype: int64

Se evidencian: 72 registros con valor en campo ZONA vacios, registros que corresponden a las fallas relacionadas a Transformadores, Reconectadores, Aisladeros, Cuchillas/Switches, y/o circuitos pero que cuyo elemento en relación a la falla NO se encuentra tipificado con ZONA en Base de Datos, y razón por la cual procedemos a imputar los valores nulos con la MODA de la data, siendo esta: RURAL -> R:

In [12]:
moda = df_fallas['ZONA'].mode()
print("La moda de la columna 'ZONA' es:", moda[0])

La moda de la columna 'ZONA' es: R


Procedemos a asignar la MODA (RURAL -> R) a los valores que se encuentran vacios (Nulos) del campo ZONA:

In [13]:
df_fallas['ZONA'] = df_fallas['ZONA'].fillna(moda[0])

Comprobamos de nuevo valores nulos del dataframe de fallas evidenciando completitud de todos y cada uno de los registros:

In [14]:
df_fallas.isnull().sum()

FECHA_INICIO    0
FECHA_FIN       0
MUNICIPIO       0
ZONA            0
dtype: int64

Comprobamos valores únicos por cada una de las variables del Dataset de fallas:

In [16]:
print(df_fallas['FECHA_INICIO'].unique())
print(df_fallas['FECHA_FIN'].unique())
print(df_fallas['MUNICIPIO'].unique())
print(df_fallas['ZONA'].unique())

['2021-01-01T10:31:12.000000000' '2021-01-01T10:36:56.000000000'
 '2021-01-01T15:14:42.000000000' ... '2023-06-30T18:41:11.000000000'
 '2023-06-30T20:48:37.000000000' '2023-06-30T21:13:37.000000000']
['2021-01-01T10:54:02.000000000' '2021-01-01T15:39:02.000000000'
 '2021-09-01T14:22:15.000000000' ... '2023-03-07T07:03:29.000000000'
 '2023-02-07T07:48:42.000000000' '2023-01-07T10:44:02.000000000']
['SALENTO', 'PIJAO', 'MONTENEGRO', 'CALARCÁ', 'BUENAVISTA']
Categories (5, object): ['BUENAVISTA', 'CALARCÁ', 'MONTENEGRO', 'PIJAO', 'SALENTO']
['U', 'R']
Categories (2, object): ['R', 'U']


Se observa que:
* Los municipios relacionados a las fallas son: **BUENAVISTA**, **CALARCÁ**, **MONTENEGRO**, **PIJAO** y **SALENTO**.
* Las zonas donde se presentan las fallas: **U** (Urbano) y **R** (Rural).

Se procede a almacenar el dataset preliminar con el nombre: **"DATASET_FALLAS_-_PROCESADO.xls"** en formato **xlsx** quedando listo para su consumo, uso y relación con el Dataset del Clima:

In [None]:
# Cambia el directorio actual al de la carpeta en Google Drive
os.chdir("/content/drive/MyDrive/EAM/Especializacion_Analitica_de_Datos/Proyecto_de_Grado/Datasets/DS_Finales")

# Lista el contenido de la carpeta
!ls

data_clima_preprocesada.csv  DATASET_FALLAS_-_PROCESADO.csv


In [None]:
df_fallas.to_excel('DATASET_FALLAS_-_PROCESADO_V.xlsx', index=False)

In [17]:
print('FECHA_INICIO MIN ->',df_fallas['FECHA_INICIO'].min())
print('FECHA_INICIO MAX ->',df_fallas['FECHA_INICIO'].max())
print('FECHA_FIN MIN ->',df_fallas['FECHA_FIN'].min())
print('FECHA_FIN MAX ->',df_fallas['FECHA_FIN'].max())

FECHA_INICIO MIN -> 2021-01-01 10:31:12
FECHA_INICIO MAX -> 2023-12-06 20:11:31
FECHA_FIN MIN -> 2021-01-01 10:54:02
FECHA_FIN MAX -> 2023-12-06 12:19:16
