# Análisis de data faltante

En esta sección haremos un simple analisis para determinar el porcentaje de datos faltantes en relacion a las mediciones históricas que se tienen bajo distintos criterios temporales.

### Primera parte: estimación basada en raw data

Para una primera estimación, tomaremos las mediciones sin realizarles operaciones de agrupamiento (agregación de intervalos por hora, dia, etc) ni limpieza (desechar valores que no cumplan el porcentaje minimo de mediciones en relacion al total)

In [1]:
# Importamos la libreria pandas para manejar la data
import pandas as pd

# Leemos los datos
dataset = pd.read_csv("temporal_cuad_data_30.csv")

# Transformamos la columna a tipo datetime
dataset["Fecha"] = pd.to_datetime(dataset["Fecha"])

In [3]:
# Obtenemos el minimo valor posible de fecha, que corresponde a la fecha en que se registro la primera medicion
min_date = min(dataset["Fecha"])
print("Fecha inicio: ", min_date)

# Obtenemos el maximo valor posible de fecha, que corresponde a la fecha en que se registro la ultima medicion
max_date = max(dataset["Fecha"])
print("Fecha termino: ", max_date)

# Obtenemos el rango de dias transcurridos entre la primera medicion y la ultima
rango = max_date-min_date

print("Dias transcurridos entre primera y ultima medicion: ", rango)

Fecha inicio:  2018-01-01 00:00:00
Fecha termino:  2018-12-11 00:00:00
Dias transcurridos entre primera y ultima medicion:  344 days 00:00:00


In [15]:
# Puesto que el rango esta representado solo por dias obtenemos la cantidad de dias como un numero enter
days = rango.days

# Obtenemos la cantidad de cuadrantes 
n_cuad = len(dataset["id_Cuadrante"].unique())

# Como en esta primera parte estamos considerando intervalos de 15 minutos (cada dia tiene 96 intervalos de 15 minutos) 
# y toda la data, la cantidad de datos a obtener
# se puede determinar de la siguiente forma: n_cuadrantes * 

total_data = days*n_cuad*96
disp_data = dataset.shape[0]
relation = disp_data/total_data

print("Total de datos que se deberian tener: ", total_data)
print("Total de datos que se tienen: ", disp_data)
print(f"Relacion de data disponible vs total: {round(relation*100, 2)}%")
print(f"Porcentaje de data ausente: {round((1-relation)*100, 2)}%")

Total de datos que se deberian tener:  400548096
Total de datos que se tienen:  2165713
Relacion de data disponible vs total: 0.54%
Porcentaje de data ausente: 99.46%


### Segunda parte: estimación basada en ventana temporal

En esta parte, consideraremos las mediciones que se encuentren en la ventana de tiempo que contenga al menos un 2% (50000 mediciones) de la data en relacion al total (de la data disponible). La ventana a considerar correspondera entonces desde 6:00  a 20:00 hrs, lo que se traduce en 56 intervalos de 15 minutos.

In [17]:
# Entonces la cantidad de data disponible se puede calcular como:

total_data = days*n_cuad*56
relation = disp_data/total_data

print("Total de datos que se deberian tener: ", total_data)
print("Total de datos que se tienen: ", disp_data)
print(f"Relacion de data disponible vs total: {round(relation*100, 2)}%")
print(f"Porcentaje de data ausente: {round((1-relation)*100, 2)}%")

Total de datos que se deberian tener:  233653056
Total de datos que se tienen:  2165713
Relacion de data disponible vs total: 0.93%
Porcentaje de data ausente: 99.07%


**En esta parte consideraremos las mediciones que se encuentran en la ventana de tiempo que va desde 7:00 a 18:00, lo que se traduce en 44 intervalos de 15 minutos.**

In [18]:
# Entonces la cantidad de data disponible se puede calcular como:

total_data = days*n_cuad*44
relation = disp_data/total_data

print("Total de datos que se deberian tener: ", total_data)
print("Total de datos que se tienen: ", disp_data)
print(f"Relacion de data disponible vs total: {round(relation*100, 2)}%")
print(f"Porcentaje de data ausente: {round((1-relation)*100, 2)}%")

Total de datos que se deberian tener:  183584544
Total de datos que se tienen:  2165713
Relacion de data disponible vs total: 1.18%
Porcentaje de data ausente: 98.82%


**Ahora, si consideramos intervalos de una hora en una ventana de a 7:00 a 18:00, la formula para calcular el total de datos seria: 
n_days * n_cuadrantes * 11. No obstante primero se debiese ajustar la data realizando la agregacion de las mediciones historicas con las que se cuenta al intervalo propuesto con el fin de obtener la nueva cantidad de data con la que se cuenta.**