# Comprensión de los datos

## Atributos y calidad de los datos

![CRISP-DM](CRISP-DM.PNG)

Los datos pueden estar dispersos, incompletos, con errores, incompatibles, etc.

Para la comprensión de los datos, considerar estos pasos:

1. Atributos de los datos
2. Calidad de los datos
3. Valores atípicos (*outliers*)
4. Valores faltantes
5. Sistematización del proceso

### Atributos de los datos

**Categóricos o Nominales**: Un conjunto finito de posibles valores, conjuntos anidados

**Ordinales**: Con un  orden adicional impuesto sobre el dominio. Ej. Clima, Frío, Templado, Cálido.

**Numéricos Discretos**: Por ejemplo, mes del año.

**Numéricos Continuos**: Valores dentro de intervalos, relacionales entre dos o más variabls, o con escalas absolutas, basadas en una sola variable.

**Propiedades de datos numérico**: Unidades de medida, rango de validez, precisión y exactitud (la calidad), estáticos o dinámicos, muestreo, origen.

### Calidad de los datos

- Exactitud
    - Sintáctica: Fuera de dominio: $P = verde(kW)$
    - Semántica: En el dominio: Errores de mediciones
- Completitud
    - De valores: Variable no actualizada
    - De registros: Pérdida de comunicación
- Sesgos: Consumos en cuarentena
- Desbalances: Estados de falla, accidentes
- Obsolescencia: Ej. Accidentes por rayos

## Valores atípico y faltante

### Valores atípicos
¿Cómo detectarlo?

- Puntos de ejemplo
- Diagramas de caja
- Histogramas

### Valores faltantes

- Missing Completely At Random (MCAR)
    - Pérdida de comunicación entre AMI y Data Center
- Missing At Random (MAR)
    - Reportes de cuadrillas de atención a fallas en época de lluvias
- Nonignorable Missing Values
    - AMI unidireccional en instalaciones de autogeneración.

¿Qué hacer?

- Borrado: remover todos los registros (MCAR).
- Imputación: estimar el valor faltante a partir de los otros atributos (MAR).
- Explicitación: explicitar la ausencia con un valor predeterminado o crear un nuevo atributo.

Nota: las series de tiempo tienen un tratamiento diferente.

Limpieza y preprocesamiento:

- Formato de los archivos: codificación, versión de software, exportación, etc.
- Formato de los datos: coma decimal, fecha, mayúsculas, etc.
- Escalas de los datos:  unidades, transformadores de medida, etc.
- Documentación del proceso.

Se recomienda realizar un programa que automatice este proceso si va a ser repetitivo.



## Visualización de datos

Aprovechar los datos que tenemos a nuestra dispocisión para generar gráficas que muestren información relevante.

- Ganar comprensión acerca de los datos.
- Facilitar la comunicación entre el equipo interdiciplinar.

Ejemplos:

- Histogramas de datos categóricos y ordinales.
    - Número de bins (barras): muchas barras nos privan del comportamiento de los datos. Para determinarlos podemos usar la Regla de Sturges. *n* datos con desviación estándar $\sigma$. *k* bins de ancho *h*: $k_1 = [log_2(n)+1]$, $h_1=\frac{máx_i\{x_i\} - mín_i\{x_i\}}{k_1}$ o $k_2 = [\frac{máx_i\{x_i\} - mín_i\{x_i\}}{h_2}]$, $h_2 = \frac{3.5 \times \sigma}{n^ \frac{1}{3}}$
- Diagramas de cajas y bigotes.
- Series de tiempo.
- Nubes de puntos (*scatter plots*).

Estrategias de visualización para más de dos dimensiones

- Proyección a $R^2$
    - *Principal Component Analysis* (PCA)
    - *Projection Pursuit*
    - *Multidimensional Scaling*
- Diagramas de ejes paralelos: 

![Diagramas de ejes paralelos](Diagrama%20de%20ejes%20paralelos.PNG)

- Diagramas de radar (Telarañas)

![Diagramas de radar](Diagrama%20de%20radar.PNG)

- Diagramas de violín
- Correlograma (Diagrama de puntos y de distribución de cada par combinado de las variables)

Catálogo de técnicas de visualización:
https://datavizcatalogue.com


