# Análisis exploratorio de datos

## ¿Qué son los datos?
Los datos son colecciones de valores discretos o continuos que contienen información describiendo cantidad, calidad u otras unidades de significado como impacto o importancia
- En general, son secuencias de simobolos que pueden ser interpretados formalmente

## ¿Qué se quiere decir con exploratorio?
- Hace referencia a las técnicas de análisis de datos que nos sirven de guía para establecer un primer contracto con los datos
- El objetivo es contar con más y mejores elementos para planificar hipotesis como alinear las transformaciones que requieres las técnicas especializadas

## Estadística descriptiva glorificada
Aunque en el análisis exploratorio se utilizan conceptos de estadísticas descriptivas
> Es fundamental el conocimiento del dato como valor codificado en un sistema de cómputo para entender muchos pasos y técnicas del análisis exploratorio

## Análisis inicial de datos
Pasos iniciales de un analisis de datos que no responder a las preguntas originales de la investigación

## Calidad de los datos
- ¿En qué medida el conjunto de datos es completo, válido, consistente, exacto, pertinente y apropiado para su propósito?
- Aparte de los aspectos de interpretación se verifica la existencia de valores duplicados, valores faltantes, valores atípicos o anomalías en la codificación

## Calidad de las medidas
- Consiste en verificar si la estructura de los instrumentos de medida se corresponde con la estructura reportada
- Esto es particularmente importante para análisis experimentales donde se utilizan equipos de alta precisión

## Caracterización de la muestra
Se extraen características de los datos:
- Utilizando técnicas estadístias como medidas de centralidad y dispersión
- Gráficos como diagramas de dispersión o histogramas de frecuencia que describen la distribución de los datos, ya sea de forma unidimensional o en relación a otras variables
- Tablas cruzadas que reflejen relaciones entre las variables

## Transformación de los datos
- Cambios de formato para que se ajusten a las necesidades de análisis y visualización
- Operaciones básicas: filtros, consultas, selección de variables, creación de nuevas variables a partir de las actuales,a grupar valores por unas variables y agregar los valores de las restantes
- Formatos especiales como fechas o geolocalización

## Plantear hipótesis
Basados en los datos se plantean relaciones de causalidad entre las variables

## Graficos exploratorios
Se generan gráficos rápidos con el objetivo de entender propiedades básicas de los datos, encontrar patrones simples y sugerir estrategias de modelado

## Inferencia estadística
Se aplican pruebas estadísticas para confirmar nuestras hipótesis

## Reducción de la dimensionalidad
Extraer los aspectos más relevantes de nuestros datos

## Técnicas de reducción de la dimensionalidad
Se utilizan con frecuencia métodos no supervisados tales como:
- Análisis de componentes principales
- Análisis de conglomerado
- Análisis de correspondencia

## Ambitos particulares 
Dependiendo del tipo de datos podemos requerir pasos adicionales de procesamiento

## Series de tiempo
Procesamiento básico de datos "longitudinales", que muestran la variabilidad de un fen´meno particular, como las ventas, en el tiempo

## Procesamiento de lenguaje natural
El texto que genera el habla tiene "comportamientos" que debemos tomar en cuenta

## Herramientas automáticas
- ydata-profiling
- D Tale
- Auto Viz
- Sweetviz
- lux

## Limpieza de datos
- Es la tarea mas demandante en ciencia de datos y aprendizaje automático
- Consume la mayor parte del tiempo de un proyecto
- Todos los conjuntos de datos son "sucios" en algún grado, incluso los más cuidadosamente preparados
- La calidad de datos y la utilidad no necesariamente están juntas
> Los datos "sucios" pueden ser útiles y viceversa

## Ejercicio

### Formulación del problema
Conjunto de datos: https://www.kaggle.com/datasnaek/youtube-new
- Youtube, ¿qué es yt?, ¿qué servicio presta?, ¿cuál es su modelo de negocio?, ¿cuál es cuota de mercado?, ¿qué otros negocios habilita?

- ¿Tendencias?: combina de factores que incluyen la medición de las interacciones de los usuarios (número de vistas, acciones, comentarios y gustos)

- El conjunto de datos es un registro diario de los primeros 200 vídeos en las tendencias de cada país a lo largo de varios meses

- Contiene estos datos por 10 países/zonas durante el mismo periodo de tiempo

- Los nombres de las categorías se encuentran en un archivo auxiliar .json

### Entender el problema
¿Qué es un problema en este caso?
- ¿Análisis comparativo del tipo de vídeos que se hacen tendencia?
- ¿Análisis comparartivo del "sentimiento" en los comentarios entre países y en el tiempo?
- ¿Hay vídeos que son tendencias en distintos países/zonas? ¿De qué tipo son?
- ¿Por cuánto tiempo un vídeo se mantiene como tendencia?
- ¿Cuánto tarda un vídeo en hacerse tendencia?
- ¿Qué características tiene un vídeo que se convierte en tendencia?

### Importar o cargar los datos
![](https://firebasestorage.googleapis.com/v0/b/yesnoapi-dc638.appspot.com/o/ss%2FCaptura%20de%20pantalla%202024-07-21%20202217.png?alt=media&token=d1f05c34-2f88-4edc-ab67-ee0fd02a6963)

### Tipos de datos
- Hay muchas formas de clasificar los datos, por el tipo de valor que almacenan, si son estructurados o no estructurados, estáticos o dinámicos, primitivos o compuestos
- Sin embargo, desde el punto de vista de la Ciencia de Datos la principal distinción está entre los datos que ya encuentra en una tabla, <<limpios>> y adecuados para ser analizados y los que no
- Nuestro principal trabajo es <<limpiar>> los datos

#### Tabulares
Los formatos que se pueden interpretar como tablas, siendo el formato por excelencia csv
![](https://firebasestorage.googleapis.com/v0/b/yesnoapi-dc638.appspot.com/o/ss%2FCaptura%20de%20pantalla%202024-07-21%20202331.png?alt=media&token=af353ae4-2ddd-4508-8a30-5441ec55751f)

#### CSV 1
- Son datos en archivos de texto que pueden ser delimitados o de ancho fijo
    - Con cierta frecuencia se utiliza ; como separador o TAB
- Es necesario detectar y atender problemas de formato (análisis sintáctico)
- Require procedimientos de inferencia de tipos de datos y formato
- Hay distintas formas de especificar caracteres especiales

**Desventajas:**
- No tiene información del tipo de datos
- Tienen dificultades con caracteres especiales

**Ventajas:**
- No se necesita software especial para leerlo
- Es un formato practicamente ubicuo, casi todas las aplicaciones de datos permiten exportarlos

#### Excel
Como gestor de datos:
- La identidad campo/columna no está forzada
- Opacidad computacional
- Datos semitabulares
- Datos no contiguos
- Datos invisibles y discrepancias entre tipos de datos

#### SQL
SQL es un lenguaje de consulta, no un formato de datos, pero las bases de datos relacionales son la forma mas utilizada para almacenar datos en organizaciones

En la libreria estandar de python se cuenta con SQLite - Motor de base de datos relacionales utilizado por Android o los principales navegadores web
![](https://firebasestorage.googleapis.com/v0/b/yesnoapi-dc638.appspot.com/o/ss%2FCaptura%20de%20pantalla%202024-07-21%20210458.png?alt=media&token=ed94506d-f814-46e3-8d82-1468fee1b35a)

#### Parquet
El mejor formato ever para guardar nuestros datos
- Es una respuesta a la mayoria de las limitaciones que tienen csv o xlsx
![](https://firebasestorage.googleapis.com/v0/b/yesnoapi-dc638.appspot.com/o/ss%2FCaptura%20de%20pantalla%202024-07-21%20212055.png?alt=media&token=31f9fe20-d180-417a-90c5-b1544d27f36f)

#### JSON
- JSON es una sintaxis, no una semántica
- Se utiliza en consultas y respuestas REST
- No tiene información de los tipos de datos
- Puede ser un desafio su procesamiento

#### XML
- Formato plagado de etiquetas
- Requiere herramientas muy particulares para extracción y gestión

#### NoSQL
Python cuenta con una librería estándar de nombre: shelve
