# Fundamentos del análisis exploratorio de datos

Los datos abarcan una colección de objetos discretos, números, palabras, eventos, hechos, medidas, observaciones o incluso descripciones de cosas. Dichos datos son recopilados y almacenados por cada evento o proceso que ocurre en varias disciplinas, incluyendo biología, economía, ingeniería, marketing y otros. El procesamiento de tales datos genera información útil y el procesamiento de dicha información genera conocimiento útil. Pero una pregunta importante es: ¿cómo podemos generar información significativa y útil a partir de tales datos? Una respuesta a esta pregunta es el análisis exploratorio de datos (**EDA: Exploratory Data Analysis**). EDA es un proceso para examinar el conjunto de datos disponibles para descubrir patrones, detectar anomalías, probar hipótesis y verificar suposiciones utilizando medidas estadísticas. En este capítulo, vamos a discutir los pasos involucrados en la realización de análisis de datos exploratorios de primer nivel y ensuciarnos las manos utilizando algunas bases de datos de código abierto.

Como se mencionó aquí y en varios estudios, el objetivo principal de EDA es examinar lo que los datos pueden decirnos antes de pasar por un modelado formal o formulación de hipótesis. John Tuckey introdujo EDA a los estadísticos para examinar y descubrir los datos y crear nuevas hipótesis que podrían usarse para el desarrollo de un enfoque más nuevo en la recopilación de datos y experimentación.

En este capítulo, vamos a aprender y revisar los siguientes temas:
Comprender la ciencia de datos
- La importancia de EDA
- Dar sentido a los datos
- Comparación de EDA con análisis clásico y bayesiano
- Herramientas de software disponibles para EDA
- Primeros pasos con EDA

## Comprender la ciencia de datos

Todo el mundo en este momento está hablando de ciencia de datos de una manera u otra. La ciencia de datos está en la cima de su exageración y las habilidades de los científicos de datos están cambiando. Ahora, los científicos de datos no solo están obligados a construir un modelo, sino que es esencial que expliquen los resultados obtenidos y su utilidad en el campo empresarial. ¿qué tipo de habilidades necesito aprender para convertirme en un científico de datos de primer nivel? ¿Necesito obtener un doctorado en ciencia de datos? Bueno, una cosa que podría decir es que no necesitas un doctorado para ser un experto en ciencia de datos. Pero una cosa en la que la gente generalmente está de acuerdo es que la ciencia de datos implica conocimiento interdisciplinario de ciencias de la computación, datos, estadísticas y matemáticas. Hay varias fases del análisis de datos,  el requerimiento de datos, la recopilación de datos, el procesamiento de datos, la limpieza de datos, el análisis exploratorio de datos, el modelado y los algoritmos, y el producto y la comunicación de datos. Estas fases son similares a la estructura CRISP-DM (del inglés Cross Industry Standard Process for Data Mining) en la minería de datos.

La principal conclusión aquí son las etapas de EDA, ya que es un aspecto importante del análisis de datos y la minería de datos. Entendamos brevemente cuáles son estas etapas:

- **Requerimiento de datos:** Puede haber varias fuentes de datos para una organización. Es importante comprender qué tipo de datos se requieren para que la organización se recopile, sanee y almacene. Por ejemplo, una aplicación que rastrea el patrón de sueño de los pacientes que sufren demencia requiere varios tipos de almacenamiento de datos de sensores, como datos de sueño, frecuencia cardíaca del paciente, actividades electrodérmicas y patrón de actividades del usuario. Todos estos puntos de datos son necesarios para diagnosticar correctamente el estado mental de la persona. Por lo tanto, estos son requisitos obligatorios para la aplicación. Además de esto, se requiere categorizar los datos, numéricos o categóricos, y el formato de almacenamiento y difusión.

- **Recopilación de datos:**  Los datos recopilados de varias fuentes deben almacenarse en el formato correcto y transferirse al personal de tecnología de la información adecuado dentro de una empresa. Como se mencionó anteriormente, los datos se pueden recopilar de varios objetos en varios eventos utilizando diferentes tipos de sensores y herramientas de almacenamiento.

- **Procesamiento  de datos:** El preprocesamiento implica el proceso de precurar el conjunto de datos antes del análisis real. Las tareas comunes implican exportar correctamente el conjunto de datos, colocarlos bajo las tablas correctas, estructurarlos y exportarlos en el formato correcto.

- **Limpieza de datos:** Los datos preprocesados aún no están listos para un análisis detallado. Debe transformarse correctamente para una comprobación de incompletitud, una comprobación de duplicados, una comprobación de errores y una comprobación de valor faltante. Estas tareas se realizan en la etapa de limpieza de datos, que implica responsabilidades como hacer coincidir el registro correcto, encontrar imprecisiones en el conjunto de datos, comprender la calidad general de los datos, eliminar elementos duplicados y completar los valores faltantes. Sin embargo, ¿cómo podríamos identificar estas anomalías en cualquier conjunto de datos? Encontrar tales problemas de datos requiere que realicemos algunas técnicas analíticas. Para comprender brevemente, la limpieza de datos depende de los tipos de datos en estudio. Por lo tanto, es más esencial que los científicos de datos o los expertos de EDA comprendan diferentes tipos de conjuntos de datos. Un ejemplo de limpieza de datos sería utilizar métodos de detección de valores atípicos para la limpieza cuantitativa de datos.

- **EDA:** El análisis exploratorio de datos, como se mencionó anteriormente, es la etapa en la que realmente comenzamos a comprender el mensaje contenido en los datos. Cabe señalar que se pueden requerir varios tipos de técnicas de transformación de datos durante el proceso de exploración. Cubriremos  la estadística descriptiva en profundidad, para comprender la base matemática que hay detrás.
    
- **Modelado y algoritmo:** Desde una perspectiva de ciencia de datos, los modelos generalizados o fórmulas matemáticas pueden representar o exhibir relaciones entre diferentes variables, como correlación o causalidad. Estos modelos o ecuaciones involucran una o más variables que dependen de otras variables para causar un evento. Por ejemplo, al comprar, por ejemplo, bolígrafos, el precio total de los bolígrafos(Total) = precio de un bolígrafo(UnitPrice) * el número de bolígrafos comprados (Cantidad). Por lo tanto, nuestro modelo sería Total = Precio unitario * Cantidad. Aquí, el precio total depende del precio unitario. Por lo tanto, el precio total se conoce como la variable dependiente y el precio unitario se conoce como una variable independiente. En general, un modelo siempre describe la relación entre variables independientes y dependientes. La estadística inferencial se ocupa de cuantificar las relaciones entre variables particulares.

El modelo Judd para describir la relación entre datos, modelo y error sigue siendo cierto: Datos = Modelo + Error. Un ejemplo de estadística inferencial sería el análisis de regresión.

- **Producto  de datos:** Cualquier software informático que utiliza datos como entradas, produce salidas y proporciona retroalimentación basada en la salida para controlar el entorno se conoce como producto de datos. Un producto de datos generalmente se basa en un modelo desarrollado durante el análisis de datos, por ejemplo, un modelo de recomendación que ingresa el historial de compras del usuario y recomienda un artículo relacionado que es muy probable que el usuario compre.

- **Comunicación:** Esta etapa se ocupa de difundir los resultados a las partes interesadas finales para utilizar el resultado para la inteligencia de negocios. Uno de los pasos más notables en esta etapa es la visualización de datos. La visualización se ocupa de técnicas de retransmisión de información como tablas, gráficos, diagramas de resumen y gráficos de barras para mostrar el resultado analizado. Describiremos varias técnicas de visualización, Ayudas visuales para EDA, con diferentes tipos de datos. 


## La importancia de EDA

Diferentes campos de la ciencia, la economía, la ingeniería y el marketing acumulan y almacenan datos principalmente en bases de datos electrónicas. Se deben tomar decisiones apropiadas y bien establecidas utilizando los datos recopilados. Es prácticamente imposible dar sentido a los conjuntos de datos que contienen más de un puñado de puntos de datos sin la ayuda de programas informáticos. Para estar seguros de los conocimientos que proporcionan los datos recopilados y para tomar decisiones adicionales, la minería de datos se realiza donde pasamos por procesos de análisis distintivos. El análisis exploratorio de datos es clave, y generalmente el primer ejercicio en minería de datos. Nos permite visualizar datos para entenderlos así como crear hipótesis para su posterior análisis. El análisis exploratorio se centra en la creación de una sinopsis de datos o ideas para los próximos pasos en un proyecto de minería de datos.
EDA en realidad revela la verdad sobre el terreno sobre el contenido sin hacer ninguna suposición subyacente. Este es el hecho de que los científicos de datos utilizan este proceso para comprender realmente qué tipo de modelado e hipótesis se pueden crear. Los componentes clave del análisis exploratorio de datos incluyen el resumen de datos, el análisis estadístico y la visualización de datos. Python proporciona herramientas expertas para el análisis exploratorio, con pandas para resumir; scipy, junto con otros, para análisis estadístico;  y matplotlib y plotly para visualizaciones.

Después de comprender la importancia de EDA, descubramos cuáles son los pasos más genéricos involucrados en EDA en la siguiente sección.

## Pasos en EDA

Una vez entendido qué es EDA y su importancia, entendamos los diversos pasos involucrados en el análisis de datos. Básicamente, implica cuatro pasos diferentes. Repasemos cada uno de ellos para obtener una breve comprensión de cada paso:

- **Definición  del problema:** Antes de intentar extraer información útil de los datos, es esencial definir el problema a resolver. La definición del problema funciona como la fuerza impulsora para la ejecución de un plan de análisis de datos. Las principales tareas involucradas en la definición del problema son definir el objetivo principal del análisis, definir los principales entregables, delinear las principales funciones y responsabilidades, obtener el estado actual de los datos, definir el calendario y realizar análisis de costo / beneficio. Sobre la base de dicha definición del problema, se puede crear un plan de ejecución.

- **Preparación de datos:** este paso implica métodos para preparar el conjunto de datos antes del análisis real. En este paso, definimos las fuentes de datos, definimos esquemas de datos y tablas, comprendemos las características principales de los datos, limpiamos el conjunto de datos, eliminamos conjuntos de datos no relevantes, transformamos los datos y dividimos los datos en los fragmentos necesarios para el análisis.

- **Análisis  de datos:** Este es uno de los pasos más cruciales que se ocupa de la estadística descriptiva y el análisis de los datos. Las tareas principales implican resumir los datos, encontrar la correlación oculta y las relaciones entre los datos, desarrollar modelos predictivos, evaluar los modelos y calcular las prediciones. Algunas de las técnicas utilizadas para el resumen de datos son tablas de resumen, gráficos, estadística descriptiva, estadística inferencial, estadística de correlación, búsqueda, agrupación y modelos matemáticos.

- **Desarrollo y representación de los resultados:** Este paso implica presentar el conjunto de datos al público objetivo en forma de gráficos, tablas de resumen, mapas y diagramas. Este es también un paso esencial, ya que el resultado analizado del conjunto de datos debe ser interpretable por las partes interesadas, que es uno de los principales objetivos de EDA. La mayoría de las técnicas de análisis gráfico incluyen diagramas de dispersión, diagramas de dispersión, histogramas, diagramas de caja, gráficos de los residuos, gráficos de barras y otros. Exploraremos varios tipos de representación gráfica que son ayudas visuales para EDA.   

## Datos numéricos

Estos datos tienen un sentido de medición involucrado; por ejemplo, la edad, altura, peso, presión arterial, frecuencia cardíaca, temperatura, número de dientes, número de huesos y el número de miembros de la familia de una persona. Estos datos a menudo se denominan datos cuantitativos en estadística. El conjunto de datos numérico puede ser de tipo discreto o continuo. 

### Datos discretos
Estos son datos que son contables y sus valores se pueden enumerar. Por ejemplo, si lanzamos una moneda, el número de caras en 200 lanzamientos de monedas puede tomar valores de 0 a 200 casos (finitos). Una variable que representa un conjunto de datos discreto se denomina variable discreta. La variable discreta toma un número fijo de valores distintos. Por ejemplo, la  variable *Pais* puede tener valores como *Nepal, India, Noruega y Japón*. La  variable Rango de un  estudiante en un aula puede tomar valores de 1, 2, 3, 4, 5, etc.

### Datos continuos
Una variable que puede tener un número infinito de valores numéricos dentro de un rango específico se clasifica como datos continuos. Una variable que describe datos continuos es una variable continua. Por ejemplo, ¿cuál es la temperatura de tu ciudad hoy?. La variable *peso* es una variable continua. 

Los datos continuos pueden seguir una medida de intervalo, de escala o una medida de razón. Entraremos en más detalles en la sección Escalas de medida.

## Datos categóricos
Este tipo de datos representa las características de un objeto; por ejemplo, género, estado civil, tipo de dirección o categorías de las películas. Estos datos a menudo se denominan conjuntos de datos cualitativos en estadística. Para entender claramente, estos son algunos de los tipos más comunes de datos categóricos que puede encontrar en los datos:

- Género (masculino, femenino, otro o desconocido)
- Estado civil (anulado, divorciado, interlocutorio, separado legalmente, casado, Polígamo, nunca casado, pareja de hecho, soltero, viudo o desconocido)
- Géneros cinematográficos (Acción, Aventura, Comedia, Crimen, Drama, Fantasía, Histórico, Horror, Misterio, Filosófico, Político, Romance, Saga, Sátira, Ciencia Ficción, Social, Thriller, Urbano u Western)
- Tipo de sangre (A, B, AB u O)
- Tipos de drogas (estimulantes, depresores, alucinógenos, disociativos, opioides, inhalantes o cannabis)

Una variable que describe datos categóricos se conoce como **variable categórica**. Estos tipos de variables pueden tener uno de un número limitado de valores. Es más fácil para los estudiantes de informática entender los valores categóricos como tipos enumerados o enumeraciones de variables. Existen diferentes tipos de variables categóricas:

- **Una variable categórica binaria** puede tomar exactamente dos valores y también se conoce como una **variable dicotómica**. Por ejemplo, cuando se crea un experimento, el resultado es éxito o fracaso. Por lo tanto, los resultados pueden entenderse como una variable categórica binario.

- **Las variables politómicas** son variables categóricas que pueden tomar más de dos valores posibles. Por ejemplo, el estado civil puede tener varios valores, como anulado, divorciado, interlocutorio, legalmente separado, casado, polígamo, nunca casado, parejas domésticas, soltero, viudo, pareja doméstica y desconocido. Dado que el estado civil puede tomar más de dos valores posibles, es una variable politómica. 

La mayor parte del conjunto de datos categóricos sigue escalas de medición nominales u ordinales. Vamos a entender qué es una escala nominal u ordinal en la siguiente sección. 



## Escalas de medida

Hay cuatro tipos diferentes de escalas de medida descritas en estadística: nominal, ordinal, intervalo y razón. Estas escalas se utilizan más en la académia. Entendamos cada una de ellas con algunos ejemplos.

### Nominal

Estos se practican para etiquetar variables sin ningún valor cuantitativo. Las escalas generalmente se conocen como etiquetas. Y estas escalas son mutuamente excluyentes y no tienen ninguna importancia numérica. Veamos algunos ejemplos:
- ¿Cuál es tu género?
    - Masculino
    - Femenino
    - Tercer género/No binario
    - Prefiero no responder
    - Otro
- Otros ejemplos incluyen los siguientes:
    - Los idiomas que se hablan en un país en particular 
    - Especies biológicas
    - Partes del habla en gramática (sustantivo, pronombre, adjetivo, etc.)

Las escalas nominales se consideran escalas cualitativas y las mediciones que se toman utilizando escalas cualitativas se consideran **datos cualitativos**. Sin embargo, el avance en la investigación cualitativa ha creado confusión para ser definitivamente considerado como cualitativo. Si, por ejemplo, alguien usa números como etiquetas en el sentido de medida nominal, no tienen un valor numérico o significado concreto. No se puede hacer ningún tipo de cálculo aritmético en medidas nominal

Podrías estar pensando *¿por qué debería preocuparte si los datos son nominales u ordinales? ¿No deberíamos simplemente comenzar a cargar los datos y comenzar nuestro análisis?* Bueno, podríamos. Pero piense en esto: tiene un conjunto de datos y desea analizarlo. ¿Cómo decidirá si puede hacer un gráfico circular, un gráfico de barras o un histograma? ¿Estás entendiendo mi punto?

Bueno, por ejemplo, en el caso de un conjunto de datos nominal, ciertamente puede saber lo siguiente:

- La **frecuencia** es la velocidad a la que se produce una etiqueta durante un período de tiempo dentro del conjunto de datos.

- La **proporción** se puede calcular dividiendo la frecuencia por el número total de eventos.

- Luego, podría calcular el **porcentaje** de cada proporción.

- Y para **visualizar** el conjunto de datos nominal, puede usar un gráfico circular o un gráfico de barras.

Si sabe que sus datos siguen escalas nominales, puede usar un gráfico circular o un gráfico de barras. Eso es una cosa menos de qué preocuparse, ¿verdad? Mi punto es que comprender el tipo de datos es relevante para comprender qué tipo de cálculo puede realizar, qué tipo de modelo debe encajar en el conjunto de datos y qué tipo de visualización puede generar. 

### Ordinal 

La principal diferencia en la escala ordinal y nominal es el orden. En las escalas ordinales, el orden de los valores es un factor significativo. Un consejo fácil para recordar la escala ordinal es que suena como un orden. ¿Has oído hablar de la  escala Likert, que utiliza una variación de una escala ordinal? Veamos un ejemplo de escala ordinal usando la escala Likert: *WordPress está facilitando la vida de los administradores de contenido. ¿Cómo te sientes acerca de esta declaración?* El siguiente diagrama muestra la escala Likert:

| (+) Positiva |  |  |  |  |
|:--- | --- | --- | --- | --- |
Totalmente de acuerdo| De acuerdo | Neutral | En descuerdo | Totalmente en descuerdo|
|  |  |  |  | (-) Negativa|



Como se muestra en el diagrama anterior, la respuesta a la pregunta de WordPress es facilitar la vida de los administradores de contenido se reduce a cinco valores ordinales diferentes, Totalmente de acuerdo, De acuerdo, Neutral,  En desacuerdo y Totalmente en desacuerdo. Escalas como estas se conocen como la escala Likert. Del mismo modo, el siguiente diagrama muestra más ejemplos de la escala Likert:

| ¿Cómo te sientes hoy? | ¿Qué tan satisfecho esta con el servicio? |
|:--- | :---|
| 1 - Muy infeliz | 1 - Muy insatisfecho |
| 2 - Infeliz | 2 - Insatisfecho |
| 3 - Bien | 3 - Neutral |
| 4 - Feliz | 4 - Satisfecho |
| 5 - Muy feliz | 5 - Muy satisfecho |

Para hacerlo más fácil, considere las escalas ordinales como un orden de clasificación (1º, 2º, 3º, 4º, etc.). El  ítem mediano  está permitido como la medida de la tendencia central; sin embargo, el promedio no está permitido. 

### Intervalo

En las escalas de intervalos, tanto el orden como las diferencias exactas entre los valores son significativas. Las escalas de intervalo se usan ampliamente en estadística, por ejemplo, en la medida de las tendencias centrales: media, mediana, moda y desviaciones estándar. Los ejemplos incluyen la ubicación en coordenadas cartesianas y la dirección medida en grados desde el norte magnético. La media, la mediana y la moda están permitidas en los datos de intervalo. 

### razón

Las escalas de razón contienen orden, valores exactos y cero absoluto, lo que permite su uso en estadística descriptiva e inferencial. Estas escalas ofrecen numerosas posibilidades para el análisis estadístico. Las operaciones matemáticas, las medidas de tendencia central y las medidas de dispersión y  el coeficiente de variación también se pueden calcular a partir de tales escalas. 
Algunos ejemplos de medidas de energía son: la masa, la longitud, la duración, la cantidad de energía eléctrica, el ángulo de la planta y el volumen. En la tabla siguiente se ofrece un resumen de los tipos de datos y las medidas de escala:

| Proporciona | Nominal | Ordinal | Intervalo | Razón |
| :----- | ----- |----- |----- |----- |
| El "orden" de valores es conocido | | X | X | X |
| Conteo o frecuencia de la distribución | X | X | X | X |
| Moda | X | X | X | X |
| Mediana |  | X | X | X |
| Media |  |  | X | X |
| Puede cuantificar las diferencias entre valores |  |  | X | X |
| Puede sumar o restar valores |  |  | X | X |
| Puede multiplicar y dividir valores  |  |  |  | X |
| Tiene cero |  |  |  | X |


En la siguiente sección, compararemos EDA con análisis clásico y bayesiano.



## Comparación de EDA con análisis clásico y bayesiano

Existen varios enfoques para el análisis de datos. Los más populares que son relevantes para este capitulo son los siguientes:

- **Análisis  clásico de datos:** Para el enfoque clásico de análisis de datos, la definición del problema y el paso de recopilación de datos son seguidos por el desarrollo del modelo, que es seguido por el análisis y la comunicación de resultados. 

- **Enfoque del análisis  exploratorio de datos:** Para el enfoque EDA, sigue el mismo enfoque que el análisis de datos clásico, excepto que se intercambian la imposición del modelo y los pasos de análisis de datos. El enfoque principal está en los datos, su estructura, valores atípicos, modelos y visualizaciones. En general, en EDA, no imponemos ningún modelo determinista o probabilístico sobre los datos.

- **Enfoque de análisis de  datos bayesianos:** El enfoque bayesiano incorpora conocimiento previo de distribución de probabilidad en los pasos de análisis como se muestra en el siguiente diagrama. Bueno, en pocas palabras, la distribución de probabilidad previa de cualquier cantidad expresa la creencia sobre esa cantidad en particular antes de considerar alguna evidencia. ¿Todavía estás perdido con el término distribución de probabilidad previa? Andrew Gelman tiene un artículo muy descriptivo sobre la distribución de probabilidad previa. El siguiente diagrama muestra tres enfoques diferentes para el análisis de datos que ilustran la diferencia en sus pasos de ejecución:

Los analistas de datos y los científicos de datos mezclan libremente los pasos mencionados en los enfoques anteriores para obtener información significativa de los datos. Además de eso, es esencialmente difícil juzgar o estimar qué modelo es mejor para el análisis de datos. Todos ellos tienen sus paradigmas y son adecuados para diferentes tipos de análisis de datos. 


## Herramientas de software disponibles para EDA

Hay varias herramientas de software que están disponibles para facilitar EDA. Aquí, vamos a describir algunas de las herramientas de código abierto:

- **Python:** Este es un lenguaje de programación de código abierto ampliamente utilizado en análisis de datos, minería de datos y ciencia de datos (<https://www.python.org/>). Para este libro, usaremos Python. 

- **Lenguaje de programación R:** R es un lenguaje de programación de código abierto que se utiliza ampliamente en computación estadística y análisis gráfico de datos (<https://cran.r-project.org/>).

- **Weka:** Este es un paquete de minería de datos de código abierto que involucra varias herramientas y algoritmos EDA (<https://www.cs.waikato.ac.nz/ml/weka/>).

- **KNIME:** Esta es una herramienta de código abierto para el análisis de datos y se basa en Eclipse (<https://www.knime.com/>). 
