# CAPITULO 1  
## Fundamentos del análisis de datos exploratorios  


> *Nunca se sabe lo que va a pasar por esa puerta", dice Rick Harrison en la apertura del exitoso programa Pawn Stars. Lo mismo ocurre con la analítica: cuando te enfrentas a un nuevo conjunto de datos, nunca sabes lo que te vas a encontrar. Este capítulo trata sobre la exploración y describir un conjunto de datos para que sepamos qué preguntas hacerle. El proceso es conocido como análisis de datos exploratorios, o EDA.*


¿Qué es el análisis de datos exploratorios?  

El matemático estadounidense John Tukey promovió el uso de EDA en su libro Exploratory Data Analysis (Pearson). Tukey enfatizó que los analistas primero deben explorar los datos en busca de posibles preguntas de investigación antes de lanzarse a confirmar las respuestas con pruebas de hipótesis y estadística inferencial. 

A menudo se compara la EDA con “entrevistar” los datos; es un momento para que el analista llegue a
conócelo y aprende sobre las cosas interesantes que tiene para decir. Como parte de nuestra entrevista, querremos hacer lo siguiente:  

• Clasificar nuestras variables como continuas, categóricas, etc.

• Resumir nuestras variables utilizando estadísticas descriptivas.

• Visualizar nuestras variables usando gráficos.  

EDA nos da mucho que hacer. Repasemos el proceso usando Excel y una experiencia de la vida real.
Conjunto de datos. Puede encontrar los datos en el libro de trabajo star.xlsx, que se puede encontrar en la carpeta de conjuntos de datos del repositorio de este libro, en la subcarpeta estrella. Este conjunto de datos fue recopilados para un estudio para examinar el impacto del tamaño de la clase en los puntajes de las pruebas. Por esto y otras demostraciones basadas en Excel, le sugiero que complete los siguientes pasos con el archivo sin formato datos:

1. Haga una copia del archivo para que el conjunto de datos original no se modifique. Más tarde debemos importar algunos de estos archivos de Excel a R o Python, por lo que cualquier cambio en los datos los conjuntos afectarán ese proceso. 

2. Agregue una columna de índice llamada id. Esto numerará cada fila del conjunto de datos para que
la primera fila tiene un ID de 1, la segunda de 2, y así sucesivamente. Esto puede hacerse
rápidamente en Excel ingresando números en las primeras filas de la columna, luego resaltando ese rango y usando Flash Fill para completar la selección según ese patrón. Busque el pequeño cuadrado en la parte inferior derecha de su celda activa, coloque el cursor sobre ella hasta que vea un pequeño signo más, luego complete el resto de tu rango. Agregar esta columna de índice facilitará el análisis de los datos grupo.  

3. Finalmente, convierta el conjunto de datos resultante en una tabla seleccionando cualquier celda en el rango, luego vaya a la cinta y haga clic en Insertar → Tabla. El teclado El atajo es Ctrl + T para Windows, Cmd + T para Mac. Si su tabla tiene encabezados, asegúrese de que la selección "Mi tabla tiene encabezados" esté activada. Las tablas yirnrn muchas ventajas, una de los cuales es su atractivo estético. También es posible consulte las columnas por nombre en las operaciones de tabla. Puede darle a la tabla un nombre específico haciendo clic en cualquier lugar dentro de ella y luego yendo a la cinta y haciendo clic en Diseño de tabla → Nombre de tabla en Propiedades grupo, como se muestra en la Figura 1-1

![image.png](attachment:image.png)

Realizar estas primeras tareas de análisis será una buena práctica para otros conjuntos de datos con los que desee trabajar en Excel. Para el conjunto de datos de estrellas, su tabla completa debería verse como la Figura 1-2. Le he puesto a mi tabla el nombre de estrella. Este conjunto de datos está organizado en forma rectangular de columnas y filas.

![image.png](attachment:image.png)

Probablemente haya trabajado con suficientes datos para saber que esta es una forma deseable para
análisis. A veces, necesitamos limpiar nuestros datos para llegar al estado que queremos. Analizaremos algunas de estas operaciones de limpieza de datos más adelante en el libro. Pero por ahora, vamos y conozca nuestros datos y sobre EDA.   

En análisis, a menudo nos referimos a observaciones y variables en lugar de filas y columnas. Exploremos el significado de estos términos.  

## Observaciones
En este conjunto de datos tenemos 5748 filas: cada una es una observación única. En este caso, las mediciones se toman a nivel de estudiantes; Las observaciones pueden ser cualquier cosa, desde individuos, ciudadanos comunes a naciones enteras.  

# Variables  

Cada columna ofrece una pieza distinta de información sobre nuestras observaciones. Por ejemplo, en el conjunto de datos de estrellas podemos encontrar la puntuación de lectura de cada estudiante (treadssk) y en qué tipo de clase estaba (classk). Nos referiremos a estas columnas como variables.  

## ¿Listo para una tautología?  

Las llamamos variables porque sus valores pueden variar según las observaciones. Si cada observación que registramos arrojara las mismas medidas, No habría mucho que analizar. Cada variable puede proporcionar información bastante diferente sobre nuestras observaciones. Incluso en este conjunto de datos relativamente pequeño, tenemos texto, números y declaraciones de sí/no, todos como variables. Algunos conjuntos de datos pueden tener docenas o incluso cientos de variables.  

Puede ser útil clasificar estos tipos de variables, ya que estas distinciones serán importantes cuando continuamos nuestro análisis. Tenga en cuenta que estas distinciones son algo arbitrarias y pueden cambiar según el propósito y las circunstancias de nuestro análisis.
Verá que EDA, y el análisis en general, son altamente iterativos.  

> *La clasificación de variables es algo arbitraria y, como gran parte de la analítica, se basa en reglas generales en lugar de criterios estrictos y rápidos.*
 
Discutiré los diferentes tipos de variables como se muestra en la Figura 1-3, luego clasificaré EL conjunto de datos la estrella
 basado en estas distinciones.

![image.png](attachment:image.png)

Hay otros tipos de variables que podrían cubrirse aquí: por ejemplo, no consideraremos la diferencia entre datos de intervalo y de razón. Para ver más de cerca los tipos de variables, consulte Statistics in a Nutshell, segunda edición de Sarah Boslaugh (O'Reilly). vamos a avanzar hacia abajo en la Figura 1-3, moviéndose de izquierda a derecha.  

## Variables categóricas  

A veces denominadas variables cualitativas, describen una calidad o característica de una observación. Una pregunta típica respondida por variables categóricas es "¿Qué tipo?" Las variables categóricas suelen estar representadas por valores no numéricos, aunque no siempre es así.
Un ejemplo de variable categórica es el país de origen. Como cualquier variable, podría tomar valores diferentes (Estados Unidos, Finlandia, etc.), pero no podemos hacer comparaciones cuantitativas entre ellos (¿cuánto es dos veces Indonesia, alguien?). Cualquier valor único que toma una variable categórica se conoce como nivel de esa variable. Tres niveles de un país de origen podrían ser EE. UU., Finlandia o Indonesia, por ejemplo.  


Debido a que las variables categóricas describen la calidad de una observación en lugar de una cantidad, muchas operaciones cuantitativas con estos datos no son aplicables. Por ejemplo, no podemos calcular el país de origen promedio, pero sí podemos calcular el recuento de frecuencia más común o general de cada nivel.  

Además, podemos distinguir valores categóricos en función de cuántos niveles pueden tomar y si la clasificación de esos niveles es significativa. Las variables binarias sólo pueden tomar dos niveles. A menudo, estas variables se expresan como respuestas de sí o no, aunque no siempre es así. Algunos ejemplos de variables binarias: