# Visualización de datos

## Sección 1: Introducción a la Visualización de datos y a las distribuciones

### 1.1 Introducción a la visualización de datos

#### Introducción a la visualización de datos

Raras veces es útil mirar los números y las cadenas de caracteres que definen un set de datos. Para confirmar esto, observemos la tabla de datos de asesinatos de Estados Unidos:

In [1]:
library(dslabs)
data(murders)
head(murders)

Unnamed: 0_level_0,state,abb,region,population,total
Unnamed: 0_level_1,<chr>,<chr>,<fct>,<dbl>,<dbl>
1,Alabama,AL,South,4779736,135
2,Alaska,AK,West,710231,19
3,Arizona,AZ,West,6392017,232
4,Arkansas,AR,South,2915918,93
5,California,CA,West,37253956,1257
6,Colorado,CO,West,5029196,65


Es bastante difícil extraer información relevante simplemente mirando los números.
En cambio, dicha información podemos mostrarla fácilmente disponibles al presentarla en forma gráfica.

La visualización de datos ofrece una forma muy efectiva de comunicar hallazgos basados en datos. En algunos casos, la visualización es tan convincente que no requiere un análisis de seguimiento.


#### Introducción a las distribuciones

Los datos numéricos a menudo se resumen con el valor promedio. Por ejemplo, la calidad de una escuela secundaria a veces se resume con un solo número: la puntuación promedio
en una prueba estandarizada. Ocasionalmente, se incluye un segundo número: la desviación estándar. Por ejemplo, pueden leer un informe que indique que las puntuaciones fueron 680
más o menos 50 (la desviación estándar). El informe ha resumido un vector completo de puntuaciones con solo dos números. ¿Es esto apropiado? ¿Hay alguna información importante
que no estamos considerando al ver este resumen en lugar de la lista completa?

Nuestro primer componente básico de visualización de datos es aprender a resumir listas de factores o vectores numéricos. Generalmente, la mejor manera de compartir o explorar
este resumen es a través de la visualización de datos. El resumen estadístico más básico de una lista de objetos o números es su distribución. Una vez que un vector se haya resumido
como una distribución, existen varias técnicas de visualización de datos para transmitir esta información de manera efectiva.

#### Tipos de variables

Los dos tipos principales de variables son:

* Categóricas: son variables definidas por un pequeño número de grupos.
    *  Ordinales: se pueden ordenar aunque no sean números, por ejemplo cuán picante es una comida (poco,
medio, muy)
    * No ordinales: no tienen orden en las categorías.
* Datos numéricos: toman una variedad de valores numéricos.
    * Continuas: pueden tomar cualquier valor.
    * Discretas: se limitan a conjuntos de valores específicos.

### Evaluación 1.1: Tipos de datos

#### Ejercicio 1. Nombres de variables

El tipo de datos con los que estamos trabajando a menudo influirá en la técnica de visualización de datos que utilizamos. Trabajaremos con dos tipos de variables: categóricas y numéricas. Cada uno se puede dividir en otros dos grupos: categórico puede ser ordinal o no, mientras que las variables numéricas pueden ser discretas o continuas.

Revisaremos los tipos de datos utilizando algunos de los ejemplos proporcionados en el paquete `dslabs`. Por ejemplo, el conjunto de datos de `alturas`.

Instrucciones:

Comencemos revisando cómo extraer los nombres de variables de un conjunto de datos utilizando la función `names`. ¿Cuáles son los dos nombres de variable utilizados en el dataset de `heights`?

In [2]:
library(dslabs)
data(heights)
names(heights)

#### Ejercicio 2. Tipo de variable
Vimos que `sex` es la primera variable. Sabemos qué valores están representados por esta variable y podemos confirmarlo mirando los primeros enteros:

¿Qué tipo de datos es la variable de `sex`?

In [3]:
head(heights)

Unnamed: 0_level_0,sex,height
Unnamed: 0_level_1,<fct>,<dbl>
1,Male,75
2,Male,70
3,Male,68
4,Male,74
5,Male,61
6,Female,65


R: Categórica

#### Ejercicio 3. Valores numéricos
Tenga en cuenta que los datos numéricos discretos pueden considerarse ordinales. Aunque esto es técnicamente cierto, generalmente reservamos el término datos ordinales para variables que pertenecen a un pequeño número de grupos diferentes, con cada grupo con muchos miembros.

La variable altura podría ser ordinal si, por ejemplo, informamos un pequeño número de valores como corto, medio y alto. Exploremos cuántos valores únicos utiliza la variable alturas. Para ello podemos utilizar la función `unique`:

Instrucciones:

Utilice las funciones `unique` y `length` para determinar cuántas alturas únicas se han notificado.

In [4]:
library(dslabs)
data(heights)
x <- heights$height
length(unique(x))

#### Ejercicio 4: Tablas

Uno de los resultados útiles de la visualización de datos es que podemos aprender sobre la distribución de variables. Para datos categóricos podemos construir esta distribución simplemente calculando la frecuencia de cada valor único. Esto se puede hacer con la función `table`

Instrucciones:

Utilice la función `table` para calcular las frecuencias de cada valor de altura único. Debido a que estaremos usando la tabla de frecuencia resultante en un ejercicio posterior, queremos que guarde los resultados en un objeto y lo llame `tab`.

In [6]:
library(dslabs)
data(heights)
x <- heights$height
tab <- table(x)

#### Ejercicio 5: Variables indicadoras

Para ver por qué tratar las alturas reportadas como un valor ordinal no es útil en la práctica, notamos cuántos valores se informan solo una vez.

Instrucciones:

En el ejercicio anterior calculamos la variable `tab` que informa el número de veces que aparece cada valor único. Para los valores informados sólo una vez la pestaña será 1. Use lógicas y la función `sum` para contar el número de veces que esto sucede.

In [8]:
library(dslabs)
data(heights)
tab <- table(heights$height)
sum(tab==1)

### 1.2 Introducción a las distribuciones