# Tema 4

## Análisis estadístico exploratorio

El análsis estadístico exploratorio permite conocer los datos con los que vamos a trabajar.

Explorar los datos consiste principalmente en las actividades de manipulación, resumen, y visualización de datos. 

El objetivo de este práctico, es el de afianzar los conceptos relacionados con la estadística descriptiva en R. 

Esta libreta se organiza de la siguiente manera:

1. Medidas descriptivas en R
2. Normalización de variables
3. Visualización de datos

### 1. Medidas descriptivas en R

La primera aproximación en estadística descriptiva tiene que ver con lo que se denominan medidas de descriptivas, las cuales incluyen medidas de centralización y de dispersión.



 |Medidas          |Estadístico             |Función    |
 |:----------------|:-----------------------|:----------|
 |Tendencia central|Media aritmética        |`mean`     |
 |                 |Mediana                 |`median`   |
 |                 |Moda                    |No definida|
 |Dispersión       |Varianza                |`var`      |
 |                 |Desvío estandar         |`sd`       |
 |                 |Rango                   |`range`    |
 |                 |Coeficiente de variación|No definida|

Comencemos definiendo un conjunto de datos de **variables numéricas**. 

In [1]:
v <- sample(1:5, 10, replace = TRUE)

Observemos que el vector es generado con 10 elementos numéricos enteros `1:5` del 1 al 5. Finalmente, el parámetro `replace = TRUE` indica a la función `sample` que la muestra se realice con reemplazo.

De esta manera, nuestro vector queda definido como

In [72]:
v

Ahora veamos algunas de las **medidas de tendencia central** para los datos contenidos en nuetro vector. 

In [73]:
mean(v)

median(v)

La moda no se encuentra definida en R. Sin embargo, es posible implementar una función para esta medida en forma sencilla. 

Para ello podemos usar las funciones `table` y `names`, donde la primera nos permite generar una estructura de tabla a partir de un conjunto de datos, y la segunda nos permite obtener los nombres de los elementos contenidos en dicha estructura.

En el ejemplo, `table` genera una [tabla de contingencia](https://es.wikipedia.org/wiki/Tabla_de_contingencia) a partir del vector *v*, donde la primera fila contiene los nombres de los elementos del vector, y la segunda fila contiene las frecuencias de cada elemento en el vector.

In [74]:
table(v)

v
1 2 3 5 
1 6 2 1 

Recurriendo a la función `max`, obtenemos el mayor elemento de la tabla de contingencia.

In [75]:
max(table(v))

Finalmente, establemos la condición para filtrar los valores de la tabla de contingencia que se correspondan con la frecuencia máxima de la misma.

*Nota*: Observe que puede contener más de un elemento.

In [76]:
table(v)[table(v) == max(table(v))]

### Tu turno!

Define un vector con 1000 elementos enteros aleatorios entre 1 y 10. 

Luego utiliza las funciones de medidas de dispersión presentadas, y las de tendencia central (`sd` y `var`)

In [None]:
# Generar un vector aleatorio y obtener sus medidas descriptivas

# Vector aleatorio
v <- c()                     # COMPLETAR generando el vector
                             # de 1000 elementos entre 1 y 10


# Medidas de tendencia central 
sprintf("Las medidas de dispersión del vector son:")

media_v <-                   # COMPLETAR con la media del vector
mediana_v <-                 # COMPLETAR con la mediana del vector
moda_v <-                    # COMPLETAR con la moda del vector

sprintf("Media: [%s]", paste(media_v, collapse=' '))
sprintf("Mediana: [%s]", paste(mediana_v, collapse=' '))
sprintf("Moda: [%s]", paste(moda_v, collapse=' '))

Ahora, genera las **medidas de dispersión** para el vector generado. 

*Nota*: El [coeficiente de variación](https://es.wikipedia.org/wiki/Coeficiente_de_variaci%C3%B3n) (CV) puede obtenerse mediante la relación entre la desviación estándar y la media aritmética.

**CV = desviación estándar / media aritmética**

### Tu turno!

Obtiene las medidas de dispersión para el vector generado anteriormente. 

In [77]:
# Medidas de dispersión
sprintf("Las medidas de tendencia central del vector son:")

varianza_v <-                   # COMPLETAR con la varianza del vector
desviacion_estandar_v <-        # COMPLETAR con la desviación estandar
                                # del vector
rango_v <-                      # COMPLETAR con el rango del vector
coeficiente_variación_v <-      # COMPLETAR con el coeficiente de variación


sprintf("Varianza: [%s]", paste(varianza_v, collapse=' '))
sprintf("Desviación estandar: [%s]", paste(desviacion_estandar_v, collapse=' '))
sprintf("Rango: [%s]", paste(rango_v, collapse=' '))
sprintf("Coeficiente de variación: [%s]", paste(coeficiente_variacion_v, collapse=' '))

## 2. Normalización de variables

Frecuentemente, requerimos que los datos con los que trabajamos cumplan ciertos supuestos, asociados a la distribución de probabilidad de la población. Uno de estos supuestos es de la normalidad o de [distribución normal](https://es.wikipedia.org/wiki/Distribuci%C3%B3n_normal).

La normalización de una variable consiste en la transformación de ésta, un pre procesamiento aplicado a los datos.

*Nota*: El concepto de normalización de variables no debe confundirse con el de normalización de bases de datos.

Comencemos generando un vector con elementos enteros aleatorios del 1 al 5, y generemos con éste una tabla de contingencias.

Nota: Observe que indicamos probabilidades para garantizar la distribución normal.

In [109]:
v_norm <- sample(1:5, 1000, replace = TRUE, prob = c(0.1, 0.2, 0.4, 0.2, 0.1))

In [110]:
table(v_norm)

v_norm
  1   2   3   4   5 
106 187 388 203 116 

Como podemos observar, la mayor cantidad de elementos se concentra alrededor del 3. Podemos confirmar esto mediante la obtención de la media aritmética.

In [114]:
mean(v_norm)

Uno de los test para evaluar la normalidad es el de [Shapiro-Wilks](https://es.wikipedia.org/wiki/Test_de_Shapiro%E2%80%93Wilk) y R tiene una implementación del mismo. Veamos el resultado de la aplicación del test.

In [115]:
shapiro.test(v_norm)


	Shapiro-Wilk normality test

data:  v_norm
W = 0.91256, p-value < 2.2e-16


El valor W aproximado a 1 (~0.9) y el p-valor menor a 0.05 (nivel de significancia) no podemos rechazar la hipótesis.

Ahora veamos qué ocurre con un conjunto de datos con una [distribución asimétrica](https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%ADstica)

In [116]:
v_skewed <- sample(1:5, 1000, replace = TRUE, prob = c(0.3, 0.4, 0.1, 0.1, 0.1))

In [117]:
table(v_skewed)

v_skewed
  1   2   3   4   5 
302 405  97 101  95 

In [118]:
mean(v_skewed)

In [119]:
shapiro.test(v_skewed)


	Shapiro-Wilk normality test

data:  v_skewed
W = 0.8207, p-value < 2.2e-16


Como observamos, el valor 0.8 es menor al 0.9 de la distribución normal, mientras que el p-valor se mantiene.

### Tu turno!

Use los datos de 'data/data.csv' y determine si la 'variable2' corresponde a una distribución normal utilizando el test de shapiro.

In [141]:
# Determinar si la variable1 del conjunto de datos se corresponde con 
# una distribución normal.

# Leer los datos
data <- read.table('../data/data.csv', sep=',', header = TRUE)

# Aplicar el test de Shapiro-Wilks a la variable
test_shapiro <-          # COMPLETAR Aplicar el test de Shapiro-Wilks
                         # a la variable 2 (data$variable2)

ERROR: Error in parse(text = x, srcfile = src): <text>:10:0: unexpected end of input
8: test_shapiro <-          # COMPLETAR Aplicar el test de Shapiro-Wilks
9:                          # a la variable 2 (data$variable2)
  ^


In [140]:
test_shapiro


	Shapiro-Wilk normality test

data:  data$variable2
W = 0.91617, p-value = 0.005847
