<a href="https://colab.research.google.com/github/majorquev/DBDC_202409_Programacion_en_R_para_ciencia_de_datos/blob/main/Clases/C6/Clase6_1_Estadisticos_descriptivos_y_correlaci%C3%B3n.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
options(repr.plot.width=8, repr.plot.height=6)

# Parte 4: Análisis descriptivo con R

**Autor:** Miguel Jorquera Viguera<br>
**E-mail:** majorquev@gmail.com<br>
**Ayudante:** Rodrigo Morales<br>
**E-mail ayudante:** rumorale1@gmail.com


Una de las fases principales dentro de un proyecto de Data Science, corresponde al análisis exploratorio de datos. Es en esta etapa donde se realizan los primeros hallazgos, se verifica la calidad de los datos, se detectan anomalías, se identifican patrones y se realizan preguntas claves que permitan comenzar a realizar inferencias , o si es el caso, comenzar a plantear modelos con fines predictivos.

## I. Estadísticos descriptivos
### a) Medidas de posición
Corresponden a valores que nos permiten dividir nuestra muestra en conjuntos con aproximadamente la misma cantidad de individuos.
### b) Medidas de tendencia central
Corresponden a medidas a las que tienden “agruparse” los datos de la muestra .
### c) Medidas de dispersión
Medidas que cuantifican el nivel de heterogeneidad de una variable numérica.


En R contamos con funciones para lo anterior:

 - summary(): Por defecto entrega estadísticos de posición (cuartiles), min, max y media.
 - quantiles(): Retorna uno o varios percentiles de interés.
 - mean(): Calcula la media de un vector numérico.
 - median(): Calcula la mediana de un vector numérico.
 - sd(): Retorna la desviación estándar muestral.
 - var(): Retorna la varianza muestral.

### I.1. Descripción de data _mpg_

Analicemos el rendimiento en ciudad en función de los estadísticos descriptivos más conocidos.


In [None]:
library(ggplot2)
library(dplyr)

In [None]:
data(mpg)
head(mpg)
# cyl: cilindros
# displ: Engine displacement, in lt "cilindrada"
# drv: traccion
# cty: city miles miles per gallonb
# hwy: highway miles per gallon
# fl: fuel type
# class: "type" of car

### Media, Mediana  y percentiles
Los percentiles, en particular la mediana corresponden a estadísticos de posición, ya que nos permiten "ubicarnos" dentro de la muestra que estamos analizando y nos dan una primera idea sobre la distribución de los datos a analizar. Por su parte la media (aritmética) corresponde a un estadístico de tendencia central.

In [None]:
# describamos el rendimiento en carretera en función de los estadísticos de pos., tendencia central  y dispersión

# promedio
print(paste("El promedio es: ", mean(mpg$hwy)))
# mediana
print(paste("La mediana es: ", median(mpg$hwy)))
# percentiles

# Ambos a la vez



In [None]:
# recordar que podemos visualizar los cuartiles en un boxplot



### Medidas de dispersión
Rango, desviación estándar  y rango intercuartílico. Son medidas que buscan cuantificar el nivel de dispersión o heterogeneidad de nuestra muestra.

In [None]:
# Rango Inter-cuartílico
# Una obs se considera "extrema" si si valor está por sobre (debajo) 1.5 veces el rango intercuartílico (RI = Q3- Q1)
# IQR(mpg$hwy)


In [None]:
# lim inf 1.5*IQR (por "debajo")

# lim sup 1.5*IQR (por "arriba")


In [None]:
# medidas de dispersión ---------------

# Rango


# Cómo saber cuál es el auto que tiene el menor rendimiento en carretera


# Desviación estándar


# Coef de variación = desviación estandar / |promedio|


## II. Correlación de variables

Las medidas de correlación buscan cuantificar el nivel de asociación que existe entre dos variables. Uno de los coeficientes más populares para medir la dependencia lineal entre dos variables corresponde al coeficiente de corelación de Pearson.

Matemáticamente, el coeficiente de correlación de Pearson entre dos variables aleatorias X e Y se define como

$$\rho = \dfrac{\mathbb{E}[(X-\mu_X)(Y-\mu_Y)]}{\sqrt{\sigma^2_X\sigma^2_Y}}$$

Este coeficiente varía entre -1 y 1, y alcanza dichos valores siempre que X e Y formen una recta.

Exploremos algunos ejemplos






**¿Cómo es la relación entre el rendimiento en carretera y el tamaño del motor?**

In [None]:
# Gráficamente x = displ, y = hwy
ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point()

In [None]:
# podemos añadir "recta" de tendencia
ggplot(mpg, aes(x = displ, y = hwy)) +
  geom_point()

Podemos seleccionar las columnas *mpg,disp,hp,drat,wt,qsec* y generar un gráfico de dispersión para cada par de ellas, con la función plot() del paquete _base_.

In [None]:
data(mtcars)
head(mtcars)

In [None]:
#Podemos graficar algunas de las variables de interés


aux <- mtcars %>%
    select(mpg,disp,hp,drat,wt,qsec)

In [None]:
options(repr.plot.width=16, repr.plot.height=9)
plot(aux)

### P1. Comando cor
Investigue el comando cor y utilícelo con la selección previa de columnas.
¿Qué observa?

### P2. De acuerdo a  la documentación, cambie el método de cálculo a "spearman"
¿Que observa?

In [None]:
cor(aux) # por defecto calcula correlación de pearson


## NOTA: parámetro method de la función cor()

In [None]:
set.seed(123) # Semilla para generar númeos aleatorios
x <- rnorm(100) # variable X
e <- rnorm(100, sd = .5) # error aleatorio
# Modelar y como funcion de x y un error aleatorio
# y = f(x) + e
y <- 1+ 3*x^3 + e

A <- data.frame(x = x, y = y)


$y = f(x) + \epsilon$ \\
$y = 3x^{3} + 1 + \epsilon$

In [None]:
# Gráficamente la relación de x e  y

A %>%
    ggplot() +
    aes(x = x, y = y) +
    geom_point()

In [None]:
# parámetro method de la función cor()
cor(A$x,A$y)
cor(A$x,A$y, method = "spearman")

## Gráfico de correlación

In [None]:
#install.packages("corrplot")
library(corrplot)

# función corrplot()

### P3. Opciones de corrplot
Identifique (en la documentación de la función corplot) otros métodos de visualización

In [None]:
matriz_cor <- cor(aux)
matriz_cor

In [None]:
# Función corplot()
# podemos modificar el parámetro "method"
corrplot(matriz_cor)