[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/jhermosillo/diplomado_CDD2019/blob/master/Estadistica%20de%20Datos/notebook/practice/Practica_Estadistica_Multivariada.ipynb)

# Practica de Estadística - Multivariada
---


### Ciclo de vida de la ciencia de datos:

Como hemos visto a lo largo de este diplomado, todo iniciado en ciencias de datos seguimos ciertos pasos base para un mejor entendimiento de lo que se hace.

Entre estos pasos tenemos los siguientes:

   * 1.- Definición de la hipótesis
   * 2.- Adquisición de datos
   * 3.- Análisis exploratorio de datos
   * 4.- Construcción de modelo
   * 5.- Reporte de resultados
   * 6.- Producto final
   
![alt text](https://miro.medium.com/max/1400/0*7M9FK6orsn4RdUFb.png)
  
  
---

En las primeras etapas, nos enfocamos en el análisis exploratorio de datos **Univariados** (proporciona un panorama del conjunto de datos crudos para una variable), **Bivariados** (para encontrar relaciones entre cada variable en el conjunto de datos y la variable 'objetivo' de interes o simplemente encontrar la relación entre 2 variables) y **Multivariados** (principalmente para entender interacciones entre diferentes 'campos' del conjunto de datos o encontrar relaciones entre más de 2 variables).



Empecemos por detalles para la práctica...

Implementar el Análisis Estadístico (Exploratorio) de Datos (**EDA**, por sus siglas en inglés) usando python es muy fácil porque python tiene una miríada de paquetes de análisis estadístico (por ejemplo, numpy, pandas, matplotlib, etc.). 

Realizaremos en esta práctica los análisis exploratorios para cada uno de los tipos de análisis paso a paso usando python y sacaremos algunas conclusiones.

In [None]:
#importamos las librerias de siempre...
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

Importamos el conjunto de datos:

In [None]:
# Fetch the dataset using the raw GitHub URL.
!curl --remote-name \
     -H 'Accept: application/vnd.github.v3.raw' \
     --location https://raw.githubusercontent.com/jhermosillo/diplomado_CDD2019/master/Estadistica%20de%20Datos/data/Employee.csv

In [None]:
#Cargamos los datos
df = #<Completar> 

#Imprimir el cabezal de los datos
#<Completar> 

## Análisis Univariado

### Podemos realizar un análisis general de los datos

Una vez que cargamos los datos, estamos listos para el primer tipo de EDA llamado análisis univariado. Básicamente nos dice cómo se distribuyen los datos en cada característica y también nos informa sobre tendencias centrales como la media, la mediana y la moda.

Por lo que parte de este ejercicio será realizar un análisis descriptivo de los datos

### Estadística Descriptiva

Primero lo primero, verifique las medidas de las tendencias centrales de media, mediana y modo, verifique los valores mínimos y máximos y los cuantiles de cada característica.

In [None]:
#<Completar>

De la tabla anterior, podemos ver que el nivel de satisfacción promedio entre los empleados es de solo 61.12%, donde se desvía en un 24%, lo que significa que hay mucha variación entre la satisfacción de los empleados que afecta directamente la productividad. 


En esta sección utilizaremos la mediana, dado que no se ve afectada por la presencia de valores atípicos, mientras que la media si se ve afectada fácilmente.

### Variables categóricas

Hemos visto que en la presencia de este tipo de variables, se utilizan las tablas de frencuencias para realizar análisis. ¿Cómo obtendríamos dicho análisis para la variable de salario?

In [None]:
#Revisando el tipo de dato: categorico o continuo
df.salary.#<Completar>

¿Y para la variable de departamentos?

In [None]:
#<Completar>

De lo anterior, podemos decir que casi el 48% de los empleados tienen un salario bajo y solo el 8% de los empleados tiene un salario alto.

### Visualización

   * Histograma
En el análisis univariado, usamos histogramas para analizar y visualizar la distribución de frecuencias. Trazar histogramas en pandas es muy fácil y directo. ¿Cómo podríamos hacer un histograma considerando las horas promedio de los trabajadores?

In [None]:
#<Completar>

De la imagen de arriba vemos que los datos no se distribuyen normalmente, por lo que no podemos realizar muchas operaciones estadísticas con estos datos.


## Desafío Adicional (No calificado)

En la práctica de estadística, realizaste un pequeño análisis de datos discordantes (atípicos) a un conjunto de datos simulados, donde además aplicaste la prueba de shapiro - wilks para comprobar la normalidad de los datos. creaste un modelo para identificar imágenes de dígitos escritos a mano.

Para este nuevo conjunto de datos, ¿podrías usar dicha metodología para encontrar si es posible aplicar algún tipo de estadística?

Siguiendo los siguientes pasos:

 * Aplicar Shapiro Wilks con un alpha = 0.05
 * Aplicar el módulo de detección de outliers de Dixon Q test a este conjunto de datos de 'horas promedio' y verificar si existe o existen outliers.
 * En caso positivo, remover los datos detectados como outliers y volver a aplicar Shapiro con el nuevo tamaño de muestra
 * Nota: al aplicar pruebas de discordancia, el valor que ha pasado la hipótesis alterna (H1) es detectado como valor discordante y por ende, se debe retirar de la muestra y volver a aplicar la prueba de discordancia, pero ahora para el conjunto de datos con n-1 valores. Así, hasta obtener H0 (est <= cv)
 
 Las siguientes líneas se dejan libres para código.


## Análisis Bivariado / Multivariado

Los datos sin relaciones entre variables son el equivalente en ciencia de datos a un lienzo en blanco. 

Para pintar la imagen, necesitamos entender cómo las variables interactúan entre sí. ¿Un aumento en una variable se correlaciona con un aumento en otra? ¿Se relaciona con una disminución en otro lugar? La mejor manera de pintar la imagen es mediante el uso de gráficos que permiten estas posibilidades.

In [None]:
import pandas as pd
reviews = pd.read_csv("https://raw.githubusercontent.com/davestroud/Wine/master/winemag-data_first150k.csv", index_col=0)
reviews.head()

In [None]:
#Imprime la cantidad de filas y columnas de este conjunto de datos
#<Completar>

A partir de aquí surgen diversas cuestiones extrañas...

"Para hacernos una imagen de los datos, lo primero que tenemos que hacer es agruparlos". 

Primero acotaremos el conjunto de datos, dado que por el momento analizar más de 150k de registros es bastante.
Generaremos una muestra aleatoria del 1% de los datos utilizando el método de 'sample' de pandas.

In [None]:
test = reviews.sample(frac=0.01, replace=True, random_state=1)
test.head()

En la siguiente sección ustedes realizaran un análisis categórico, parecido al ejercicio realizado con el conjunto de datos del titanic.

Consideraremos los 1509 renglones de las variables: país, variedad y precio.

Primero realizaremos la tabla de frecuencias de las variedades de los vinos. En las siguientes líneas ustedes deberán presentar lo que se pide.

In [None]:
#Tabla de frecuencias
#<Completar>

In [None]:
#Gráfico de barras para la variedad
#<Completar>

In [None]:
#Gráfico de pastel para la variedad
#<Completar>

Probablemente la variedad de Cabernet Sauvignon sea aquella que predomine en este tipo de vinos.

Ahora, sería obtener la relación en la tabla de contigencia entre la variedad y los países.

In [None]:
# Tabla de contingencia variedad / país
#<Completar>


Al igual de como habíamos visto con las tablas de frecuencia, también nos podría ser útil representar a las tablas de contingencia con porcentajes relativos; esto lo podríamos realizar utilizando el método apply.


In [None]:
# Tabla de contingencia en porcentajes relativos total
#<Completar>



¿Qué otras variables o mezcla de variables sería interesante visualizar?




## Desafío Adicional (No calificado)

¿Será posible obtener de qué país y que tipo de variedad es aquella que presenta un precio (price) aceptable con respecto a la calidad de la clasificación del vino (points) y estos resultados plasmarlos en una tabla?

¿Habrá forma de obtener de que país se encuentran los mejores vinos considerando el mayor puntaje y la relación que existe con la variedad del mismo?

El análisis de discordancia (univariado) pudiera aplicarse a cualquier conjunto de datos presentados en esta notebook, ¿será posible realizarlo para los precios y/o puntos de los vinos?

El mismo análisis será bivariado de los vinos, ¿podrá ser aplicado al de empleados para visualizar cuales son las áreas de trabajo con menor salario?