
# <center>  Estadística Descriptiva  </center>

## Descripción
En esta lección se revisa los conceptos asociados a la estadística descriptiva implementando código Python

## Contenido

* Medidas de Tendencia Central
* Medidas de Dispersión
* Medidas de Posición
* Medidas de Forma
* Distribución Normal
* Covarianza y correlación

## Requisitos previos

* Haber completado el curso:
  - Introducción a Python
  


## Importar librerías y verificar versiones

In [0]:
import sys
import numpy as np
import pandas as pd
# Librería para medidas de posición y forma
import scipy
import scipy.stats as stats
# Librerías para visualización
import seaborn as sns
import matplotlib
import matplotlib.pyplot as plt

In [0]:
print('** Versiones Actuales | Requeridas **')
print('Python:\nVersion Actual:', sys.version, ' | Requerida >= 3.6')
print('NumPy:\nVersion Actual: {:10} | Requerida >= 1.16.2'.format(np.__version__))
print('Pandas:\nVersion Actual: {:10}| Requerida >= 1.0.1'.format(pd.__version__))
print('SciPy:\nVersion Actual: {:10}| Requerida >= 1.2.1'.format(scipy.__version__))
print('Matplotlib:\nVersion Actual: {:10} | Requerida >= 3.0.3'.format(matplotlib.__version__))
print('Seaborn:\nVersion Actual: {:10} |Requerida >= 0.9.0 '.format(sns.__version__))

## 1. Dataset de Trabajo

**Credit:** conjunto de datos simulados que contiene información sobre diez mil clientes de una entidad financiera

<a href='https://rdrr.io/cran/ISLR/man/Credit.html'>
  Documentación de las variables </a>


**Diccionario de datos**
* ID: Código de identificación del cliente
* Income: Ingresos del cliente en $10,000's
* Limit: Límite de crédito
* Rating: Puntaje crediticio
* Cards: Número de tarjetas de crédito
* Age: Edad en años
* Education: Número de años de educación
* Gender: Masculino (Male) o Femenino (Female)
* Student: Si el cliente es estudiantes (Yes) o no lo es (No)
* Married: Si el cliente está casado (Yes) o no está (No)
* Ethnicity: Africano (African), Americano (American), Asiático (Asian) y Caucásico (Caucasian)
* Balance: Promedio del saldo de la tarjeta de crédito en dólares

In [0]:
Credit       = pd.read_csv("https://storage.googleapis.com/datasets-academy/Credit.csv")
Credit["ID"] = Credit["ID"].astype(object)

In [0]:
Credit.head()

In [0]:
ingresos = Credit["Income"]
type(ingresos)

## 2. Medidas de Tendencia Central

Empezaremos visualizando la distribución de los ingresos por medio de un histograma. 

**Ejercicio:** Identificar las características de la distribución.

In [0]:
sns.distplot(ingresos, color="darkblue", kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.show()

In [0]:
# Medidas de tendencia central
media    = ingresos.mean()
mediana  = ingresos.median()
moda     = ingresos.mode()

print('Promedio: ', media, '\nMediana: ', mediana, '\nModa: ', moda[0])

**¿Cuál de las medidas de tendencia central resumen correctamente a los ingresos?**

In [0]:
sns.distplot(ingresos, color ="darkblue", kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.axvline(media, color='red', label='Promedio')
plt.axvline(mediana, color='yellow', label='Mediana')
plt.axvline(moda[0], color='green', label='Moda')
plt.legend()
plt.show()

>**Ejercicio 1:** Obtener el promedio, mediana y moda de la columna `Limit` del  DataFrame `Credit`

In [0]:
#Su código aquí


In [0]:
print('Respuesta:')
limite = Credit['Limit']
print('Promedio:', limite.mean())
print('Mediana:', limite.median())
print('Moda:', limite.mode()[0])

## 3. Medidas de Dispersión

### Rango

In [0]:
print("El ingreso mínimo es de:", ingresos.min())
print("El ingreso máximo es de:", ingresos.max())
print("El rango es igual a:", ingresos.max()-ingresos.min())

### Varianza y Desviación Estándar
* El argumento ```ddof``` hace referencia al denominador: ```N-ddof```
* ```ddof=0``` si trabajamos con la población
* ```ddof=1``` si trabajamos con la muestra

In [0]:
print("La varianza en la población es igual a:", ingresos.var(ddof=0))
print("La desviación estandar en la población es igual a:", ingresos.std(ddof=0))

In [0]:
print("La varianza en la muestra es igual a:", ingresos.var(ddof=1))
print("La desviación estandar en la muestra es igual a:", ingresos.std(ddof=1))

De forma predeterminada, el método ```var()``` calcula la varianza asumiendo que se trabaja con una muestra. Si no queremos utilizar el argumento ```ddof``` podemos corregir el valor por medio del siguiente truco algebráico.

In [0]:
ingresos.var()*(len(ingresos)-1)/len(ingresos)

>**Ejercicio 2:** Obtener el rango, la varianza muestral y la desviación estándar muestral de la columna `Balance` del  DataFrame `Credit`

In [0]:
#Su código aquí


In [0]:
print('Respuesta:')
saldo_tc = Credit['Balance']
print('Rango:', saldo_tc.max()-saldo_tc.min())
print('Varianza muestral:', saldo_tc.var(ddof=1))
print('Desv. estándar muestral:', saldo_tc.std(ddof=1))

## 4. Medidas de Posición
El método ```describe()``` muestra de forma predeterminada los cuartiles sin embargo, podemos requerir otras medidas de posición de acuerdo a lo que se necesite.

In [0]:
ingresos.describe()

In [0]:
# Percentil 50
ingresos.quantile(0.50)

El argumento del método ```quantile()``` puede ser también un arreglo numérico. Utilizaremos la función ```arange``` de ```numpy``` para crear un arreglo para el cálculo de deciles

In [0]:
np.arange(start=0.1, stop=1, step=0.1)

In [0]:
ingresos.quantile(np.arange(0.1, 1, 0.1))

### Rango Intercuartil (IQR)
Medida de dispersión a ser utilizada cuando se emplea la mediana como medida de tendencia central.
Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: $$IRQ = Q3 - Q1$$.

In [0]:
stats.iqr(ingresos)

In [0]:
ingresos.quantile(0.75) - ingresos.quantile(0.25)

In [0]:
sns.boxplot(x=ingresos,color = "darkgreen") 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.show()

In [0]:
sns.boxplot(x=ingresos, color="darkgreen", whis=1.5) 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.axvline(ingresos.quantile(0.25), color='yellow', label='Q1')
plt.axvline(mediana, color='blue', label='Q2/Mediana')
plt.axvline(ingresos.quantile(0.75), color='red', label='Q3')
plt.legend()
plt.show()

In [0]:
sns.boxplot(x=ingresos, y=Credit["Gender"], whis=1.5) 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.legend()
plt.show()

In [0]:
sns.boxplot(x=ingresos, y=Credit["Ethnicity"]) 
plt.title("Boxplot de los Ingresos por Etnia")
plt.xlabel("Dólares")
plt.legend()
plt.show()

### Valores atípicos/extremos
Se definen como observaciones extremas a aquellas que se encuentran fuera del rango $$[Q_1-(1.5 \times IQR) ; Q_3 +(1.5 \times IQR)]$$

In [0]:
IQR  = stats.iqr(ingresos)
whis = 1.5
cons = IQR * whis

#Cuartiles
Q1   = ingresos.quantile(0.25)
Q3   = ingresos.quantile(0.75)

print("El límite inferior para valores extremos es:", (Q1-cons))
print("El límite superior para valores extremos es:", (Q3+cons))

In [0]:
sns.boxplot(x=ingresos, color="darkgreen", whis=1.5) 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.axvline(Q3+cons, color='blue', label='Lim. Superior')
plt.legend()
plt.show()

>**Ejercicio 3:** Encuentre los quintiles y el rango intercuartil de la columna `Education` del  DataFrame `Credit`

In [0]:
#Su código aquí


In [0]:
print('Respuesta:')
educacion = Credit['Education']
print('Quintiles:', educacion.quantile(np.arange(0.2, 1, 0.2)))
print('\nIQR Educación:', stats.iqr(educacion))

## 5. Medidas de Forma
Interprete el coeficiente de asimetría y la curtosis

In [0]:
print("El coeficiente de asimetría es igual a:", ingresos.skew())
print("La curtosis es igual a:", ingresos.kurtosis())

In [0]:
sns.distplot(ingresos, color="darkred", kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.axvline(media, color='red', label='Promedio')
plt.axvline(mediana, color='yellow', label='Mediana')
plt.axvline(moda[0], color='green', label='Moda')
plt.legend()
plt.show()

>**Ejercicio 4:** Obtenga el coeficiente de asimetría y la curtosis de la columna `Rating` del  DataFrame `Credit`

In [0]:
# Su código aquí


In [0]:
print('Respuesta:')
puntaje = Credit['Rating']
print('Coeficiente de asimetría:', puntaje.skew())
print('Curtosis:', puntaje.kurtosis())

## 6. Distribución Normal

In [0]:
data = np.random.normal(0, 1, 50000)

print("mean : ", np.mean(data))
print("var  : ", np.var(data))
print("skew : ",stats.skew(data))
print("kurt : ",stats.kurtosis(data))

In [0]:
sns.distplot(data, color="darkgreen", kde=True)
plt.title("Distribución Normal")
plt.xlabel("Valores")
plt.ylabel("Frecuencia Relativa")
plt.show()

## 7. Covarianza y correlación

Analizar las relaciones **lineales** entre dos variables cuantitativas por medio de la covarianza y correlación.

- **Covarianza**: Nos da el signo de la relación entre dos variables, pero no podemos determinar la intensidad en la relación entre las mismas
- **Coeficiente de correlación de Person**: Nos permite entender la relación entre las variables tanto su dirección (signo) e intensidad (valor). Se encuentra entre los valores de -1 y 1

In [0]:
# Matriz de varianzas y covarianzas
Credit\
.cov()\
.round(decimals=2)

In [0]:
# Matriz de correlaciones
Credit\
.corr()\
.round(decimals=2)

**Nota Final**: Es importante comprender que la correlación no representa causalidad, analicemos algunos ejemplos: [Correlación Espuria](https://www.tylervigen.com/spurious-correlations)


<div style="text-align: center; line-height: 0; padding-top: 9px;">
  <img src="https://storage.googleapis.com/datasets-academy/public-img/notebooks/headers/databits-footer-notebook.png" alt="Databricks Learning" style="width: 100%;">
</div>