# <center>  Estadística Descriptiva  </center>


---



## Descripción
Conceptos asociados a la estadística descriptiva implementando Python

## Contenido

* Medidas de Tendencia Central
* Medidas de Dispersión
* Medidas de Posición
* Medidas de Forma
* Distribución Normal
* Covarianza y correlación

## Referencias importantes:
* [Seaborn Charts](https://seaborn.pydata.org/tutorial/distributions.html)
* <a href='https://rdrr.io/cran/ISLR/man/Credit.html'>
  Dataset </a>
* https://storage.googleapis.com/datasets-academy/Credit.csv



In [None]:
import sys
import numpy as np
import pandas as pd
# Librería para medidas de posición y forma
import scipy
import scipy.stats as stats
# Librerías para visualización
import seaborn as sns

import matplotlib
import matplotlib.pyplot as plt

## 1. Dataset de Trabajo

**Credit:** conjunto de datos simulados que contiene información sobre diez mil clientes de una entidad financiera

<a href='https://rdrr.io/cran/ISLR/man/Credit.html'>
  Documentación de las variables </a>

**Diccionario de datos**
* ID: Código de identificación del cliente
* Income: Ingresos del cliente en $10,000's
* Limit: Límite de crédito
* Rating: Puntaje crediticio
* Cards: Número de tarjetas de crédito
* Age: Edad en años
* Education: Número de años de educación
* Gender: Masculino (Male) o Femenino (Female)
* Student: Si el cliente es estudiantes (Yes) o no lo es (No)
* Married: Si el cliente está casado (Yes) o no está (No)
* Ethnicity: Africano (African), Americano (American), Asiático (Asian) y Caucásico (Caucasian)
* Balance: Promedio del saldo de la tarjeta de crédito en dólares


In [None]:
Credit = pd.read_csv("Credit.csv")
Credit["ID"] = Credit["ID"].astype(object)

In [None]:
Credit


In [None]:
# Dimensiones del dataset
print(Credit.shape)

In [None]:
# Muestra los 20 primeros
Credit.head(4)

In [None]:
ingresos = Credit["Income"]
print(type(ingresos))


## 2. Medidas de Tendencia Central

Empezaremos visualizando la distribución de los ingresos por medio de un histograma. 

**Ejercicio:** Identificar las características de la distribución.

In [None]:
sns.distplot(ingresos,  kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.show()

In [None]:
# Medidas de tendencia central
media    = ingresos.mean()
mediana  = ingresos.median()
moda     = ingresos.mode()

print('Media: ', media, '\nMediana: ', mediana, '\nModa: ', moda[0])

**¿Cuál de las medidas de tendencia central resumen correctamente a los ingresos?**

In [None]:
sns.distplot(ingresos, color ="darkblue", kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.axvline(media, color='red', label='Promedio')
plt.axvline(mediana, color='yellow', label='Mediana')
plt.axvline(moda[0], color='green', label='Moda')
plt.legend()
plt.show()

**Ejercicio 1:** Obtener el promedio, mediana y moda de la columna `Limit` del  DataFrame `Credit`


```
Respuesta:
Promedio: 4735.6
Mediana: 4622.5
Moda: 855
```



In [None]:
#Su código aquí



## 3. Medidas de Dispersión

### Rango

In [None]:
print("El ingreso mínimo es de:", ingresos.min())
print("El ingreso máximo es de:", ingresos.max())
print("El rango es igual a:", ingresos.max()-ingresos.min())

### Varianza y Desviación Estándar
* El argumento ```ddof``` hace referencia al denominador: ```N-ddof```
* ```ddof=0``` si trabajamos con la población
* ```ddof=1``` si trabajamos con la muestra

In [None]:
print("La varianza en la población es igual a:", ingresos.var(ddof=0))
print("La desviación estandar en la población es igual a:", ingresos.std(ddof=0))

In [None]:
print("La varianza en la muestra es igual a:", ingresos.var(ddof=1))
print("La desviación estandar en la muestra es igual a:", ingresos.std(ddof=1))

De forma predeterminada, el método ```var()``` calcula la varianza asumiendo que se trabaja con una muestra. Si no queremos utilizar el argumento ```ddof``` podemos corregir el valor por medio del siguiente truco algebráico.

In [None]:
ingresos.var()*(len(ingresos)-1)/len(ingresos)  



---


**Ejercicio 2:** Obtener el rango, la varianza muestral y la desviación estándar muestral de la columna `Balance` del  DataFrame `Credit`


```
Respuesta:
Rango: 1999
Varianza muestral: 211378.22533834586
Desv. estándar muestral: 459.75887738938314
```



In [None]:
# tu codigo

## 4. Medidas de Posición
El método ```describe()``` muestra de forma predeterminada los cuartiles sin embargo, podemos requerir otras medidas de posición de acuerdo a lo que se necesite.

In [None]:
ingresos.describe()

In [None]:
# Percentil 90
ingresos.quantile(0.90)

### Rango Intercuartil (IQR)
Medida de dispersión a ser utilizada cuando se emplea la mediana como medida de tendencia central.
Se define como la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1), es decir: $$IRQ = Q3 - Q1$$.

In [None]:
stats.iqr(ingresos)

In [None]:
ingresos.quantile(0.75) - ingresos.quantile(0.25)

In [None]:
sns.boxplot(x=ingresos,color = "pink") 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.show()

In [None]:
sns.boxplot(x=ingresos, color="pink") 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")

#Pongamosle las lineas
plt.axvline(ingresos.quantile(0.25), color='green', label='Q1')
plt.axvline(mediana, color='blue', label='Q2/Mediana')
plt.axvline(ingresos.quantile(0.75), color='red', label='Q3')
plt.legend()
plt.show()

In [None]:
sns.boxplot(x=ingresos, y=Credit["Gender"]) 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.show()

In [None]:
sns.boxplot(x=ingresos, y=Credit["Ethnicity"]) 
plt.title("Boxplot de los Ingresos por Etnia")
plt.xlabel("Dólares")
plt.show()

### Valores atípicos/extremos/outliers
Se definen como observaciones extremas a aquellas que se encuentran fuera del rango $$[Q_1-(1.5 \times IQR) ; Q_3 +(1.5 \times IQR)]$$

In [None]:
IQR  = stats.iqr(ingresos)
whis = 1.5
cons = IQR * whis

#Cuartiles
Q1   = ingresos.quantile(0.25)
Q3   = ingresos.quantile(0.75)

print("El límite inferior para valores extremos es:", (Q1-cons))
print("El límite superior para valores extremos es:", (Q3+cons))

In [None]:
sns.boxplot(x=ingresos, color="pink", whis=1.5) 
plt.title("Boxplot de los Ingresos")
plt.xlabel("Dólares")
plt.axvline(Q3+cons, color='blue', label='Lim. Superior')
plt.legend()
plt.show()

In [None]:
sns.distplot(ingresos, color ="darkblue", kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.axvline(Q3+cons, color='blue', label='Lim. Superior')
plt.legend()
plt.show()

**Ejercicio 3:** Encuentre los quintiles y el rango intercuartil de la columna `Education` del  DataFrame `Credit`


```
Respuesta:
Quintiles: 
0.2    11.0
0.4    13.0
0.6    15.0
0.8    16.0
Name: Education, dtype: float64

IQR Educación: 5.0
```



In [None]:
#Su código aquí



## 5. Medidas de Forma
Interprete el coeficiente de asimetría y la curtosis

[Asimentria wikipedia](https://es.wikipedia.org/wiki/Asimetr%C3%ADa_estad%C3%ADstica)

[Curtosis wikipedia](https://es.wikipedia.org/wiki/Curtosis)

In [None]:
print("El coeficiente de asimetría es igual a:", ingresos.skew())
print("La curtosis es igual a:", ingresos.kurtosis())

In [None]:
sns.distplot(ingresos, color="darkred", kde=True)
plt.title("Ingresos")
plt.xlabel("Dólares")
plt.ylabel("Frecuencia Relativa")
plt.axvline(media, color='red', label='Promedio')
plt.axvline(mediana, color='yellow', label='Mediana')
plt.axvline(moda[0], color='green', label='Moda')
plt.legend()
plt.show()

Ejercicio 4: Obtenga el coeficiente de asimetría y la curtosis de la columna Rating del DataFrame Credit


```
Respuesta:
Coeficiente de asimetría: 0.8653935227370102
Curtosis: 1.0609469816702823
```



In [None]:
# Tu magia aquí

## 6. Distribución Normal
[WIKIPEDIA](https://es.wikipedia.org/wiki/Distribución_normal)

In [None]:
data = np.random.normal(0, 1, 50000)

print("mean : ", np.mean(data))
print("var  : ", np.var(data))
print("skew : ",stats.skew(data))
print("kurt : ",stats.kurtosis(data))

In [None]:
sns.distplot(data, color="darkgreen", kde=True)
plt.title("Distribución Normal")
plt.xlabel("Valores")
plt.ylabel("Frecuencia Relativa")
plt.show()

## 7. Covarianza y correlación

Analizar las relaciones **lineales** entre dos variables cuantitativas por medio de la covarianza y correlación.

- **Covarianza**: Nos da el signo de la relación entre dos variables, pero no podemos determinar la intensidad en la relación entre las mismas
- **Coeficiente de correlación de Person**: Nos permite entender la relación entre las variables tanto su dirección (signo) e intensidad (valor). Se encuentra entre los valores de -1 y 1

Es importante comprender que la correlación no representa causalidad, analicemos algunos ejemplos: [Correlación Espuria](https://www.tylervigen.com/spurious-correlations)

In [None]:
# Matriz de varianzas y covarianzas
Credit\
.cov()\
.round(decimals=2)

In [None]:
# Matriz de correlaciones
Credit\
.corr()\
.round(decimals=2)

# Visualizar relaciones estadisticas 
[Seaborn Pydata](https://seaborn.pydata.org/tutorial/relational.html)

In [None]:
sns.relplot(x="Age", y="Rating", data=Credit);

In [None]:
Credit


In [None]:
Credit

In [None]:
tips = sns.load_dataset("tips")

In [None]:
tips.shape