# Estadística descriptiva

Medidas estadísticas utilizadas para describir las propiedades de los datos:

Medidas de tendencia central

1. Media aritmética
2. Moda
3. Mediana

Medidas de dispersión

4. Desviación respecto a la media aritmética
5. Varianza
6. Covarianza
7. Desviación estándar
8. Cuartiles
9. Correlación
10. Valor atípico

In [None]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np

mainpath = "../datasets/"
filename = "customer-churn-model/Customer Churn Model.txt"
fullpath = os.path.join(mainpath, filename)
data = pd.read_csv (fullpath)
data.head()

## 1. Media aritmética:

Es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total elementos.

\begin{align}
\mu = \bar{x}=\frac{\sum_{i=1}^{n}x_i}{n}
\end{align}


In [None]:
datos1 = data["Day Calls"]
datos2 = data["Day Charge"]


In [None]:
'''Media aritmetica'''
def media(datos):
    elementos = len(datos)
    sum_numerador = sum([datos[i] for i in range(elementos)])
    return round(sum_numerador/elementos,2)  
media_aritmetica = media(datos1)
print(media_aritmetica)

In [None]:
plt.hist(datos1,bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma de la media aritmetica de número de llamadas al día")
plt.axvline(media_aritmetica, color='k', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media_aritmetica*1.1, max_ylim*0.9,media_aritmetica)

### 1.1. Media truncada

 El cálculo de la media después de descartar las partes extremas de la distribución normalmente descartando una cantidad igual de ambos. 

\begin{align}
\bar{x}_T=\frac{\sum_{i=p+1}^{n-p}x_i}{n-2p}
\end{align}

con $p$ los valores extremos.

Para la mayoría de las aplicaciones estadísticas, se descartan del 5 al 25 por ciento de los extremo (cuartiles)

In [None]:


data2 = data[(data["Day Calls"]>data["Day Calls"].min()) & (data["Day Calls"]<data["Day Calls"].max())]
suma2 = data2["Day Calls"].sum()
elementos2 = data2["Day Calls"].shape
media2 = suma2 / elementos2

plt.hist(data2["Day Calls"],bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma de la media truncada de número de llamadas al día")
plt.axvline(media2, color='k', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media2*1.1, max_ylim*0.9,media2)

### 1.2 Media ponderada

Media que otorga diferentes pesos a los distintos valores sobre los que se calcula

\begin{align}
\bar{x}_w=\frac{\sum_{i=1}^{n}w_i x_i}{\sum_{i=1}^{n}w_i}
\end{align}

In [None]:
pesos = data["CustServ Calls"]
def media_ponderada(datos, pesos):
  
    sum_numerador = sum([datos[i]*pesos[i] for i in range(len(datos))])
    sum_denominador = sum(pesos)
    
    return round(sum_numerador/sum_denominador,2)

media_aritmetica_ponderada= media_ponderada(datos1, pesos)
print(media_aritmetica_ponderada)

In [None]:
plt.hist(datos1,bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma de la media ponderada de número de llamadas al día")
plt.axvline(media_aritmetica_ponderada, color='k', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media_aritmetica_ponderada*1.1, max_ylim*0.9,media_aritmetica_ponderada)

# 2. Moda

Es el valor que aparece con mayor frecuencia en un conjunto de datos

# 3. Mediana

Es el valor que ocupa el lugar central de todos los datos cuando éstos están ordenados de menor a mayor. Se puede hallar solo para variables cuantitativas.

## 4. Desviación respecto a la media aritmética

Es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética.

\begin{align}
D_i = |x_i - \mu|
\end{align}

In [None]:

'''Desviacon de la media'''
desviacion = []
desviacion = [round(abs(data["Day Calls"] - media_aritmetica),2)]
plt.hist(desviacion,bins=20) # bins=10 default
plt.xlabel("Desviacion")
plt.ylabel("Frecuencia")
plt.title("Histograma de la desviacion de la media de número de llamadas al día")

## 5. Varianza

Es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. La varianza intenta describir la dispersión de los datos.

\begin{align}
\sigma^2 = \frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}
\end{align}


In [None]:
'''Varianza'''
mu = media(datos1)
def varianza(datos):
    columns = len(datos)
    sumatory = sum((datos[i]-mu)*(datos[i]-mu) for i in range(columns))
    return round(sumatory/columns,2)

varianza(datos1)


# 6. Covarianza

La covarianza la varianza aplicado a una variable bidimensional. Es la media aritmética de los productos de las desviaciones de cada una de las variables respecto a sus medias.La covarianza indica el sentido de la correlación entre las variables:
1. cov > 0-> correlación es directa
2. cov = 0 -> no existe correlación
3. cov < 0 -> correlación es inversa. 

# 7. Desviación estandar

Es la raíz cuadrada de la varianza.

\begin{align}
\sigma = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \mu)^2}{n}}
\end{align}

In [None]:
'''Desviacion estandar'''
mu = media(datos1)
def standar_deviation(datos):
    columns = len(datos)
    sumatory = sum((datos[i]-mu)*(datos[i]-mu) for i in range(columns))
    return round(np.sqrt(sumatory/columns),2)

stand_dev = standar_deviation(datos1)


In [None]:
plt.hist(datos1,bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma de la desviacion estandar de número de llamadas al día")
plt.axvline(media_aritmetica, color='k', linestyle='dashed', linewidth=1)
plt.axvline(media_aritmetica+stand_dev, color='r', linestyle='dashed', linewidth=1)
plt.axvline(media_aritmetica-stand_dev, color='r', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media_aritmetica*1.03, max_ylim*0.97,"$\mu$")
plt.text(media_aritmetica+stand_dev*1.1, max_ylim*0.9,"$\sigma$",color='r')
plt.text(media_aritmetica-stand_dev*1.5, max_ylim*0.9,"$-\sigma$",color='r')


# 8. Cuartiles

Los **cuantiles** son puntos tomados a intervalos regulares de la función de distribución de una variable aleatoria.

Los **cuartiles** son cuantiles que se multiplican por un cuarto de un conjunto de datos, sinedo los tres puntos que dividen el conjunto de datos en cuatro grupos iguales, cada grupo comprende un cuarto de los datos.

**Q1**: es el número medio entre el número más pequeño y la mediana del conjunto de datos. 

**Q2**: es la mediana de los datos. 

**Q3**: es el valor medio entre la mediana y el valor más alto del conjunto de datos. 

# 9. Coeficiente de correlación 

Medida del grado de dependencia lineal entre dos variables, su valor se encuentra entre [-1,1] con: 
1. corr = 1 -> todos los puntos de datos se encuentran en  una línea recta de pendiente positiva
2. corr = 0 -> no existe una correlación lineal entre las variables
3. corr = -1 -> todos los puntos de datos se encuentran en una línea recta de pendiente negativa


In [None]:
""" 
Podemos utilizar pandas para obtener la información estadística de los datos.
"""
data.describe()
