# Estadística descriptiva

Medidas estadísticas utilizadas para describir las propiedades de los datos:

1. Media aritmética
2. Desviación respecto a la media aritmética
3. Varianza
4. Desviación estándar
5. Moda
6. Mediana
7. Correlación
8. Covarianza
9. Valor atípico

In [None]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np

mainpath = "../datasets/"
filename = "customer-churn-model/Customer Churn Model.txt"
fullpath = os.path.join(mainpath, filename)
data = pd.read_csv (fullpath)
data

## 1. Media aritmética:

Es el valor obtenido al sumar todos los datos y dividir el resultado entre el número total elementos.

\begin{align}
\bar{x}=\frac{\sum_{i=1}^{n}x_i}{n}
\end{align}


In [None]:
datos = data["Day Calls"]


In [None]:
'''Media aritmetica'''
def media(datos):
    elementos = len(datos)
    sum_numerador = sum([datos[i] for i in range(elementos)])
    return round(sum_numerador/elementos,2)
    
media_aritmetica = media(datos)
print(media_aritmetica)

In [None]:
plt.hist(datos,bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma del número de llamadas al día")
plt.axvline(media_aritmetica, color='k', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media_aritmetica*1.1, max_ylim*0.9,media_aritmetica)

### 1.1. Media truncada

 El cálculo de la media después de descartar las partes extremas de la distribución normalmente descartando una cantidad igual de ambos. 

\begin{align}
\bar{x}_T=\frac{\sum_{i=p+1}^{n-p}x_i}{n-2p}
\end{align}

con $p$ los valores extremos.

Para la mayoría de las aplicaciones estadísticas, se descartan del 5 al 25 por ciento de los extremo (cuartiles)

In [None]:


data2 = data[(data["Day Calls"]>data["Day Calls"].min()) & (data["Day Calls"]<data["Day Calls"].max())]
suma2 = data2["Day Calls"].sum()
elementos2 = data2["Day Calls"].shape
media2 = suma2 / elementos2

plt.hist(data2["Day Calls"],bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma del número de llamadas al día")
plt.axvline(media2, color='k', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media2*1.1, max_ylim*0.9,media2)

### 1.2 Media ponderada

Media que otorga diferentes pesos a los distintos valores sobre los que se calcula

\begin{align}
\bar{x}_w=\frac{\sum_{i=1}^{n}w_i x_i}{\sum_{i=1}^{n}w_i}
\end{align}

In [None]:
valores = data["Day Calls"]
pesos = data["CustServ Calls"]
def media_ponderada(valores, pesos):
  
    sum_numerador = sum([valores[i]*pesos[i] for i in range(len(valores))])
    sum_denominador = sum(pesos)
    
    return round(sum_numerador/sum_denominador,2)

media_aritmetica_ponderada= media_ponderada(valores, pesos)
print(media_aritmetica_ponderada)

In [None]:
plt.hist(datos,bins=20) # bins=10 default
plt.xlabel("Número de llamadas al día")
plt.ylabel("Frecuencia")
plt.title("Histograma del número de llamadas al día")
plt.axvline(media_aritmetica_ponderada, color='k', linestyle='dashed', linewidth=1)
min_ylim, max_ylim = plt.ylim()
plt.text(media_aritmetica_ponderada*1.1, max_ylim*0.9,media_aritmetica_ponderada)

## Desviación respecto a la media aritmética

Es la diferencia en valor absoluto entre cada valor de la variable estadística y la media aritmética.

In [None]:
'''Media aritmetica'''
media_aritmetica = media(datos)
for i in range(elementos):
    datos3 = round(abs(datos[i] - media_aritmetica),2)
    print(datos3)

In [None]:
data.shape
data.describe()