# Datos anteriores

In [20]:
import pandas as pd

datos = pd.read_csv("data/datos.csv")
datos.sample(5)

Unnamed: 0,Ciudad,Sexo,Edad,Color,Años de Estudio,Ingreso,Altura
75038,53,1,49,8,9,788,1.644564
76139,53,1,47,8,16,4200,1.682601
36748,31,0,29,8,12,2000,1.649091
34233,31,0,36,8,12,1450,1.695812
9085,15,0,24,8,8,1500,1.610774


In [21]:
df = pd.DataFrame(
    data={
        "María": [8, 10, 4, 8, 6, 10, 8],
        "Pedro": [10, 2, 0.5, 1, 3, 9.5, 10],
        "Pablo": [7.5, 8, 7, 8, 8, 8.5, 7],
    },
    index=[
        "Matemática",
        "Portugués",
        "Inglés",
        "Geografía",
        "Historia",
        "Física",
        "Química",
    ],
)
df.rename_axis("Asignaturas", axis="columns", inplace=True)
df

Asignaturas,María,Pedro,Pablo
Matemática,8,10.0,7.5
Portugués,10,2.0,8.0
Inglés,4,0.5,7.0
Geografía,8,1.0,8.0
Historia,6,3.0,8.0
Física,10,9.5,8.5
Química,8,10.0,7.0


Aunque las medidas de tendencia central y de localización proporcionan un resumen muy importante de los datos, pueden no ser suficientes para caracterizar diferentes conjuntos, especialmente cuando las observaciones de una distribución dada presentan datos muy dispersos.

# Cálculo de desviación media absoluta

$$DM = \frac 1n\sum_{i=1}^{n}|X_i-\bar{X}|$$

In [22]:
df

Asignaturas,María,Pedro,Pablo
Matemática,8,10.0,7.5
Portugués,10,2.0,8.0
Inglés,4,0.5,7.0
Geografía,8,1.0,8.0
Historia,6,3.0,8.0
Física,10,9.5,8.5
Química,8,10.0,7.0


En este caso no sería tan justo comparar a María con Pablo, porque este último tiene una mayor consistencia en sus notas mientras que María tiene mayor dispersión.

In [23]:
notas_maria_dispersion = df[['María']]
notas_maria_dispersion

Asignaturas,María
Matemática,8
Portugués,10
Inglés,4
Geografía,8
Historia,6
Física,10
Química,8


In [24]:
notas_media_maria = notas_maria_dispersion.mean().iloc[0]
notas_media_maria

np.float64(7.714285714285714)

Ahora se calculará cuál es el desvío de acuerdo a la media de María.

In [25]:
notas_maria_dispersion['Desviacion'] = notas_maria_dispersion['María'] - notas_media_maria
notas_maria_dispersion

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  notas_maria_dispersion['Desviacion'] = notas_maria_dispersion['María'] - notas_media_maria


Asignaturas,María,Desviacion
Matemática,8,0.285714
Portugués,10,2.285714
Inglés,4,-3.714286
Geografía,8,0.285714
Historia,6,-1.714286
Física,10,2.285714
Química,8,0.285714


> Al ver la desviación media absoluta no existen los valores negativos.
>
> Habrá que crear otra columa con el valor de la desviación media absoluta que **No puede ser negativo**

In [26]:
# Desviación absoluta se suele representar encerrando la palabra entre estos dos símbolos | |
notas_maria_dispersion['|Desviacion|'] = notas_maria_dispersion['Desviacion'].abs()
notas_maria_dispersion

Asignaturas,María,Desviacion,|Desviacion|
Matemática,8,0.285714,0.285714
Portugués,10,2.285714,2.285714
Inglés,4,-3.714286,3.714286
Geografía,8,0.285714,0.285714
Historia,6,-1.714286,1.714286
Física,10,2.285714,2.285714
Química,8,0.285714,0.285714


## Utilizando SciPy para cálculos estadísticos

In [27]:
import scipy.stats as stats

In [28]:
# Desviación Media absoluta
mad_notas_maria = stats.median_abs_deviation(notas_maria_dispersion['María'])
mad_notas_maria # 2.0

np.float64(2.0)

El resultado indicará que la desviación siempre estará cerca de 2

# Cálculo de Varianza

La varianza se construye a partir de las diferencias entre cada observación y la media de los datos, es decir, la desviación alrededor de la media. Al calcular la varianza, las desviaciones alrededor de la media son elevadas al cuadrado.

### Varianza de la población

$$\sigma^2 = \frac 1n\sum_{i=1}^{n}(X_i-\mu)^2$$

### Varianza de la muestra

$$S^2 = \frac 1{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$$

In [29]:
notas_maria_dispersion

Asignaturas,María,Desviacion,|Desviacion|
Matemática,8,0.285714,0.285714
Portugués,10,2.285714,2.285714
Inglés,4,-3.714286,3.714286
Geografía,8,0.285714,0.285714
Historia,6,-1.714286,1.714286
Física,10,2.285714,2.285714
Química,8,0.285714,0.285714


In [30]:
# Calculando varianza
notas_maria_dispersion['(Desviacion)ˆ2'] = notas_maria_dispersion['|Desviacion|'].pow(2)
notas_maria_dispersion

Asignaturas,María,Desviacion,|Desviacion|,(Desviacion)ˆ2
Matemática,8,0.285714,0.285714,0.081633
Portugués,10,2.285714,2.285714,5.22449
Inglés,4,-3.714286,3.714286,13.795918
Geografía,8,0.285714,0.285714,0.081633
Historia,6,-1.714286,1.714286,2.938776
Física,10,2.285714,2.285714,5.22449
Química,8,0.285714,0.285714,0.081633


In [31]:
# Resultado de varianza
notas_maria_dispersion['(Desviacion)ˆ2'].sum() / (len(notas_maria_dispersion) - 1)

np.float64(4.57142857142857)

## Cálculo de varianza nativo

In [34]:
notas_maria_dispersion['María'].var()

4.571428571428571

# Cálculo Desviación Estándar

Una de las restricciones de la varianza es el hecho de que proporciona medidas cuadráticas de las unidades originales; la varianza de las medidas de longitud, por ejemplo, está en unidades de área. Por lo tanto, el hecho de que las unidades sean diferentes dificulta la comparación de la dispersión con las variables que la definen. Una forma de eliminar esta dificultad es considerar su raíz cuadrada.

### Desviación estándar de la población

$$\sigma = \sqrt{\frac 1n\sum_{i=1}^{n}(X_i-\mu)^2} \Longrightarrow \sigma = \sqrt{\sigma^2}$$

### Desviación estándar de la muestra

$$S = \sqrt{\frac 1{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2} \Longrightarrow S = \sqrt{S^2}$$

> Hay que ser cuidadosos al tratar algunas unidades de medida. Por ejemplo altura o longitudes.
> Porque al elevarse al cuadrado se podrían transformar en áreas, lo que tendría otro significado.

In [35]:
varianza = notas_maria_dispersion["María"].var()

In [37]:
import numpy as np

# metodo numpy para raiz cuadrada
np.sqrt(varianza)

np.float64(2.138089935299395)

## Cálculo Desviación Estándar nativo 

In [38]:
desviacion_estandar = notas_maria_dispersion['María'].std()
desviacion_estandar

2.138089935299395

# Aplicando todos los cálculos en el DF de notas

In [39]:
df.mean()

Asignaturas
María    7.714286
Pedro    5.142857
Pablo    7.714286
dtype: float64

In [40]:
df.median()

Asignaturas
María    8.0
Pedro    3.0
Pablo    8.0
dtype: float64

In [41]:
df.mode()

Asignaturas,María,Pedro,Pablo
0,8,10.0,8.0


In [42]:
df.std()

Asignaturas
María    2.138090
Pedro    4.460141
Pablo    0.566947
dtype: float64

In [43]:
horas_sueno = [7,6,8,7.5,6.5,8.5]

media  
desviaciones de la media  
elevar al cuadrado  
sumar y dividir por (tamaño de muestra -1)  
raiz cuadrada de lo anterior  

In [46]:
pd.DataFrame(horas_sueno).std()

0    0.935414
dtype: float64