# Estadistica descriptiva

In [1]:
# Importar los paquetes que necesitaremos
import math
import numpy as np
import scipy.stats as st
import pandas as pd
from prettytable import PrettyTable

Se tiene una muestra de 48 piezas hechas de una aleación de aluminio y litio para probar su resistencia a la tension y ver si sirve como material para fabricar un avión, se prueban y se anotan las libras por pulgada (psi) a las que aguantó cada pieza.

In [2]:
x = [
    105,97,245,163,207,134,221,154,
    228,131,180,178,190,76,101,142,
    149,200,186,174,199,115,87,176,
    121,120,181,160,194,160,181,170,
    237,171,172,133,180,167,176,158,
    156,229,143,141,110,133,123,146
]

Primero vamos a sacar alguna informacion basica

In [3]:
n = len(x) # tamaño de muestra
minimo = min(x) # dato mas chico de la muestra
maximo = max(x) # dato mas grande de la muestra
rango = maximo - minimo
promedio = sum(x) / n
n, minimo, maximo, rango, promedio

(48, 76, 245, 169, 160.41666666666666)

Para sacar la mediana hay que ordenar de menor a mayor los datos y encontrar el dato que este justo en medio

In [4]:
# ordenar los datos
x = sorted(x)
# ver si n es par o impar
# a n le restamos 1 porque las listas incluyen el 0 como primera posicion
if n % 2 == 0:
   # si es par
   mediana = (x[int((n - 1) / 2)] + x[int((n - 1) / 2) + 1]) / 2
else:
   # si es impar
   mediana = x[int(((n - 1) + 1) / 2)]
mediana

161.5

Tambien puede ser sacada con una funcion que tiene el paquete numpy

In [5]:
mediana = np.median(x)
mediana

161.5

Para sacar la moda, nomas hay que buscar el dato que mas frecuencia tenga

In [6]:
moda = x[0]
counter = 0
for i in x:
    curr_frequency = x.count(i)
    if curr_frequency > counter:
        counter = curr_frequency
        moda = i
del i, counter, curr_frequency
moda

133

O bien, con una funcion que tiene el paquete de scipy.stats

In [7]:
moda = st.mode(x)
moda.mode[0]

133

Para sacar la varianza
* Primero se saca la resta de cada dato con el promedio y luego se eleva al cuadrado
* Luego se suman entre si los resultados de estas restas
* Luego se divide entre la resta de n y 1

OJO, cuando es una muestra se resta n - 1, cuando es una poblacion, a n no se le resta nada

In [8]:
sum([(i - promedio) ** 2 for i in x]) / (n - 1)

1566.9716312056742

Pero tambien existe esta funcion dentro del paquete de numpy

In [9]:
# como x es una muestra, se agrega el parametro ddof con valor 1 para que haga la resta de (n - 1) al dividir
varianza = np.var(x, ddof = 1)
varianza

1566.9716312056735

Para sacar la desviacion estandar nomas saque la raiz cuadrada de la varianza

In [10]:
# puede sacarse de estas dos maneras
varianza ** 0.5, math.sqrt(varianza)

(39.584992499755174, 39.584992499755174)

O bien, use la formula que incluye numpy

In [11]:
# aqui tambien ocupa el parametro ddof = 1
desv = np.std(x, ddof = 1)
desv

39.584992499755174

Sesgo (o asimetria)

Si los datos están sesgados, su media, mediana y moda son diferentes.
* Si la moda = mediana = media la distribución es simétrica.
* Si la moda < mediana < media la distribución esta sesgada a la derecha o tiene sesgo positivo.
* Si la moda > mediana > media la distribución esta sesgada a la izquierda o tiene sesgo negativo.

Curtosis

Hay 3 tipos de curtosis para las distribuciones de datos:
* Si la curtosis > 0 es Leptocúrtica. Hay mucha concentración de datos en la media.
* Si la curtosis = 0 es Mesocúrtica. Tiene una distribución normal.
* Si la curtosis < 0 es Platicúrtica. Hay muy poca concentración de datos en la media.

In [12]:
sesgo = st.skew(x)
curtosis = st.kurtosis(x)
sesgo, curtosis

(0.04102203130909817, -0.4047075284407917)

Hay un dato que se llama error tipico o error estandar.
Este vendria siendo parte del margen de error que se calcula para encontrar el promedio poblacional.
Se halla dividiendo la desviación estandar entre la raíz cuadrada del tamaño de la muestra.

In [13]:
error_tipico = desv / (n ** 0.5)
error_tipico

5.713601518900742

Acomodamos todo para presentar la estadistica descriptiva de los datos

In [14]:
tabla = PrettyTable(['campo', 'valor'])
tabla.add_rows([
    ('n', n),
    ('minimo', minimo),
    ('maximo', maximo),
    ('rango', rango),
    ('promedio', promedio),
    ('mediana', mediana),
    ('moda', moda),
    ('varianza', varianza),
    ('desv', desv),
    ('sesgo', sesgo),
    ('curtosis', curtosis)
])

tabla

campo,valor
n,48
minimo,76
maximo,245
rango,169
promedio,160.41666666666666
mediana,161.5
moda,"ModeResult(mode=array([133]), count=array([2]))"
varianza,1566.9716312056735
desv,39.584992499755174
sesgo,0.04102203130909817


O bien, puede usar una de estas funciones

In [15]:
st.describe(x)

DescribeResult(nobs=48, minmax=(76, 245), mean=160.41666666666666, variance=1566.9716312056735, skewness=0.04102203130909817, kurtosis=-0.4047075284407917)

In [16]:
pd.DataFrame(x).describe()

Unnamed: 0,0
count,48.0
mean,160.416667
std,39.584992
min,76.0
25%,133.0
50%,161.5
75%,181.0
max,245.0
