### **Introducción**

A lo largo de este análisis, se calcularán diversas medidas estadísticas como la media, mediana, moda, varianza, desviación estándar, coeficiente de variación y puntuaciones Z, con el objetivo de describir y comparar la dispersión de los datos. Para mayor entendimiento, se hará uso de un conjunto de cien datos aleatorios creados a continuación: 

In [1]:
import random 
numeros = []
for i in range (100):
    numeros.append (random.randint(1,10))
    

In [2]:
print (numeros)

[8, 1, 6, 10, 1, 5, 2, 8, 3, 3, 3, 3, 8, 6, 10, 8, 6, 6, 9, 5, 2, 1, 8, 10, 8, 6, 9, 6, 8, 2, 4, 2, 4, 7, 1, 10, 1, 5, 10, 8, 1, 1, 4, 10, 4, 5, 3, 5, 1, 2, 6, 7, 4, 9, 6, 2, 9, 5, 7, 4, 9, 2, 8, 3, 4, 2, 5, 1, 10, 2, 6, 4, 10, 10, 9, 7, 6, 1, 8, 9, 8, 8, 8, 8, 7, 6, 10, 10, 3, 8, 4, 3, 1, 3, 2, 6, 3, 9, 8, 6]


### 1. **Función de media con función sum y bucle for**


**Definición**: La media es el valor promedio de un conjunto de datos. Se obtiene sumando todos los valores y dividiendo el resultado entre el número total de observaciones. Permite resumir un conjunto de datos con un valor representativo, aunque es susceptible a valores atípicos.

**Fórmula**:
$
\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i
$
Donde:
- $( X_i )$ son los valores individuales del conjunto de datos,
- $( n )$ es el número de observaciones.

In [3]:
def media (datos):
    return sum (datos)/ len (datos)
print (f'El promedio de los datos es {media (numeros)}')

El promedio de los datos es 5.38


In [4]:
def media_2 (datos):
    suma= 0
    for i in datos:
        suma= suma+i
    return suma/ len(datos)
print (f'El promedio de los datos es {media_2 (numeros)}')


El promedio de los datos es 5.38



### 2. **Mediana**
**Definición**: La mediana es el valor que se encuentra en el centro de un conjunto de datos ordenados. Si el número de datos es impar, es el valor del medio; si es par, es el promedio de los dos valores centrales. No depende de los valores del conjunto sino de su orden.

**Cómo se construye**:
- Si  $ n $ es impar, la mediana es el valor en la posición $ \frac{n+1}{2} $ de los datos ordenados.
- Si $ n $ es par, la mediana es el promedio de los valores en las posiciones $ \frac{n}{2} $ y $ \frac{n}{2} + 1 $.


In [5]:
def mediana (datos):
    datos= sorted (datos)
    n = len(datos)
    if n%2 == 0:
        return (datos [n//2]+datos[(n//2)-1])/2 
    else:
        return datos [n//2]
    
print(f'La mediana es {mediana(numeros)}')

    

La mediana es 6.0


### 3. **Moda**
**Definición**: La moda es el valor o valores que más se repiten en un conjunto de datos. Un conjunto de datos puede ser unimodal (una sola moda), bimodal (dos modas) o multimodal (más de dos modas).

**Cómo se construye**: Identificando el valor o los valores que tienen mayor frecuencia en el conjunto de datos.


In [3]:
def moda (datos):
    unicos= set(datos)
    mayor = -1
    for i in unicos:
        cuenta = datos.count(i)
        if cuenta > datos.count(mayor):
            mayor = i
    return mayor

print (f'La moda es {moda(numeros)}')

# Acá dejo una forma alternativa que puede ser mas eficiente. No obstante, muy bien la intuición original. 

def moda(datos):
    conteo = {}
    for i in datos:
        conteo[i] = conteo.get(i, 0) + 1
    return max(conteo, key=conteo.get)

print (f'La moda es {moda(numeros)}')


La moda es 8
La moda es 8


**Definición**: La varianza es una medida de la dispersión que indica qué tan alejados están los valores de un conjunto de datos respecto a la media. Cuanto mayor sea la varianza, mayor es la dispersión. Al elevar al cuadrado las diferencias de cada dato respecto a la media, la varianza da mayor peso a las desviaciones grandes, por lo que es útil para resaltar la dispersión extrema.

**Fórmula** (para una población completa):
$
\sigma^2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \bar{X})^2
$

Para una muestra:
$
s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \bar{X})^2
$

Donde:
- $ \sigma^2 $ es la varianza poblacional,
- $ s^2 $ es la varianza muestral.
- $\bar{X}$ es la media.

In [7]:
def varianza (datos):
    suma= 0
    med= media (datos)
    for i in datos:
        resta= i-med
        cuadrado= (resta)**2
        suma= suma+cuadrado
    return suma/(len(datos))

print (f'La varianza de los datos es {varianza (numeros)}')

# Si se desea resumir código

def varianza(datos):
    med = media(datos)
    return sum((x - med) ** 2 for x in datos) / len(datos)


La varianza de los datos es 8.535600000000004


### 5. **Desviación Estándar**
**Definición**: La desviación estándar es la raíz cuadrada de la varianza. Mide la dispersión de los datos con respecto a la media, en las mismas unidades que los datos originales.

**Fórmula**:
$
\sigma = \sqrt{\sigma^2}
$

Para la muestra:
$
s = \sqrt{s^2}
$


In [8]:
def desviacion_estandar (datos):
    return varianza (datos)**(1/2)
print (f'La desviación estandar de los datos es de {desviacion_estandar (numeros)}')

La desviación estandar de los datos es de 2.921574917745565


In [9]:
import math
def desviacion_2 (datos):
    return math.sqrt (varianza (datos))
print (f'La desviación estandar de los datos es de {desviacion_2 (numeros)}')

La desviación estandar de los datos es de 2.921574917745565


### 6. **Coeficiente de Variación**
**Definición**: El coeficiente de variación es una medida relativa de dispersión, que permite comparar la variabilidad entre diferentes conjuntos de datos. Se expresa como un porcentaje de la media.

**Fórmula**:
$
CV = \frac{\sigma}{\bar{X}} \times 100
$

Donde $ \sigma $ es la desviación estándar y $ \bar{X} $ es la media.


In [10]:
def coef_var (datos):
    return desviacion_estandar(datos)/media(datos)*100
print (f'El coeficiente de variación es del {coef_var(numeros)}%')

El coeficiente de variación es del 54.30436650084693%


### 7. **Normalización Z** (Puntuación Z o estandarización)
**Definición**: La puntuación Z o normalización Z transforma los datos para que tengan una media de 0 y una desviación estándar de 1. Es útil para comparar datos de diferentes distribuciones.

**Fórmula**:
$
Z_i = \frac{X_i - \bar{X}}{\sigma}
$
Donde:
- $ Z_i $ es el valor Z normalizado del dato $ X_i $,
- $ \bar{X} $ es la media,
- $ \sigma $ es la desviación estándar.

In [11]:
def normalZ (datos):
    z= []
    for i in datos:
        z.append ((i-media(datos))/desviacion_estandar(datos))
    return z
print (normalZ (numeros))

[-0.47234797629796116, 0.5544954504367371, -1.4991914030326594, -0.8146291185428606, -0.47234797629796116, 1.5813388771714352, -1.15691026078776, 0.21221430819183768, 0.8967765926816365, -0.13006683405306174, 0.5544954504367371, -1.4991914030326594, 0.21221430819183768, -1.15691026078776, -1.4991914030326594, 1.239057734926536, 1.239057734926536, 1.5813388771714352, -1.4991914030326594, -1.15691026078776, 0.21221430819183768, -0.47234797629796116, -0.8146291185428606, -1.4991914030326594, 1.239057734926536, -1.15691026078776, -0.8146291185428606, 1.5813388771714352, -1.15691026078776, -0.13006683405306174, -1.4991914030326594, 0.8967765926816365, 1.239057734926536, -1.15691026078776, 0.21221430819183768, -0.47234797629796116, -0.47234797629796116, 1.5813388771714352, -1.15691026078776, -0.8146291185428606, 1.5813388771714352, 0.8967765926816365, 0.5544954504367371, 0.8967765926816365, -1.4991914030326594, 0.5544954504367371, -0.8146291185428606, 0.8967765926816365, 0.5544954504367371, 