<a href="https://colab.research.google.com/github/fjme95/python-para-la-ciencia-de-datos/blob/main/2_Estad%C3%ADstica_b%C3%A1sica_e_introducci%C3%B3n_a_numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

En este Notebook calcularemos algunas medidas estadísticas básicas y se introducirá ```numpy``` como alternativa a las listas que, además de ser más eficiente, también brinda facilidad al momento de hacer operaciones.


## Estadística básica

Calcularemos medias, medianas, varianzas y desviaciones estándar


## Media o promedio

Se define como la suma de todos los elementos en una lista (vector) entre la cantidad total de estos.

Más formalmente, para $n\in \mathbb{N}$ y $x\in\mathbb{R}^n$, se define la media como $$media(x) = \frac{1}{n}\sum_{i=1}^nx_i.$$

### Ejemplos
1. Para $x= \left(1, 3, 5, 4, 1\right)$, su media es $$media(x)=\frac{1 + 3 + 5 + 4 + 1}{5} = 2.8$$

2. Para $y = \left(-1, 2, 7, -9, 0\right)$, su media es $$media(x)=\frac{-1 + 2 + 7 - 9 + 0}{5} = -0.2$$

In [None]:
x = [1, 3, 5, 4, 1]

suma = 0

for val in x:
    suma += val
print(suma/len(x))


sum(x)/len(x)

2.8


2.8

In [None]:
y = [-1, 2, 7, -9, 0]

sum(y)/len(y)

-0.2

## Mediana

Se define como el valor medio del vector en su posición central cuando ya están ordenados los valores. Si el vector tiene longitud par, entonces la mediana es la media entre los dos valores en el centro.

### Ejemplos

1. Para $y$ en el ejemplo anterior, si lo ordenamos obtenemos $(-9, -1, 0, 2, 7)$, por lo $mediana(y) = 0$

2. Sea $z = (1, 2, 3, 4)$, entonces $mediana(z) = \frac{2+3}{2}=2.5$.



In [None]:
z = [1, 2, 3, 4]


In [None]:
# Calcula la mediana de un vector

ordenado = sorted(z)
if len(ordenado) % 2 == 0:
    print(
        (ordenado[int(len(ordenado)/2)-1] + ordenado[int(len(ordenado)/2)])/2
        )
else:
    print(
        ordenado[int(len(ordenado)/2)]
        )

2.5


# Varianza

La varianza es una medida de dispersión de los datos. Entre más pequeña, los datos están más *compactos*.

Formalmente se define como $$varianza(x) = \frac{1}{n}\sum_{i = 1}^n\left( x_i - media(x)\right)^2$$

## Ejemplos

1. Para $x$ en el ejemplo del inicio, $$varianza(x) = \frac{(1-2.8)^2 + (3-2.8)^2 + (4-2.8)^2 + (5-2.8)^2 + (1-2.8)^2}{5} = 0$$

In [None]:
vector = x

media = sum(vector)/len(vector)
suma = 0

for val in vector:
    suma += (val - media) ** 2

varianza = suma/len(vector)
print(varianza)

2.56


La **desviación estándar** es la raíz cuadrada de la varianza. Es decir, $$de(x) = \sqrt{varianza(x)}$$

In [None]:
import math
de = math.sqrt(varianza)
de

1.6

# Introducción a numpy

```numpy``` es un módulo de python que podemos ocupar ejecutando ```python import numpy```. Para facilitar su uso, se cargará con ```import numpy as np```. Este es una extención en desempeño y utilidad de las listas (o arreglos para ser más precisos).

In [None]:
import numpy as np

Ahora podemos hacer las operaciones que vimos en la sección anterior llamando únicamente a una función.

In [None]:
x

[1, 3, 5, 4, 1]

In [None]:
# Suma de los elementos de x
np.sum(x)

14

In [None]:
# Media
np.mean(x)

2.8

In [None]:
# Mediana
np.median(x)

3.0

In [None]:
# Varianza
np.var(x)

2.56

In [None]:
# Desviación estándar
np.std(x)

1.6

Como se mencionó, brinda una extensión a las listas al usar ```np.array```. Contrario a las listas, los arreglos sólo pueden ser de números.

In [None]:
np.array([1, 3, 4])

array([1, 3, 4])

In [None]:
# Repetir n veces el zero
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [None]:
# repetir n veces el 1
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

Para acceder a los elementos o cambiarlos el funcionamiento es igual que una lista.

```numpy``` brinda facilidad para hacer operaciones vectoriales que veremos en el futuro.