# Unidad 01 - Estadística descriptiva y NumPy

En éste Notebook vamos a aprender aspéctos básicos de estadística descriptiva. Si bien Python incluye un [módulo de estadística](https://docs.python.org/3/library/statistics.html) desde la versión 3.4, aprovecharemos para aprender NumPy.

NumPy nació de la fusión de dos bibliotecas previas, Numeric y Numarray, que fueron fundamentales para el manejo de arrays multidimensionales en Python. Numeric, creado por Jim Hugunin en 1995, y Numarray, desarrollado a partir de 2001, ayudaron a establecer las bases para el análisis numérico en Python. En 2005, [Travis Olliphant](https://x.com/teoliphant) combinó las mejores características de ambas bibliotecas para crear NumPy, que se lanzó oficialmente en 2006. Desde entonces, NumPy se ha consolidado como una herramienta esencial en la computación científica y el análisis de datos, y sigue evolucionando con mejoras continuas en rendimiento y funcionalidad.

Documentación: https://numpy.org/doc/stable/index.html

Código fuente: https://github.com/numpy/numpy

*Este Notebook asume que ya tenés conocimientos básicos de Python y manejo de Jupyter Notebooks*

In [1]:
import pandas as pd

## El tipo array

Los array de numpy son arreglos ordenados de elementos del mismo tipo. Los vectores (arreglos unidimensionales), son similares a las listas. Ejecutar el siguiente código y observar los resultados.

In [2]:
import numpy as np

v = np.array([0, 3, 0, 3, 4, 5, 6])
w = np.array([0., 3., 0., 3., 4., 5., 6.])
print(v)
print(w)

[0 3 0 3 4 5 6]
[0. 3. 0. 3. 4. 5. 6.]


In [3]:
# El tipo de dato de un array de numpy es ndarray
print(type(v))
print(type(w))

# Para saber el tipo de los elementos contenidos en el array, usamos el atributo dtype
print(v.dtype)
print(w.dtype)

<class 'numpy.ndarray'>
<class 'numpy.ndarray'>
int64
float64


**Para pensar en grupo**

1. Explicar los dtypes obtenidos.
Por default, los numeros enteros se representan como int. En el primer caso, tenemos un array formado por el tipo de datos int. En el segundo array, tenemos numeros racionales, que son representados por el tipo de dato float. Luego, los datos de este arreglo son del tipo float.
2. Antes de probar: ¿Qué `dtype` se obtiene si inicializamos el array con `1, 1.3`? ¿por qué?
Obtenemos dtype=float64, ya que los array son arreglos de datos del mismo tipo. Un int puede transformarse en un float pero no viceversa, luego por default, el int se convierte en un float para crear el arreglo.
3. Otros atributos importantes son `ndim`, `size`, `shape` y `nbytes`. ¿Qué hacen?
Dijimos que los array funcionan como vectores. Luego un array como los de arriba tiene dimension uno. Siguiendo con la analogia, si defino un array cuyos elementos son listas, podemos pensar en el array como una matriz, de dimension 2. Si luego tengo listas de listas, la dimension seguira creciendo. Esto denota el atributo **ndim**. Lo vectores son arreglos unidimensionaes, las matrices bidimensionales y asi siguiendo.
EL atributo **size** nos habla de la cantidad de elementos que contiene el array. La cantidad de filas, si lo pensamos como matrices u tensores. **Shape** denota la cantidad de filas seguidos por la cantidad de columnas. Por último **nbytes** nos dice la cantidad de espacio de memoria que ocupa el array.  


Los array son mas rápidos de recorrer y ocupan menor espacio en memoria que una lista o una tupla. Pero desde el punto de vista práctico, la principal ventaja de usar numpy es que los operadores matemáticos (ej. `+`, `-`, `*`, `/`) aplican elemento a elemento y por lo tanto no requieren ciclos explícitos. Ejecutar los siguientes comandos e interpretar los resultados.

In [4]:
x = np.array([1.0, 2.0, 3.0])
y = np.array([4, 5, 6])
print("x = ", x)
print("y = ", y)

# Un array y un escalar
print("x + 2 = ", x + 2)
print("y - 4 = ", y - 4)
print("2 * x = ", 2 * x)
print("y / 5 = ", y / 3)

# Un array y un array
print("x + y = ", x + y)
print("x - y = ", x - y)
print("x * y = ", x * y)
print("x / y = ", x / y)


x =  [1. 2. 3.]
y =  [4 5 6]
x + 2 =  [3. 4. 5.]
y - 4 =  [0 1 2]
2 * x =  [2. 4. 6.]
y / 5 =  [1.33333333 1.66666667 2.        ]
x + y =  [5. 7. 9.]
x - y =  [-3. -3. -3.]
x * y =  [ 4. 10. 18.]
x / y =  [0.25 0.4  0.5 ]


*Una notación muy cómoda incluida en Python 3.8 son los debug f-strings, que permite hacer cosas como la siguiente: `print(f"{x + y = }")`. Probala y usala si te resulta útil.*

**Para pensar en grupo**
1. Explicar los dtypes obtenidos en cada caso
Las operaciones aritmeticas basicas se realizan entre elementos del mismo tipo, luego pasaos de int a float para poder operar entre los array.
2. Aplicar otros operadores (`**`, `%`, `>=`, `>`, `<=`, `<`, `!=`, `==`)
3. Antes de probar: ¿qué pasa si utilizo dos array de distinto `shape`?
Los operadores operan elemento a elemento, luego querer comparar dos array de distintas dimensiones simplemente dará un error.

**Para buscar**: Una forma usual para incializar un array es crear uno lleno de 0 o de 1. Buscar con que funciones puede hacerse. ¿Qué parametros toma?

In [5]:
deCeros=np.zeros(2)
deUnos=np.ones(2)
print(deCeros)
print(deUnos)
x=[0]*5
x=np.array(x)
print(x)

[0. 0.]
[1. 1.]
[0 0 0 0 0]


## Accediendo a los elementos de un array

Tal como ocurre con una lista o una tupla, puede obtenerse un elemento de un array utilizando los corchetes `[]`. Algunas reglas básicas:
1. El primer elemento es el `0` (siguiendo el estandar de C y la sugerencia en el [escrito clásico de Dijkstra](https://www.cs.utexas.edu/users/EWD/transcriptions/EWD08xx/EWD831.html)). Ej. `w[0]`
2. y el segundo es el `1`, el tercero es el `2` y así sucesivamente.
3. Puede también obtener el último elemento con el `-1` Ej. `w[-1]`
4. y el anteúltimo (`-2`), antepenúltimo (`-3`) y así sucesivamente.
5. Utilizando los dos puntos `:` puede obtenerse un `slice`: `a:b` signfica tomar todos los elementos desde el `a` (incluido) hasta el `b` (excluido). Ej. `w[1:7]`
6. y puede agregarse también el paso: `a:b:c` signfica tomar todos los elementos desde el `a` (incluido) hasta el `b` (excluido) de haciendo pasos de largo `c` Ej. `w[1:7:2]`

**Para hacer y pensar**
1. Probar los ejemplos. Modificarlos para entender los parámetros.
2. ¿Qué pasa si los indices requeridos no están en el rango del array?
SI quiero acceder a un elemento fuera de rango, la computadora tira error. Si quiero pr ejemplo acceder a los elementos del 0 al 15 en un array con solo 7 elementos, me dará todos los elementos del array. Lo mismo si lo hago con un paso dado, me dará los elementos a los que tenga sentido acceder, si no puede acceder a ninguno, devuelve una lista vacia.
3. `a`, `b`, `c` pueden estar ausentes. ¿Qué pasa en cada caso?
Si a está ausente, por default se interpreta el elemento 0. Si b está ausente, por efault se interpreta el último elemento. Si no específicamos el paso c, por default se reccorre con c=1.
4. ¿Cuál es la diferencia entre `w[1]` y `w[1:2]`?
w[1] me devuelve el elemento en la posición 1, si la posición no existe, o se va de rango, la operación devuelve error. En el caso de w[1:2] creo un array nuevo de longitud 2-1, y pongo el elemento 1 del array original. Si los elementos a los que quiero acceder no existen, devuelve la lista vacia.  
5. ¿Cómo podes usar lo aprendido para invertir el orden de los elemento en un array (que el primero esté ultimo y el último primero)?
Creamos la función invertirArray.
6. ¿Cómo podes usar lo aprendido para obtener todos los elementos en posiciones pares? ¿Cómo puede usar lo aprendido para obtener todos los elementos en posiciones impares?
Creamos las funciones posPares, posImpares.
7. La misma sintaxis sirve para asignar nuevos valores. Hace la prueba

In [6]:
x=np.array([0,1,2,3,4,5,6,7,8,9])
print(x[0])
print(x[-1])
print(x[0:4])
print(x[0:10:3])
y=np.array([[1,2,3],[4,5,6],[7,8,9]])
print(y[0])
print(y[-1])
print(y[0:4])
print(y[10:11:3])
print(type(y[0:11]))
print(type(x[0]))

0
9
[0 1 2 3]
[0 3 6 9]
[1 2 3]
[7 8 9]
[[1 2 3]
 [4 5 6]
 [7 8 9]]
[]
<class 'numpy.ndarray'>
<class 'numpy.int64'>


In [7]:
#ejercicio5
def invertirArray(x):
  return x[::-1]

In [8]:
#ejercicio6
def posPares(x):
  return x[::2]  #consideramos la pos cero como pos par
def porImpares(x):
  return x[1::2]

In [9]:
#asignar nuevos valores
x=np.array([0,1,2,3,4,5,6,7,8,9])
x[0]=10
print(x)
x[2:4]=[0,0]
print(x)

[10  1  2  3  4  5  6  7  8  9]
[10  1  0  0  4  5  6  7  8  9]


## Funciones

Asi como los operadores aplican sobre cada elemento del array, hay muchas operaciones como `cos`, `sin`, `tan`, `sqrt` que tambien lo hacen. Lo mismo pasa con `round`, `ceil`, `floor`. Otras cómo `logical_and`, `logical_or`, `hypot` operan sobre mas de un array y devuelven otró. Finalmente, otras como `sum`, `all`, `any` toman un array y devuelven un escalar.

1. Busca estas funciones en la documentación de NumPy y probalas.

2. Muchas (¿todas?) de estas funciones tienen un parámetro llamado `out`. ¿Para qué sirve?
El parametro out establece como se va a guardar el resultado en memeoria. Acepta estructuras específicas de datos. Por default devuelve otro array.
3. ¿Qué diferencia hay entre la función `max` y `argmax`?
La función max me devuelve el maximo valor de una array y la función argmax me decuelve la posición ddel máximo.

In [10]:
x=np.array([0,1,2,3,4,5,45,7,8,9])
y=np.array([10,11,12,13,14,15,16,17,18,19])
print(np.max(x))
print(np.argmax(x))
print(np.max(y))
print(np.argmax(y))

45
6
19
9


In [11]:
np.logical_or(x,y)
np.logical_and(x,y)

array([False,  True,  True,  True,  True,  True,  True,  True,  True,
        True])

También podes escribir tus propias funciones que tomen arrays

In [12]:
def norma_euclidea(vec):
    """Calcula la normal euclidea de un vector."""
    return np.sqrt(np.sum(vec * vec))

Escribi las siguientes funciones
1. devuelva la cantidad de elementos positivos dentro de un array.
2. devuelva la cantidad de elementos x, tal que a <= x <= b (con a y b parametros de la función). Nota: cuando haces operaciones múltiples la precedencia de los operadores es importante. Fijate como son las de Python.
3. busque el maximo del array y lo reemplace por 0.

In [13]:
def elementosPositivos(x):
  res=0
  for i in range(len(x)):
    if x[i]>0:
      res+=1
  return res

In [14]:
def entreAyB(x,a,b):
  res=0
  for i in range(len(x)):
    if a<=x[i]<=b:
      res+=1
  return res

In [15]:
def maximoPorCero(x):
  x[np.argmax(x)]=0
  return x

## Estadística descriptiva

Cuando un conjunto de datos empieza a ser mas grande es conveniente definir algunos observables para resumirlos. Bien usados, pueden utilizarse para buscar tendencias, comparar conjuntos de datos, identificar anomalías.

- La **tendencia central** sobre informa sobre los centros de los datos. Los observables mas comunes incluyen la **media** y la **mediana**.
- La **variabilidad**  informa sobre la dispersión de los datos. Los observables mas comunes incluyen la **desviación estándar** y el **rango intercuartil**.
- La correlación o variabilidad conjunta le informa sobre la relación entre un par de variables en un conjunto de datos. Las medidas útiles incluyen la **covarianza** y el **coeficiente de correlación**.

**Para hacer usando sólo operadores matemáticos y `np.sum`**
1. Busca la definición matemática y escribí una función para calcular la media.
2. Busca la definición matemática y escribí una función para calcular la desviación estandar.

En Jupyter Notebook se puede escribir formulas en $\LaTeX$ poniendo el contenido deseado entre `$`. Esto permite crear Jupyter Notebooks que no solo sean ejecutables sino también que se lean como un libro. Si sabes $\LaTeX$ (o querés aprender), pone la formula de la media y la desviacion estandar.

### ***Media***
Es un estimativo del valor $μ$. Al hacer tender N → $∞$, $\bar{x}$ → $μ$
$$\bar{x} = \frac{\sum_{i=1}^n x_i}{N}$$



### ***Desviación estandar***
Podemos estimar el valor de $σ$ reemplazando $μ$ por $\bar{x}$

$$σ=\sqrt{\frac{\sum_{i=1}^n (x_i-μ)^2}{N}}$$

In [16]:
def media(x):
  return np.sum(x)/len(x) #media es una estimación de de mu
def desviacionEstandar(x): #la desviación es una estimación de sigma #preguntar axis
  return np.sqrt(np.sum((x-media(x))**2)/len(x)) #

**Para hacer**
1. Armá un array con la altura de las 10 personas que tengas a tu alrededor.
2. Aplicá la función `np.ptp`. ¿Qué hace?
3. Calculá usando funciones de numpy la media y la desviación estandar.
4. Calculá usando funciones de numpy la mediana y rango intercuartil.
5. En algunos casos, hay datos faltantes o incorrectos que se anotan como Not a Number (`np.nan`). Agrega ese dato al array y fijate que pasa con los resultados de los puntos 2 a 4. ¿Cómo podes solucionarlo?

In [17]:
alturas=np.array([160,158,168,150,155,161,162, 165,168,170])
x=np.ptp(alturas) #peak to peak
print(x) #me devuelve el rango de valores. La difrencia entre el maximo y el minimo.

20


In [22]:
#media de alturas
mediaAlturas=np.mean(alturas)
#desviacion estandar
desviacionAlturas=np.std(alturas)
print(mediaAlturas)
print(desviacionAlturas)

161.7
5.984145720150872


In [None]:
#mediana de alturas
medianaAlturas=np.median(alturas) #cuartil dos, quedan la mitad de los datos arriba y la otra mitad por abajo.
#rango intercuartil
rangoAlturas=np.percentile(alturas,75)-np.percentile(alturas,25) #cuartil 3 - cuartil 2
                                                                 #el cuartil tres tiene el 75% de los datos por debajo
                                                                 #el cuartil dos tiene el 25% de los datos por abajo

## Azar (o casi)

Con la computadora es muy facil generar datos [pseudoaleatorios](https://en.wikipedia.org/wiki/Pseudorandom_number_generator) y asi aprender estadísitica.

In [18]:
rng = np.random.default_rng()  # creamos un Random Number Generator (RNG)
                               # crea un numero aleatorio en el intervalo [0,1) #revisar


In [19]:
# Con la función choice podemos elegir entre un grupo finito de opciones
x = np.array(["cara", "ceca"])
rng.choice(x, size=10)

array(['cara', 'cara', 'cara', 'cara', 'cara', 'cara', 'cara', 'cara',
       'ceca', 'cara'], dtype='<U4')

**Para hacer**

1. ¿Qué hace el parámetro `size`?

  Size determina la cantidad de veces que generamos el valor random.

2. Buscar qué hace el parámetro `replace` en la función `choice` y probar.

  El parametro replace es un booleano por default TRue, lo que significa que un valor se puede elegir multiples veces.

3. ¿Qué pasa si lo corren otra vez? ¿Dá igual?

    No da igual.

4. ¿Salió mitad de las veces cara y mitad de las veces ceca?

  No.

5. Simular 10 lanzamientos de una moneda y calcular el promedio de veces que sale cara. Repetir para $n = 1000$ y $n = 100.000$.

In [24]:
diezLanzamientos=rng.choice(x, size=10)
print(np.mean(diezLanzamientos=="cara"))
milLanzamientos=rng.choice(x, size=1000)
print(np.mean(milLanzamientos=="cara"))
cienmilLanzamientos=rng.choice(x, size=100000)
print(np.mean(cienmilLanzamientos=="cara"))


0.5
0.484
0.49896


In [20]:
# Con la función normal podemos obtener numeros al azar de una distribución normal.
rng.normal(0, 1, size=10) #mean=0 #std=1 #size=cant de datos

array([-2.51823492, -0.70439156,  0.28858848, -0.17582885, -0.71144505,
        1.10158893,  0.389278  , -0.27094734,  1.01115867, -0.79192765])

**Para hacer y pensar en grupo**

Estás jugando a los dados. Se tiran dos, y se suman sus valores. Calculá con simulaciones la frecuencia con la que aparece cada valor. Compará con lo que esperás.

**Para hacer y pensar en grupo**

1. ¿Qué son los dos primero parámetros?
Hago simulaciones y cuento la cantidad de casos favorables. Es decir, la cantidad de veces que salio un valor dado. Lo que esperaria, es contar la cantidad de casos favorables de acuerdo a la probabilidad de cada valor.
2. Simular 10 valores y calcular el promedio, la desviación estandar, la media y el rango intercuartil. Repetir para $n = 1000$ y $n = 100.000$.
3. Buscar que es el **error estandar de la media** y calcularlo. Luego elaborar un programa para entender con simulaciones

In [27]:
valores_dado = np.array([1,2,3,4,5,6])
#diez tiradas
dado_1=rng.choice(valores_dado, size=10)
dado_2=rng.choice(valores_dado, size=10)
suma_dados=dado_1+dado_2
print(np.mean(suma_dados)) #promedio
print(np.std(suma_dados)) #desviacion estandar
print(np.median(suma_dados)) #media
print(np.percentile(suma_dados,75)-np.percentile(suma_dados,25)) #rango intercuartil
print(np.std(suma_dados)/(10)**(0.5)) #error de la media
#1000 tiradas
dado_1=rng.choice(valores_dado, size=1000)
dado_2=rng.choice(valores_dado, size=1000)
suma_dados=dado_1+dado_2
print(np.mean(suma_dados)) #promedio
print(np.std(suma_dados)) #desviacion estandar
print(np.median(suma_dados)) #media
print(np.percentile(suma_dados,75)-np.percentile(suma_dados,25)) #rango intercuartil
print(np.std(suma_dados)/(1000)**(0.5)) #error de la media
#100000 tiradas
dado_1=rng.choice(valores_dado, size=100000)
dado_2=rng.choice(valores_dado, size=100000)
suma_dados=dado_1+dado_2
print(np.mean(suma_dados)) #promedio
print(np.std(suma_dados)) #desviacion estandar
print(np.median(suma_dados)) #media
print(np.percentile(suma_dados,75)-np.percentile(suma_dados,25)) #rango intercuartil
print(np.std(suma_dados)/(100000)**(0.5)) #error de la media

8.6
1.5620499351813308
8.5
1.75
0.4939635614091387
7.009
2.3930982010774233
7.0
4.0
0.07567640979856272
7.0018
2.415991879125425
7.0
4.0
0.007640037146506554


In [None]:
#preguntar

El ***error estándar de la media*** (EEM) es una medida estadística que evalúa la precisión con la que una muestra representa a una población. Se calcula como la desviación estándar de la muestra dividida por la raíz cuadrada del tamaño de la muestra:

EEM = s / √n

Donde:

s es la desviación estándar de la muestra.

n es el tamaño de la muestra.

Un error estándar más pequeño indica que la media de la muestra es una mejor estimación de la media de la población. Se utiliza comúnmente en intervalos de confianza y pruebas de hipótesis.

**Azar reproducible**

En algunas ocasiones queremos repetir una o más realizaciones de una tirada al azar. Buscando sobre *seed* en la documentación de NumPy, logren un programa que repita la misma secuencia de realizaciones.

Respuesta:

***Como ya mencionamos, la computadora genera números pseudoaleatorios, luego podemos hacer que nos genere siempre los mismos números, inicializando el algoritmo siempre igual (la misma "seed\semilla")***


In [29]:
seed = 42
rng = np.random.default_rng(seed)
random_numbers = rng.random(5)
print(random_numbers)
print(random_numbers)
print(random_numbers)
print(random_numbers)


[0.77395605 0.43887844 0.85859792 0.69736803 0.09417735]
[0.77395605 0.43887844 0.85859792 0.69736803 0.09417735]
[0.77395605 0.43887844 0.85859792 0.69736803 0.09417735]
[0.77395605 0.43887844 0.85859792 0.69736803 0.09417735]


## Arrays multidimensionales

Además de vectores, utilizando numpy pueden definirse arreglos multidimensionales a partir de listas anidadas.

Veamos algunas **matrices** (arreglos de dos dimensiones):

In [21]:
A = np.array([[3, 2, 2], [-1, 0, 1], [-2, 2, 4]])
B = np.array([[1, 0, 0], [0, 1, 0], [0, 0, 1]])
C = np.array([[0, 1, -1], [5, -2, 1]])
A + B

array([[ 4,  2,  2],
       [-1,  1,  1],
       [-2,  2,  5]])

**Para pensar en grupo**

1. ¿Cómo son los `dtype`, `ndim`, `size`, `shape` y `nbytes` obtenidos?
2. ¿Qué diferencia hay entre `A[0, 1]` y `A[1, 0]`?

  El primero me da el elemento 1 del elemento 0 del array, y el segundo me da el elemento cero del elemento 1 del array.

3. ¿Cómo obtengo una fila?

  "A["fila",:]"

4. ¿Cómo obtengo una columna?

  "A[:;"columna"]"

5. Buscar como obtener la matriz transpuesta y verificar
6. El producto matricial se realiza con el operador `@`. Verificar multiplicando `A` y `B`.
7. Escribir un vector `x` cualquiera y calcular el producto matricial entre `C` y `x`



In [30]:
A_traspuesta=np.transpose(A)
print(A_traspuesta)
AB=A@B
print(AB)
x=np.array([1,2,3])
print(C@x)

[[ 3 -1 -2]
 [ 2  0  2]
 [ 2  1  4]]
[[ 3  2  2]
 [-1  0  1]
 [-2  2  4]]
[-1  4]


*Para leer en casa*: un concepto central de numpy se denomina **Array Broadcasting**. ¿De qué se trata?