## Estadística
 

In [155]:
## Importar paqueterías
import numpy as np
import pandas as pd

## Medidas de posición
Son estadísticas descriptivas que nos indican dónde se encuentran ubicados los datos dentro de una distribución. Nos ayudan a entender el centro o la tendencia central de un conjunto de datos.

- **Media o Promedio**: Suma de todos los valores dividida entre el número total de valores.
- **Mediana**: Valor que divide al conjunto de datos en dos partes iguales.
- **ModaL**: Valor que más se repite en el conjunto de datos.
- **Cuartiles**: Dividen al conjunto de datos en cuatro partes iguales.
- **Percentiles**: Dividen al conjunto de datos en 100 partes iguales.


In [156]:
# Crear un DataFrame de ejemplo
data = {'Valor': [1, 2, 3, 4, 5, 5, 6, 7, 8, 10]}
df = pd.DataFrame(data)

# Calcular medidas de posición
media = df['Valor'].mean()
mediana = df['Valor'].median()
moda = df['Valor'].mode()
cuartiles = df['Valor'].quantile([0.25, 0.5, 0.75])

# Imprimir resultados
print('Media:', media)
print('Mediana:', mediana)
print('Moda:', moda)
print('Cuartiles:\n', cuartiles)

Media: 5.1
Mediana: 5.0
Moda: 0    5
Name: Valor, dtype: int64
Cuartiles:
 0.25    3.25
0.50    5.00
0.75    6.75
Name: Valor, dtype: float64


## Medidas de variabilidad
Las medidas de variabilidad nos permiten cuantificar el grado de dispersión o heterogeneidad de un conjunto de datos. Es decir, nos indican qué tan diferentes son los valores entre sí.

- **Rango**: Diferencia entre el valor máximo y el valor mínimo de un conjunto de datos.
- **Varianza**: Promedio de las desviaciones cuadráticas de cada dato respecto a la media.
- **Desviación** estándar: Raíz cuadrada de la varianza.
- **Coeficiente** de variación: Relación entre la desviación estándar y la media, expresada como porcentaje.
- **Cuartiles y rango intercuartílico**: El rango intercuartílico (IQR) es la diferencia entre el tercer y el primer cuartil.

La **varianza** se puede calcular mediamnte la función `var()`. 

In [157]:
## Calcular la varianza
x = [1, 2, 3, 4, 5, 6] # dataset

variance = np.var(x)
print(variance)

2.9166666666666665


Para calcular la **covarianza** es necesario calcular la matriz de covarianza utilizando el comando `cov()`. 

In [158]:
## Calcular la cobvarianza
x = [1, 2, 3, 4, 5, 6] # dataset 1
y = [41, 62, 89, 96, 108, 115] # dataset 2

## Calculamos la matriz de covarianza
covariance_matrix = np.cov(x,y)

## Extraemos la covarianza como valor
covariance = covariance_matrix[0][1] 
print(covariance)

51.5


Para calcular la desviación estándar, que es la raíz cuadrada de la varianza, se puede utilizar el método `describe()` o bien con el método `std()` de la paquetería Numpy. 

In [159]:
# Obtener la varianza 
## Método describe()
s = pd.Series([1, 2, 3, 4, 5, 6])
print(s.describe().round(2))
print()

## Método std()
standard_deviation = np.std(x)
print(standard_deviation.round(2))

count    6.00
mean     3.50
std      1.87
min      1.00
25%      2.25
50%      3.50
75%      4.75
max      6.00
dtype: float64

1.71


## Probabilidad de espacio muestral
Se define como **espacio muestral** a el conjunto de todos estos resultados posibles, y se como ***S***. 

Es necesario tener en cuenta que **todos y cada uno** de los resultados deben incluirse en el espacio muestral. 

En Python, los cálculos de probabilidad simples basados en espacios muestrales se pueden realizar fácilmente usando el operador lógico `==` y la función `len()`.


In [160]:
cool_rock = pd.DataFrame(
    {
        'Artist': [
            'Queen',
            'Queen',
            'Queen',
            'Pink Floyd',
            'Nirvana',
            'AC/DC',
            'AC/DC',
            'Scorpions',
            'Scorpions',
            'Scorpions',
        ],
        'Song': [
            'The Show Must Go On',
            'Another One Bites The Dust',
            'We Will Rock You',
            'Wish You Were Here',
            'Smells Like Teen Spirit',
            'Highway To Hell',
            'Back in Black',
            'Wind Of Change',
            'Still Loving You',
            'Send Me An Angel',
        ],
    }
)
print(cool_rock)

       Artist                        Song
0       Queen         The Show Must Go On
1       Queen  Another One Bites The Dust
2       Queen            We Will Rock You
3  Pink Floyd          Wish You Were Here
4     Nirvana     Smells Like Teen Spirit
5       AC/DC             Highway To Hell
6       AC/DC               Back in Black
7   Scorpions              Wind Of Change
8   Scorpions            Still Loving You
9   Scorpions            Send Me An Angel


¿Cuál es la probabilidad de que si pulso aleatorio salga la canción "Smells Like Teen Spirit"

In [161]:
# Calcular la probabilidad
## Identificar los resultados que satisfacen el evento
interested_song = cool_rock[cool_rock["Song"]=="Smells Like Teen Spirit"]

## Determinar el número de resultados que satisfacen el evento
len_song_interested = len(interested_song)

## Contar el tamaño del espacio muestral.
total_song = len(cool_rock)

## Obtener la probabilidad
print("Por pasos:", len_song_interested/total_song)

## Obtener la probabilidad en un solo comando 
print("Directo:", len(cool_rock[cool_rock["Song"]=="Smells Like Teen Spirit"])/len(cool_rock))


Por pasos: 0.1
Directo: 0.1


## Factoriales 

Para calcular el número de permutaciones de *n* elementos se utiliza el factorial `!`. Para calcularlo en Python se puede utilizar la función `factorial()` del módulo `math`.

In [162]:
# Importar la función factorial del módulo matemático
from math import factorial

# Definir el número necesario de elementos
courses_amount = 3

# Calculae el factorial de 3 (el valor de la variable courses_amount)
result = factorial(courses_amount)

print(result)

6


## Combinaciones
Otra parte importante de la probabilidad y estadística son las **combinaciones**. Para calcular el número de combinaciones de *k* elementos de *n* opciones posibles:

In [163]:
# Definir los valores para las variables n y k
n = 10 # Número de elementos
k = 3  # Número de opciones posibilidades

# Realizar los cálculos
combinations = factorial(n) / (factorial(k) * factorial(n-k))
print(combinations)

120.0


Si observamos, la fórmula de permutación es similar a la fórmula e combinaciones, donde se le agregan los términos relacionados con el número de combinaciones de *k*. 

### Ejercicio

Estás desarrollando con tus amigos un juego de búsqueda que consta de 10 tareas diferentes. Las tareas pueden realizarse en cualquier orden, pero solo una secuencia de todas las existentes permite a los jugadores ganar el superpremio. ¿Cuál es la probabilidad de ganar el superpremio, suponiendo que la probabilidad de elegir cada tarea en cualquier fase de la búsqueda es la misma?

In [164]:
# Definir los valores para las variables n y k
## Solo hay elementos y no hay combinaciones específicas, k=0
tasks = 10 # Elementos o n

## Calculo de las permutaciones o combinaciones posibles
permutations = factorial(tasks)

## Probabilidad: solo una secuencia permite ganar el superpremio
probability = 1 / permutations

print(probability)

2.755731922398589e-07


Existen 10 tareas diferentes, por lo tanto, existen 3,628,800 combinaciones diferentes. La probabilidad de ganar el superpremio con la secuencia de tareas ordenadas de manera correcta es inferior al 0.00003%. 

Ahora, los jugadores pueden elegir las tres tareas con las que quieren empezar el juego. El orden de las tareas no importa, lo importante es la combinación. Si los jugadores consiguen adivinar la "combinación secreta", recibirán un código promocional de descuento. Por lo tanto  

In [165]:
# Definir los valores para las variables n y k
## Existen 10 tareas y se pueden seleccionar 3 tareas con las que empezar
tasks = 10 # Elementos o n
chosen = 3 # Opciones a seleccionar o k

## Calculo de las permutaciones o combinaciones posibles
permutations = factorial(tasks)/(factorial(chosen)*factorial(tasks-chosen))
print(permutations)
## Probabilidad: solo una secuencia permite ganar el superpremio
probability = 1 / permutations

print(probability)

120.0
0.008333333333333333


En esta ocasión, de las 10 tareas existentes y al seleccionar las tres posibles tareas con las cuales empezar, se tienen 120 opciones disponibles. Esto hace que la probabilidad de obtener un código promocional es de casi el 1% 

## Distribuciones
---
La mayoría de las variables aleatorias se modelan en una forma que puede ser descrita por parámetros. Esto es lo que normalmente llamamos **distribuciones de datos**.

Las distribuciones de datos son una de las piedras angulares de las estadísticas. Las pruebas de hipótesis y la teoría de la probabilidad surgieron del simple concepto de trazar las múltiples ocurrencias de una variable aleatoria, visualizar su forma y realizar algún cálculo con ella. Las distribuciones nos ayudan a entender:

- ¿Cuál es el promedio/valor esperado de una variable aleatoria?
- ¿Cuál es la varianza/dispersión de una variable aleatoria?
- ¿Cuál es el rango de valores?

Existen dos tipos de distribuciones **discretas** (toman un cierto número de valores) y **contínuas** (toman un número infinitesimal de valores). 

En Python, es posible crear datasets con varios tipos de distribución, vamos a utilizar la librería NumPy. El objeto principal es un `ndarray` (array N-dimensional), que es un array multidimensional que contiene elementos del mismo tipo y no puede modificarse durante la ejecución del código.Para crear ndarray utilizamos la función `np.array()`. 

In [166]:
## Creación de un ndarray
data = np.array([1, 3, 5, 7, 11, 13, 17, 19, 23, 317])

## Distribuciones



### Distribución normal

Numpy puede utilizarse para generar números aleatorios con una distribución específica. Para crear una distribución normal es necesario llamar la función `normal()` del método `random`. 

In [167]:
data = np.random.normal(size=20)
print(data)

[ 1.45894028 -0.67569883 -1.02160435 -1.74454689  0.2734696  -1.84439435
 -0.90970952 -0.85851309  1.11720635  0.61495306  0.44906847 -0.17359892
 -2.62712456 -0.6850846  -1.34096444  0.31736263 -0.3865321   0.37835843
  0.47365329  0.16827802]


Es posible generar arrays con media y desviación estándar dadas, para ello tenemos que especificarlos dentro de la función con los parámetros `loc` y `scale`, respectivamente. 

In [168]:
data = np.random.normal(loc=15, scale=5, size=20)
print(data)

[ 7.77971919 17.04481283 13.22036567 15.20044722 15.0723213  19.49309772
 16.35942332 19.10804815 21.4130295  13.80986728 11.30325418 22.82624399
 14.98246005 13.96663611 22.56999564 25.75576117 21.38897669 17.30580714
 15.96805833 16.01985792]


**Ejercicio**: Tenemos que contar a los estudiantes que obtuvieron resultados: excelente (90 puntos o más), notable (70-89 puntos), satisfactorio (50-69), aprobado (20-49) y que reprobaron (20 o menos). 

Crea un diccionario summarized_data y escribe código para rellenarlo con los datos necesarios.

In [169]:
## Datos
exam_results = np.array(
    [
        42,  56,  59,  76,  43,  34,  62,  51,  50,  65,  
        66,  50,  46,  5,  79, 99,  51,  26,  35,   8,  
        34,  47,  64,  58,  61,  12,  30,  63,  20,  68
    ]
)

## Diccionario con valores iniciales
summarized_data = {'excellent': 0, 
                   'good': 0, 
                   'average': 0, 
                   'passable': 0,  
                   'failed': 0
                  }

## Bucle para sumar a la lista  
for grade in exam_results: 
    if grade >= 90:
        summarized_data["excellent"] +=1
    elif grade >= 70:
        summarized_data["good"] +=1
    elif grade >= 50:
        summarized_data["average"] +=1
    elif grade >= 20:
        summarized_data["passable"] +=1
    else: 
        summarized_data["failed"] +=1
        

## Código para mostrar los resultados en pantalla.
for result in summarized_data:
    print(result, '-', summarized_data[result])

excellent - 1
good - 2
average - 14
passable - 10
failed - 3


### Distribución binomial o de Bernoulli
En el mundo real, existen muchos experimentos con dos resultados posibles. Por ejemplo ganar o no la lotería, si la tostada cae boca arriba o boca abajo, si el cliente cambia de cuenta premium o rechaza la oferta. Cuando realizamos un experimento una vez y hay dos resultados posibles, estamos ante un **experimento binomial simple** o **ensayo de Bernoulli.**. 

Este tipo de experimentos tiene dos tipos de resultados ***éxito*** o ***fracaso***. Si la probabilidad de éxito es *p*, entonces el fracaso es 1-*p*. Recordemos que la probabilidad es el 100% osea 1. 

Si queremos determinar la probabilidad de e una cierta combinación de éxitos y fracasos es el producto de las probabilidades de cada éxito y fracaso individual. Es decir si queremos calcular la probabilidad de la combinación de éxito-éxito-fracaso-fracaso-éxito (**en ese orden**), calculamos p * p * (1-p) * (1-p) * p. 

**Ejemplo**: Supongamos que en el 88% de las casos los usuarios y las usuarias hacen su primer clic en un banner publicitario, y en el 12% de los casos hacen clic en otro sitio y acaban en una página diferente. ¿Cuál es la probabilidad de que, de dos usuarios diferentes, uno haga clic en el banner y el otro no?   

Para un usuario sería la probabilidad de hacerlo por la probabilidad de no hacerlo, por lo tanto sería: 0.88 * 0.12 = 0.1056, si eso lo aplicamos para el segundo usuario, tendríamos que la suma de ambos sería 0.21112, es decir el 21.12%.


**Ejercicio**: 
Los portátiles de Pineapple son caros, pero siguen siendo populares entre los geeks de la informática: el 60% de los clientes están dispuestos a comprarse una computadora portátil de esta marca si acuden a la tienda. Los portátiles de Banana son más baratos, pero no tan populares: solo el 20% de los visitantes de la tienda están dispuestos a comprarlos.
Supongamos que la tienda solo tiene a la venta equipos de Pineapple. ¿Cuál es la probabilidad de que 50 de cada 80 clientes realicen una compra en un día?

In [170]:
## Probabilidades
probs= np.array([0.75, 0.25])

## Opciones


In [171]:
p = 0.6 # la probabilidad de que un cliente realice una compra
q = 0.4 # la probabilidad de que un cliente NO realice una compra
n = 80  # el número total de visitantes
k = 50  # el número de visitantes que esperamos que realicen una compra

probability = factorial(n) / (factorial(k) * factorial(n-k)) * (p ** k) * (q ** (n-k))

print(probability)

0.0826713508623046


### Distribución uniforme
Discreta

Continua

### Distribución binomial
Es el experimento de Bernoiulli pero realizado con repeticiones


### Distibución normal (Gaussiana)

En Python es posible generar distribuciones normales con parámetros dados utilizando la función `stats.norm()`, con la librería SciPy. También estudiaremos los métodos `norm.cdf` y `norm.ppf`, que permiten: 

| Nombre| Sintaxis| Explicación	| Ejemplo|
| ---   | ---    | --- | --- |
|La función de distribución acumulativa| `norm.cdf()`	|Da la probabilidad de que una variable aleatoria sea menor o igual que un valor determinado |	¿Cuál es la probabilidad de que un estudiante pueda aprender una nueva profesión por menos de 4 000 dólares?|
|La función de punto porcentual| 	`norm.ppf()` | Da el valor de la variable aleatoria que corresponde a una determinada probabilidad|	¿Cuál es el coste máximo de la formación para el 10% de los estudiantes que gastaron menos dinero en sus estudios?| 

In [None]:
## Importar el módulo stats.
from scipy import stats as st

#® Crear una distribuidos normal con una media de 5 000 y una desviación estándar de 1500.
data = st.norm(5000, 1500)

# Pregunta 1
## Crear una variable para almacenar el coste deseado.
desired_cost = 4000

## Calcular la probabilidad de obtener el valor desired_cost.
probability = data.cdf(desired_cost)

print(probability)

# Pregunta 2
## Establecemos el valor de la probabilidad. Buscaremos el umbral del coste de los estudios 
# para el 10% de los estudiantes que gastaron menos dinero.
target_level = 0.1

## Encontramos el importe que no supere los gastos del 10% de estudiantes que gastaron menos dinero.
cost = data.ppf(target_level)

print(cost)

Ejercicio
La puntuación media en el examen del Certificado de análisis de datos es 1000 y la desviación estándar es 100. Hay que encontrar la probabilidad de obtener entre 900 y 1 100 puntos en el examen.

¿Qué código se debe utilizar para ello?
**R**: `st.norm(1000, 100).cdf(1100) - st.norm(1000, 100).cdf(900)`

> El `cdf`siempre ira acompañado a la pregunta ¿cuá es la probabilidad?

Encuentra la probabilidad de que en el próximo mes el sitio web del outlet tenga:

menos de 92 000 visitantes;
más de 111 000 visitantes.

In [175]:
from scipy import stats as st

mu = 100500
sigma = 3500

more_threshold = 111000
fewer_threshold = 92000

p_more_visitors = 1 - st.norm(mu, sigma).cdf(more_threshold)
p_fewer_visitors = st.norm(mu, sigma).cdf(fewer_threshold)

print(f'Probabilidad de que el número de visitantes sea superior a {more_threshold}: {p_more_visitors}')
print(f'Probabilidad de que el número de visitantes sea inferior a {fewer_threshold}: {p_fewer_visitors}')

Probabilidad de que el número de visitantes sea superior a 111000: 0.0013498980316301035
Probabilidad de que el número de visitantes sea inferior a 92000: 0.0075792194387197245


> Si me dan la probabilidad entonces va de la mano del `ppf()`

Fancy Pants, vende productos de regalo a un público muy limitado de clientes corporativos. Las ventas semanales en la tienda de conjuntos de ajedrez de lujo fabricados con colmillo de mamut tienen una distribución normal con una media de 420 y una desviación estándar de 65.

El equipo de inventario está decidiendo cuántos conjuntos pedir. Quieren que la posibilidad de venderlos todos la próxima semana sea del 90%. ¿Cuántos deben pedir?

In [None]:
from scipy import stats as st

mu = 420
sigma = 65
prob = 0.9

n_shipment = st.norm(mu, sigma).ppf(1 - prob)

print('Cantidad de artículos a pedir:', int(n_shipment))

### Combinación de las distribuciones binomiales y normales


### Distribución de Poisson
