# **Teor√≠a de la probabilidad**

Nadie puede predecir el futuro con un 100% de seguridad, pero los estad√≠sticos son capaces de calcular la probabilidad de varios resultados en situaciones muy diversas. Aunque no resuelve todos los problemas, hace nuestra vida m√°s f√°cil y predecible.
En este cap√≠tulo, descubrir√°s c√≥mo calcular las probabilidades de distintos eventos utilizando datos diferentes.

Aprender√©:

- F√≥rmulas b√°sicas para calcular la probabilidad de eventos √∫nicos y m√∫ltiples.
- Fundamentos de combinatoria.
- Tipos de distribuci√≥n de caracter√≠sticas, incluidas la binomial y la normal.
- Utilizar Python para resolver problemas relacionados con el c√°lculo de probabilidades.

En estad√≠stica, utilizamos la letra P para denotar probabilidad y la letra A para denotar un evento de nuestro inter√©s. Por lo tanto, la notaci√≥n P(A) describe la probabilidad del evento A.
El P(A) puede calcularse del siguiente modo:

`# de resultados que satisfacen el evento

`-----------------------------------------

` de resultados que satisfacen el evento
‚Äã
 
Si el evento A se define como "tirar un n√∫mero de 5 o mayor", entonces P(A) es (1 + 1) / 6 = 1/3.

## Eventos y espacios muestrales

El conjunto de todos los resultados posibles de un experimento se denomina espacio muestral, normalmente denotado con S.

Para ilustrarlo, consideremos el ejemplo de lanzar un solo dado. El espacio de muestra asociado a este evento es:

S={1,2,3,4,5,6}

**Por ejemplo, supongamos que el evento A es "sacar un n√∫mero menor que 3". Despu√©s de examinar el espacio muestral, observamos que hay dos n√∫meros que son menores que 3. Por consiguiente, la probabilidad del evento A, representada por P(A), donde P representa la probabilidad, es 2 (el n√∫mero de resultados que satisfacen A) dividido entre 6 (la longitud de S).**

**Ejemplo 1:**

Volvamos al ejemplo de los billetes de loter√≠a. Tenemos el mismo conjunto que antes, pero los resultados han cambiado. El billete #1 gana $100, los billetes #2 y #3 ganan $10 cada uno, el billete #4 gana otro billete de loter√≠a y los billetes restantes no son ganadores. ¬øQu√© es S en esta situaci√≥n?

**{#1 ($100), #2 ($10), #3 ($10), #4 (new ticket), #5 (-), #6 (-), #7 (-), #8 (-), #9 (-), #10 (-)}**
*Todos y cada uno de los billetes deben incluirse en el espacio muestral.*

**Ejemplo 2:**

El documento analiza el espacio muestral de tirar dos dados, donde cada par es el resultado del primer y segundo dado. Con s√≥lo a√±adir una tirada m√°s, el espacio muestral pasa de 6 a 36 resultados. Como cada dado es independiente, los 36 resultados tienen la misma probabilidad de ocurrir. Las probabilidades pueden calcularse de la misma manera.

Se lanzan dos dados. Que sea el evento A "la suma de los dos dados es 5". ¬øQu√© es P(A)?

**4/36**

*Hay cuatro combinaciones posibles: {1, 4}, {4, 1}, {2, 3}, {3, 2}. Por lo tanto, tenemos que poner 4 en el numerador y 36 (el n√∫mero total de resultados posibles) en el denominador.*

## Ley de los grandes n√∫meros

La ley de los grandes n√∫meros establece que, a medida que el n√∫mero de lanzamientos se acerca al infinito, la frecuencia relativa de este evento se aproximar√° a la verdadera probabilidad del evento.

## Probabilidades del espacio muestral en Python

En Python, los c√°lculos de probabilidad simples basados en espacios muestrales como estos se pueden realizar f√°cilmente usando el operador l√≥gico == y la funci√≥n len().

- Utilizar == identificar√° las filas que satisfacen tu evento.
- len() proporcionar√° el recuento de filas que satisfacen tu evento.

Aqu√≠ te mostramos un ejemplo.

Has creado una lista de reproducci√≥n en la aplicaci√≥n Spotify con dos columnas: 'Artist' y 'Song'.

In [1]:
import pandas as pd

cool_rock = pd.DataFrame(
    {
        'Artist': [
            'Queen',
            'Queen',
            'Queen',
            'Pink Floyd',
            'Nirvana',
            'AC/DC',
            'AC/DC',
            'Scorpions',
            'Scorpions',
            'Scorpions',
        ],
        'Song': [
            'The Show Must Go On',
            'Another One Bites The Dust',
            'We Will Rock You',
            'Wish You Were Here',
            'Smells Like Teen Spirit',
            'Highway To Hell',
            'Back in Black',
            'Wind Of Change',
            'Still Loving You',
            'Send Me An Angel',
        ],
    }
)
print(cool_rock)

       Artist                        Song
0       Queen         The Show Must Go On
1       Queen  Another One Bites The Dust
2       Queen            We Will Rock You
3  Pink Floyd          Wish You Were Here
4     Nirvana     Smells Like Teen Spirit
5       AC/DC             Highway To Hell
6       AC/DC               Back in Black
7   Scorpions              Wind Of Change
8   Scorpions            Still Loving You
9   Scorpions            Send Me An Angel


Suponiendo que pulses aleatorio, cada canci√≥n de la lista de artistas + canciones tiene la misma probabilidad de tocar primero. Esta lista es nuestro espacio de muestra.

¬øCu√°l es la probabilidad de que la primera canci√≥n que suene sea "Smells Like Teen Spirit"?

Usa == para identificar los resultados que satisfacen este evento y usa len() dos veces: una para contar el n√∫mero de resultados que satisfacen el evento y otra vez para contar el tama√±o del espacio muestral.

In [2]:
print(len(cool_rock[cool_rock["Song"] == "Smells Like Teen Spirit"]) / len(cool_rock))

0.1


Utiliza la variable desired_outcomes para almacenar el n√∫mero de resultados deseados, total_outcomes para almacenar el n√∫mero total de resultados, y probability para el resultado final.


In [4]:
import pandas as pd

cool_rock = pd.DataFrame(
    {
        "Artist": [
            "Queen",
            "Queen",
            "Queen",
            "Pink Floyd",
            "Nirvana",
            "AC/DC",
            "AC/DC",
            "Scorpions",
            "Scorpions",
            "Scorpions",
        ],
        "Song": [
            "The Show Must Go On",
            "Another One Bites The Dust",
            "We Will Rock You",
            "Wish You Were Here",
            "Smells Like Teen Spirit",
            "Highway To Hell",
            "Back in Black",
            "Wind Of Change",
            "Still Loving You",
            "Send Me An Angel",
        ],
    }
)

desired_artist = "Queen"

desired_outcomes = len(
    cool_rock[cool_rock["Artist"] == "Queen"]
)  #  c√≥digo para encontrar el n√∫mero de resultados deseados
total_outcomes = len(
    cool_rock
)  #  c√≥digo para encontrar el n√∫mero de resultados totales
probability = (
    desired_outcomes / total_outcomes
)  #  c√≥digo para calcular la probabilidad

print(probability)

#0.3 indica qe hay un 30% de probabilidad de salir

0.3


# ============================

# Eventos independientes, multiplicacion de probabilidades
# ======================

# Eventos independientes, multiplicacion de probabilidades

Supongamos que lanzas dos dados, cada uno con la misma probabilidad de sacar un n√∫mero del 1 al 6. Digamos que nos interesa la suma total que se obtiene cuando se tiran los dos dados

Podemos reformular esta pregunta de la siguiente manera: ¬øCu√°l es la probabilidad de tirar dos dados y obtener una suma superior a 8?
Si definimos el evento A como "obtener una suma superior a 8", entonces la probabilidad de A es P(A) = 10/36 = 27.7%.

# Fundamentos de combinatoria y otros problemas de probabilidad

Imagina que est√°s trabajando en un proyecto para desarrollar una nueva aplicaci√≥n m√≥vil. El proyecto acaba de empezar y te han invitado a colaborar en la resoluci√≥n de posibles problemas relacionados con la selecci√≥n de personal.

Los reclutadores han seleccionado a 5 candidatos para el puesto de programadores, pero solo se necesitan tres para tu proyecto. Los dos candidatos restantes ser√°n asignados a otros equipos. Uno de los candidatos es un conocido tuyo, con el que te gustar√≠a trabajar juntos.

La responsable de RRHH tiene previsto entrevistar a cada uno de los 5 candidatos. Si el orden de las entrevistas es aleatorio, ¬øcu√°l es la probabilidad de que tu conocido sea entrevistado en primer lugar?

> **1/5** 

*Solo hay 5 candidatos, y cada uno de ellos tiene la misma probabilidad de ser el primero en ser entrevistado. Por lo tanto, la probabilidad para cada candidato de ser el primero en ser entrevistado es de 1/5.*

La responsable de RRHH ha solicitado tu ayuda para seleccionar opciones para la secuencia de invitaci√≥n a entrevistas de los candidatos. Sin embargo, ¬øc√≥mo podemos elaborar esta lista?


### Permutaciones. Calcular el factorial

El problema con el que te enfrentas es contar el n√∫mero de posibles permutaciones. Aqu√≠ hay otro ejemplo de tal problema.
Una escuela online ofreci√≥ a un estudiante tres cursos gratuitos:

- ¬øC√≥mo escribir un curr√≠culum eficaz?
- Ayuda profesional en orientaci√≥n profesional.
- ¬°Mejora tus habilidades para las entrevistas!

Estos cursos pueden tomarse en cualquier orden. ¬øCu√°ntos itinerarios educativos diferentes pueden crearse a partir de estos cursos?

Para calcular el n√∫mero de permutaciones de n elementos, los matem√°ticos utilizan la f√≥rmula:

>Pn=n!

Este signo se llama factorial y significa el producto de n√∫meros naturales de 1 a n. En otras palabras,

>n!=1‚ãÖ2‚ãÖ3‚ãÖ...‚ãÖ(n‚àí1)‚ãÖn

As√≠, para tres cursos diferentes, hay 3! = 1 x 2 x 3 = 6 itinerarios educativos diferentes.

# Calcular factoriales en python

Cuando el valor de n es peque√±o, n! puede calcularse mentalmente. Para valores mayores de n, resulta m√°s c√≥modo automatizar el proceso. Para ello, puedes utilizar la funci√≥n factorial() del m√≥dulo math de la librer√≠a est√°ndar de Python.


In [1]:
# importa la funci√≥n factorial del m√≥dulo matem√°tico
from math import factorial

# define el n√∫mero necesario de cursos
courses_amount = 3

# calcula el factorial de 3 (el valor de la variable courses_amount)
result = factorial(courses_amount)

# muestra el resultado
print(result)


6


Se seleccionaron cinco candidatos para el proyecto. La responsable de RRHH quiere entrevistar a cada uno de ellos, pero no puede decidir en qu√© orden va a llamar a los candidatos. Completa el siguiente c√≥digo que calcular√° cu√°ntas opciones de listas se pueden hacer, en las que cinco candidatos est√°n ordenados en un orden diferente.

Guarda el resultado de los c√°lculos en la variable lists_amount. Muestra la variable.

In [3]:
from math import factorial

candidates_amount = 5

lists_amount = factorial(candidates_amount) # agrega aqu√≠ tu c√≥digo
print(lists_amount)

#En pocas palabras, tienen 120 opciones de orden para poder llamarlos.

120


A la responsable de RRHH se le ha ocurrido una nueva idea: ¬øqu√© pasar√≠a si, en lugar de seleccionar candidatos individuales, buscara directamente al equipo perfecto? Para ello, la responsable debe comprender cu√°ntas maneras hay de formar equipos de tres personas, seleccion√°ndolas entre cinco candidatos. Esto le permitir√° programar los horarios de entrevistas para los equipos. ¬øPuedes ayudar a resolver este problema?

## Combinaciones

Esta es una nueva tarea para ti, y antes de resolverla, tenemos que aprender una nueva f√≥rmula: la f√≥rmula para calcular el n√∫mero de combinaciones de k elementos de n opciones posibles. 

Por ejemplo, si una cafeter√≠a vende 10 tipos de helado y quieres comprar tres diferentes, tienes: **120 opciones de combinaciones distintas**

Ahora veamos lo mismo desde Python:

In [4]:
from math import factorial

# define los valores para las variables n y k
n = 10
k = 3

# realiza los c√°lculos
combinations = factorial(n) / (factorial(k) * factorial(n-k))
print(combinations)

120.0


Ahora est√°s listo para ayudar a la responsable de RRHH y determinar el n√∫mero de franjas horarias necesarias para entrevistar a todas las posibles formaciones del equipo.
Completa el siguiente c√≥digo para determinar el n√∫mero de maneras para formar equipos de tres personas seleccion√°ndolas entre cinco candidatos.

Guarda el resultado de los c√°lculos en la variable combinations e impr√≠mela.

In [5]:
from math import factorial

n = 5
k = 3

combinations = factorial(n)/(factorial(k)*factorial(n-k))
print(combinations)

#¬°Tenemos buenas noticias! ¬°Se han reservado las franjas horarias para 10 entrevistas!

10.0


# Uso de f√≥rmulas combinatorias para calcular probabilidades

Tu capacidad para contar los posibles resultados de eventos complejos te permite determinar las probabilidades de distintos resultados o combinaciones de resultados.

Para completar todos los ejercicios siguientes, tendr√°s que utilizar f√≥rmulas para calcular permutaciones o combinaciones y determinar el n√∫mero total de resultados posibles. A continuaci√≥n, puedes dividir el n√∫mero de resultados deseados entre este resultado para determinar la probabilidad.

# Ejercicios

**Ejercicio 1**

Est√°s desarrollando con tus amigos un juego de b√∫squeda que consta de 10 tareas diferentes. Las tareas pueden realizarse en cualquier orden, pero solo una secuencia de todas las existentes permite a los jugadores ganar el superpremio. ¬øCu√°l es la probabilidad de ganar el superpremio, suponiendo que la probabilidad de elegir cada tarea en cualquier fase de la b√∫squeda es la misma?

Completa el c√≥digo siguiente para calcular la probabilidad. Utiliza las siguientes variables:

- tasks: para almacenar el n√∫mero de tareas.
- permutations: para almacenar el n√∫mero de permutaciones.
- probability: para almacenar la probabilidad de elegir la √∫nica secuencia de tareas que permite a los jugadores ganar el superpremio.



In [6]:
from math import factorial

tasks = 10# introduce aqu√≠ el n√∫mero de tareas
permutations = factorial (tasks) # calcula aqu√≠ el n√∫mero total de secuencias de tareas posibles
probability =  1/ permutations# calcula aqu√≠ la probabilidad de seleccionar la √∫nica combinaci√≥n ganadora

print(probability)


#¬°Incre√≠ble! ¬°La probabilidad de ganar el superpremio es inferior al 0.00003%! ¬°Recu√©rdalo la pr√≥xima vez que quieras jugar a la loter√≠a üòú!

2.755731922398589e-07


**Ejercicio 2**

Como los clientes no estaban satisfechos con la dificultad de ganar el superpremio, cambiaste las reglas. Ahora, los jugadores pueden elegir las tres tareas con las que quieren empezar el juego. El orden de las tareas no importa, lo importante es la combinaci√≥n. Si los jugadores consiguen adivinar la "combinaci√≥n secreta", recibir√°n un c√≥digo promocional de descuento.

Para garantizar la equidad, debes calcular la probabilidad de obtener el c√≥digo promocional utilizando las siguientes variables:

- tasks: n√∫mero total de tareas disponibles.
- chosen: n√∫mero de tareas elegidas al principio del juego.
- combinations: n√∫mero total de combinaciones posibles de 3 tareas de las 10 disponibles.
- probability: probabilidad final de obtener el c√≥digo promocional.

Implementa un programa que calcule la probabilidad de obtener el c√≥digo promocional utilizando las variables anteriores.

In [1]:
from math import factorial

tasks = 10  # introduce aqu√≠ el n√∫mero total de tareas
chosen = 3  # introduce aqu√≠ el n√∫mero de tareas a elegir

combinations = factorial(tasks) / (
    factorial(chosen) * factorial(tasks - chosen)
)  # calcula el n√∫mero de combinaciones disponibles
probability = 1 / combinations  # calcula aqu√≠ el resultado final

print(probability)

# ¬°La posibilidad de obtener un c√≥digo promocional es casi del 1%! ¬°Seguro que muchos clientes se animar√°n a probar suerte!

0.008333333333333333


# ==================

# Idea de distribuci√≥n

### Variables aleatorias

Las variables aleatorias son aquellas que toman valores aleatorios. El t√©rmino "aleatorio" en este caso significa que no podemos predecir con un 100% de exactitud qu√© valor tomar√° la variable.

Para tratar estos resultados, es necesario definir num√©ricamente una variable aleatoria. Esto nos permitir√° proyectar los resultados del experimento sobre un eje num√©rico. Por ejemplo, para los visitantes de una tienda online, podemos representar el resultado como 1, si la compra se realiza, o como 0, en caso contrario.

### Las variables aleatorias pueden ser discretas o continuas

Al igual que todas las variables cuantitativas, las variables aleatorias pueden ser discretas o continuas. As√≠, el tiempo pasado en un sitio web es un ejemplo de variable continua, mientras que el n√∫mero de compras es un ejemplo de variable discreta.

- Digamos que X es el tiempo pasado en un sitio web.
- Y es el n√∫mero de compras en una tienda online.
- Tanto X como Y son variables aleatorias.

Entonces recordar:

>Es imposible predecir con un 100% de exactitud qu√© valor tomar√° una variable aleatoria.

## Distribuciones de probabilidad

¬°Genial! Sabemos calcular la probabilidad de valores discretos, por ejemplo, la probabilidad de obtener un determinado valor al lanzar un dado. Pero, ¬øqu√© ocurre en casos m√°s complejos? C√≥mo calculamos la probabilidad de que:

- un cliente gaste m√°s de $50 en la tienda;
- menos del 5% de las piezas producidas en la f√°brica sean defectuosas;
- al menos 25 personas compren entradas para ir al cine.

Incluso para los valores discretos, los c√°lculos pueden ser m√°s complicados que en el ejemplo de los dados.

En estad√≠stica, la distribuci√≥n de probabilidad es una funci√≥n matem√°tica que muestra la probabilidad de diferentes resultados para un experimento. En esta lecci√≥n, te presentaremos distintos tipos de distribuciones de probabilidad utilizando descripciones verbales en lugar de f√≥rmulas matem√°ticas.

> **Distribuci√≥n binomial**: La distribuci√≥n de probabilidad discreta que describe el n√∫mero de resultados positivos en un n√∫mero fijo de ensayos.

Ejemplo: Los resultados de la conversi√≥n en compra de llamadas publicitarias: √âxito: se realiza la compra. Fracaso: el cliente se niega a realizar la compra.

> **Distribuci√≥n uniforme** : La distribuci√≥n de probabilidad continua en la que cada valor dentro de un rango determinado tiene la misma probabilidad de ser seleccionado. 

Ejemplo: Los resultados que se obtienen al tirar un dado: cada resultado tiene la misma probabilidad de ocurrir.

> **Distribuci√≥n normal**: La distribuci√≥n de probabilidad discreta o continua en la que los datos tienden a agruparse en torno a un valor medio o promedio.

Ejemplo: Resultados del examen SAT: la mayor√≠a de los estudiantes de secundaria obtienen una puntuaci√≥n media. Cuanto m√°s cerca est√©n los resultados del m√≠nimo o del m√°ximo, con menos frecuencia se producir√°n.

## Usar Python para trabajar con distribuciones

Para crear datasets con varios tipos de distribuci√≥n, vamos a utilizar la librer√≠a NumPy. Esta librer√≠a trabaja con matrices de datos de muchas dimensiones y dispone de formas r√°pidas de realizar c√°lculos complicados con muchos n√∫meros a la vez.

Para crear ndarray utilizamos la funci√≥n np.array(). Como argumento, debes especificar una lista de datos que deben colocarse en un array:


In [2]:
import numpy as np

data = np.array([1, 3, 5, 7, 11, 13, 17, 19, 23, 317])

In [3]:
print("El primer elemento:", data[0])
print("El √∫ltimo elemento:", data[-1])
print("Todos los elementos excepto el primero y el √∫ltimo:", data[1:-1])

El primer elemento: 1
El √∫ltimo elemento: 317
Todos los elementos excepto el primero y el √∫ltimo: [ 3  5  7 11 13 17 19 23]


NumPy puede utilizarse para generar n√∫meros aleatorios con una distribuci√≥n especificada, mediante la funci√≥n normal() del m√≥dulo random. Para generar un array de 20 n√∫meros que sigan una distribuci√≥n normal, utiliza el siguiente c√≥digo:

In [6]:
import numpy as np

data = np.random.normal(size = 20)
print(data)

[ 0.44491618 -0.01738544 -0.91545755 -0.82687371  0.06164529 -0.2684718
  0.41199303  0.3656476  -0.54558611  0.56412965 -0.74815662 -1.18747342
  0.10351573 -0.29769532 -0.75988389  0.91438384  0.33256927 -1.96673781
 -0.6095973   0.25523956]


Para generar un array con una media y una desviaci√≥n est√°ndar dadas, tenemos que especificar los valores de estos par√°metros:

In [7]:
import numpy as np

mean = 15  # media entre 1 y 30
std_dev = 5  # desviaci√≥n est√°ndar aleatoria

data = np.random.normal(mean, std_dev, size=20)
print(data)

[ 6.36556602 17.64684587 14.69218535 12.38189022 18.24395005 17.65372676
 19.97966447 15.34908238 21.11522337 10.24199808 17.17910831  9.5980393
 19.8884673  14.10867443 13.8826155   9.73109541 12.13344757 16.50198614
 14.42147074 16.40117517]


Ahora, est√° todo listo para trabajar con los datos. Supongamos que el array contiene los datos del peso de los paquetes comprados por los 30 primeros visitantes de la tienda. ¬øCu√°ntos visitantes se fueron con un paquete que pesaba m√°s que la media?

In [8]:
# declara una variable para almacenar el n√∫mero de visitantes.
# como a√∫n no hemos empezado a contar,
# el n√∫mero de visitantes con una bolsa pesada es cero.
visitors_number = 0

# crea un bucle para iterar consecutivamente sobre el peso de cada bolsa.
for weight in data:
    # si el peso de la bolsa actual es mayor que la media, aumenta el contador.
    if weight > mean:
        visitors_number += 1

# muestra el n√∫mero de visitantes con bolsas pesadas.
print("N√∫mero de visitantes con bolsas pesadas:", visitors_number)

N√∫mero de visitantes con bolsas pesadas: 10


# Ejercicios

**Ejercicio 1**

Tenemos a 30 estudiantes que realizaron un examen. Sus puntuaciones se almacenan en la variable exam_results. Si un estudiante obtuvo menos de 20 puntos, reprob√≥ el examen. Escribe un programa que cuente cu√°ntos estudiantes reprobaron el examen y almacena el resultado en la variable failed_students. Muestra el resultado.



In [9]:
import numpy as np

exam_results = np.array(
    [
        42,
        56,
        59,
        76,
        43,
        34,
        62,
        51,
        50,
        65,
        66,
        50,
        46,
        5,
        79,
        99,
        51,
        26,
        35,
        8,
        34,
        47,
        64,
        58,
        61,
        12,
        30,
        63,
        20,
        68,
    ]
)


failed_students = 0  # valor inicial

for result in exam_results:
    if result < 20:
        failed_students += 1
    # c√≥digo para los c√°lculos

print("N√∫mero de estudiantes reprobados:", failed_students)

N√∫mero de estudiantes reprobados: 3


**Ejercicio 2**

Vamos a seguir con los resultados del examen. Ahora tenemos que contar no solo a los estudiantes que reprobaron, sino tambi√©n a los que obtuvieron otros resultados: excelente (90 puntos o m√°s), notable (70-89 puntos), satisfactorio (50-69) y aprobado (20-49).

Crea un diccionario summarized_data y escribe c√≥digo para rellenarlo con los datos necesarios.

In [10]:
import numpy as np

exam_results = np.array(
    [
        42,
        56,
        59,
        76,
        43,
        34,
        62,
        51,
        50,
        65,
        66,
        50,
        46,
        5,
        79,
        99,
        51,
        26,
        35,
        8,
        34,
        47,
        64,
        58,
        61,
        12,
        30,
        63,
        20,
        68,
    ]
)

summarized_data = {
    "excellent": 0,  # a√±ade el valor inicial aqu√≠,
    "good": 0,  # a√±ade el valor inicial aqu√≠,
    "average": 0,  # a√±ade el valor inicial aqu√≠,
    "passable": 0,  # a√±ade el valor inicial aqu√≠,
    "failed": 0,  # a√±ade el valor inicial aqu√≠
}
for result in exam_results:
    if result >= 90:
        summarized_data["excellent"] += 1
    elif result >= 70:
        summarized_data["good"] += 1
    elif result >= 50:
        summarized_data["average"] += 1
    elif result >= 20:
        summarized_data["passable"] += 1
    else:
        summarized_data["failed"] += 1

# c√≥digo para mostrar los resultados en pantalla. No lo cambies.
for result in summarized_data:
    print(result, "-", summarized_data[result])

excellent - 1
good - 2
average - 14
passable - 10
failed - 3


# ==========================

# Trabajar con una distribuci√≥n binomial

En el mundo real, hay muchos experimentos que tienen dos resultados posibles. Por ejemplo, ganar o no ganar la loter√≠a; o si una tostada con mantequilla cae al suelo por la parte untada o no; o si un cliente cambia su cuenta a una cuenta premium o rechaza la oferta. Cuando realizamos un experimento una vez y hay dos resultados posibles, estamos ante un experimento binomial simple o ensayo de Bernoulli.

Supongamos que en el 88% de las casos los usuarios y las usuarias hacen su primer clic en un banner publicitario, y en el 12% de los casos hacen clic en otro sitio y acaban en una p√°gina diferente.
¬øCu√°l es la probabilidad de que, de dos usuarios diferentes, uno haga clic en el banner y el otro no?

> Hay dos formas de obtener el resultado deseado: (1) el primer usuario hace clic en el banner y el segundo no o (2) el primer usuario no hace clic en el banner y el segundo s√≠. La probabilidad de cada escenario es 0.88 * 0,12 = 0.1056 y 0.12 * 0.88 = 0.1056, respectivamente. Al sumarlas, obtenemos aproximadamente el 21%.


## Calcular el numero de k exitos de n pruebas

Como recordar√°s, tenemos que encontrar la manera de calcular de cu√°ntas formas podemos obtener k √©xitos de n pruebas sin necesidad de compilar una tabla con todos los resultados posibles.

Si aplicamos esta f√≥rmula al ejemplo de los clics en el banner, podemos considerar n como el n√∫mero total de usuarios y k como el n√∫mero de clics en el banner. La f√≥rmula nos ayudar√° a calcular de cu√°ntas formas podemos seleccionar un grupo de k usuarios del total de n usuarios que hagan clic en el banner y no en otro enlace.

Para encontrar el mismo resultado en Python podemos utilizar el c√≥digo:

In [11]:
from math import factorial

c = factorial(10) / (factorial(7) * factorial(3))
print(c)

120.0


Escribe el c√≥digo para encontrar el n√∫mero de formas en las que 90 de cada 100 usuarios hacen clic en el banner. Guarda el resultado en la variable c.

In [12]:
from math import factorial

c = factorial(100) / (factorial(90) * factorial(100 - 90))  # escribe tu c√≥digo aqu√≠

print(c)

17310309456440.0


## Encontrar la probabilidad de n exitos

Bien, podemos calcular cu√°ntas formas hay de obtener k √©xitos a partir de n pruebas. Pero, ¬øc√≥mo podemos calcular la probabilidad de obtener ese n√∫mero de √©xitos?

Recuerda que, aunque habr√° muchas combinaciones que den k √©xitos, cada una de ellas tendr√° la misma probabilidad. Por lo tanto, necesitamos:

- Encontrar la probabilidad de una sola forma de obtener k √©xitos de n experimentos.
- Encontrar el n√∫mero total de combinaciones que dan k √©xitos.
- Multiplicar ambos resultados.

Veamos m√°s detenidamente el primer punto. Supongamos que los 7 primeros clics se producen en el banner y los 3 restantes no.

La formula es:

> P = p(elevado K) * q(elevado n-k)     donde:
- p es la probabilidad de √©xito.
- q es la probabilidad de fracaso.
- k es el n√∫mero de pruebas realizadas con √©xito.
- n es el n√∫mero total de pruebas.

## Distribuci√≥n binomial

Hagamos una lista de las condiciones que deben cumplirse para que una variable aleatoria tenga una distribuci√≥n binomial:

- Se lleva a cabo un n√∫mero fijo y finito de pruebas (n).
- Cada prueba es un experimento binomial simple que tiene exactamente dos resultados.
- Las pruebas son independientes entre s√≠.
- La probabilidad de √©xito (p) es la misma para todos los n intentos.

# Ejercicios

**Ejercicio 1**

Los port√°tiles de Pineapple son caros, pero siguen siendo populares entre los geeks de la inform√°tica: el 60% de los clientes est√°n dispuestos a comprarse una computadora port√°til de esta marca si acuden a la tienda. Los port√°tiles de Banana son m√°s baratos, pero no tan populares: solo el 20% de los visitantes de la tienda est√°n dispuestos a comprarlos.

Supongamos que la tienda solo tiene a la venta equipos de Pineapple. ¬øCu√°l es la probabilidad de que 50 de cada 80 clientes realicen una compra en un d√≠a?

Guarda el resultado en la variable probability y mu√©stralo.

No olvides que en Python se utiliza el signo ** para la exponenciaci√≥n.



In [13]:
from math import factorial

p = 0.6  # la probabilidad de que un cliente realice una compra
q = 1 - p  # la probabilidad de que un cliente NO realice una compra
n = 80  # el n√∫mero total de visitantes
k = 50  # el n√∫mero de visitantes que esperamos que realicen una compra

probability = (
    factorial(n) / (factorial(k) * factorial(n - k)) * p**k * q ** (n - k)
)  # escribe aqu√≠ el c√≥digo para realizar los c√°lculos
# n! / (k! * (n-k)!) * p**k * q**(n-k).
print(probability)

# El resultado quiere decir que existe una probabilidad el 8% que 50 de 80 visitantes hagan una compra. 

0.0826713508623046


**Ejercicio 2**

Supongamos que, al lado de una tienda de hardware Pineapple, hay un gran centro comercial con otra tienda que vende computadoras Banana. 160 clientes visitan esa tienda durante el d√≠a. ¬øCu√°l es la probabilidad de que 50 de esos visitantes se compren una computadora port√°til?

Recuerda que solo el 20% de los usuarios est√°n dispuestos a comprar un port√°til de la marca Banana.

Guarda el resultado en la variable probability y mu√©stralo.

In [14]:
from math import factorial

p = 0.2  # la probabilidad de que un cliente realice una compra
q = 1 - p  # la probabilidad de que un cliente NO realice una compra
n = 160  # el n√∫mero total de visitantes
k = 50  # el n√∫mero de visitantes que esperamos que realicen una compra

probability = (
    factorial(n) / (factorial(k) * factorial(n - k)) * p**k * q ** (n - k)
)  # escribe aqu√≠ el c√≥digo para realizar los c√°lculos

print(probability)

0.00024035993375900262


# =====================

# Trabajar con distribuci√≥n normal

Esta distribuci√≥n se manifiesta en diversas situaciones, desde representar la altura de la poblaci√≥n hasta determinar las tasas de falla en equipos.

Aunque existen otras distribuciones en el mundo real, la normal se destaca por su prevalencia y relevancia te√≥rica.

> Supongamos que el n√∫mero de horas que los clientes pasan en el gimnasio cada semana sigue una distribuci√≥n normal con una media de 4 y una desviaci√≥n t√≠pica de 1. ¬øQu√© porcentaje de clientes pasa m√°s de 6 horas a la semana en el gimnasio?

> **menos del 3%**
> El valor "m√°s de 6 horas" es de 2 sigma por encima de la media. Sabemos que el 95% de los valores est√°n dentro del intervalo media +/- 2œÉ. El 5% restante se distribuye uniformemente entre dos intervalos que est√°n fuera del intervalo media +/- 2œÉ. A nosotros solo nos interesa el primer intervalo, que contiene la mitad del 5% restante. -->




## Calcular probabilidades en datos normalmente distribuidos con Python

Python puede hacer los c√°lculos por nosotros. Para ello nos hacen falta m√©todos de la librer√≠a SciPy y su m√≥dulo intermedio **stat**s.

SciPy es una librer√≠a Python gratuita y de c√≥digo abierto que se utiliza para la computaci√≥n cient√≠fica y t√©cnica. Contiene m√≥dulos para optimizaci√≥n, √°lgebra lineal, integraci√≥n, procesamiento de se√±ales e im√°genes y muchos otros prop√≥sitos.

En esta lecci√≥n examinaremos la funci√≥n **stats.norm()**, que genera una distribuci√≥n normal con unos par√°metros dados (media y desviaci√≥n est√°ndar). Tambi√©n estudiaremos los m√©todos **norm.cdf** y **norm.ppf**, que permiten buscar respuestas a preguntas concretas.

Veamos estos m√©todos con m√°s detalle. Para ilustrarlo, consideremos el siguiente ejemplo: en la India, los estudiantes mayores de edad gastan una media de 5 000 d√≥lares para aprender una nueva profesi√≥n, con una desviaci√≥n t√≠pica de 1 500 d√≥lares.

> La funci√≥n de distribuci√≥n acumulativa **norm.cdf()**

Da la probabilidad de que una variable aleatoria sea menor o igual que un valor determinado.
Por Ejemplo: 
*¬øCu√°l es la probabilidad de que un estudiante pueda aprender una nueva profesi√≥n por menos de 4 000 d√≥lares?*

> La funci√≥n de punto porcentual **norm.ppf()**

Da el valor de la variable aleatoria que corresponde a una determinada probabilidad. Por ejemplo: 
*¬øCu√°l es el coste m√°ximo de la formaci√≥n para el 10% de los estudiantes que gastaron menos dinero en sus estudios?*



### **Veamos c√≥mo obtener respuestas a estas preguntas utilizando Python.**

*¬øCu√°l es la probabilidad de que un estudiante pueda aprender una nueva profesi√≥n por menos de 4 000 d√≥lares?*

In [3]:
# importamos el m√≥dulo stats.
from scipy import stats as st

# creamos un objeto con datos distribuidos normalmente con una media de 5 000
# y una desviaci√≥n est√°ndar de 1500.
data = st.norm(5000, 1500)

# creamos una variable para almacenar el coste deseado.
desired_cost = 4000

# calculamos la probabilidad de obtener el valor desired_cost.
probability = data.cdf(desired_cost)

print(probability)

# nos sale que el resultado es superior al 25%

0.2524925375469229


Y ahora, a por la segunda pregunta: *¬øCu√°l es el coste m√°ximo de la formaci√≥n para el 10% de los estudiantes que gastaron menos dinero en sus estudios?*

In [4]:
# otra vez empezamos con la importaci√≥n y creaci√≥n de la distribuci√≥n.
from scipy import stats as st

data = st.norm(5000, 1500)

# establecemos el valor de la probabilidad. Buscaremos el umbral del coste de los estudios
# para el 10% de los estudiantes que gastaron menos dinero.
target_level = 0.1

# encontramos el importe que no supere los gastos del 10% de estudiantes que gastaron menos dinero.
cost = data.ppf(target_level)

print(cost)

3077.6726516830995


In [6]:
from scipy import stats as st

data = st.norm(1000,100).cdf(1100) - st.norm(1000,100).cdf(900)

print(data)

#El resultado quiere decir que nos encontramos dentro del 1er sigma

0.6826894921370859
