# **Teoría de la probabilidad**

Nadie puede predecir el futuro con un 100% de seguridad, pero los estadísticos son capaces de calcular la probabilidad de varios resultados en situaciones muy diversas. Aunque no resuelve todos los problemas, hace nuestra vida más fácil y predecible.
En este capítulo, descubrirás cómo calcular las probabilidades de distintos eventos utilizando datos diferentes.

Aprenderé:

- Fórmulas básicas para calcular la probabilidad de eventos únicos y múltiples.
- Fundamentos de combinatoria.
- Tipos de distribución de características, incluidas la binomial y la normal.
- Utilizar Python para resolver problemas relacionados con el cálculo de probabilidades.

En estadística, utilizamos la letra P para denotar probabilidad y la letra A para denotar un evento de nuestro interés. Por lo tanto, la notación P(A) describe la probabilidad del evento A.
El P(A) puede calcularse del siguiente modo:

`# de resultados que satisfacen el evento

`-----------------------------------------

` de resultados que satisfacen el evento
​
 
Si el evento A se define como "tirar un número de 5 o mayor", entonces P(A) es (1 + 1) / 6 = 1/3.

## Eventos y espacios muestrales

El conjunto de todos los resultados posibles de un experimento se denomina espacio muestral, normalmente denotado con S.

Para ilustrarlo, consideremos el ejemplo de lanzar un solo dado. El espacio de muestra asociado a este evento es:

S={1,2,3,4,5,6}

**Por ejemplo, supongamos que el evento A es "sacar un número menor que 3". Después de examinar el espacio muestral, observamos que hay dos números que son menores que 3. Por consiguiente, la probabilidad del evento A, representada por P(A), donde P representa la probabilidad, es 2 (el número de resultados que satisfacen A) dividido entre 6 (la longitud de S).**

**Ejemplo 1:**

Volvamos al ejemplo de los billetes de lotería. Tenemos el mismo conjunto que antes, pero los resultados han cambiado. El billete #1 gana $100, los billetes #2 y #3 ganan $10 cada uno, el billete #4 gana otro billete de lotería y los billetes restantes no son ganadores. ¿Qué es S en esta situación?

**{#1 ($100), #2 ($10), #3 ($10), #4 (new ticket), #5 (-), #6 (-), #7 (-), #8 (-), #9 (-), #10 (-)}**
*Todos y cada uno de los billetes deben incluirse en el espacio muestral.*

**Ejemplo 2:**

El documento analiza el espacio muestral de tirar dos dados, donde cada par es el resultado del primer y segundo dado. Con sólo añadir una tirada más, el espacio muestral pasa de 6 a 36 resultados. Como cada dado es independiente, los 36 resultados tienen la misma probabilidad de ocurrir. Las probabilidades pueden calcularse de la misma manera.

Se lanzan dos dados. Que sea el evento A "la suma de los dos dados es 5". ¿Qué es P(A)?

**4/36**

*Hay cuatro combinaciones posibles: {1, 4}, {4, 1}, {2, 3}, {3, 2}. Por lo tanto, tenemos que poner 4 en el numerador y 36 (el número total de resultados posibles) en el denominador.*

## Ley de los grandes números

La ley de los grandes números establece que, a medida que el número de lanzamientos se acerca al infinito, la frecuencia relativa de este evento se aproximará a la verdadera probabilidad del evento.

## Probabilidades del espacio muestral en Python

En Python, los cálculos de probabilidad simples basados en espacios muestrales como estos se pueden realizar fácilmente usando el operador lógico == y la función len().

- Utilizar == identificará las filas que satisfacen tu evento.
- len() proporcionará el recuento de filas que satisfacen tu evento.

Aquí te mostramos un ejemplo.

Has creado una lista de reproducción en la aplicación Spotify con dos columnas: 'Artist' y 'Song'.

In [1]:
import pandas as pd

cool_rock = pd.DataFrame(
    {
        'Artist': [
            'Queen',
            'Queen',
            'Queen',
            'Pink Floyd',
            'Nirvana',
            'AC/DC',
            'AC/DC',
            'Scorpions',
            'Scorpions',
            'Scorpions',
        ],
        'Song': [
            'The Show Must Go On',
            'Another One Bites The Dust',
            'We Will Rock You',
            'Wish You Were Here',
            'Smells Like Teen Spirit',
            'Highway To Hell',
            'Back in Black',
            'Wind Of Change',
            'Still Loving You',
            'Send Me An Angel',
        ],
    }
)
print(cool_rock)

       Artist                        Song
0       Queen         The Show Must Go On
1       Queen  Another One Bites The Dust
2       Queen            We Will Rock You
3  Pink Floyd          Wish You Were Here
4     Nirvana     Smells Like Teen Spirit
5       AC/DC             Highway To Hell
6       AC/DC               Back in Black
7   Scorpions              Wind Of Change
8   Scorpions            Still Loving You
9   Scorpions            Send Me An Angel


Suponiendo que pulses aleatorio, cada canción de la lista de artistas + canciones tiene la misma probabilidad de tocar primero. Esta lista es nuestro espacio de muestra.

¿Cuál es la probabilidad de que la primera canción que suene sea "Smells Like Teen Spirit"?

Usa == para identificar los resultados que satisfacen este evento y usa len() dos veces: una para contar el número de resultados que satisfacen el evento y otra vez para contar el tamaño del espacio muestral.

In [2]:
print(len(cool_rock[cool_rock["Song"] == "Smells Like Teen Spirit"]) / len(cool_rock))

0.1


Utiliza la variable desired_outcomes para almacenar el número de resultados deseados, total_outcomes para almacenar el número total de resultados, y probability para el resultado final.


In [4]:
import pandas as pd

cool_rock = pd.DataFrame(
    {
        "Artist": [
            "Queen",
            "Queen",
            "Queen",
            "Pink Floyd",
            "Nirvana",
            "AC/DC",
            "AC/DC",
            "Scorpions",
            "Scorpions",
            "Scorpions",
        ],
        "Song": [
            "The Show Must Go On",
            "Another One Bites The Dust",
            "We Will Rock You",
            "Wish You Were Here",
            "Smells Like Teen Spirit",
            "Highway To Hell",
            "Back in Black",
            "Wind Of Change",
            "Still Loving You",
            "Send Me An Angel",
        ],
    }
)

desired_artist = "Queen"

desired_outcomes = len(
    cool_rock[cool_rock["Artist"] == "Queen"]
)  #  código para encontrar el número de resultados deseados
total_outcomes = len(
    cool_rock
)  #  código para encontrar el número de resultados totales
probability = (
    desired_outcomes / total_outcomes
)  #  código para calcular la probabilidad

print(probability)

#0.3 indica qe hay un 30% de probabilidad de salir

0.3


# ============================

# Eventos independientes, multiplicacion de probabilidades
# ======================

# Eventos independientes, multiplicacion de probabilidades

Supongamos que lanzas dos dados, cada uno con la misma probabilidad de sacar un número del 1 al 6. Digamos que nos interesa la suma total que se obtiene cuando se tiran los dos dados

Podemos reformular esta pregunta de la siguiente manera: ¿Cuál es la probabilidad de tirar dos dados y obtener una suma superior a 8?
Si definimos el evento A como "obtener una suma superior a 8", entonces la probabilidad de A es P(A) = 10/36 = 27.7%.

# Fundamentos de combinatoria y otros problemas de probabilidad

Imagina que estás trabajando en un proyecto para desarrollar una nueva aplicación móvil. El proyecto acaba de empezar y te han invitado a colaborar en la resolución de posibles problemas relacionados con la selección de personal.

Los reclutadores han seleccionado a 5 candidatos para el puesto de programadores, pero solo se necesitan tres para tu proyecto. Los dos candidatos restantes serán asignados a otros equipos. Uno de los candidatos es un conocido tuyo, con el que te gustaría trabajar juntos.

La responsable de RRHH tiene previsto entrevistar a cada uno de los 5 candidatos. Si el orden de las entrevistas es aleatorio, ¿cuál es la probabilidad de que tu conocido sea entrevistado en primer lugar?

> **1/5** 

*Solo hay 5 candidatos, y cada uno de ellos tiene la misma probabilidad de ser el primero en ser entrevistado. Por lo tanto, la probabilidad para cada candidato de ser el primero en ser entrevistado es de 1/5.*

La responsable de RRHH ha solicitado tu ayuda para seleccionar opciones para la secuencia de invitación a entrevistas de los candidatos. Sin embargo, ¿cómo podemos elaborar esta lista?


### Permutaciones. Calcular el factorial

El problema con el que te enfrentas es contar el número de posibles permutaciones. Aquí hay otro ejemplo de tal problema.
Una escuela online ofreció a un estudiante tres cursos gratuitos:

- ¿Cómo escribir un currículum eficaz?
- Ayuda profesional en orientación profesional.
- ¡Mejora tus habilidades para las entrevistas!

Estos cursos pueden tomarse en cualquier orden. ¿Cuántos itinerarios educativos diferentes pueden crearse a partir de estos cursos?

Para calcular el número de permutaciones de n elementos, los matemáticos utilizan la fórmula:

>Pn=n!

Este signo se llama factorial y significa el producto de números naturales de 1 a n. En otras palabras,

>n!=1⋅2⋅3⋅...⋅(n−1)⋅n

Así, para tres cursos diferentes, hay 3! = 1 x 2 x 3 = 6 itinerarios educativos diferentes.

# Calcular factoriales en python

Cuando el valor de n es pequeño, n! puede calcularse mentalmente. Para valores mayores de n, resulta más cómodo automatizar el proceso. Para ello, puedes utilizar la función factorial() del módulo math de la librería estándar de Python.


In [1]:
# importa la función factorial del módulo matemático
from math import factorial

# define el número necesario de cursos
courses_amount = 3

# calcula el factorial de 3 (el valor de la variable courses_amount)
result = factorial(courses_amount)

# muestra el resultado
print(result)


6


Se seleccionaron cinco candidatos para el proyecto. La responsable de RRHH quiere entrevistar a cada uno de ellos, pero no puede decidir en qué orden va a llamar a los candidatos. Completa el siguiente código que calculará cuántas opciones de listas se pueden hacer, en las que cinco candidatos están ordenados en un orden diferente.

Guarda el resultado de los cálculos en la variable lists_amount. Muestra la variable.

In [3]:
from math import factorial

candidates_amount = 5

lists_amount = factorial(candidates_amount) # agrega aquí tu código
print(lists_amount)

#En pocas palabras, tienen 120 opciones de orden para poder llamarlos.

120


A la responsable de RRHH se le ha ocurrido una nueva idea: ¿qué pasaría si, en lugar de seleccionar candidatos individuales, buscara directamente al equipo perfecto? Para ello, la responsable debe comprender cuántas maneras hay de formar equipos de tres personas, seleccionándolas entre cinco candidatos. Esto le permitirá programar los horarios de entrevistas para los equipos. ¿Puedes ayudar a resolver este problema?

## Combinaciones

Esta es una nueva tarea para ti, y antes de resolverla, tenemos que aprender una nueva fórmula: la fórmula para calcular el número de combinaciones de k elementos de n opciones posibles. 

Por ejemplo, si una cafetería vende 10 tipos de helado y quieres comprar tres diferentes, tienes: **120 opciones de combinaciones distintas**

Ahora veamos lo mismo desde Python:

In [4]:
from math import factorial

# define los valores para las variables n y k
n = 10
k = 3

# realiza los cálculos
combinations = factorial(n) / (factorial(k) * factorial(n-k))
print(combinations)

120.0


Ahora estás listo para ayudar a la responsable de RRHH y determinar el número de franjas horarias necesarias para entrevistar a todas las posibles formaciones del equipo.
Completa el siguiente código para determinar el número de maneras para formar equipos de tres personas seleccionándolas entre cinco candidatos.

Guarda el resultado de los cálculos en la variable combinations e imprímela.

In [5]:
from math import factorial

n = 5
k = 3

combinations = factorial(n)/(factorial(k)*factorial(n-k))
print(combinations)

#¡Tenemos buenas noticias! ¡Se han reservado las franjas horarias para 10 entrevistas!

10.0


# Uso de fórmulas combinatorias para calcular probabilidades

Tu capacidad para contar los posibles resultados de eventos complejos te permite determinar las probabilidades de distintos resultados o combinaciones de resultados.

Para completar todos los ejercicios siguientes, tendrás que utilizar fórmulas para calcular permutaciones o combinaciones y determinar el número total de resultados posibles. A continuación, puedes dividir el número de resultados deseados entre este resultado para determinar la probabilidad.

# Ejercicios

**Ejercicio 1**

Estás desarrollando con tus amigos un juego de búsqueda que consta de 10 tareas diferentes. Las tareas pueden realizarse en cualquier orden, pero solo una secuencia de todas las existentes permite a los jugadores ganar el superpremio. ¿Cuál es la probabilidad de ganar el superpremio, suponiendo que la probabilidad de elegir cada tarea en cualquier fase de la búsqueda es la misma?

Completa el código siguiente para calcular la probabilidad. Utiliza las siguientes variables:

- tasks: para almacenar el número de tareas.
- permutations: para almacenar el número de permutaciones.
- probability: para almacenar la probabilidad de elegir la única secuencia de tareas que permite a los jugadores ganar el superpremio.



In [6]:
from math import factorial

tasks = 10# introduce aquí el número de tareas
permutations = factorial (tasks) # calcula aquí el número total de secuencias de tareas posibles
probability =  1/ permutations# calcula aquí la probabilidad de seleccionar la única combinación ganadora

print(probability)


#¡Increíble! ¡La probabilidad de ganar el superpremio es inferior al 0.00003%! ¡Recuérdalo la próxima vez que quieras jugar a la lotería 😜!

2.755731922398589e-07


**Ejercicio 2**

Como los clientes no estaban satisfechos con la dificultad de ganar el superpremio, cambiaste las reglas. Ahora, los jugadores pueden elegir las tres tareas con las que quieren empezar el juego. El orden de las tareas no importa, lo importante es la combinación. Si los jugadores consiguen adivinar la "combinación secreta", recibirán un código promocional de descuento.

Para garantizar la equidad, debes calcular la probabilidad de obtener el código promocional utilizando las siguientes variables:

- tasks: número total de tareas disponibles.
- chosen: número de tareas elegidas al principio del juego.
- combinations: número total de combinaciones posibles de 3 tareas de las 10 disponibles.
- probability: probabilidad final de obtener el código promocional.

Implementa un programa que calcule la probabilidad de obtener el código promocional utilizando las variables anteriores.

In [1]:
from math import factorial

tasks = 10  # introduce aquí el número total de tareas
chosen = 3  # introduce aquí el número de tareas a elegir

combinations = factorial(tasks) / (
    factorial(chosen) * factorial(tasks - chosen)
)  # calcula el número de combinaciones disponibles
probability = 1 / combinations  # calcula aquí el resultado final

print(probability)

# ¡La posibilidad de obtener un código promocional es casi del 1%! ¡Seguro que muchos clientes se animarán a probar suerte!

0.008333333333333333
