# Probabilidad para Ciencia de Datos


@Antonio Rendon 2023

## Indice

### 1. Introducción


La probabilidad es la piedra angular de muchos de los métodos y modelos en la ciencia de datos. Es una rama de las matemáticas que se dedica a estudiar cómo se pueden predecir los fenómenos aleatorios y cuantificar la incertidumbre asociada a ellos. A través de la probabilidad, podemos investigar las regularidades que surgen en fenómenos que, a primera vista, podrían parecer impredecibles.

Los métodos de inferencia estadística, por otro lado, utilizan datos para comprender los procesos subyacentes detrás de esos datos. Estos métodos se basan en principios probabilísticos para hacer generalizaciones o inferencias sobre una población a partir de una muestra. En esencia, la probabilidad nos proporciona las herramientas para entender y cuantificar la variabilidad y el azar, lo que es esencial para interpretar y hacer predicciones basadas en datos.

En el mundo de la ciencia de datos, donde la toma de decisiones basada en datos es crucial, tener una sólida comprensión de la probabilidad es fundamental. Nos permite modelar la incertidumbre, evaluar riesgos y, en última instancia, tomar decisiones más informadas. 

#### 2. Conceptos Básicos

__Experimento Aleatorio:__

Un experimento aleatorio es aquel en el que si lo repetimos con las mismas condiciones iniciales no garantiza los mismos resultados. Así, por ejemplo, al lanzar una moneda no sabemos si saldrá cara o cruz, al lanzar un dado no sabemos qué número aparecerá, la extracción de las bolas de sorteos, loterías, etc. son experiencias que consideramos aleatorias, puesto que en ellas no podemos predecir los resultados.

__Espacio Muestral:__ 

El espacio muestral, también llamado espacio de muestreo, es el conjunto de sucesos elementales de un experimento aleatorio. Es decir, el espacio muestral son todos los posibles resultados de un experimento aleatorio.

El símbolo del espacio muestral es la letra griega Omega mayúscula (Ω), aunque también se puede representar con la letra S o E mayúscula

Veamos algunos ejemplos:

__Espacio muestral de un dado__

El espacio muestral de un dado son todos los resultados que se pueden obtener al lanzar un dado. Por lo tanto, el espacio muestral del lanzamiento de un dado es 1, 2, 3, 4, 5 o 6.
        Ω= a=\{1,2,3,4,5,6}

Fíjate que los seis sucesos elementales del espacio de muestreo de un dado son incompatibles, o dicho de otra forma, cuando sacamos una cara del dado no podemos obtener otra. Además, todos los sucesos son equiprobables.

__Espacio muestral de dos dados__
El espacio muestral de dos dados son todas las combinaciones que se pueden obtener al lanzar dos dados simultáneamente, por lo tanto, el espacio muestral de dos dados está formado por 36 elementos.

Omega={(1,1),(1,2),(1,3), ... ,(6,4),(6,5),(6,6)} Donde el primer número del paréntesis representa el número sacado por el primer dado y el segundo número del paréntesis corresponde al segundo dado.

Ten en cuenta que aunque la probabilidad de que salga cada combinación es la misma, la probabilidad de que salga un número determinado es diferente, porque hay resultados que se repiten. Por ejemplo, el número 7 es el más probable de que s.lga.

In [8]:
# Ejemplo: Lanzar una moneda
espacio_muestral = ['cara', 'sello']


Evento: Un conjunto de resultados del espacio muestral.

In [2]:
# Ejemplo: Obtener cara al lanzar una moneda
evento_cara = ['cara']


3. Probabilidad de un Evento
Definición y fórmula.

In [3]:
def probabilidad(evento, espacio_muestral):
    return len(evento) / len(espacio_muestral)


4. Probabilidad Condicional
Definición y fórmula de 
P(A∣B).
Ejemplo con datos en Python.

5. Eventos Independientes y Dependientes
Definiciones.
Ejemplo con lanzamiento de monedas y cartas de una baraja.

6. Ley de los Grandes Números
Definición y significado.
Diferencia entre la versión débil y fuerte.
Implicaciones prácticas y ejemplos en Python.

6. Teorema de Bayes
Introducción y fórmula.
Ejemplo práctico en Python, como el diagnóstico de una enfermedad.

7. Distribuciones de Probabilidad
Distribución Uniforme:

In [4]:
import numpy as np
s = np.random.uniform(-1,0,1000)


Distribución Normal (Gaussiana):

In [5]:
import numpy as np
mu, sigma = 0, 0.1
s = np.random.normal(mu, sigma, 1000)


Distribución Binomial:

In [6]:
n, p = 10, .5
s = np.random.binomial(n, p, 1000)


8. Variables Aleatorias
Definición.
Tipos: Discretas y Continuas.
Ejemplos en Python.

9. Valor Esperado (Esperanza Matemática)
Definición: El valor promedio ponderado de una variable aleatoria.

Fórmula para una variable aleatoria discreta:


Para una variable aleatoria continua:

Ejemplo en Python:
Supongamos que tienes una variable aleatoria 

X que representa el lanzamiento de un dado. Quieres encontrar el valor esperado de X.

In [7]:
valores = [1, 2, 3, 4, 5, 6]
probabilidades = [1/6, 1/6, 1/6, 1/6, 1/6, 1/6]

valor_esperado = sum(x*p for x, p in zip(valores, probabilidades))
print(valor_esperado)


3.5


10. Esperanza y Varianza
Definiciones y fórmulas.
Ejemplos en Python.

11. Conclusión
Resumen de los conceptos aprendidos.
Importancia de la probabilidad en la toma de decisiones en ciencia de datos.