<img src="jalalogo.png">


# Semana 3: Probabilidad

### Conceptos básicos

### Espacio muestral
El espacio muestral de un experimento, representado por $\Omega$, es simplemente el conjunto que incluye todos los resultados posibles de ese experimento.

### Probabilidad Clásica o de Laplace

En un experimento aleatorio con un espacio muestral en el que todos los resultados son equiprobables, se emplea la probabilidad de Laplace para calcular la probabilidad de un evento $A$. La fórmula asociada a este enfoque es la siguiente:

$$ P(A) = \frac{\#(A)}{\#(\Omega)} $$

donde:
- $\#(A)$ representa el número de resultados favorables al evento $A$,
- $\#(\Omega)$ es el número total de resultados posibles en el espacio muestral.

### Reglas de Probabilidad
Sean $A$ y $B$ eventos:
1. $0 \leq P(A) \leq 1$.
2. $P(A \cup B) = P(A) + P(B) - P(A \cap B)$.
3. $P(A^c) = 1 - P(A)$.
4. $P(\emptyset) = 0$.

### Probabilidad Condicional
Supongamos que $P(B) > 0$. Definimos la probabilidad condicional de $A$ dado $B$ como:

$$ P(A|B) = \frac{P(A \cap B)}{P(B)} $$


### Eventos Mutuamente Excluyentes

Dos eventos son **mutuamente excluyentes** (o disjuntos) si no pueden ocurrir simultáneamente. Es decir, si un evento ocurre, el otro no puede ocurrir. La probabilidad de la intersección de dos eventos mutuamente excluyentes es cero.

Matemáticamente, dos eventos $A$ y $B$ son mutuamente excluyentes si:

$$ P(A \cap B) = 0 $$



### Eventos Independientes

Dos eventos son **independientes** si la ocurrencia de uno no afecta la ocurrencia del otro. En otras palabras, el hecho de que un evento ocurra no cambia la probabilidad de que el otro evento ocurra.

Matemáticamente, dos eventos $A$ y $B$ son independientes si:

$$P(A \cap B) = P(A) \cdot P(B) $$


Considere la base de datos tomado de Kaggle:(Obesity Levels) sobre la cual se realizarán el siguiente ejemplo.
 

https://www.kaggle.com/datasets/fatemehmehrparvar/obesity-levels



In [2]:
#importamos librerias
import pandas as pd

#Cargamos la base de datos:
df = pd.read_csv('ObesityLevels.csv')

df.head()

Unnamed: 0,Age,Gender,Height,Weight,CALC,FAVC,FCVC,NCP,SCC,SMOKE,CH2O,family_history_with_overweight,FAF,TUE,CAEC,MTRANS,NObeyesdad
0,21.0,Female,1.62,64.0,no,no,2.0,3.0,no,no,2.0,yes,0.0,1.0,Sometimes,Public_Transportation,Normal_Weight
1,21.0,Female,1.52,56.0,Sometimes,no,3.0,3.0,yes,yes,3.0,yes,3.0,0.0,Sometimes,Public_Transportation,Normal_Weight
2,23.0,Male,1.8,77.0,Frequently,no,2.0,3.0,no,no,2.0,yes,2.0,1.0,Sometimes,Public_Transportation,Normal_Weight
3,27.0,Male,1.8,87.0,Frequently,no,3.0,3.0,no,no,2.0,no,2.0,0.0,Sometimes,Walking,Overweight_Level_I
4,22.0,Male,1.78,89.8,Sometimes,no,2.0,1.0,no,no,2.0,no,0.0,0.0,Sometimes,Public_Transportation,Overweight_Level_II


### Ejemplo 1: 

Si se selecciona un individuo que participio en el estudio de Obesity Leves, determinar

a) ¿Cuál es la probabilidad de que sea mujer?

b) ¿Cual es la probabilidad de que sea hombre?

c) ¿Cuál es la probabilidad de que fume?

d) ¿Cual es la probabilidad de que sea mujer y que fume?

e) Si del seleccionado se sabe que es mujer, ¿Cuál es la probabilidad de que fume?

#### Solución:
Denotemos como M, H y F los eventos de que al seleccionar aleatoriamente un participante en el estudio, este sea mujer, hombre, y fume respectivamente. 


a)  

$$P(M)=\frac{  No.Mujeres}{ Total participantes}= \frac{1043}{2111}=2.02$$
 
b) La probabilidad de que sea hombre se puede calcular como 

$$P(H)= 1-P(M)=$$

c)  $$P(F)=\frac{\text{Número de fumadores}}{\text{Total participantes}}$$

d) $$P(M\cap F)= \frac{\text{No de mujeres que fuman}}{\text{Total participantes}}$$

e) En este caso se trata de una probabilidad condicional:

$$ P(F|M)=\frac{P(M\cap F)}{P(M)} $$

In [56]:
# A continuación se realizan todos los cálculos necesarios para responder a 
# cada una de las preguntas anteriores.

#a)
df_female = df[df['Gender']=='Female']
n_female=df_female.shape[0]

P_M =df_female.shape[0]/df.shape[0]

print(f"La probabilidad de que sea mujer es P(M)={P_M: .2f}")

#b) P_H

P_H= 1-P_M
print(f"La probabilidad de que sea hombre es P(H)={P_H: .2f}")


#c) Filtramos el dataframe dejando solo fumadores

df_smoker = df[df['SMOKE']=='yes']
n_smoker=df_smoker.shape[0]
#Calculamos la probabilidad de ser fumador:
P_F =n_smoker/df.shape[0]

print(f"La probabilidad de que sea fumador es P(F)={P_F: .2f}")




#d) Filtramos el dataframe 
df_female_smoker = df[(df['Gender']=='Female') & (df['SMOKE']=='yes')]
n_female_smoker = df_female_smoker.shape[0]
P_MF=n_female_smoker/df.shape[0]
print(f"La probabilidad de que sea mujer y fume es P(MF)={P_MF: .3f}")


#e)
P_conditional_F_given_M = P_MF/P_M
print(f"La probabilidad de que fume dado que sea mujer es P(F|M)={P_conditional_F_given_M: .3f}")

#Notemos como esta última probabilidad aumenta ante la presencia de nueva información.

La probabilidad de que sea mujer es P(M)= 0.49
La probabilidad de que sea hombre es P(H)= 0.51
La probabilidad de que sea fumador es P(F)= 0.02
La probabilidad de que sea mujer y fume es P(MF)= 0.007
La probabilidad de que fume dado que sea mujer es P(F|M)= 0.014


### Ejemplo 2:

Una empresa ofrece a sus clientes la posibilidad de tomar un préstamo para un vehículo y un préstamo educativo. Un estudio muestra que la probabilidad de que un cliente tome un préstamo para un vehículo es 0.35, la probabilidad de que un cliente tome un préstamo educativo es 0.46 y la probabilidad de que un cliente tome al menos uno de los dos préstamos es 0.59. Encuentre la probabilidad de que un cliente tome ambos préstamos, tanto el de vehículo como el educativo.

#### Solución:

Usamos la fórmula de la probabilidad:
$$P(A\cup B)=P(A)+P(B)−P(A\cap B)$$

Despejamos $P(A \cap B)$:

$$P(A\cap B)=P(A)+P(B)−P(A\cup B)$$


In [3]:
# Probabilidades dadas
P_A = 0.35  # Probabilidad de tomar un préstamo para un vehículo
P_B = 0.46  # Probabilidad de tomar un préstamo educativo
P_A_union_B = 0.59  # Probabilidad de tomar al menos uno de los préstamos

# Calcular la probabilidad de tomar ambos préstamos
P_A_inter_B = P_A + P_B - P_A_union_B

# Mostrar el resultado
print(f"La probabilidad de que un cliente tome ambos préstamos es: {P_A_inter_B:.2f}")


La probabilidad de que un cliente tome ambos préstamos es: 0.22


### Ejemplo 3: 

En una encuesta realizada en una empresa, se consideran dos eventos independientes: A y B. Si la probabilidad de que ocurra el evento A es 0.4 y la probabilidad de que ocurra al menos uno de los eventos es 0.6, encuentra la probabilidad de que ocurra el evento B.

In [55]:
# Probabilidades dadas
P_A = 0.4  # Probabilidad de que ocurra el evento X
P_A_union_B = 0.6  # Probabilidad de que ocurra al menos uno de los eventos

# Calcular la probabilidad de que ocurra el evento Y
P_B = (P_A_union_B - P_A) / (1 - P_A)

# Mostrar el resultado
print(f"La probabilidad de que ocurra el evento B es: {P_B:.3f}")


La probabilidad de que ocurra el evento B es: 0.333
