# Desafío - Estadística descriptiva y probabilidades (Parte II)

En este desafío validaremos nuestros conocimientos relacionados con probabilidades.
Para lograrlo, necesitarás aplicar lo que has aprendido durante esa sesión.
Lee todo el documento antes de comenzar el desarrollo individual, para asegurarte de tener el máximo de puntaje y enfocar bien los esfuerzos.


**Descripción:**

Una casa de apuestas quiere perfeccionar sus modelos de estimaciones de factores de apuestas, por lo que quiere hacer una revisión sobre los resultados del Mundial 2014.
Para resolver este desafío deberás cargar datos desde el dataset worldcup2014.csv, y realizar las operaciones necesarias para determinar lo pedido.

# 1. Considerando el experimento de seleccionar un país participante al azar, se pide determinar las probabilidades de los siguientes sucesos:

- a. pertenecer a África
- b. pertenecer a Asia
- c. pertenecer a Europa
- d. pertenecer a Norteamérica
- e. pertenecer a Sudamérica
- f. clasificar a segunda ronda
- g. ganar al menos un partido
- h. pertenecer a África y clasificar a segunda ronda
- i. pertenecer a Europa y clasificar a segunda ronda
- j. pertenecer a Asia y clasificar a segunda ronda
- k. pertenecer a Sudamérica y clasificar a segunda ronda
- l. pertenecer a Norteamérica y clasificar a segunda ronda
- m. pertenecer a África o clasificar a segunda ronda
- n. pertenecer a Europa o clasificar a segunda ronda
- o. pertenecer a Asia o clasificar a segunda ronda
- p. pertenecer a Sudamérica o clasificar a segunda ronda
- q. pertenecer a Norteamérica o clasificar a segunda ronda
- r. pertenecer a África y haber ganado al menos un partido
- s. pertenecer a Europa y haber ganado al menos un partido
- t. pertenecer a Asia y haber ganado al menos un partido
- u. pertenecer a Sudamérica y haber ganado al menos un partido
- v. pertenecer a Norteamérica y haber ganado al menos un partido
- w. haber ganado al menos un partido y clasificar a segunda ronda

*Hint: define previamente condiciones para realizar los conteos* 

In [60]:
import numpy as np
import pandas as pd

import matplotlib.pyplot as plt
import seaborn as sns


# Primero que nada cargamos el dataset y vemos su info

df = pd.read_csv(r'C:\Users\juano\OneDrive\Escritorio\CursoDA\Desafios y Pruebas\worldcup2014.csv') #Leemos el csv


df #Vemos el df

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1
6,Spain,europe,B,3,3,1,0,2,4,7,−3,3,0
7,Australia,asia,B,4,3,0,0,3,3,9,−6,0,0
8,Colombia,southamerica,C,1,3,3,0,0,9,2,7,9,1
9,Greece,europe,C,2,3,1,1,1,2,4,−2,4,1


In [61]:
# Forzamos conversión de columnas numéricas a enteros

cols_numericas = [
    "juegos_ganados", "juegos_empatados", "juegos_perdidos",
    "goles_favor", "goles_contra", "goles_diferencia",
    "puntos", "cantidad_juegos" , "clasificado"
]

df[cols_numericas] = df[cols_numericas].apply(pd.to_numeric, errors="coerce")


# Definimos las condiciones que vamos a usar

total = len(df)                                         #Cantidad total de paises

cond_africa = df["continent"] == "africa"               #Condicion para paises de Africa
cond_asia = df["continent"] == "asia"                   #Condicion para paises de Asia
cond_europa = df["continent"] == "europe"               #Condicion para paises de Europa
cond_nortea = df["continent"] == "northamerica"         #Condicion para paises de Norte America
cond_sudam = df["continent"] == "southamerica"          #Condicion para paises de Sudamerica
cond_clasificado = df["clasificado"] == 1               #Condicion para paises que clasificaron
cond_gano = df["juegos_ganados"] > 0                    #Condicion para paises que ganaron al menos un partido
cond_perdio = df["juegos_perdidos"] > 0                 #Condicion para paises que perdieron al menos un partido
cond_empatado = df["juegos_empatados"] > 0              #Condicion para paises que empataron al menos un partido
cond_golesf = df["goles_favor"] > 0                     #Condicion para paises que hicieron al menos un gol
cond_golesc = df["goles_contra"] > 0                    #Condicion para paises que recibieron al menos un gol
cond_golesd = df["goles_diferencia"] > 0                #Condicion para paises con diferencia de goles positiva
cond_puntos = df["puntos"] > 0                          #Condicion para paises que sumaron al menos un punto    
cond_puntos10 = df["puntos"] >= 10                      #Condicion para paises que sumaron al menos 10 puntos
cond_puntos5 = df["puntos"] >= 5                        #Condicion para paises que sumaron al menos 5 puntos
cond_puntos0 = df["puntos"] == 0                        #Condicion para paises que no sumaron puntos
cond_partidos = df["cantidad_juegos"] > 0               #Condicion para paises que jugaron al menos un partido  
cond_partidos3 = df["cantidad_juegos"] >= 3             #Condicion para paises que jugaron al menos 3 partidos
cond_partidos6 = df["cantidad_juegos"] >= 6             #Condicion para paises que jugaron al menos 6 partidos
cond_partidos0 = df["cantidad_juegos"] == 0             #Condicion para paises que no jugaron ningun partido


**Explicación del código para calcular probabilidades**

*En este bloque de código, se definen condiciones lógicas sobre un conjunto de datos (df) que contiene información de distintos países y sus resultados en torneos (como partidos jugados, goles, puntos, clasificación, etc.). Estas condiciones permiten filtrar los datos para luego calcular probabilidades o estadísticas específicas.*

**1. Cantidad total de países**

- *total = len(df)*

*Aquí se obtiene el número total de filas del DataFrame, que representa la cantidad total de países en el conjunto de datos.*
*Esto se usa como referencia para calcular probabilidades, dividiendo la cantidad de casos favorables sobre el total.*

**2. Condiciones por continente:**

- cond_africa = df["continent"] == "africa"
- cond_asia = df["continent"] == "asia"
- cond_europa = df["continent"] == "europe"
- cond_nortea = df["continent"] == "northamerica"
-  cond_sudam = df["continent"] == "southamerica"

*Cada condición filtra los países que pertenecen a un continente específico.*
*Por ejemplo, cond_africa será True solo para los países cuyo continente sea África.*

**3. Condiciones de desempeño en el torneo**

- cond_clasificado = df["clasificado"] == 1
- cond_gano = df["juegos_ganados"] > 0
- cond_perdio = df["juegos_perdidos"] > 0
- cond_empatado = df["juegos_empatados"] > 0

**Estas condiciones permiten filtrar según el desempeño del país:**

- *cond_clasificado: países que lograron clasificar.*
- *cond_gano: países que ganaron al menos un partido.*
- *cond_perdio: países que perdieron al menos un partido.*
- *cond_empatado: países que empataron al menos un partido.*

**4. Condiciones de goles**

- cond_golesf = df["goles_favor"] > 0
- cond_golesc = df["goles_contra"] > 0
- cond_golesd = df["goles_diferencia"] > 0

**Filtra según los goles:**

- *goles_favor: al menos un gol a favor.*
- *goles_contra: al menos un gol en contra.*
- *goles_diferencia: diferencia de goles positiva.*

**5. Condiciones de puntos**

- cond_puntos = df["puntos"] > 0
- cond_puntos10 = df["puntos"] >= 10
- cond_puntos5 = df["puntos"] >= 5
- cond_puntos0 = df["puntos"] == 0

**Filtra según los puntos obtenidos:**

*Algunos países pueden tener 0 puntos, otros 5 o 10 o más.*

**6. Condiciones de partidos jugados**

- cond_partidos = df["cantidad_juegos"] > 0
- cond_partidos3 = df["cantidad_juegos"] >= 3
- cond_partidos6 = df["cantidad_juegos"] >= 6
- cond_partidos0 = df["cantidad_juegos"] == 0

*Permite filtrar según la cantidad de partidos jugados por cada país.*

In [62]:
def prob(cond):                          # Función general de probabilidad:
    return cond.sum() / total

# Ahora calculamos las probabilidades:

# a. pertenecer a África
prob_africa_val = prob(cond_africa);

# b. pertenecer a Asia
prob_asia_val = prob(cond_asia);

# c. pertenecer a Europa
prob_europa_val = prob(cond_europa);

# d. pertenecer a Norteamérica
prob_nortea_val = prob(cond_nortea);

# e. pertenecer a Sudamérica
prob_sudam_val = prob(cond_sudam);

# f. clasificar a segunda ronda
prob_clasificado_val = prob(cond_clasificado);

# g. ganar al menos un partido
prob_gano_val = prob(cond_gano);

# h. pertenecer a África y clasificar a segunda ronda
prob_africa_clasificado_val = prob(cond_africa & cond_clasificado);

# i. pertenecer a Europa y clasificar a segunda ronda
prob_europa_clasificado_val = prob(cond_europa & cond_clasificado);

# j. pertenecer a Asia y clasificar a segunda ronda
prob_asia_clasificado_val = prob(cond_asia & cond_clasificado);

# k. pertenecer a Sudamérica y clasificar a segunda ronda
prob_sudam_clasificado_val = prob(cond_sudam & cond_clasificado);

# l. pertenecer a Norteamérica y clasificar a segunda ronda
prob_nortea_clasificado_val = prob(cond_nortea & cond_clasificado);

# m. pertenecer a África o clasificar a segunda ronda
prob_africa_o_clasificado_val = prob(cond_africa | cond_clasificado);

# n. pertenecer a Europa o clasificar a segunda ronda
prob_europa_o_clasificado_val = prob(cond_europa | cond_clasificado);

# o. pertenecer a Asia o clasificar a segunda ronda
prob_asia_o_clasificado_val = prob(cond_asia | cond_clasificado);

# p. pertenecer a Sudamérica o clasificar a segunda ronda
prob_sudam_o_clasificado_val = prob(cond_sudam | cond_clasificado);

# q. pertenecer a Norteamérica o clasificar a segunda ronda
prob_nortea_o_clasificado_val = prob(cond_nortea | cond_clasificado);

# r. pertenecer a África y haber ganado al menos un partido
prob_africa_gano_val = prob(cond_africa & cond_gano);

# s. pertenecer a Europa y haber ganado al menos un partido
prob_europa_gano_val = prob(cond_europa & cond_gano);

# t. pertenecer a Asia y haber ganado al menos un partido
prob_asia_gano_val = prob(cond_asia & cond_gano);

# u. pertenecer a Sudamérica y haber ganado al menos un partido
prob_sudam_gano_val = prob(cond_sudam & cond_gano);

# v. pertenecer a Norteamérica y haber ganado al menos un partido
prob_nortea_gano_val = prob(cond_nortea & cond_gano);

# w. haber ganado al menos un partido y clasificar a segunda ronda
prob_gano_clasificado_val = prob(cond_gano & cond_clasificado);


In [63]:
# Resumen de todas las probabilidades calculadas:

sucesos = [
    "África", "Asia", "Europa", "Norteamérica", "Sudamérica",
    "Clasificado", "Ganó ≥1",
    "África ∧ Clasificado", "Europa ∧ Clasificado", "Asia ∧ Clasificado",
    "Sudamérica ∧ Clasificado", "Norteamérica ∧ Clasificado",
    "África ∨ Clasificado", "Europa ∨ Clasificado", "Asia ∨ Clasificado",
    "Sudamérica ∨ Clasificado", "Norteamérica ∨ Clasificado",
    "África ∧ Ganó ≥1", "Europa ∧ Ganó ≥1", "Asia ∧ Ganó ≥1",
    "Sudamérica ∧ Ganó ≥1", "Norteamérica ∧ Ganó ≥1",
    "Ganó ≥1 ∧ Clasificado"
]

probabilidades = [
    prob(cond_africa), prob(cond_asia), prob(cond_europa), prob(cond_nortea), prob(cond_sudam),
    prob(cond_clasificado), prob(cond_gano),
    prob(cond_africa & cond_clasificado), prob(cond_europa & cond_clasificado), prob(cond_asia & cond_clasificado),
    prob(cond_sudam & cond_clasificado), prob(cond_nortea & cond_clasificado),
    prob(cond_africa | cond_clasificado), prob(cond_europa | cond_clasificado), prob(cond_asia | cond_clasificado),
    prob(cond_sudam | cond_clasificado), prob(cond_nortea | cond_clasificado),
    prob(cond_africa & cond_gano), prob(cond_europa & cond_gano), prob(cond_asia & cond_gano),
    prob(cond_sudam & cond_gano), prob(cond_nortea & cond_gano),
    prob(cond_gano & cond_clasificado)
]

df_probabilidades = pd.DataFrame({
    "Suceso": sucesos,
    "Probabilidad": probabilidades
})

df_probabilidades


Unnamed: 0,Suceso,Probabilidad
0,África,0.15625
1,Asia,0.125
2,Europa,0.40625
3,Norteamérica,0.125
4,Sudamérica,0.1875
5,Clasificado,0.5
6,Ganó ≥1,0.71875
7,África ∧ Clasificado,0.0625
8,Europa ∧ Clasificado,0.1875
9,Asia ∧ Clasificado,0.0


**Explicación del cálculo de probabilidades:**

*En este código se implementa una forma general y sistemática de calcular probabilidades a partir de las condiciones que definiste anteriormente sobre tu DataFrame (df).*

**1. Función de probabilidad**

- *def prob(cond):*
    *return cond.sum() / total*

- *Esta función recibe como entrada una condición booleana (cond), que es un array de True y False.*
- *cond.sum() cuenta cuántos True hay (porque en Python, True se considera como 1 y False como 0).*
- *Luego se divide entre total (la cantidad total de países) para obtener la probabilidad relativa de que se cumpla esa condición.*

**2. Probabilidades simples**

- *print("a) Pertenecer a África:", prob(cond_africa))*
- *print("b) Pertenecer a Asia:", prob(cond_asia))*
- *...*
- *print("g) Ganar al menos un partido:", prob(cond_gano))*

**Aquí se calcula la probabilidad de eventos individuales:**

- *Países de cada continente.*
- *Países que clasificaron.*
- *Países que ganaron al menos un partido.*
- *Esto se llama probabilidad marginal, porque se analiza un solo evento a la vez.*

**3. Probabilidades conjuntas (AND, ∧)**

- *print("h) África ∧ Clasificado:", prob(cond_africa & cond_clasificado))*

- *Se utiliza el operador & (AND) para combinar condiciones.*
- *Por ejemplo, cond_africa & cond_clasificado devuelve True solo si un país es de África y además clasificó.*
- *Esto permite calcular probabilidades conjuntas: la probabilidad de que se cumplan dos eventos al mismo tiempo.*

**4. Probabilidades de unión (OR, ∨)**

- *print("m) África ∨ Clasificado:", prob(cond_africa | cond_clasificado))*

- *Se utiliza el operador | (OR) para combinar condiciones.*
- *Esto devuelve True si un país es de África o clasificó (o ambas cosas).*
- *Permite calcular la probabilidad de que ocurra al menos uno de los eventos.*

**5. Combinación con desempeño**

- *print("r) África ∧ Ganó ≥1:", prob(cond_africa & cond_gano))*

- *Aquí se combinan continentes con desempeño (ganar partidos, clasificar).*
- *Ejemplo: cond_africa & cond_gano da la probabilidad de que un país sea de África y haya ganado al menos un partido.*

**6. Resumen**

- *Esta estructura permite calcular rápidamente cualquier tipo de probabilidad usando las condiciones que definiste previamente.*
- *Se puede extender a cualquier combinación de eventos, usando & para “y” y | para “o”.*
- *Es muy útil para informes, porque te permite generar todas las probabilidades relevantes de manera automática y clara.*

# 2. A partir de las probabilidades anteriores, y sin realizar conteos, calcular las siguientes probabilidades:

- a. pertenecer a Europa, si se sabe que clasificó
- b. pertenecer a Sudamérica, si se sabe que clasificó
- c. pertenecer a África, si se sabe que ganó al menos un partido
- d. haber ganado al menos un partido, si se sabe que clasificó
- e. haber ganado al menos un partido, si se sabe que pertenece a Norteamérica
- f. NO haber clasificado, si se sabe que pertenece a África


In [64]:
# Ahora calculamos las probabilidades condicionales pedidas:

# a.(pertenecer a Europa | clasificó)
prob_europa_clasificado = prob(cond_europa & cond_clasificado) / prob(cond_clasificado)

# b.(pertenecer a Sudamérica | clasificó)
prob_sudam_clasificado = prob(cond_sudam & cond_clasificado) / prob(cond_clasificado)

# c.(pertenecer a África | ganó al menos un partido)
prob_africa_gano = prob(cond_africa & cond_gano) / prob(cond_gano)

# d.(haber ganado al menos un partido | clasificó)
prob_gano_clasificado = prob(cond_gano & cond_clasificado) / prob(cond_clasificado)

# e.(haber ganado al menos un partido | pertenece a Norteamérica)
prob_gano_nortea = prob(cond_gano & cond_nortea) / prob(cond_nortea)

# f.(NO haber clasificado | pertenece a África)
prob_no_clasificado_africa = prob(cond_africa & (~cond_clasificado)) / prob(cond_africa)

In [65]:
# Lista de sucesos condicionales
sucesos_cond = [
    "Europa | Clasificado",
    "Sudamérica | Clasificado",
    "África | Ganó ≥1",
    "Ganó ≥1 | Clasificado",
    "Ganó ≥1 | Norteamérica",
    "No Clasificado | África"
]

# Probabilidades condicionales calculadas
prob_cond = [
    prob_europa_clasificado,
    prob_sudam_clasificado,
    prob_africa_gano,
    prob_gano_clasificado,
    prob_gano_nortea,
    prob_no_clasificado_africa
]

# Creamos el DataFrame
df_prob_condicionales = pd.DataFrame({
    "Suceso Condicional": sucesos_cond,
    "Probabilidad Condicional": prob_cond
})

df_prob_condicionales


Unnamed: 0,Suceso Condicional,Probabilidad Condicional
0,Europa | Clasificado,0.375
1,Sudamérica | Clasificado,0.3125
2,África | Ganó ≥1,0.130435
3,Ganó ≥1 | Clasificado,1.0
4,Ganó ≥1 | Norteamérica,0.75
5,No Clasificado | África,0.6



**Cálculo de Probabilidades Condicionales:**

**Explicación del cálculo de probabilidades condicionales:**  

- *En este bloque se calcula la probabilidad de que ocurra un evento dado que ya sabemos que ocurrió otro, es decir, probabilidades condicionales.*

**1. Pertenecer a Europa si se sabe que clasificó**

- *prob_europa_clasificado = prob(cond_europa & cond_clasificado) / prob(cond_clasificado)*
- *Se calcula la probabilidad de que un país sea europeo sabiendo que clasificó.*
- *Primero se obtiene la probabilidad conjunta de Europa y Clasificado, y luego se divide entre la probabilidad de clasificar.*

**2. Pertenecer a Sudamérica si se sabe que clasificó**

- *prob_sudam_clasificado = prob(cond_sudam & cond_clasificado) / prob(cond_clasificado)*
- *Mismo principio que el anterior, pero para Sudamérica.*

**3. Pertenecer a África si se sabe que ganó al menos un partido**

- *prob_africa_gano = prob(cond_africa & cond_gano) / prob(cond_gano)*
- *Aquí se calcula la proporción de países que son africanos entre los que ganaron al menos un partido.*

**4. Haber ganado al menos un partido si se sabe que clasificó**

- *prob_gano_clasificado = prob(cond_gano & cond_clasificado) / prob(cond_clasificado)*
- *Se calcula la probabilidad de que un país haya ganado al menos un partido entre los que clasificaron.*

**5. Haber ganado al menos un partido si se sabe que pertenece a Norteamérica**

- *prob_gano_nortea = prob(cond_gano & cond_nortea) / prob(cond_nortea)*
- *Se calcula la probabilidad de que un país norteamericano haya ganado al menos un partido.*

**6. No haber clasificado si se sabe que pertenece a África**

- *prob_no_clasificado_africa = prob(cond_africa & (~cond_clasificado)) / prob(cond_africa)*
- *Se utiliza la negación (~) para considerar los países que no clasificaron.*
- *Calcula la probabilidad de no clasificar entre los países africanos.*

**7. Resumen**

- *Todas estas operaciones usan la idea básica de la probabilidad condicional: filtrar los casos que cumplen ambos eventos y dividir entre los casos que cumplen la condición dada.*
- *Permite responder preguntas como “¿qué tan probable es que un país europeo haya clasificado?” o “¿qué tan probable es que un país africano no haya clasificado?”*
- *Es una forma eficiente de calcular estadísticas relativas usando pandas y condiciones booleanas, sin necesidad de hacer conteos manuales.*


**Relación con el Teorema de Bayes**

El cálculo de probabilidades condicionales que desarrollé en **ambos ejercicios** se puede interpretar directamente con el **teorema de Bayes**:

$$
\mathbf{P(A|B)} = \frac{\mathbf{P(A \cap B)}}{\mathbf{P(B)}}
$$

En el **primer ejercicio**, al calcular sucesos combinados (por ejemplo, pertenecer a África y clasificar, o ganar y clasificar), ya estaba aplicando Bayes de forma implícita, porque se requiere la probabilidad conjunta de los eventos y su relación con la probabilidad individual del suceso condicionante.

En el **segundo ejercicio**, al calcular explícitamente probabilidades condicionales (por ejemplo, pertenecer a Europa dado que se clasificó), la fórmula de Bayes se aplica de manera directa:  

- $\mathbf{P(A \cap B)}$ corresponde a la probabilidad conjunta del evento doble (por ejemplo, ser europeo y clasificado).  
- $\mathbf{P(B)}$ corresponde a la probabilidad de que ocurra el evento condicionante (por ejemplo, clasificar).  

De esta manera, tanto los cálculos de **sucesos conjuntos y disyuntivos** del primer ejercicio como las **probabilidades condicionales** del segundo, son aplicaciones prácticas del teorema de Bayes, lo que refuerza su utilidad para inferir información a partir de datos observados.
