# Desafío 1: Estadística descriptiva y probabilidades (Parte II)
## Vicente Soto Valladares — Módulo: Análisis Estadístico con Python


In [1]:
import pandas as pd
import numpy as np

df = pd.read_csv("Worldcup2014.csv")

df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


## 1. Exploración de los datos
Revisamos las columnas, la cantidad de registros y el tipo de datos.


In [3]:
df.info()
df.describe()
df['continent'].value_counts()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 32 entries, 0 to 31
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   team              32 non-null     object
 1   continent         32 non-null     object
 2   group             32 non-null     object
 3   group_pos         32 non-null     int64 
 4   cantidad_juegos   32 non-null     int64 
 5   juegos_ganados    32 non-null     int64 
 6   juegos_empatados  32 non-null     int64 
 7   juegos_perdidos   32 non-null     int64 
 8   goles_favor       32 non-null     int64 
 9   goles_contra      32 non-null     int64 
 10  goles_diferencia  32 non-null     object
 11  puntos            32 non-null     int64 
 12  clasificado       32 non-null     int64 
dtypes: int64(9), object(4)
memory usage: 3.4+ KB


continent
europe          13
southamerica     6
africa           5
northamerica     4
asia             4
Name: count, dtype: int64

## 3. Definición de condiciones
Para aplicar el principio DRY definiremos condiciones lógicas que reutilizaremos en todos los cálculos.


In [10]:
total_equipos = len(df)

cond_africa = df['continent'] == 'africa'
cond_asia = df['continent'] == 'asia'
cond_europa = df['continent'] == 'europe'
cond_norteamerica = df['continent'] == 'northamerica'
cond_sudamerica = df['continent'] == 'southamerica'

cond_clasificado = df['clasificado'] == 1
cond_gano_partido = df['juegos_ganados'] >= 1


## 4. Pregunta 1 — Probabilidades simples y conjuntas

A continuación, calcularemos cada una de las probabilidades solicitadas desde el punto 1.a hasta el 1.w.


In [12]:
# 1.a
p_africa = cond_africa.sum() / total_equipos

# 1.b
p_asia = cond_asia.sum() / total_equipos

# 1.c
p_europa = cond_europa.sum() / total_equipos

# 1.d
p_norteamerica = cond_norteamerica.sum() / total_equipos

# 1.e
p_sudamerica = cond_sudamerica.sum() / total_equipos

# 1.f
p_clasificado = cond_clasificado.sum() / total_equipos

# 1.g
p_gano = cond_gano_partido.sum() / total_equipos

# 1.h
p_africa_y_clasificado = (cond_africa & cond_clasificado).sum() / total_equipos

# 1.i
p_europa_y_clasificado = (cond_europa & cond_clasificado).sum() / total_equipos

# 1.j
p_asia_y_clasificado = (cond_asia & cond_clasificado).sum() / total_equipos

# 1.k
p_sudamerica_y_clasificado = (cond_sudamerica & cond_clasificado).sum() / total_equipos

# 1.l
p_norteamerica_y_clasificado = (cond_norteamerica & cond_clasificado).sum() / total_equipos

# 1.m
p_africa_o_clasificado = (cond_africa | cond_clasificado).sum() / total_equipos

# 1.n
p_europa_o_clasificado = (cond_europa | cond_clasificado).sum() / total_equipos

# 1.o
p_asia_o_clasificado = (cond_asia | cond_clasificado).sum() / total_equipos

# 1.p
p_sudamerica_o_clasificado = (cond_sudamerica | cond_clasificado).sum() / total_equipos

# 1.q
p_norteamerica_o_clasificado = (cond_norteamerica | cond_clasificado).sum() / total_equipos

# 1.r
p_africa_y_gano = (cond_africa & cond_gano_partido).sum() / total_equipos

# 1.s
p_europa_y_gano = (cond_europa & cond_gano_partido).sum() / total_equipos

# 1.t
p_asia_y_gano = (cond_asia & cond_gano_partido).sum() / total_equipos

# 1.u
p_sudamerica_y_gano = (cond_sudamerica & cond_gano_partido).sum() / total_equipos

# 1.v
p_norteamerica_y_gano = (cond_norteamerica & cond_gano_partido).sum() / total_equipos

# 1.w
p_gano_y_clasificado = (cond_gano_partido & cond_clasificado).sum() / total_equipos


p_africa, p_asia, p_europa, p_norteamerica, p_sudamerica, p_clasificado, p_gano
p_africa_y_clasificado, p_europa_y_clasificado, p_asia_y_clasificado, p_sudamerica_y_clasificado, p_norteamerica_y_clasificado
p_africa_o_clasificado, p_europa_o_clasificado, p_asia_o_clasificado, p_sudamerica_o_clasificado, p_norteamerica_o_clasificado
p_africa_y_gano, p_europa_y_gano, p_asia_y_gano, p_sudamerica_y_gano, p_norteamerica_y_gano, p_gano_y_clasificado

(np.float64(0.09375),
 np.float64(0.34375),
 np.float64(0.0),
 np.float64(0.1875),
 np.float64(0.09375),
 np.float64(0.5))

## 5. Pregunta 2 — Probabilidades condicionales
A partir de las probabilidades anteriores, y sin realizar conteos, calculamos las
siguientes probabilidades:


In [13]:
# 2.a
p_europa_dado_clasificado = (cond_europa & cond_clasificado).sum() / cond_clasificado.sum()

# 2.b
p_sudamerica_dado_clasificado = (cond_sudamerica & cond_clasificado).sum() / cond_clasificado.sum()

# 2.c
p_africa_dado_gano = (cond_africa & cond_gano_partido).sum() / cond_gano_partido.sum()

# 2.d
p_gano_dado_clasificado = (cond_gano_partido & cond_clasificado).sum() / cond_clasificado.sum()

# 2.e
p_gano_dado_norteamerica = (cond_gano_partido & cond_norteamerica).sum() / cond_norteamerica.sum()

# 2.f
p_no_clasificado_dado_africa = ((~cond_clasificado) & cond_africa).sum() / cond_africa.sum()

p_europa_dado_clasificado, p_sudamerica_dado_clasificado, p_africa_dado_gano, p_gano_dado_clasificado, p_gano_dado_norteamerica, p_no_clasificado_dado_africa


(np.float64(0.375),
 np.float64(0.3125),
 np.float64(0.13043478260869565),
 np.float64(1.0),
 np.float64(0.75),
 np.float64(0.6))

## 6. Conclusiones

En este análisis se determinaron probabilidades simples, conjuntas y condicionales basadas en los resultados de la fase de grupos del Mundial 2014.

El uso de condiciones predefinidas permitió evitar repeticiones y mantener el código limpio y legible, siguiendo el principio DRY.

Esto facilita la comprensión de los cálculos y permite que otros analistas puedan replicar o modificar el análisis de forma sencilla.
