<h1 style="text-align: center;">Desafío - Calculando probabilidades</h1>

- Para realizar este desafío debes haber estudiado previamente todo el material disponible correspondiente a la unidad.
- Una vez terminado el desafío, comprime la carpeta que contiene el desarrollo de los requerimientos solicitados y sube el .zip en el LMS.
- Desarrollo del desafío: individual
- Para la realización del desafío necesitarás apoyarte del archivo `Apoyo Desafío - Calculando probabilidades.zip`, disponible en la <a href="https://empieza.desafiolatam.com/cohorts/2091/sections/78268/activities/119096/items/610788">plataforma</a>.
- Puntaje total: 10 puntos.

## Habilidades a evaluar
- Utilizar conceptos básicos de probabilidad.

## Descripción
Un amigo, al cual le gusta mucho el fútbol, tiene en mente poder crear una app de apuestas para el próximo mundial. Para ello, solicita tu ayuda como analista de datos de manera de poder trabajar con las probabilidades de victoria o derrota de los equipos, y que así él diseñe el resto de la app. Tú aceptas y ordenas el trabajo que debes realizar a partir de los siguientes requerimientos.

## Requerimientos

### 1. Lectura de archivos (1 punto)
- Importa pandas y numpy siguiendo las convenciones.
- Lee el set de datos `worldcup2014.csv` y asígnela a una variable `df`.
- Solicita las primeras 5 observaciones con `head`.

In [1]:
# Utiliza esta celda para importar pandas y numpy
import pandas as pd
import numpy as np

In [2]:
# Utiliza esta celda para leer los datos y almacenarlos en la variable df
df = pd.read_csv("worldcup2014.csv")

In [3]:
# Utiliza esta celda para solicitar las primeras 5 observaciones con head
df.head(6)

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1


In [4]:
# Sugerencia adicional: Utiliza esta celda para explorar la cantidad de nulos
#Muestra la canitdad de datos nulos en el df
df.isna().sum()

team                0
continent           0
group               0
group_pos           0
cantidad_juegos     0
juegos_ganados      0
juegos_empatados    0
juegos_perdidos     0
goles_favor         0
goles_contra        0
goles_diferencia    0
puntos              0
clasificado         0
dtype: int64

### 2. Frecuencia de `continent`: utilizando `value_counts` responde lo siguiente (1 punto)

In [5]:
# Utiliza esta celda para aplicar value_counts a la columna continent. Recordar que debemos mostrar frecuencias relativas para obtener las probabilidades.
df["continent"].value_counts(normalize = True) #// df["continent"].value_counts('%')

europe          0.40625
southamerica    0.18750
africa          0.15625
northamerica    0.12500
asia            0.12500
Name: continent, dtype: float64

**¿Cuál es el continente con una mayor presencia en la muestra?**

**Respuesta**:El continente con una presencia en la muestra es Europa

**¿Cuál es la probabilidad de elegir un equipo asiático al azar?**

**Respuesta:** La probabilidad de elegir un equipo asiatico es de 0.125

**¿Cuál es la probabilidad de elegir un equipo africano al azar?**

**Respuesta:** la probabilidad de elegir un equipo africano es de 0.16

### 3. Generación de un subconjunto de datos: por cada continente, genere un nuevo objeto que almacene sólo las observaciones del continente (1 punto)
- _**Tip**_: Para ello puede utilizar la siguiente sintaxis: `df[df['variable'] == condicion]`.

In [6]:
# Utiliza esta celda para almacenar todos los posibles continentes. Recuerda que puedes lograr esto con unique()
continentes = df["continent"].unique()
continentes

array(['southamerica', 'northamerica', 'europe', 'africa', 'asia'],
      dtype=object)

In [7]:
# Utiliza esta celda para generar una lista con los DataFrames que contienen los registros de cada contiennte

"""
lista_df1 = []

for c in continentes:
    lista_df.append(df[df["continent"] == c])

"""

#list comprehension python
lista_df = [
    df[df["continent"] == c]
    for c in continentes
]

#lista_df // Se aprecia que divide la info por continentes



### 4. Probabilidad de clasificación a la siguiente ronda: Calcula la probabilidad de que un país pase a la siguiente ronda (clasifique) por continente (4 puntos)
_**Tip**_: El problema puede ser resuelto de varias formas:
- La manera más intuitiva corresponde a calcular la probabilidad en cada subconjunto creado en el problema 3.
- Una forma alternativa es copiar todos los subsets creados en el problema 3 en una lista e iterar sobre dicha lista.
- Una forma más elegante consiste en utilizar una operación de agrupación por continente, y luego calcular la probabilidad.

In [8]:
# Utiliza esta celda para explorar las columnas del DataFrame e identificar la que indica si un país clasificó o no

#Observar las columnas, nos damos cuenta que existe la de clasificado
#print(df.columns)

#Saca la probabilidad de clasificar o no clasificar // 0.5 y 0.5
probs_df = df["clasificado"].value_counts("%")

#Imprime la probabilidad de clasificar, para eso utiliza el .get(1)
print(f"Probabilidad de clasificar considerando todos los datos {probs_df.get(1)}")


Probabilidad de clasificar considerando todos los datos 0.5


In [9]:
# Utiliza esta celda para observar la probabilidad de clasificación en cada uno de los DataFrame de los continentes creados en la pregunta anterior
# Recuerda que "1" indica "sí clasifica", y que de una Serie (como es el caso de lo entregado por value_counts) puedes acceder al valor asociado a un índice con get

for df_continente in lista_df:
    probs_df = df_continente["clasificado"].value_counts("%")
    nombre_continente = df_continente["continent"].unique()
    print(f"Probabilidad de clasificar para el continente {nombre_continente[0]}: {probs_df.get(1 )}")


Probabilidad de clasificar para el continente southamerica: 0.8333333333333334
Probabilidad de clasificar para el continente northamerica: 0.75
Probabilidad de clasificar para el continente europe: 0.46153846153846156
Probabilidad de clasificar para el continente africa: 0.4
Probabilidad de clasificar para el continente asia: None


In [10]:
# Sugerencia: Lograr lo mismo usando el df general de todos los datos, usando groupby

df.groupby(
    ["continent"] #Dentro de group by va la lista de las columnas que quiero agrupar
)[
    "clasificado" #Luego se accede a la, o las columnas, de las que se requiere obtener un valor que represente el grupo
].value_counts('%')

continent     clasificado
africa        0              0.600000
              1              0.400000
asia          0              1.000000
europe        0              0.538462
              1              0.461538
northamerica  1              0.750000
              0              0.250000
southamerica  1              0.833333
              0              0.166667
Name: clasificado, dtype: float64

**¿Cuál es la probabilidad de que un país asiático pase a la siguiente ronda?**

**Respuesta:**La probabilidad de que un pais asiatico pase a la siguiente ronda es de 0.

**¿Cuáles son los dos continentes con la mayor probabilidad de clasificar?**

**Respuesta:Los continentes con la mayor probabilidad de clasificar son southamerica y northamerica respectivamente.

**¿Cuál es la probabilidad de que un país europeo no clasifique?**

**Respuesta:** La probabilidad de que un pais europeo no clasifique es de 0.53

### 5. Probabilidad de victoria y derrota: Se pide utilizar `value_counts` para calcular la probabilidad de que un continente contenga países con o sin victorias (3 puntos).
- Para ello crea una columna adicional llamada `ha_ganado` que contenga un `0` si es que un país _no_ tiene juegos ganados, y un `1` si es que ha ganado al menos un juego.
- Sugerencias: Para crear dicha columna puede revisar:
    - `np.where`, de Numpy
    - `Series.where`, de Pandas

- Además puede utilizar los mismos procedimientos sugeridos en el Requerimiento 4.

In [20]:
# Utilice esta celda para resolver mediante np.where
df["ha_ganado"] = np.where(   #Se crea una columna "ha_ganado" 
    df["juegos_ganados"] > 0, #Primer argumento corresponde a la condición booleana a evaluar
    1,                        #Asignacion que se hace cuando la condicion se cumple o True
    0                         #Asignacion que se hace cuando la condicion NO se cumple o False
) 

df["ha_ganado"].value_counts()

1    23
0     9
Name: ha_ganado, dtype: int64

In [30]:
# Utilice esta celda para resolver mediante Series.where

df["ha_ganado"] =  df["juegos_ganados"].where(
    lambda x: x == 0,   #Función que evalia y retorna cuando la condicion no se cumple, puede ser func anonima o lamba
    1,                  #Asignación que se hace cuando la condición se cumple
)

df["ha_ganado"].value_counts()

1    23
0     9
Name: ha_ganado, dtype: int64

In [33]:
# Utilice esta celda para mostrar las probabilidades usando groupby (con celda 'ha_ganado' ya creada)
#La lista por la que vamos a agrupar es "continent"
#Con corchete accedemos a la columna que queremos sacar una agregacion "ha_ganado"

df.groupby(["continent"])["ha_ganado"].value_counts("&")

continent     ha_ganado
africa        1            0.600000
              0            0.400000
asia          0            1.000000
europe        1            0.846154
              0            0.153846
northamerica  1            0.750000
              0            0.250000
southamerica  1            1.000000
Name: ha_ganado, dtype: float64

**A. ¿Qué continente tiene la mayor probabilidad de tener países con al menos 1 victoria?**

**Respuesta** El continente que tiene mayor probabilidad de tener al menos 1 victoria es southamerica  

**B. ¿Qué continente tiene un nivel similar entre países que tienen o no tienen victorias?**

**Respuesta** El continente que tiene un nivel similar entre victorias y no victorias es africa.

**Reformule el código para juegos perdidos y analice los continentes con mayor probabilidad de tener países sin juegos perdidos.**

In [36]:
# Utilice esta celda para generar la columna 'ha_perdido' indicando con 1 si el país ha perdido al menos 1 vez, y 0 si no

df["ha_perdido"] = np.where(   #Se crea una columna "ha_perdido" 
    df["juegos_perdidos"] > 0, #Primer argumento corresponde a la condición booleana a evaluar
    1,                        #Asignacion que se hace cuando la condicion se cumple o True
    0                         #Asignacion que se hace cuando la condicion NO se cumple o False
) 

df["ha_perdido"].value_counts()

1    23
0     9
Name: ha_perdido, dtype: int64

In [15]:
# Utilice esta celda para mostrar las probabilidades por continente de haber perdido al menos 1 juego

**Respuesta:**

In [37]:
df.groupby(["continent"])["ha_perdido"].value_counts("&")

continent     ha_perdido
africa        1             1.000000
asia          1             1.000000
europe        1             0.692308
              0             0.307692
northamerica  0             0.500000
              1             0.500000
southamerica  0             0.500000
              1             0.500000
Name: ha_perdido, dtype: float64

Los paises con mayor probabilidad sin tener juegos perdidos son northamerica y southamerica.