## <font color = 'green'>DESAFIO - CALCULANDO PROBABILIDADES</font>

<font color='green'>**Descripción**</font>

Un amigo, al cual le gusta mucho el fútbol, tiene en mente poder crear una app de apuestas
para el próximo mundial. Para ello, solicita tu ayuda como analista de datos de manera de
poder trabajar con las probabilidades de victoria o derrota de los equipos, y que así él diseñe
el resto de la app. Tú aceptas y ordenas el trabajo que debes realizar a partir de los
siguientes requerimientos.

<font color = 'green'> **Requerimientos** </font>

1. **Lectura de archivos**
 * Importa `pandas` y `numpy` siguiendo las convenciones.
 * Lee la base de datos `worldcup2014.csv` y asígnela a un objeto df.
 * Solicita las primeras 5 observaciones con `head`.

In [1]:
#importamos pandas y numpy, y ademas cargamos los datos
import pandas as pd
import numpy as np

df = pd.read_csv('worldcup2014.csv')

df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


In [3]:
#Adicionalmente, revisamos si hay nan para trabajar sin nan
df.isnull().sum()

#No hay nulos en el dataframe

team                0
continent           0
group               0
group_pos           0
cantidad_juegos     0
juegos_ganados      0
juegos_empatados    0
juegos_perdidos     0
goles_favor         0
goles_contra        0
goles_diferencia    0
puntos              0
clasificado         0
dtype: int64

2. **Frecuencia de continent**: utilizando `value_counts` responde lo siguiente:
 * ¿Cuál es el continente con una mayor presencia en la muestra?
 * ¿Cuál es la probabilidad de elegir un equipo asiático al azar?
 * ¿Cuál es la probabilidad de elegir un equipo africano al azar?


In [24]:
#Guardamos tanto el nombre del continente con mayor frecuencia, como fu frecuencia
continent = df['continent'].value_counts().index[0]
frec = df['continent'].value_counts()[0]

print(f'El continente con mayor presencia en la muestra es {continent}, con una frecuencia de {frec}')

#Obtenemos las probabilidades
prob_continent = df['continent'].value_counts(normalize = True)

prob_asia = prob_continent.get('asia')
prob_africa = prob_continent.get('africa')

#Imprimimos resultados
print(f'La probabilidad de escoger un equipo asiatico al azar es de {prob_asia*100:.2f}%')
print(f'La probabilidad de escoger un equipo africano al azar es de {prob_africa*100:.2f}%')

El continente con mayor presencia en la muestra es europe, con una frecuencia de 13
La probabilidad de escoger un equipo asiatico al azar es de 12.50%
La probabilidad de escoger un equipo africano al azar es de 15.62%


3. **Generación de un subconjunto de datos**: por cada continente, genere un nuevo objeto que almacene sólo las observaciones del continente.


In [9]:
#obtenemos los distintios continentes
continent = df['continent'].unique()

#Iteramos y guardamos cada dataframe como un elemento de la lista
lista_df = [df[df['continent'] == i] for i in continent]
lista_df

[         team     continent group  group_pos  cantidad_juegos  juegos_ganados  \
 0      Brazil  southamerica     A          1                3               2   
 5       Chile  southamerica     B          2                3               2   
 8    Colombia  southamerica     C          1                3               3   
 13    Uruguay  southamerica     D          2                3               2   
 18    Ecuador  southamerica     E          3                3               1   
 20  Argentina  southamerica     F          1                3               3   
 
     juegos_empatados  juegos_perdidos  goles_favor  goles_contra  \
 0                  1                0            7             2   
 5                  0                1            5             3   
 8                  0                0            9             2   
 13                 0                1            4             4   
 18                 1                1            3             3   
 20       

4. **Probabilidad de clasificación a la siguiente ronda**: calcula la probabilidad de que un país pase a la siguiente ronda (clasifique) por continente.
 * ¿Cuál es la probabilidad de que un país asiático pase a la siguiente ronda?
 * ¿Cuáles son los dos continentes con la mayor probabilidad de clasificar?
 * ¿Cuál es la probabilidad de que un país europeo no clasifique?

In [61]:
#Agrupamos por continente y obtenemos los % de clasificacion por cliente
df_group = df.groupby(['continent'])['clasificado'].value_counts(normalize = True).sort_values(ascending=False)
display(df_group)

preg1 = df_group.get('asia').get(0)-1
preg2 = df_group.get(1)
preg3 = df_group.get('europe').get(0)
preg2

continent     clasificado
asia          0              1.000000
southamerica  1              0.833333
northamerica  1              0.750000
africa        0              0.600000
europe        0              0.538462
              1              0.461538
africa        1              0.400000
northamerica  0              0.250000
southamerica  0              0.166667
Name: clasificado, dtype: float64

0.8333333333333334

In [57]:
print(f'''
La probabilidad que un pais asiatico pase a la siguiente ronda es del {preg1}%.
Los dos continentes con mayor probabilidad de clasificar son southamerica y northamerica con un 83,3% y 75% respectivamente.
La probabilidad que un país europeo no clasifique es del {preg3*100:.2f}%
''')


La probabilidad que un pais asiatico pase a la siguiente ronda es del 0.0%.
Los dos continentes con mayor probabilidad de clasificar son southamerica y northamerica con un 83,3% y 75% respectivamente.
La probabilidad que un país europeo no clasifique es del 53.85%



5. **Probabilidad de victoria y derrota**: se pide utilizar `value_counts` para calcular la probabilidad de que un continente contenga países con o sin victorias. Para ello crea una columna adicional llamada `'ha_ganado'` que contenga un 0 si es que un país no tiene juegos ganados y un 1 si es que ha ganado al menos un juego.

In [64]:
df['ha_ganado'] = np.where(df['juegos_ganados'] > 0, 1, 0)
df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado,ha_ganado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0,1
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1,1


* Con base en el resultado del procedimiento recién descrito, responda lo siguiente:
 * A) ¿Qué continente tiene la mayor probabilidad de tener países con al menos 1 victoria?
 * B) ¿Qué continente tiene un nivel similar entre países que tienen o no tienen victorias?
* Reformule el código para juegos perdidos y analice los continentes con mayor probabilidad de tener países sin juegos perdidos.

In [66]:
df.groupby(['continent'])['ha_ganado'].value_counts(normalize = True)

continent     ha_ganado
africa        1            0.600000
              0            0.400000
asia          0            1.000000
europe        1            0.846154
              0            0.153846
northamerica  1            0.750000
              0            0.250000
southamerica  1            1.000000
Name: ha_ganado, dtype: float64

**¿Qué continente tiene la mayor probabilidad de tener países con al menos 1 victoria?**

**R:** <font color='green'>southamerica con un 100%</font>

**¿Qué continente tiene un nivel similar entre países que tienen o no tienen victorias?**

**R:** <font color='green'>africa con un 60% y 40% </font>

In [76]:
df['ha_perdido'] = np.where(df['juegos_perdidos'] != 0, 1, 0)
df.groupby(['continent'])['ha_perdido'].value_counts(normalize = True)

continent     ha_perdido
africa        1             1.000000
asia          1             1.000000
europe        1             0.692308
              0             0.307692
northamerica  0             0.500000
              1             0.500000
southamerica  0             0.500000
              1             0.500000
Name: ha_perdido, dtype: float64

**Reformule el código para juegos perdidos y analice los continentes con mayor probabilidad de tener países sin juegos perdidos**

**R:** <font color='green'>southamerica y northamerica con un 50% de paises sin juegos perdidos </font>