# __Desafío - Calculando probabilidades__
## Desafío 1: Lectura de archivos
<ul>
    <li>Importe <code>pandas</code> y <code>numpy</code> siguiendo las convenciones.</li>
    <li>Lea la base de datos <code>worldcup2014.csv</code> y asígnela a un objeto <code>df</code>.</li>
    <li>Solicite las primeras 5 observaciones con head.</li>
</ul>

In [6]:
# Importar librerías
import pandas as pd
import numpy as np
# Cargar Dataframe
df = pd.read_csv('./worldcup2014.csv')
# Leer las primeras 5 observaciones
df.head(5)

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


## Desafío 2: Estime las frecuencias de <code>continent</code>
Utilizando <code>value_counts</code>. Responda lo siguiente:
<ul>
    <li> ¿Cuál es el continente con una mayor presencia en la muestra?</li>
    <li>¿Cuál es la probabilidad de elegir un equipo asiático al azar?</li>
    <li> ¿Cuál es la probabilidad de elegir un equipo africano al azar?</li>
</ul>


In [15]:
# Vemos todos los continentes
continents = df['continent'].value_counts('%')
print(continents)

europe          0.40625
southamerica    0.18750
africa          0.15625
asia            0.12500
northamerica    0.12500
Name: continent, dtype: float64


Vemos que el continente con mayor presecnia es Europa con 40% aprox.

In [16]:
# Calculamos la probabilidad de elegir un equipo para Asia y Africa
totalMuestra = continents.sum()
probAsia = continents['asia'] / totalMuestra
probAfrica = continents['africa'] / totalMuestra
print(f'Probabilidad de elegir un equipo asiatico es de {str(probAsia*100)}%')
print(f'Probabilidad de elegir un equipo africano es de {str(probAfrica*100)}%')

Probabilidad de elegir un equipo asiatico es de 12.5%
Probabilidad de elegir un equipo africano es de 15.625%


## Desafío 3: Generación de Subconjunto de datos


Por cada continente, genere un nuevo objeto que almacene sólo las observaciones del
continente

In [8]:
asiaDf = df[df['continent'] == 'asia']
africaDf = df[df['continent'] == 'africa']
europeDf = df[df['continent'] == 'europe']
naDf = df[df['continent'] == 'northamerica']
saDf = df[df['continent'] == 'southamerica']

## Desafío 4: Calcule la probabilidad de clasificación a la siguiente ronda
<ul>
    <li>Calcule la probabilidad de que un país pase a la siguiente ronda (clasifique) por
continente.</li>
    <li>¿Cuál es la probabilidad de que un país asiático pase a la siguiente ronda?</li>
    <li>¿Cuáles son los dos continentes con la mayor probabilidad de clasificar?</li>
    <li>¿Cuál es la probabilidad de que un país europeo no clasifique?</li>
</ul>

In [17]:
def getContinentQualifierProbability(continentDf, name, log=True):
    prob = len(continentDf[continentDf['clasificado'] == 1]) / continentDf.shape[0]
    if log:
        print(f'Probabilidad de que un Pais de {name} clasifique: {prob}')
    return prob
getContinentQualifierProbability(asiaDf, 'Asia')
getContinentQualifierProbability(africaDf, 'Africa')
getContinentQualifierProbability(europeDf, 'Europa')
getContinentQualifierProbability(naDf, 'Norteamerica')
getContinentQualifierProbability(saDf, 'Sudamerica')
print('Probabilidad de que un pais Europeo no clasifique: {}'.format(1 - getContinentQualifierProbability(europeDf, 'Europa', False)))


Probabilidad de que un Pais de Asia clasifique: 0.0
Probabilidad de que un Pais de Africa clasifique: 0.4
Probabilidad de que un Pais de Europa clasifique: 0.46153846153846156
Probabilidad de que un Pais de Norteamerica clasifique: 0.75
Probabilidad de que un Pais de Sudamerica clasifique: 0.8333333333333334
Probabilidad de que un pais Europeo no clasifique: 0.5384615384615384


Vemos que los dos continentes con mayor probabilidad de clasificar son Norteamerica y Sudamerica.

## Desafío 5: Probabilidades de Victoria y Derrota
<ul>
<li>Se pide utilizar <code>value_counts</code> para calcular la probabilidad de que un continente
contenga países con o sin victorias.</li>
<li>Para ello cree una columna adicional llamada <code>'ha_ganado'</code> que contenga un 0 si es
que un país no tiene juegos ganados y un 1 si es que ha ganado al menos un juego.</li>
<li><b>Sugerencias</b>: Para crear dicha columna puede revisar:
<ul>
<li><code>np.where</code>, de Numpy</li>
<li><code>pd.where</code>, de Pandas</li>
<li>Además puede utilizar los mismos procedimientos sugeridos en el Desafío 4.</li>
</ul>
</li>
<li>En base al resultado del procedimiento recién descrito, responda lo siguiente:
<ul>
<li>¿Qué continente tiene la mayor probabilidad de tener países con al menos 1
victoria?</li>
<li>¿Qué continente tiene un nivel similar entre países que tienen o no tienen
victorias?</li>
</ul>
</li>
<li>Reformule el código para juegos perdidos y analice los continentes con mayor
probabilidad de tener países sin juegos perdidos.</li>
</ul>


In [24]:
# se crean las nuevas columnas
df['ha ganado'] = np.where(df['juegos_ganados'] > 0, 1, 0)
df['ha perdido'] = np.where(df['juegos_perdidos'] > 0, 1, 0)
# se consiguen denuevo los continentes
asiaDf = df[df['continent'] == 'asia']
africaDf = df[df['continent'] == 'africa']
europeDf = df[df['continent'] == 'europe']
naDf = df[df['continent'] == 'northamerica']
saDf = df[df['continent'] == 'southamerica']
# se crea una función para analizar los continentes
def analizeContinent(continentDf, name, log=True):
    probGanado = len(continentDf[continentDf['ha ganado'] == 1]) / continentDf.shape[0]
    probPerdido = len(continentDf[continentDf['ha perdido'] == 1]) / continentDf.shape[0]
    if log:
        print(f'Probabilidad de que un Pais de {name} gane al menos un juego: {probGanado}')
        print(f'Probabilidad de que un Pais de {name} pierda al menos un juego: {probPerdido}')
        print("="*8)
    return (probGanado, probPerdido)
analizeContinent(asiaDf, 'Asia')
analizeContinent(africaDf, 'Africa')
analizeContinent(europeDf, 'Europa')
analizeContinent(naDf, 'Norteamerica')
analizeContinent(saDf, 'Sudamerica')

Probabilidad de que un Pais de Asia gane al menos un juego: 0.0
Probabilidad de que un Pais de Asia pierda al menos un juego: 1.0
Probabilidad de que un Pais de Africa gane al menos un juego: 0.6
Probabilidad de que un Pais de Africa pierda al menos un juego: 1.0
Probabilidad de que un Pais de Europa gane al menos un juego: 0.8461538461538461
Probabilidad de que un Pais de Europa pierda al menos un juego: 0.6923076923076923
Probabilidad de que un Pais de Norteamerica gane al menos un juego: 0.75
Probabilidad de que un Pais de Norteamerica pierda al menos un juego: 0.5
Probabilidad de que un Pais de Sudamerica gane al menos un juego: 1.0
Probabilidad de que un Pais de Sudamerica pierda al menos un juego: 0.5


(1.0, 0.5)

El continente con mayor probabilidad de tener un pais que haya ganado al menos un juego es __Sudamerica__. Mientras que el continente que presenta paises con un nivel parecido es __Africa__ pues tiene una probabilidad de 60% para que al menos un pais gane un partido.

Para la probabilidad de perder, es el caso de __Sudamerica__ y __Norteamerica__ los continentes que tienen una mayor probabilidad de no tener juegos perdidos, ya que tienen menor probabilidad de que un pais pierda al menos una vez.