# Desafío - Calculando probabilidades

## Desafío 1: Lectura de archivos

- Importe pandas y numpy siguiendo las convenciones.

In [1]:
import pandas as pd
import numpy as np

- Lea la base de datos worldcup2014.csv y asígnela a un objeto df .

In [2]:
df = pd.read_csv('worldcup2014.csv')

- Solicite las primeras 5 observaciones con head

In [3]:
df.head(5)

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


## Desafío 2: Estime las frecuencias de continent

Utilice `value_counts`

In [4]:
df['continent'].value_counts()

europe          13
southamerica     6
africa           5
northamerica     4
asia             4
Name: continent, dtype: int64

¿Cuál es el continente con una mayor presencia en la muestra?

In [5]:
df['continent'].value_counts().idxmax()

'europe'

¿Cuál es la probabilidad de elegir un equipo asiático al azar?

In [6]:
print("La probabilidad de elegir un equipo asiático al azar es {}%".format(100 * df['continent'].value_counts(normalize=True)['asia']))

La probabilidad de elegir un equipo asiático al azar es 12.5%


¿Cuál es la probabilidad de elegir un equipo africano al azar?

In [7]:
print("La probabilidad de elegir un equipo africano al azar es {}%".format(100 * df['continent'].value_counts(normalize=True)['africa']))

La probabilidad de elegir un equipo africano al azar es 15.625%


## Desafío 3: Probabilidades por continente

Por cada continente, genere un nuevo objeto que almacene sólo las observaciones del continente.

In [8]:
europe = df[df['continent'] == 'europe']
southamerica = df[df['continent'] == 'southamerica']
africa = df[df['continent'] == 'africa']
northamerica = df[df['continent'] == 'northamerica']
asia = df[df['continent'] == 'asia']

## Desafío 4: Calcule la probabilidad de clasificación a la siguiente ronda

- Pase todos los objetos creados en un loop que imprima la probabilidad de pasar a la siguiente ronda por continente.

In [9]:
continents = [europe, southamerica, africa, northamerica, asia]

probabilities = [(continent.iloc[0]['continent'], round(100 * continent['clasificado'].mean()))
                 for continent in continents]

for name, prob in probabilities:
    print("La probabilidad de pasar a la siguiente ronda para {} es de {}%".format(name, prob))

La probabilidad de pasar a la siguiente ronda para europe es de 46%
La probabilidad de pasar a la siguiente ronda para southamerica es de 83%
La probabilidad de pasar a la siguiente ronda para africa es de 40%
La probabilidad de pasar a la siguiente ronda para northamerica es de 75%
La probabilidad de pasar a la siguiente ronda para asia es de 0%


- ¿Cuáles fueron los dos continentes que tuvieron la mayor probabilidad de clasificar?

In [10]:
print("Los dos continentes con mayor probabilidad de clasificar fueron: ")

for name, prob in sorted(probabilities, key=lambda x: x[0], reverse=True)[:2]:
    print("\t", name, "(con {}%)".format(prob))

Los dos continentes con mayor probabilidad de clasificar fueron: 
	 southamerica (con 83%)
	 northamerica (con 75%)


- ¿Cuál fue la probabilidad de no clasificar un país europeo?

In [11]:
print("La probabilidad de no clasificar de un país europeo es {}%".format(100 - probabilities[0][1]))

La probabilidad de no clasificar de un país europeo es 54%


## Desafío 5: Refactorización

- A continuación se presenta un loop que cuenta las probabilidades de juegos ganados. Se pide que `value_counts` cuente los juegos no ganados y ganados, ignorando de la cantidad de juegos

In [12]:
for d in [africa, europe, asia, northamerica, southamerica]:
    print(d['juegos_ganados'].value_counts('%'))

1    0.6
0    0.4
Name: juegos_ganados, dtype: float64
1    0.461538
2    0.230769
3    0.153846
0    0.153846
Name: juegos_ganados, dtype: float64
0    1.0
Name: juegos_ganados, dtype: float64
2    0.50
1    0.25
0    0.25
Name: juegos_ganados, dtype: float64
2    0.500000
3    0.333333
1    0.166667
Name: juegos_ganados, dtype: float64


- Para ello puede utilizar np.where , que devuelve un array con valores imputados cuando se satisface una condición. En este caso debemos clasificar como 0 cuando los juegos ganados sean igual a 0, y 1 cuando sean igual o mayor a 1.
- Este array es difícil de trabajar, por lo que pueden transformarlo con pd.Series para utilizar value_counts.

In [13]:
for continent in continents:
    result = pd.Series(np.where(continent['juegos_ganados'] > 0, 1, 0))
    print('Para {}:'.format(continent.iloc[0]['continent']))
    counts = result.value_counts(normalize=True)
    win_ratio = counts.get(1)
    win_percent = (win_ratio and int(round(100 * win_ratio))) or 0
    lost_ratio = counts.get(0)
    lost_percent = (lost_ratio and int(round(100 * lost_ratio))) or 0
    print('  La probabilidad de ganar al menos un juego es {}%'.format(win_percent))
    print('  La probabilidad de perder todos los juegos es {}%'.format(lost_percent))

Para europe:
  La probabilidad de ganar al menos un juego es 85%
  La probabilidad de perder todos los juegos es 15%
Para southamerica:
  La probabilidad de ganar al menos un juego es 100%
  La probabilidad de perder todos los juegos es 0%
Para africa:
  La probabilidad de ganar al menos un juego es 60%
  La probabilidad de perder todos los juegos es 40%
Para northamerica:
  La probabilidad de ganar al menos un juego es 75%
  La probabilidad de perder todos los juegos es 25%
Para asia:
  La probabilidad de ganar al menos un juego es 0%
  La probabilidad de perder todos los juegos es 100%


En base a la refactorización del código, responda lo siguiente:

_¿Qué continente tuvo una mayor probabilidad de ganar juegos?_

El continente con mayor probabilidad de ganar juegos fue **Southamerica**

_¿Qué continente presentó un nivel similar entre juegos ganados y perdidos?_

Lo más similar es **áfrica**, que ganó el 60% y perdió el 40%

- Utilize el código para el caso de juegos perdidos y analize el continente con una mayor probabilidad de perder.

In [14]:
for continent in continents:
    result = pd.Series(np.where(continent['juegos_perdidos'] > 0, 1, 0))
    print('Para {}:'.format(continent.iloc[0]['continent']))
    counts = result.value_counts(normalize=True)
    win_ratio = counts.get(1)
    win_percent = (win_ratio and int(round(100 * win_ratio))) or 0
    lost_ratio = counts.get(0)
    lost_percent = (lost_ratio and int(round(100 * lost_ratio))) or 0
    print('  La probabilidad de tener al menos un juego perdido es {}%'.format(win_percent))
    print('  La probabilidad de no tener juegos perdidos es {}%'.format(lost_percent))

Para europe:
  La probabilidad de tener al menos un juego perdido es 69%
  La probabilidad de no tener juegos perdidos es 31%
Para southamerica:
  La probabilidad de tener al menos un juego perdido es 50%
  La probabilidad de no tener juegos perdidos es 50%
Para africa:
  La probabilidad de tener al menos un juego perdido es 100%
  La probabilidad de no tener juegos perdidos es 0%
Para northamerica:
  La probabilidad de tener al menos un juego perdido es 50%
  La probabilidad de no tener juegos perdidos es 50%
Para asia:
  La probabilidad de tener al menos un juego perdido es 100%
  La probabilidad de no tener juegos perdidos es 0%


El continente con una mayor probabilidad de perder es **Asia**, con un 100% de probabilidad 😂