### **Desafío - Calculando probabilidades**

#### **`Desafío 1: Lectura de archivos`**

- Importe pandas y numpy siguiendo las convenciones.
- Lea la base de datos worldcup2014.csv y asígnela a un objeto df.
- Solicite las primeras 5 observaciones con head.

In [2]:
import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings



In [5]:
import os

os.listdir()

['01_Desafio_guiado_-_Calculando_probabilidades.ipynb',
 '01_Desafio_guiado_-_Calculando_probabilidades.pdf',
 '02_Desafío_evaluado_-_Funciones_y_probabilidad_básica.pdf',
 'worldcup2014.csv']

In [3]:
df = pd.read_csv('worldcup2014.csv')
df.shape

(32, 13)

In [16]:
df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


#### **`Desafío 2: Estime las frecuencias de ​continent`**

Utilizando `​value_counts()`​ responda lo siguiente:

##### **a) ¿Cuál es el continente con una mayor presencia en la muestra?**

In [13]:
# Forma 1
df['continent'].value_counts(dropna=False)

europe          13
southamerica     6
africa           5
northamerica     4
asia             4
Name: continent, dtype: int64

In [8]:
# Forma 2
df.continent.value_counts()

europe          13
southamerica     6
africa           5
northamerica     4
asia             4
Name: continent, dtype: int64

##### **b) ¿Cuál es la probabilidad de elegir un equipo asiático al azar?**

In [10]:
df.continent.value_counts('%')

europe          0.40625
southamerica    0.18750
africa          0.15625
northamerica    0.12500
asia            0.12500
Name: continent, dtype: float64

In [9]:
df.continent.value_counts('%')['asia']

0.125

##### **c) ¿Cuál es la probabilidad de elegir un equipo africano al azar?**

In [18]:
df.continent.value_counts('%')

europe          0.40625
southamerica    0.18750
africa          0.15625
northamerica    0.12500
asia            0.12500
Name: continent, dtype: float64

In [19]:
df.continent.value_counts('%')['africa']

0.15625

#### **`Desafío 3: Generación de Subconjunto de datos`**

- Por cada continent, genere un nuevo objeto que almacene sólo las observaciones del continente.

- **`Tip`**:​ Para ello puede utilizar la siguiente sintaxis: **​df[df[​'variable'​] == condicion]​**

In [7]:
southamerica = df[df['continent'] == 'southamerica']
northamerica = df[df['continent'] == 'northamerica']
europe = df[df['continent'] == 'europe']
africa = df[df['continent'] == 'africa']
asia = df[df['continent'] == 'asia']

southamerica

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado,ha_ganado,ha_perdido
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1,1,0
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1,1,1
8,Colombia,southamerica,C,1,3,3,0,0,9,2,7,9,1,1,0
13,Uruguay,southamerica,D,2,3,2,0,1,4,4,0,6,1,1,1
18,Ecuador,southamerica,E,3,3,1,1,1,3,3,0,4,0,1,1
20,Argentina,southamerica,F,1,3,3,0,0,6,3,3,9,1,1,0


In [23]:
southamerica = df.loc[df.continent == 'southamerica']
northamerica = df.loc[df.continent == 'northamerica']
europe = df.loc[df.continent == 'europe']
africa = df.loc[df.continent == 'africa']
asia = df.loc[df.continent == 'asia']

asia

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
7,Australia,asia,B,4,3,0,0,3,3,9,−6,0,0
11,Japan,asia,C,4,3,0,1,2,2,6,−4,1,0
23,Iran,asia,F,4,3,0,1,2,1,4,−3,1,0
31,South Korea,asia,H,4,3,0,1,2,3,6,−3,1,0


#### **`Desafío 4: Calcule la probabilidad de clasificación a la siguiente ronda`**

##### **Calcule la probabilidad de que un país pase a la siguiente ronda (clasifique) por continente**



**`Consejos`**:​ El problema puede ser resuelto de varias formas:

- La manera más intuitiva corresponde a calcular la probabilidad en cada subconjunto creado en el problema 3.
- Una forma alternativa es copiar todos los subsets creados en el problema 3 en una lista e iterar sobre dicha lista.
- Una forma más elegante consiste en utilizar una operación de agrupación por continente, y luego calcular la probabilidad.

##### **a) ¿Cuál es la probabilidad de que un país asiático pase a la siguiente ronda?**

> Cual es la probabilidad de que un pais clasifique dado que es asiatico

> Pr(pasar|asiatico) = Pr(pasar y asiatico)/Pr(asiatico)

- **`Evento clasificar`**: Probabilidad de que un pais clasifique (A)
- **`Evento asiatico`**: Probabilidad de ser un pais asiatico (B)
- **`Evento clasificar y asiatico`**: Probabilidad de que un pais asiatico clasifique (A y B)

**`Evento clasificar y asiatico`**: Probabilidad de que un pais asiatico clasifique

In [52]:
# Reutilizamos el subset del desafio 3
# No nos sirve esta forma, dado que solo nos devuelve el valor de False, y necesitamos el valor de True
condicion = (df.clasificado == 1) & (df.continent == 'asia')
condicion.value_counts()

False    32
dtype: int64

##### **`A ⋂ B`**

In [58]:
# Cruzamos datos entre la columna 'clasificado' y 'continent'
# Se debe cumplir que continent = 'asia' y clasificado = 1
# Esto corresponde a la interseccion
cant_asia_clasif = df[df['continent'] == 'asia'].clasificado.sum()
cant_asia_clasif

0

##### **`P(A ⋂ B)`**

In [62]:
# La proporcion de un pais asiatico clasificado es 0.0 con respecto a los 32 paises
proporcion = cant_asia_clasif / len(df) # 0/32 = 0.0
proporcion

0.0

**`Evento asiatico`**: Probabilidad de ser un pais asiatico

##### **`B`**

In [42]:
cant_asiatico = asia.shape[0]  # 4
cant_asiatico

4

In [43]:
cant_asiatico = df.continent.value_counts()['asia']  # 4
cant_asiatico

4

##### **`P(B)`**

In [44]:
prob_asiatico = df.continent.value_counts('%')['asia']  # 125
prob_asiatico

0.125

In [39]:
prob_asiatico = df.continent.value_counts(normalize=True)['asia'] # 4/32 = 0.125
prob_asiatico

0.125

##### **`Resultado`**

<center><img src="https://i.postimg.cc/X73SY1rq/dl12.png"></center>

In [None]:
print(f'Pr(clasificar|asiatico): {cant_asia_clasif/cant_asiatico}') # 0 / 4 = 0.0

Pr(clasificar|asiatico): 0.0


In [None]:
print(f'Pr(clasificar|asiatico): {proporcion/prob_asiatico}') # 0.0 / 1.25 = 0.0

Pr(clasificar|asiatico): 0.0


Para **`Southamerica`**:

In [63]:
# Cruzamos datos entre la columna 'clasificado' y 'continent'
# Se debe cumplir que continent = 'southamerica' y clasificado = 1
# Esto corresponde a la interseccion
cant_southamerica_clasif = df[df['continent'] == 'southamerica'].clasificado.sum()
cant_southamerica_clasif

5

In [68]:
# La proporcion de un pais sudamericano clasificado es 0.15625 con respecto a los 32 paises
# El 15,5% de paises clasificados corresponde a paises de sudamerica
proporcion_south = cant_southamerica_clasif / len(df) # 5/32 = 0.15625
proporcion_south

0.15625

In [65]:
cant_sudamerican = df.continent.value_counts()['southamerica']  # 6
cant_sudamerican

6

In [66]:
prob_sudamerican = df.continent.value_counts(normalize=True)['southamerica'] # 6/32 = 0.1875
prob_sudamerican

0.1875

In [67]:
print(f'Pr(clasificar|sudamericano): {proporcion_south/prob_sudamerican}') # 0.8333333333333334

Pr(clasificar|sudamericano): 0.8333333333333334


Si utilizamos el subconjunto de datos '**`southamerica`**' podriamos calcular la proporcion de clasificados con respecto a los
6 paises sudamericanos: 
- el 83% de ellos clasifico
- mientras que el 17% no clasifico

In [69]:
condicioness = (southamerica.clasificado == 1)
condicioness.value_counts(normalize=True)

True     0.833333
False    0.166667
Name: clasificado, dtype: float64

##### **b) ¿Cuáles son los dos continentes con la mayor probabilidad de clasificar?**

In [84]:
def prob_clasif_continente(c):
    cant_clasif_i = df[df['continent'] == c].clasificado.sum()
    cant_i = df.continent.value_counts()[c] 
    print(f'Pr(clasificar|{c}): {np.round(cant_clasif_i/cant_i, 2)}')

In [85]:
dfs = ['europe', 'southamerica', 'northamerica', 'africa', 'asia']

for d in dfs:
    prob_clasif_continente(d)

Pr(clasificar|europe): 0.46
Pr(clasificar|southamerica): 0.83
Pr(clasificar|northamerica): 0.75
Pr(clasificar|africa): 0.4
Pr(clasificar|asia): 0.0


Tenemos esta opción de agrupar y analizar los datos

In [67]:
df.groupby('continent')['clasificado'].value_counts()

continent     clasificado
africa        0              3
              1              2
asia          0              4
europe        0              7
              1              6
northamerica  1              3
              0              1
southamerica  1              5
              0              1
Name: clasificado, dtype: int64

In [68]:
df.groupby('continent')['clasificado'].value_counts(normalize=True)

continent     clasificado
africa        0              0.600000
              1              0.400000
asia          0              1.000000
europe        0              0.538462
              1              0.461538
northamerica  1              0.750000
              0              0.250000
southamerica  1              0.833333
              0              0.166667
Name: clasificado, dtype: float64

##### **c) ¿Cuál es la probabilidad de que un país europeo no clasifique?**

<center><img src="https://i.postimg.cc/v841Lsd1/dl13.png"></center>

In [72]:
# Revisar la clasificación = 0 de Europe ==> 0.54
df.groupby('continent')['clasificado'].value_counts(normalize=True).round(2)

continent     clasificado
africa        0              0.60
              1              0.40
asia          0              1.00
europe        0              0.54
              1              0.46
northamerica  1              0.75
              0              0.25
southamerica  1              0.83
              0              0.17
Name: clasificado, dtype: float64

#### **`Desafío 5: Probabilidades de Victoria y Derrota`**

- Se pide utilizar​ **`value_counts()`** ​para calcular la probabilidad de que un continente contenga países  con o sin victorias.

- Para ello cree una columna adicional llamada​ '**`ha_ganado`**' que contenga un **`0`** si es que un país no tiene juegos ganados y un **`1`** si es que ha ganado al menos un juego.

- **`Sugerencias`**:​ Para crear dicha columna puede revisar: **`np.where`** de Numpy, o **`pd.where`** de Pandas. Además, puede utilizar los mismos procedimientos sugeridos en el Desafío 4.

In [4]:
# Creamos una nueva columna
# Otra forma: df['ha_ganado'] = df('juegos_ganados').where(lambda x: x==0, 1)
df['ha_ganado'] = np.where(df['juegos_ganados'] > 0, 1, 0)
df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado,ha_ganado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0,1
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1,1


##### **`Analizamos la proporcion de paises que ganaron (1 o más) respecto a su continente`**

Podemos utilizar los subconjuntos de datos creados en el Desafio 3. Por tanto, podemos decir que:

- En Europa el 84% de paises ganaron 1 o mas partidos. Y el 15% no gano ningun partido
- En Sudamerica el 100% de paises gano un partido

In [98]:
# dfs = [c for c in df.continent.unique()] ---> Haciendolo de esta manera me sale error
# Fijarse que los contienentes no se les puso comillas, dado que no corresponden a strings, si no, a los 
# Dataframes (subconjuntos) en si
dfs = [europe, southamerica, northamerica, africa, asia]

# Recordar que en el Desafio 3 se crearon subconjuntos de datos, es por eso que podemos recorrer
# con mayor facilidad
for d in dfs:
    print(d.continent.iloc[0]) # Nos devuelve el primero elemento de esa columna, que seria el nombre del continente
    print(d['ha_ganado'].value_counts(normalize=True), '\n')

europe
1    0.846154
0    0.153846
Name: ha_ganado, dtype: float64 

southamerica
1    1.0
Name: ha_ganado, dtype: float64 

northamerica
1    0.75
0    0.25
Name: ha_ganado, dtype: float64 

africa
1    0.6
0    0.4
Name: ha_ganado, dtype: float64 

asia
0    1.0
Name: ha_ganado, dtype: float64 



Podemos presentar la informacion de una manera más elegante. Podemos utilizar el metodo **`groupby()`** para agrupar los paises por continente.

In [122]:
new_df = pd.DataFrame(df.groupby(by = "continent")['ha_ganado'].value_counts('%').round(2))
new_df

Unnamed: 0_level_0,Unnamed: 1_level_0,ha_ganado
continent,ha_ganado,Unnamed: 2_level_1
africa,1,0.6
africa,0,0.4
asia,0,1.0
europe,1,0.85
europe,0,0.15
northamerica,1,0.75
northamerica,0,0.25
southamerica,1,1.0


In [123]:
new_df = pd.DataFrame(df.groupby(by = "continent")['ha_ganado'].value_counts('%').round(2)).rename(columns = {'ha_ganado':'porcentaje_interés'})
new_df

Unnamed: 0_level_0,Unnamed: 1_level_0,porcentaje_interés
continent,ha_ganado,Unnamed: 2_level_1
africa,1,0.6
africa,0,0.4
asia,0,1.0
europe,1,0.85
europe,0,0.15
northamerica,1,0.75
northamerica,0,0.25
southamerica,1,1.0


In [128]:
new_df = pd.DataFrame(df.groupby(by = "continent")['ha_ganado'].value_counts('%').round(2)).rename(columns = {'ha_ganado':'porcentaje_interés'}).reset_index()
new_df

Unnamed: 0,continent,ha_ganado,porcentaje_interés
0,africa,1,0.6
1,africa,0,0.4
2,asia,0,1.0
3,europe,1,0.85
4,europe,0,0.15
5,northamerica,1,0.75
6,northamerica,0,0.25
7,southamerica,1,1.0


##### **a) ¿Qué continente tiene la mayor probabilidad de tener países con al menos 1 victoria?**

In [130]:
new_df[new_df['ha_ganado'] == 1]

Unnamed: 0,continent,ha_ganado,porcentaje_interés
0,africa,1,0.6
3,europe,1,0.85
5,northamerica,1,0.75
7,southamerica,1,1.0


Southamerica

##### **b) ¿Qué continente tiene un nivel similar entre países que tienen o no tienen victorias?**

Africa

##### **c) Reformule el código para juegos perdidos y analice los continentes con mayor probabilidad de tener países sin juegos perdidos**

##### **`Analizamos la proporcion de paises que perdieron (1 o más) respecto a su continente`**

Podemos utilizar los subconjuntos de datos creados en el Desafio 3. Por tanto, podemos decir que:

- En Europa el 69% de paises perdieron 1 o mas partidos. Y el 30% no perdio ningun partido
- En Sudamerica el 50% de paises perdio un partido. Y el 50% no perdio ningun partido

In [5]:
# Creamos una nueva columna
# Otra forma: df['ha_ganado'] = df('juegos_ganados').where(lambda x: x==0, 1)
df['ha_perdido'] = np.where(df['juegos_perdidos'] > 0, 1, 0)
df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado,ha_ganado,ha_perdido
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1,1,0
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1,1,0
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0,1,1
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0,0,1
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1,1,0


In [8]:
dfs = [europe, southamerica, northamerica, africa, asia]

for d in dfs:
    print(d.continent.iloc[0])
    print(d['ha_perdido'].value_counts(normalize=True), '\n')

europe
1    0.692308
0    0.307692
Name: ha_perdido, dtype: float64 

southamerica
0    0.5
1    0.5
Name: ha_perdido, dtype: float64 

northamerica
0    0.5
1    0.5
Name: ha_perdido, dtype: float64 

africa
1    1.0
Name: ha_perdido, dtype: float64 

asia
1    1.0
Name: ha_perdido, dtype: float64 



Podemos presentar la informacion de una manera más elegante. Podemos utilizar el metodo **`groupby()`** para agrupar los paises por continente.

In [10]:
nuevo_df = pd.DataFrame(df.groupby(by = "continent")['ha_perdido'].value_counts('%').round(2)).rename(columns = {'ha_perdido':'porcentaje_interés'}).reset_index()
nuevo_df

Unnamed: 0,continent,ha_perdido,porcentaje_interés
0,africa,1,1.0
1,asia,1,1.0
2,europe,1,0.69
3,europe,0,0.31
4,northamerica,0,0.5
5,northamerica,1,0.5
6,southamerica,0,0.5
7,southamerica,1,0.5


Africa y Asia son los dos continentes con mayor porcentaje de partidos perdidos