## Desafio probabilidades

### Desafio 1: Lectura de archivos

In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv("worldcup2014.csv")

df.head(5)

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


### Desafio 2: Estime las frecuencias de continent

In [3]:
df['continent'].value_counts('%')

europe          0.40625
southamerica    0.18750
africa          0.15625
asia            0.12500
northamerica    0.12500
Name: continent, dtype: float64

<li> ¿Cuál es el continente con una mayor presencia en la muestra?: europa </li>
<li> ¿Cuál es la probabilidad de elegir un equipo asiático al azar?:  0,12500 </li>
<li> ¿Cuál es la probabilidad de elegir un equipo africano al azar?: 0,15625 </li>

### Desafio 3: Probabilidades por continente

In [4]:
df_europe = df[df['continent'] == 'europe']
df_southamerica = df[df['continent'] == 'southamerica']
df_africa = df[df['continent'] == 'africa']
df_northamerica = df[df['continent'] == 'northamerica']
df_asia = df[df['continent'] == 'asia']

### Desafio 4: Calcule la probabilidad de clasificación a la siguiente ronda

In [5]:
continentes = [df_europe, df_southamerica, df_africa, df_northamerica, df_asia]

for continente in continentes: 
    probabilidad = len(continente[continente['clasificado']== 1])/len(continente)
    nombre = continente['continent'].unique()[0]
    print(nombre,'\n\tProbabilidad Clasificar:',probabilidad, '\n\tProbabilidad no clasificar: ',1- probabilidad)

europe 
	Probabilidad Clasificar: 0.46153846153846156 
	Probabilidad no clasificar:  0.5384615384615384
southamerica 
	Probabilidad Clasificar: 0.8333333333333334 
	Probabilidad no clasificar:  0.16666666666666663
africa 
	Probabilidad Clasificar: 0.4 
	Probabilidad no clasificar:  0.6
northamerica 
	Probabilidad Clasificar: 0.75 
	Probabilidad no clasificar:  0.25
asia 
	Probabilidad Clasificar: 0.0 
	Probabilidad no clasificar:  1.0


<li> ¿Cuál fue la probabilidad de que un país asiático pase a la siguiente ronda?: 0,0 </li>
<li> ¿Cuáles fueron los dos continentes que tuvieron la mayor probabilidad de clasificar?: Southamerica y Northamerica </li>
<li> ¿Cuál fue la probabilidad de no clasificar un país europeo?: 0.53846  </li>

### Desafio 5: Refactorización

Con la siguiente refactorización obtenemos: La probabilidad de que los teams de un continente ganen al menos 1 partido.

In [14]:
for continente in continentes:
    continente['ganados'] = np.where(continente['juegos_ganados'] > 0, 1, 0)
    nombre = continente['continent'].unique()[0]
    print(nombre)
    print(continente['ganados'].value_counts('%'),'\n')

europe
1    0.846154
0    0.153846
Name: ganados, dtype: float64 

southamerica
1    1.0
Name: ganados, dtype: float64 

africa
1    0.6
0    0.4
Name: ganados, dtype: float64 

northamerica
1    0.75
0    0.25
Name: ganados, dtype: float64 

asia
0    1.0
Name: ganados, dtype: float64 



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  continente['ganados'] = np.where(continente['juegos_ganados'] > 0, 1, 0)


Con la siguiente refactorización obtenemos: La probabilidad de que los teams de un continente pierdan al menos 1 partido.

In [13]:
for continente in continentes:
    continente['perdidos'] = np.where(continente['juegos_perdidos'] > 0, 1, 0)
    nombre = continente['continent'].unique()[0]
    print(nombre)
    print(continente['perdidos'].value_counts('%'),'\n')

europe
1    0.692308
0    0.307692
Name: perdidos, dtype: float64 

southamerica
1    0.5
0    0.5
Name: perdidos, dtype: float64 

africa
1    1.0
Name: perdidos, dtype: float64 

northamerica
1    0.5
0    0.5
Name: perdidos, dtype: float64 

asia
1    1.0
Name: perdidos, dtype: float64 



A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  continente['perdidos'] = np.where(continente['juegos_perdidos'] > 0, 1, 0)


De acuerdo a las preguntas realizadas, se interpreta que se debe obtener las probabilidades de ganar, perder y empatar por continente. La refactorización anterior no es suficiente para responder las preguntas planteadas, ya que no considera los juegos perdidos y empatados

In [95]:
for continente in continentes:
    prob_ganados = sum(continente['juegos_ganados'])/sum(continente['cantidad_juegos'])
    prob_perdidos = sum(continente['juegos_perdidos'])/sum(continente['cantidad_juegos'])
    prob_empatados = sum(continente['juegos_empatados'])/sum(continente['cantidad_juegos'])
    prob = prob_ganados + prob_perdidos + prob_empatados
    nombre = continente['continent'].unique()[0]
    print(nombre,'\n\t Juegos ganados:',prob_ganados,'\n\t Juegos perdidos:',prob_perdidos,'\n\t Juegos empatados:',prob_empatados, '\n\t Total:',prob)

europe 
	 Juegos ganados: 0.46153846153846156 
	 Juegos perdidos: 0.358974358974359 
	 Juegos empatados: 0.1794871794871795 
	 Total: 1.0
southamerica 
	 Juegos ganados: 0.7222222222222222 
	 Juegos perdidos: 0.16666666666666666 
	 Juegos empatados: 0.1111111111111111 
	 Total: 1.0
africa 
	 Juegos ganados: 0.2 
	 Juegos perdidos: 0.6 
	 Juegos empatados: 0.2 
	 Total: 1.0
northamerica 
	 Juegos ganados: 0.4166666666666667 
	 Juegos perdidos: 0.3333333333333333 
	 Juegos empatados: 0.25 
	 Total: 1.0
asia 
	 Juegos ganados: 0.0 
	 Juegos perdidos: 0.75 
	 Juegos empatados: 0.25 
	 Total: 1.0


<li> ¿Qué continente tuvo una mayor probabilidad de ganar juegos?: Southamerica tiene una probabilidad de 0.72 de ganar juegos  </li>
<li> ¿Qué continente presentó un nivel similar entre juegos ganados y perdidos?: Northamerica tiene una probabilidad igual a 0.416 de ganas juegos y 0.333 de perder juegos  </li>
<li> Analize el continente con una mayor probabilidad de perder: Asia tiene una probabilidad de 0.75 de perder juegos  </li>