# Desafío 1: Lectura de archivos

* Importe pandas y numpy siguiendo las convenciones.
* Lea la base de datos worldcup2014.csv y asígnela a un objeto df.
* Solicite las primeras 5 observaciones con head.


In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv('worldcup2014.csv')
df.head()

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


# Desafío 2: Estime las frecuencias de continent

Utilizando value_counts. Responda lo siguiente:

* ¿Cuál es el continente con una mayor presencia en la muestra?
* ¿Cuál es la probabilidad de elegir un equipo asiático al azar?
* ¿Cuál es la probabilidad de elegir un equipo africano al azar?



In [2]:
frecuencias = df["continent"].value_counts()
mayor_presencia = df["continent"].value_counts()[0]
P_asia = frecuencias.at['asia']/frecuencias.sum()
P_africa = frecuencias.at['africa']/frecuencias.sum()

print('FRECUENCIAS:\n',frecuencias)
print('El continente con una mayor presencia en la muestra es {}'.format(frecuencias.index[0]))
print('La probabilidad de elegir un equipo asiático al azar es {}%'.format(int(P_asia*100)))
print('La probabilidad de elegir un equipo africano al azar es {}%'.format(int(P_africa*100)))

FRECUENCIAS:
 europe          13
southamerica     6
africa           5
northamerica     4
asia             4
Name: continent, dtype: int64
El continente con una mayor presencia en la muestra es europe
La probabilidad de elegir un equipo asiático al azar es 12%
La probabilidad de elegir un equipo africano al azar es 15%


* ¿Cuál es el continente con una mayor presencia en la muestra?
Rp: Europa es el continente con mayor presencia en la muestra

* ¿Cuál es la probabilidad de elegir un equipo asiático al azar?
Rp: La probabilidad de elegir un equipo asiático al azar es de 12%

* ¿Cuál es la probabilidad de elegir un equipo africano al azar?
Rp: La probabilidad de elegir un equipo africano al azar es 15%

# Desafío 3: Generación de Subconjunto de datos
Por cada continente, genere un nuevo objeto que almacene sólo las observaciones del continente.

**Tip:** Para ello puede utilizar la siguiente sintaxis: df[df['variable'] == condicion].


In [3]:
continents = {}
for continent in df['continent'].unique():
    print(continent.upper())
    continents[continent] = df[df['continent'] == continent]
    print(continents[continent])
    

SOUTHAMERICA
         team     continent group  group_pos  cantidad_juegos  juegos_ganados  \
0      Brazil  southamerica     A          1                3               2   
5       Chile  southamerica     B          2                3               2   
8    Colombia  southamerica     C          1                3               3   
13    Uruguay  southamerica     D          2                3               2   
18    Ecuador  southamerica     E          3                3               1   
20  Argentina  southamerica     F          1                3               3   

    juegos_empatados  juegos_perdidos  goles_favor  goles_contra  \
0                  1                0            7             2   
5                  0                1            5             3   
8                  0                0            9             2   
13                 0                1            4             4   
18                 1                1            3             3   
20         

# Desafío 4: Calcule la probabilidad de clasificación a la siguiente ronda

In [4]:
counts= df.groupby(['continent','team']).agg({'clasificado':'sum'})
e = 0.000000001 # epsilon para evitar la división por cero
probs = counts.groupby(level=0).apply(lambda x: round(x / float(x.sum()+e),2))
probs

#(probs.index)
#probs.loc[('africa',), 'clasificado']

Unnamed: 0_level_0,Unnamed: 1_level_0,clasificado
continent,team,Unnamed: 2_level_1
africa,Algeria,0.5
africa,Cameroon,0.0
africa,Ghana,0.0
africa,Ivory Coast,0.0
africa,Nigeria,0.5
asia,Australia,0.0
asia,Iran,0.0
asia,Japan,0.0
asia,South Korea,0.0
europe,Belgium,0.17


* ¿Cuál es la probabilidad de que un país asiático pase a la siguiente ronda?

In [5]:
probs.loc[('asia',), 'clasificado']

team
Australia      0.0
Iran           0.0
Japan          0.0
South Korea    0.0
Name: clasificado, dtype: float64

La probabilidad de que algún país asiático pase a la siguiente ronda es cero

* ¿Cuáles son los dos continentes con la mayor probabilidad de clasificar?

In [6]:
counts= df.groupby(['continent']).agg({'clasificado':'sum'}).apply(
            lambda x: round(x / float(x.sum()+e),2))
counts.sort_values('clasificado' , ascending = False , inplace = True)
print(counts)
print('Los dos continentes con la mayor probabilidad de clasificar son: {}'.format(counts.index.values[:2]))

              clasificado
continent                
europe               0.37
southamerica         0.31
northamerica         0.19
africa               0.12
asia                 0.00
Los dos continentes con la mayor probabilidad de clasificar son: ['europe' 'southamerica']


Los dos continentes con la mayor probabilidad de  son Europa y Sudamérica.

¿Cuál es la probabilidad de que un país europeo no clasifique?


In [7]:
print('La probabilidad de que un país europeo no clasifique es {}'.format(1-counts.loc['europe','clasificado']))

La probabilidad de que un país europeo no clasifique es 0.63


La probabilidad de que un país europeo no clasifique es 63%

# Desafío 5: Probabilidades de Victoria y Derrota

* Se pide utilizar value_counts para calcular la probabilidad de que un continente contenga países con o sin victorias.
* Para ello cree una columna adicional llamada 'ha_ganado' que contenga un 0 si es que un país no tiene juegos ganados y un 1 si es que ha ganado al menos un juego.
*  Sugerencias: Para crear dicha columna puede revisar:
        ○ np.where, de Numpy
        ○ pd.where, de Pandas
        ○ Además puede utilizar los mismos procedimientos sugeridos en el Desafío 4.

In [8]:
df['ha_ganado'] = 0
filter1 = df["juegos_ganados"]>0
df['ha_ganado'].where(~filter1 , other = 1 , inplace = True)
df

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado,ha_ganado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0,1
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1,1
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1,1
6,Spain,europe,B,3,3,1,0,2,4,7,−3,3,0,1
7,Australia,asia,B,4,3,0,0,3,3,9,−6,0,0,0
8,Colombia,southamerica,C,1,3,3,0,0,9,2,7,9,1,1
9,Greece,europe,C,2,3,1,1,1,2,4,−2,4,1,1


*  En base al resultado del procedimiento recién descrito, responda lo siguiente:
    * ¿Qué continente tiene la mayor probabilidad de tener países con al menos 1 victoria?

In [9]:
counts= df.groupby(['continent']).agg({'ha_ganado':'sum'}).apply(
            lambda x: round(x / float(x.sum()+e),2))
counts.sort_values('ha_ganado' , ascending = False , inplace = True)
print(counts)
print('El continente con la mayor probabilidad de tener países con al menos 1 victoria es: {}'.format(counts.index.values[:1]))

              ha_ganado
continent              
europe             0.48
southamerica       0.26
africa             0.13
northamerica       0.13
asia               0.00
El continente con la mayor probabilidad de tener países con al menos 1 victoria es: ['europe']


El continente con la mayor probabilidad de tener países con al menos 1 victoria es Europa

    * ¿Qué continente tiene un nivel similar entre países que tienen o no tienen victorias?

In [10]:
counts1= df.groupby(['continent']).agg({'ha_ganado':'sum'})
df['no_ha_ganado'] = 1 - df['ha_ganado']
counts2= df.groupby(['continent']).agg({'no_ha_ganado':'sum'})
result = pd.concat([counts1, counts2], axis=1)
result['dif'] = abs(result['ha_ganado']-result['no_ha_ganado'])
result.sort_values('dif',inplace=True)
result

Unnamed: 0_level_0,ha_ganado,no_ha_ganado,dif
continent,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
africa,3,2,1
northamerica,3,1,2
asia,0,4,4
southamerica,6,0,6
europe,11,2,9


In [11]:
print('El continente que tiene la mayor similitud entre la cantidad de países que tienen o no tienen victorias es {}'.format(result.head(1).index[0]))

El continente que tiene la mayor similitud entre la cantidad de países que tienen o no tienen victorias es africa


El continente africano tiene un nivel similar entre países que tienen y aquellos que no tienen victorias.

* Reformule el código para juegos perdidos y analice los continentes con mayor probabilidad de tener países sin juegos perdidos.

In [12]:
df['ha_perdido'] = 0
filter1 = df["juegos_perdidos"]>0
df['ha_perdido'].where(~filter1 , other = 1 , inplace = True)
df['no_ha_perdido'] = 1 - df['ha_perdido']
df

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado,ha_ganado,no_ha_ganado,ha_perdido,no_ha_perdido
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1,1,0,0,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1,1,0,0,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0,1,0,1,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0,0,1,1,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1,1,0,0,1
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1,1,0,1,0
6,Spain,europe,B,3,3,1,0,2,4,7,−3,3,0,1,0,1,0
7,Australia,asia,B,4,3,0,0,3,3,9,−6,0,0,0,1,1,0
8,Colombia,southamerica,C,1,3,3,0,0,9,2,7,9,1,1,0,0,1
9,Greece,europe,C,2,3,1,1,1,2,4,−2,4,1,1,0,1,0


In [13]:
counts= df.groupby(['continent']).agg({'no_ha_perdido':'sum'}).apply(
            lambda x: round(x / float(x.sum()+e),2))
counts.sort_values('no_ha_perdido' , ascending = False , inplace = True)
print(counts)
print('El continente con la mayor probabilidad de tener países sin juegos perdidos: {}'.format(counts.index.values[:1]))

              no_ha_perdido
continent                  
europe                 0.44
southamerica           0.33
northamerica           0.22
africa                 0.00
asia                   0.00
El continente con la mayor probabilidad de tener países sin juegos perdidos: ['europe']


El continente Europeo tiene la mayor probabilidad de tener países sin juegos perdidos.