# Desafío - Funciones y probabilidad básica

## Desafío 1: Generación de funciones

In [174]:
def media(x:list):
    """
    media: calcula la media de los elementos de una lista
    :param x: lista de valores
    :type x: list
    :return: retorna la media
    :rtype: float
    """
    suma = 0
    for i in x:
        suma += i

    return suma/len(x)

def varianza(x:list):
    """
    varianza: calcula la varianza de los elementos de una lista
    :param x: lista de valores
    :type x: list
    :return: retorna la varianza
    :rtype: float
    """
    suma = 0
    promedio = media(x)
    for i in x:
        suma += (i - promedio)**2
    
    return suma / (len(x) - 1)

In [175]:
import numpy as np
import pandas as pd

df = pd.read_csv('worldcup2014.csv')

In [176]:
media_goles_favor = media(list(df['goles_favor']))
varianza_goles_favor = varianza(list(df['goles_favor']))
media_goles_contra = media(list(df['goles_contra']))
varianza_goles_contra = varianza(list(df['goles_contra']))
media_puntos = media(list(df['puntos']))
varianza_puntos = varianza(list(df['puntos']))

In [177]:
print("La media de goles a favor es {}".format(media_goles_favor))
print("La varianza de goles a favor es {}".format(varianza_goles_favor))
print("La media de goles en contra es {}".format(media_goles_contra))
print("La varianza de goles en contra es {}".format(varianza_goles_contra))
print("La media de puntos es {}".format(media_puntos))
print("La varianza de puntos es {}".format(varianza_puntos))

La media de goles a favor es 4.25
La varianza de goles a favor es 5.354838709677419
La media de goles en contra es 4.25
La varianza de goles en contra es 4.967741935483871
La media de puntos es 4.21875
La varianza de puntos es 8.305443548387096


## Desafío 2

In [102]:
europe_df = df[df['continent'] == "europe"]
southamerica_df = df[df['continent'] == "southamerica"]
africa_df = df[df['continent'] == "africa"]
northamerica_df = df[df['continent'] == "northamerica"]
asia_df = df[df['continent'] == "asia"]

def funcion(group_by:list, var:str):
    """
    funcion: Retorna un dataframe con el continente, media y varianza de la variable entregada
    :param group_by: lista de submuestras
    :type group_by: list
    :param var: variable a analizar
    :type var: str
    :return: dataframe con el continente, media y varianza de la variable entregada
    :rtype: pandas.core.frame.DataFrame
    """
    
    continent = []
    store_mean = []
    store_std = []
    
    for d in group_by:
        continent.append(d.iloc[0,1])
        store_mean.append(media(d[var]))
        store_std.append(varianza(d[var]))
    
    tmp = pd.DataFrame({'continente': continent,
                        "media_{}".format(var): store_mean,
                        "std_{}".format(var): store_std})
    return tmp

group_by = [africa_df, europe_df, asia_df, northamerica_df, southamerica_df]
print(funcion(group_by, 'goles_favor'))
print(funcion(group_by, 'goles_contra'))
print(funcion(group_by, 'puntos'))

     continente  media_goles_favor  std_goles_favor
0        africa           3.600000         1.440000
1        europe           4.769231         0.639053
2          asia           2.250000         0.187500
3  northamerica           3.250000         0.187500
4  southamerica           5.666667         0.022222
     continente  media_goles_contra  std_goles_contra
0        africa            5.600000          0.090000
1        europe            4.000000          0.083333
2          asia            6.250000          0.020833
3  northamerica            3.500000          0.083333
4  southamerica            2.833333          0.005556
     continente  media_puntos  std_puntos
0        africa      2.400000    0.640000
1        europe      4.692308    0.604043
2          asia      0.750000    0.020833
3  northamerica      4.500000    0.083333
4  southamerica      6.833333    0.938889


#### El continente con mayor cantidad de goles a favor es southamerica

#### El continente con mayor cantidad de goles en contra es asia

#### El continente con mayor cantidad de puntos es southamerica

## Desafío 3: Simulaciones

In [112]:
def generate_pet():
    """
    generate_pet:  Devuelva de forma aleatoria un string 'perro' o 'gato' 
    :return: string de forma aleatoria
    :rtype: str
    """
    return np.random.choice(['perro', 'gato'])

print(generate_pet())
print(generate_pet())

perro
perro


In [113]:
lista = []
for i in range(20):
    lista.append(generate_pet())
    
print(lista)


['gato', 'perro', 'gato', 'perro', 'perro', 'perro', 'perro', 'perro', 'perro', 'perro', 'perro', 'perro', 'perro', 'gato', 'perro', 'gato', 'perro', 'perro', 'perro', 'gato']


In [114]:
prob_perro = pd.Series(lista).value_counts(normalize = True).get('perro')
prob_gato = pd.Series(lista).value_counts(normalize = True).get('gato')
print("La probabilidad de elegir un perro al azar es {}".format(prob_perro))
print("La probabilidad de elegir un gato al azar es {}".format(prob_gato))

La probabilidad de elegir un perro al azar es 0.75
La probabilidad de elegir un gato al azar es 0.25


In [121]:
lista = []
np.random.seed(2)
for i in range(20):
    lista.append(generate_pet())
    
print(lista)

['perro', 'gato', 'gato', 'perro', 'perro', 'gato', 'perro', 'gato', 'perro', 'gato', 'perro', 'gato', 'gato', 'gato', 'gato', 'gato', 'gato', 'gato', 'perro', 'perro']


In [122]:
prob_perro = pd.Series(lista).value_counts(normalize = True).get('perro')
prob_gato = pd.Series(lista).value_counts(normalize = True).get('gato')
print("La probabilidad de elegir un perro al azar es {}".format(prob_perro))
print("La probabilidad de elegir un gato al azar es {}".format(prob_gato))

La probabilidad de elegir un perro al azar es 0.4
La probabilidad de elegir un gato al azar es 0.6


#### El np.random.seed setea la semilla para el generador aleatorio. Al ser fijo siempre entregara los mismos resultados

## Desafío 4: Función simuladora

In [169]:
def simulate_pets_prob(num:int):
    """
    simulate_pets_prob:  Devuelva de forma aleatoria tupla con lista young_pet y lista old_pet
    :param num: Numero finito de simulaciones
    :type num: int
    :return: lista young_pet, lista old_pet
    :rtype: tuple
    """
    
    young_pet = []
    old_pet = []
    np.random.seed(1)
    for i in range(num):
        young_pet.append(generate_pet())
        old_pet.append(generate_pet())
    
    al_menos_un_perro = np.logical_or(pd.Series(young_pet) == 'perro', pd.Series(old_pet) == 'perro')
    print("Las ocasiones donde al menos uno de los dos sera perro son: {}".format(list(al_menos_un_perro).count(True)))
    print("Las ocasiones donde al menos uno sea un perro viejo: {}".format(old_pet.count("perro")))
    dos_perros = np.logical_and(pd.Series(young_pet) == 'perro', pd.Series(old_pet) == 'perro')
    print("Las ocasiones donde los dos sean perro son: {}".format(list(dos_perros).count(True)))
simulate_pets_prob(10000)

Las ocasiones donde al menos uno de los dos sera perro son: 7514
Las ocasiones donde al menos uno sea un perro viejo: 4994
Las ocasiones donde los dos sean perro son: 2536


#### El escenario menos probable es que los dos sean perros
#### El escenario más probable es que al menos uno de los dos sea perro