# Desafío - Funciones y probabilidad básica

## Desafío 1: Generación de funciones

Genere funciones para calcular la media y varianza de un vector. Debe cumplir con los
siguientes requisitos:

- Ambas funciones deben ingresar un argumento x .
- Las funciones deben contener docstrings con la documentación asociada a la variable.
- Deben retornar el resultado (tip: utilice return ).
- La función de la varianza debe llamar a la función de la media.
- Utilice las funciones para reportar la información sobre `goles_favor`, `goles_contra`, `puntos`.

In [1]:
def media(x):
    """Returns the mean of the iterable object x"""
    return sum(x) / len(x)

def varianza(x):
    """Returns the variance of the iterable object x"""
    n = len(x)
    X = media(x)
    return (1/n) * sum([(x_i - X) ** 2 for x_i in x])

In [2]:
import pandas as pd
import numpy as np

In [3]:
df = pd.read_csv('worldcup2014.csv')
europe_df = df[df['continent'] == 'europe']
southamerica_df = df[df['continent'] == 'southamerica']
africa_df = df[df['continent'] == 'africa']
northamerica_df = df[df['continent'] == 'northamerica']
asia_df = df[df['continent'] == 'asia']

In [4]:
print('Columna goles_favor: media = {}, varianza = {}'.format(media(df['goles_favor']), varianza(df['goles_favor'])))

Columna goles_favor: media = 4.25, varianza = 5.1875


In [5]:
print('Columna goles_contra: media = {}, varianza = {}'.format(media(df['goles_contra']), varianza(df['goles_contra'])))

Columna goles_contra: media = 4.25, varianza = 4.8125


In [6]:
print('Columna puntos: media = {}, varianza = {}'.format(media(df['puntos']), varianza(df['puntos'])))

Columna puntos: media = 4.21875, varianza = 8.0458984375


## Desafío 2

A continuación se presenta el siguiente código para obtener la media y varianza de una variable para
distintos continentes

In [7]:
continent = []
store_mean = []
store_std = []
for d in [africa_df, europe_df, asia_df, northamerica_df, southamerica_df]:
    continent.append(d.iloc[0,1])
    store_mean.append(media(d['goles_favor']))
    store_std.append(varianza(d['goles_favor']))
tmp = pd.DataFrame({'continente': continent,
    'media_goles': store_mean,
    'std_goles': store_std})
tmp

Unnamed: 0,continente,media_goles,std_goles
0,africa,3.6,2.64
1,europe,4.769231,6.331361
2,asia,2.25,0.6875
3,northamerica,3.25,1.6875
4,southamerica,5.666667,3.888889


- En base a la información disponible, genere una función con los argumentos group_by y var para ingresar una lista de submuestras y una variable a analizar, respectivamente.
- La función debe retornar un DataFrame .
- Implemente la función para extraer la información sobre la cantidad de goles a favor, en contra y la cantidad de puntos.
- Reporte en qué continente se encuentra la mayor cantidad de goles a favor, en contra y cantidad de puntos.

In [8]:
def describir(group_by, var):
    continent = []
    store_mean = []
    store_var = []
    store_std = []

    for d in group_by:
        continent.append(d.iloc[0,1])
        store_mean.append(media(d[var]))
        variance = varianza(d[var])
        store_var.append(variance)
        store_std.append(variance ** 0.5)

    return pd.DataFrame({
        'continente': continent,
        'media': store_mean,
        'std': store_std,
        'var': store_var
    })

In [9]:
describir([africa_df, europe_df, asia_df, northamerica_df, southamerica_df], 'goles_favor')

Unnamed: 0,continente,media,std,var
0,africa,3.6,1.624808,2.64
1,europe,4.769231,2.51622,6.331361
2,asia,2.25,0.829156,0.6875
3,northamerica,3.25,1.299038,1.6875
4,southamerica,5.666667,1.972027,3.888889


In [10]:
describir([africa_df, europe_df, asia_df, northamerica_df, southamerica_df], 'goles_contra')

Unnamed: 0,continente,media,std,var
0,africa,5.6,1.959592,3.84
1,europe,4.0,1.88108,3.538462
2,asia,6.25,1.785357,3.1875
3,northamerica,3.5,2.872281,8.25
4,southamerica,2.833333,0.687184,0.472222


In [11]:
describir([africa_df, europe_df, asia_df, northamerica_df, southamerica_df], 'puntos')

Unnamed: 0,continente,media,std,var
0,africa,2.4,1.624808,2.64
1,europe,4.692308,2.523265,6.366864
2,asia,0.75,0.433013,0.1875
3,northamerica,4.5,2.872281,8.25
4,southamerica,6.833333,1.771691,3.138889


En base a la información anterior:

- El continente con mayor *Goles a Favor* es Suramérica
- El continente con mayor *Goles en contra* es Asia
- El continenete con mayor *Puntos a favor* es Suramérica

## Desafío 3: Simulaciones

- Genere una función `generate_pet` que devuelva de forma aleatoria un string `'perro'` o `'gato'`. Ejecútela un par de veces.
    - tip: Puede utilizar la función `np.random.choice` para retornar elementos al azar.

In [12]:
def generate_pet():
    return np.random.choice(['perro', 'gato'])

In [13]:
generate_pet()

'gato'

In [14]:
generate_pet()

'gato'

In [15]:
generate_pet()

'gato'

- Aplique la función `generate_pet` 20 veces mediante un loop y guarde los resultados en una lista.
    - tip: Puede generar una lista vacía con `[ ]` y asignarla a un objeto. Puede añadir elementos a la lista con `.append`.

In [16]:
animalitos = [generate_pet() for i in range(20)]

- ¿Cuál es la probabilidad de elegir un perro al azar? ¿Y un gato?

In [17]:
resultado = "La probabilidad de elegir un perro al azar es {}%, mientras que la de un gato es {}%"
p_perros = 100 * animalitos.count("perro") / len(animalitos)
p_gatos = 100 * animalitos.count("gato") / len(animalitos)
print(resultado.format(p_perros, p_gatos))

La probabilidad de elegir un perro al azar es 40.0%, mientras que la de un gato es 60.0%


- Agrege np.random.seed(2) al inicio del chunk. ¿Qué hace éste método en la simulación?

In [18]:
np.random.seed(2)
animalitos = [generate_pet() for i in range(20)]
animalitos

['perro',
 'gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'perro',
 'perro']

Hace que cada vez que ejecuto el código anterior, vuelva a imprimir la misma lista en el mismo orden.

Es decir, hace que la simulación siempre entregue los mismos resultados, y ya no sea generada randomente cada vez que se genera

## Desafío 4: Función simuladora

- Genere un método llamado `simulate_pets_prob` que tome como argumento un número finito de simulaciones a generar.
- El método debe simular dos situaciones `young_pet` y `old_pet`, y contar la ocurrencia de los siguientes casos:

    - De los dos animales simulados, contar las ocasiones donde por lo menos uno de los animales sea un perro.
    - De los dos animales simulados, contar las ocasiones donde por lo menos uno sea un perro viejo.
    - De los dos animales simulados, contar las ocasiones donde los dos sean perros
- El método debe tener una semilla pseudoaleatoria de 1.
- De los tres escenarios, ¿Cuál es el menos probable? ¿Cuál es el más probable?

In [19]:
def simulate_pets_prob(number_of_simulations):
    # semilla psudoaleatoria
    np.random.seed(1)
    
    # simulaciones
    young_pet = [generate_pet() for i in range(number_of_simulations)]
    old_pet = [generate_pet() for i in range(number_of_simulations)]
    
    # contar ocurrencias
    at_least_one_is_dog = 0
    at_least_one_is_old_dog = 0
    both_are_dog = 0
    
    for i in range(number_of_simulations):
        old_is_dog = old_pet[i] == 'perro'
        young_is_dog = young_pet[i] == 'perro'
        
        if old_is_dog or young_is_dog:
            at_least_one_is_dog += 1
            
        if old_is_dog:
            at_least_one_is_old_dog += 1
        
        if old_is_dog and young_is_dog:
            both_are_dog += 1
    
    print("Cantidad de veces donde...")
    print("  Por lo menos uno de los animales sea un perro: {}".format(at_least_one_is_dog))
    print("  Por lo menos uno sea un perro viejo: {}".format(at_least_one_is_old_dog))
    print("  Los dos sean perros: {}".format(both_are_dog))
    
simulate_pets_prob(100)

Cantidad de veces donde...
  Por lo menos uno de los animales sea un perro: 75
  Por lo menos uno sea un perro viejo: 54
  Los dos sean perros: 24


Por lo tanto, de los 3 escenerarios:

- El más probable es que por lo menos uno de los animales sea un perro (75 observaciones de 100, 75%)
- El menos probable es que los dos sean perros (24 observaciones de 100, 24%)