# Actividad 04 - Funciones y probabilidad básica

## Ejercicio 1: Generación de funciones

* Genere dos funciones para calcular la media y varianza de un vector. Debe cumplir con los siguientes requistos:
    - Ambas funciones deben ingresar el vector a analizar como un argumento `x`.
    - Las funciones deben contener `docstrings` con la documentación asociada a la variable.
    - Deben __retornar__ el resultado (_tip_: utilice `return`).
    - La función de la varianza debe llamar a la función de la media.
* Utilice las funciones para reportar la información sobre `goles_favor`, `goles_contra`, `puntos` en la base de datos.

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('worldcup2014.csv')

In [3]:
def calc_media(x):
    
    """ 
    Función que calcula la media donde el parametro 'x' es la serie de un dataframe de pandas 
    """    
    
    suma = 0
    for i in x:
        suma += i
    media = suma/len(x)
    return media   

def calc_varianza(y):
    
    """ 
    Función que calcula la varianza donde el parametro 'x' es la serie de un dataframe de pandas 
    """  
    
    suma = 0
    for i in y:
        suma += (i-calc_media(y))**2
    varianza = suma/len(y)
    return varianza
    

In [4]:
print (calc_media(df['goles_favor']))
print (calc_media(df['goles_contra']))
print (calc_media(df['puntos']))

print (calc_varianza(df['goles_favor']))
print (calc_varianza(df['goles_contra']))
print (calc_varianza(df['puntos']))

4.25
4.25
4.21875
5.1875
4.8125
8.0458984375


Media de:
* goles_favor: **4.25**
* goles_contra: **4.25**
* puntos: **4.21875**

Varianza de:
* goles_favor: **5.1875**
* goles_contra: **4.8125**
* puntos: **8.0458984375**

## Ejercicio 2: A continuación se presenta el siguiente código para obtener la media y varianza de una variable para distintos continentes


```python
continent = []
store_mean = []
store_std = []

for d in [africa_df, europe_df, asia_df, northamerica_df, southamerica_df]:
    continent.append(d.iloc[0,1])
    store_mean.append(media(d['goles_favor']))
    store_std.append(varianza(d['goles_favor']))
    
tmp = pd.DataFrame({'continente': continent,
                   'media_goles': store_mean,
                   'std_goles': store_std})

tmp
```

* En base al código presentado, refactorízelo en una función con los argumentos `dataframe`, `group_by` y `var` para ingresar una base de datos, una variable para segmentar y una variable a analizar, respectivamente.
* Se debe ingresar la base de datos completa, para que la segmentación se realize __dentro__ de la función.
* La función debe retornar un `DataFrame`.
* Implemente la función para extraer la información sobre la cantidad de goles a favor, en contra y la cantidad de puntos.
* Reporte en qué continente se encuentra la mayor cantidad de goles a favor, en contra y cantidad de puntos.


In [5]:
def calc_media_var(dataframe, group_by, var):
    
    """
    Función que calcula la media y varianza donde el parametro 'group_by' es la serie de un dataframe y 'var' es la variable a evaluar
    """
    
    continent = []
    store_mean  = []
    store_std = []
    
    for i in dataframe[group_by].unique():
        tmp_df = dataframe[dataframe[group_by] == i]
        store_mean .append(calc_media(tmp_df[var]))
        store_std.append(calc_varianza(tmp_df[var]))
        continent.append(i)
        
    tmp = pd.DataFrame({'{}'.format(group_by): continent,
            'media_{}'.format(var): store_mean,
            'std_{}'.format(var): store_std})
    
    return tmp

In [6]:
calc_media_var(df,'continent','goles_favor')

Unnamed: 0,continent,media_goles_favor,std_goles_favor
0,southamerica,5.666667,3.888889
1,northamerica,3.25,1.6875
2,europe,4.769231,6.331361
3,africa,3.6,2.64
4,asia,2.25,0.6875


In [7]:
calc_media_var(df,'continent','goles_contra')

Unnamed: 0,continent,media_goles_contra,std_goles_contra
0,southamerica,2.833333,0.472222
1,northamerica,3.5,8.25
2,europe,4.0,3.538462
3,africa,5.6,3.84
4,asia,6.25,3.1875


In [8]:
calc_media_var(df,'continent','puntos')

Unnamed: 0,continent,media_puntos,std_puntos
0,southamerica,6.833333,3.138889
1,northamerica,4.5,8.25
2,europe,4.692308,6.366864
3,africa,2.4,2.64
4,asia,0.75,0.1875


## Mundial awards:
 * Continente con mayor media de goles a favor: **southamerica**
 * Continente con mayor media de goles en contra: **asia**
 * Continente con mayor media de puntos: **southamerica**

## Ejercicio 3: Simulaciones

* Genere una función `generate_pet` que devuelva de forma aleatoria un string `'perro'` o `'gato'`. Ejecútela un par de veces.
    - _tip:_ Puede utilizar la función `np.random.choice` para retornar elementos al azar.

* Aplique la función `generate_pet` 20 veces mediante un loop y guarde los resultados en una lista.
    - _tip:_ Puede generar una lista vacía con `[ ]` y asignarla a un objeto. Puede añadir elementos a la lista con `.append`.
    - _tip:_ Puede generar loops `for _ in <rango>`, donde la declaración de `_` permite ejecutar las expresiones n veces.
* ¿Cuál es la probabilidad de elegir un perro al azar? ¿Y un gato?

* Agrege `np.random.seed(2)` al inicio del chunk. ¿Qué hace éste método en la simulación?

In [9]:
def generate_pet():
    """
    Función que genera aletoriamente un gato o un perro
    """
    mascotas = {'animal':['perro','gato']}
    random_pet = np.random.choice(mascotas['animal'])
    return random_pet

In [10]:
mascotas_array = []
for i in range(20):
    mascotas_array.append(generate_pet())

In [11]:
mascotas_array

['perro',
 'perro',
 'gato',
 'perro',
 'perro',
 'gato',
 'gato',
 'perro',
 'perro',
 'perro',
 'gato',
 'gato',
 'gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'gato',
 'perro',
 'gato']

In [12]:
pd.Series(mascotas_array).value_counts()

perro    10
gato     10
dtype: int64

In [13]:
perros = pd.Series(mascotas_array).value_counts().get('perro')
gatos = pd.Series(mascotas_array).value_counts().get('gato')

In [14]:
prob_perro = perros/len(pd.Series(mascotas_array))
prob_gatos = gatos/len(pd.Series(mascotas_array))

In [15]:
print (prob_perro)
print (prob_gatos)

0.5
0.5


Probabilididad de elegir un perro al azar: **55%**

Probabilididad de elegir un gato al azar: **45%**

In [16]:
mascotas_array_seed = []
np.random.seed(2)

for i in range(20):
    mascotas_array_seed.append(generate_pet())

In [17]:
mascotas_array_seed

['perro',
 'gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'perro',
 'perro']

El método `random.seed()` establece un inicio para dar origen al algoritmo que calcula el resultado aletorio, por lo cual, independiente cuantas veces se ejecute la selección random con la semilla establecida en 2 o x valor, siempre dará el mismo resultado, es decir, obtendremos la misma cantidad de perros y de gatos

## Ejercicio 4: Función simuladora

* Genere un método llamado `simulate_pets_prob` que tome como argumento un número finito de simulaciones a generar.
* El método debe simular dos situaciones, `young_pet` y `old_pet`, y contar la ocurrencia de los siguientes escenarios:
    1. De los dos animales simulados, contar las ocasiones donde por lo menos uno de los animales sea un perro.
    - De los dos animales simulados, contar las ocasiones donde por lo menos uno sea un perro viejo.
    - De los dos animales simulados, contar las ocasiones donde los dos sean perros
* El método debe tener una semilla pseudoaleatoria de 1.
* De los tres escenarios, ¿Cuál es el menos probable? ¿Cuál es el más probable?

In [18]:
def simulate_pets_prob(num_sim):
    
    """
    Función que genera n simulaciones para elegir animales de manera pseudo-aleatorias a partir del método generate_pet(), retorna lista con los resultados del número de simulaciones solicitadas
    """
    
    un_perro = 0
    perro_viejo = 0
    dos_perros = 0
    
    np.random.seed(1)
    
    for _ in range(num_sim):
        young_pet = generate_pet()
        old_pet = generate_pet()
        
        if young_pet == "perro" or old_pet == "perro":
            un_perro += 1
        if old_pet == "perro":
            perro_viejo += 1
        if old_pet == "perro" and young_pet == "perro":
            dos_perros += 1

    return un_perro, perro_viejo, dos_perros

In [22]:
sim = simulate_pets_prob(1000)

In [32]:
print ("Veces que se generó un perro: ", sim[0])
print ("Veces que se generó un perro viejo: ", sim[1])
print ("Veces que se generó dos perros: ", sim[2])

print ("generar dos perros sobre perro viejo", sim[2]/sim[1])
print ("generar dos perros sobre al menos un perro", sim[2]/sim[0])

Veces que se generó un perro:  746
Veces que se generó un perro viejo:  514
Veces que se generó dos perros:  279
generar dos perros sobre perro viejo 0.5428015564202334
generar dos perros sobre al menos un perro 0.3739946380697051


* El escenario más probable en 1000 casos simulados es generar al menos un perro en la simulación

* El escenario menos probable en 1000 casos simulados es generar dos perros