#### **Desafío 1: Generación de funciones** (1 punto)
- Genere funciones para calcular la media y varianza de un vector. Debe cumplir con los siguientes requisitos:
    - Ambas funciones deben ingresar un argumento x correspondiente al vector.
    - Las funciones deben contener docstrings con la documentación asociada a la variable y retornar un valor utilizando return.
    - La función de la varianza se debe llamar a la función de la media.
- Utilice las funciones para reportar la información sobre goles_favor, goles_contra y puntos.


In [2]:
import pandas as pd
import numpy as np

#DataFrame 
df = pd.read_csv('worldcup2014.csv')

#Listado de vectores numericos:
vectores = ('cantidad_juegos','juegos_ganados','juegos_empatados','juegos_perdidos', 
'goles_favor','goles_contra','goles_diferencia','puntos','clasificado') 

#Cantidad decimales a redondear con round()
cdd=2

#Funciones
def calcularMedia(x):
    '''Retorna la media del vector ingresado en x. El resultado lo redondea según variable cdd'''
    if x not in vectores : print(f"Vector {x} no existe en DataFrame, use alguno de estos: {', '.join(vectores)}.")
    else : return round(df[x].mean(),cdd)

def calcularVariaza(x):
    '''Retorna la varianza el vector ingresado en x, usa la función calcularMedia(x) y luego lo calcula según la formula:

     Var (V) = (v1 – M)2 + (v2 – M)2 + … + (vn – M)2 / N,
     
     donde:

     v son los datos utilizados, N el total de observaciones, M la media de las observaciones,

     El resultado lo redondea según variable cdd'''
    varx=0
    media = calcularMedia(x)
    for i in df[x]:
        varx = varx+(pow((i-media),2))
    return round(varx/(len(df[x])-1),cdd)

#Testing
if __name__ == '__main__':
    # Información Solicitada
    casos=('goles_favor','goles_contra','puntos')
    for x in casos:
        print(f"La media de {x} es {calcularMedia(x)}\nLa varianza de {x} es {calcularVariaza(x)}\n")


La media de goles_favor es 4.25
La varianza de goles_favor es 5.35

La media de goles_contra es 4.25
La varianza de goles_contra es 4.97

La media de puntos es 4.22
La varianza de puntos es 8.31



#### Desafío 2: Utilizando el método groupby de la clase DataFrame, en conjunto con la función .agg de pandas, calcule la media, la varianza y desviación estándar de la cantidad de goles a favor,en contra y de la cantidad de puntos por continente. (2 puntos)

In [3]:
df.groupby(['continent']).agg({"goles_favor":['mean','var','std'],"goles_contra":['mean','var','std'],"puntos":['mean','var','std']}).round(cdd)

Unnamed: 0_level_0,goles_favor,goles_favor,goles_favor,goles_contra,goles_contra,goles_contra,puntos,puntos,puntos
Unnamed: 0_level_1,mean,var,std,mean,var,std,mean,var,std
continent,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2
africa,3.6,3.3,1.82,5.6,4.8,2.19,2.4,3.3,1.82
asia,2.25,0.92,0.96,6.25,4.25,2.06,0.75,0.25,0.5
europe,4.77,6.86,2.62,4.0,3.83,1.96,4.69,6.9,2.63
northamerica,3.25,2.25,1.5,3.5,11.0,3.32,4.5,11.0,3.32
southamerica,5.67,4.67,2.16,2.83,0.57,0.75,6.83,3.77,1.94


- ¿En qué continente se observa una mayor cantidad de goles a favor?
>Sudamerica
- ¿En qué continente se observa una mayor cantidad de goles en contra?
>Asia
- ¿En qué continente se observa una mayor cantidad de puntos en promedio?
>Sudamerica

#### Desafío 3: Simulaciones (3 puntos)
- Genere una función generate_pet que devuelva de forma aleatoria un string 'perro' o 'gato' un número n de veces. Ejecútela un par de veces. 
> Tip: Puede utilizar la función np.random.choice para retornar elementos al azar.
- Aplique la función generate_pet para generar 20 muestras.
- ¿Cuál es la probabilidad de elegir un perro al azar? ¿Y un gato?
> Ver resultados de probarSeed()
- Agregue **np.random.seed(2)** al inicio del chunk. ¿Qué diferencia hay cuando se ejecuta la función varias veces luego de fijar la semilla?
> Los resultado se repiten al usar la funcion con una semilla de 2 (probarSeed(2)) 40/60


In [4]:
def generate_pet():
    '''Retorna un string 'perro' o 'gato' al azar'''
    return np.random.choice(['perro', 'gato'])

#Testing
if __name__ == '__main__':
    muestras=20
    
    def probarSeed (seed=0):
        '''Genera un DataFrame con observaciones al azar de 'perro' o 'gato' y retorna un diccionario con probabilidades de generar un string 'perro' o 'gato' al azar de un total de tirardas según variable muestras.
        
        - Para generar un número al azar según una semilla se debe ingresar un número en argumento (seed).

        - El argumento (seed) debe ser un número entero del tipo int64, por defecto es cero.

        '''
        df2=pd.DataFrame(index=range(muestras))
        if seed > 0: np.random.seed(seed)
        else: np.random.seed()
        for i in range(muestras):
            df2.at[i,generate_pet()] = 1
        df2=df2.fillna(0) # Rellena nan con ceros
        pgato = (df2.gato.sum()/muestras *100).round(cdd)
        pperro = (df2.perro.sum()/muestras *100).round(cdd)
        return {"perro":pperro,"gato":pgato} # Devuelve un diccionario con probabilidades

    print(f''' Probabilidades con {muestras} tiradas :
    Sin semilla : {probarSeed()}
    Con semilla : {probarSeed(2)}
    ''')

 Probabilidades con 20 tiradas :
    Sin semilla : {'perro': 30.0, 'gato': 70.0}
    Con semilla : {'perro': 40.0, 'gato': 60.0}
    


#### Desafío 4: Función simuladora (4 puntos)
- Genere una función llamada simulate_pets_prob que tome como argumento un número finito de simulaciones a generar.
- La función debe simular dos situaciones young_pet y old_pet, y contar la ocurrencia de los siguientes casos:
    - De las dos mascotas simuladas (young y old), contar las ocasiones donde por lo menos una de las mascotas sea un perro.
    - De las dos mascotas simuladas, contar las ocasiones donde old_pet sea un perro.
    - De las dos mascotas simuladas, contar las ocasiones donde los dos sean perros.
- El método debe tener una semilla pseudoaleatoria de 1.
- El output de la función debe entregarse en términos de Probabilidad.

In [7]:
def simulate_pets_prob(n):
    '''Retorna el análisis de una simulación de young_pet y old_pet para contar la ocurrencia de los siguientes casos:
    - Contar las ocasiones donde por lo menos una de las mascotas sea un perro.
    - Contar las ocasiones donde old_pet sea un perro.
    - Contar las ocasiones donde los dos sean perros.

    El argumento debe ser un numero entero(int64)
    '''
    un_perro = 0
    dos_perros = 0
    old_perro = 0
    np.random.seed(1)
    df_pets=pd.DataFrame(index=range(n))

    for i in range(n):
        young_pet = generate_pet()
        old_pet = generate_pet()
        
        un_perro = 1 if old_pet == 'perro' or young_pet == 'perro' else 0
        dos_perros = 1 if old_pet == 'perro' and young_pet == 'perro' else 0
        old_perro = 1 if old_pet == 'perro' else 0

        df_pets.at[i,'young_pet'] = young_pet
        df_pets.at[i,'old_pet'] = old_pet    
        df_pets.at[i,'un_perro'] = un_perro
        df_pets.at[i,'old_perro'] = old_perro 
        df_pets.at[i,'dos_perros'] = dos_perros
        
    print(f'''Para {n} simulaciones de pets:
Caso 1 al menos un perro Pr(pets|un_perro):         {(df_pets['un_perro'].sum()/n).round(3)}
Caso 2 old_pet es un perro Pr(pets|old_pet):        {(df_pets['old_perro'].sum()/n).round(3)}
Caso 3 ambas pets son un perro Pr(pets|dos_perros): {(df_pets['dos_perros'].sum()/n).round(3)}
''')
    print(df_pets.value_counts(normalize=True))
  
#Testing
if __name__ == '__main__':
    simulate_pets_prob(800)

Para 800 simulaciones de pets:
Caso 1 al menos un perro Pr(pets|un_perro):         0.745
Caso 2 old_pet es un perro Pr(pets|old_pet):        0.507
Caso 3 ambas pets son un perro Pr(pets|dos_perros): 0.282

young_pet  old_pet  un_perro  old_perro  dos_perros
perro      perro    1.0       1.0        1.0           0.2825
gato       gato     0.0       0.0        0.0           0.2550
perro      gato     1.0       0.0        0.0           0.2375
gato       perro    1.0       1.0        0.0           0.2250
dtype: float64


- De los tres escenarios, ¿Cuál es el menos probable? ¿Cuál es el más probable? ¿Por qué?
> EL mas probable es que al menos exista un perro, ya que este caso esta incluido en todos los escenarios y a su vez en 3 de los 4 casos.

> EL menos probable es que que existan dos perros, ya que este es un escenario y caso unico. 