#  <mark>Desafío - Funciones y probabilidad básica</mark>
#### -Nombres: Braulio Águila, Thomas Peet
#### -Generación: G47
#### -Profesores: Alfonso Tobar - Juan Pablo Ramírez

In [253]:
#Se importan las librerias pandas y numpy para el desarrollo del desafío:
import pandas as pd 
import numpy as np

In [254]:
#Se carga la data correspondiente a las dos primeras partes del desafío:
df = pd.read_csv('worldcup2014.csv')
df

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1
6,Spain,europe,B,3,3,1,0,2,4,7,−3,3,0
7,Australia,asia,B,4,3,0,0,3,3,9,−6,0,0
8,Colombia,southamerica,C,1,3,3,0,0,9,2,7,9,1
9,Greece,europe,C,2,3,1,1,1,2,4,−2,4,1


# Parte 1

![d1](d1.png)

In [255]:
#Se crean cada una de las funciones solicitadas (mean/var), ingresando un argumento definido en la función y utilizando return:
def column_mean(df, *cols):
    """column_mean(df, *cols)
    Calcula la media de la o las columnas de un dataframe definido (df).
    
    Parametros:
        df : pandas.DataFrame
            DataFrame para calcular la media de las columnas
        *cols : str, list of str, tuple of str
            Columnas a las cuales se les calculará la media
    Retorno:   
        pandas.Series :
            Series de medias media para cada una de las columnas ingresadas

    """
    if isinstance(cols, tuple):
        cols = list(cols)
    return df[cols].mean()


def column_var(df, *cols, **kwargs):
    """column_var(df, *cols, **kwargs)
    Calcula la varianza de la o las columnas de un dataframe definido (df).
    
    Parametros:
        df : pandas.DataFrame
            DataFrame para calcular la varianza de las columnas
        *cols : str, list of str, tuple of str
            Columnas a las cuales se les calculará la varianza
        ddof : int, default 0
            Delta degrees of freedom. El divisor utilizado en los cálculos es N - ddof, donde N es el número de elementos. Sirve para corregir el estimador de la varianza y que calce con el de .var() de pandas (ddof=1).
    Retorno:  
        pandas.Series :
            Series de varianzas de las columnas.
    """
    if isinstance(cols, tuple):
        cols = list(cols)
    ddof = kwargs.get('ddof', None)
    factor = ((len(df[cols]))/(len(df[cols])-1)) if ddof == 1 else 1
    var = factor * (column_mean(df[cols] ** 2, *cols) - column_mean(df[cols], *cols)**2)
    return var


In [256]:
#Se utiliza la función anteriormente creada para calcular la media de las 3 columnas solicitadas:
column_mean(df,'goles_favor', 'goles_contra', 'puntos')

goles_favor     4.25000
goles_contra    4.25000
puntos          4.21875
dtype: float64

In [257]:
#Se comprueba el valor obtenido anteriormente por la función creada utilizando el método .mean(). Los resultados de la media de la columnas solicitadas son los mismos:
df[[ 'goles_favor', 'goles_contra', 'puntos']].mean()

goles_favor     4.25000
goles_contra    4.25000
puntos          4.21875
dtype: float64

In [258]:
#Se utiliza la función anteriormente creada para calcular la varianza de las 3 columnas solicitadas:
column_var(df, 'goles_favor', 'goles_contra', 'puntos', ddof=1)

goles_favor     5.354839
goles_contra    4.967742
puntos          8.305444
dtype: float64

In [259]:
#Se comprueba el valor obtenido anteriormente por la función creada utilizando el método .var(). Los resultados de la varianza de la columnas solicitadas son los mismos:
df[[ 'goles_favor', 'goles_contra', 'puntos']].var()

goles_favor     5.354839
goles_contra    4.967742
puntos          8.305444
dtype: float64

# Parte 2
![d2](d2.png)

In [260]:
#Se utiliza groupby para el dataframe df definido en el punto anterior y a través de agg. se calcula cada una de operaciones indicadas para cada continente de la data:
df.groupby('continent')[['goles_favor','goles_contra','puntos']].agg(['mean','var','std','sum','count'])

Unnamed: 0_level_0,goles_favor,goles_favor,goles_favor,goles_favor,goles_favor,goles_contra,goles_contra,goles_contra,goles_contra,goles_contra,puntos,puntos,puntos,puntos,puntos
Unnamed: 0_level_1,mean,var,std,sum,count,mean,var,std,sum,count,mean,var,std,sum,count
continent,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
africa,3.6,3.3,1.81659,18,5,5.6,4.8,2.19089,28,5,2.4,3.3,1.81659,12,5
asia,2.25,0.916667,0.957427,9,4,6.25,4.25,2.061553,25,4,0.75,0.25,0.5,3,4
europe,4.769231,6.858974,2.618964,62,13,4.0,3.833333,1.95789,52,13,4.692308,6.897436,2.626297,61,13
northamerica,3.25,2.25,1.5,13,4,3.5,11.0,3.316625,14,4,4.5,11.0,3.316625,18,4
southamerica,5.666667,4.666667,2.160247,34,6,2.833333,0.566667,0.752773,17,6,6.833333,3.766667,1.94079,41,6


Según la tabla que entrega pandas, el continente donde se observa una mayor cantidad de goles a favor es **Europa** con `62` goles (ver columna `sum`), sin embargo el continente que más goles tiene **en promedio** es **Sudamérica** con un promedio de `5,7` goles por partido (ver columna `mean`). 

Además se observa que el que tiene mayor cantidad de goles en contra también es **Europa** con `52` goles, pero el que tiene mayor cantidad de goles en contra en promedio es **Asia** con `6,25` goles por partido.

Por último vemos que el continente que más puntos en promedio obtuvo es **Sudamerica** con un promedio de `6,83` goles por partido.

# Parte 3
![d3](d3.png)

In [261]:
def generate_pet(n, seed = None):
    """generate_pet(n, seed = None)
    Permite crear un arreglo de datos aleatorios un número n de veces.
    
    Parametros:
        n : int
            Cantidad de elementos a generar en el arreglo (n) de datos aleatorios
        seed : int, default None
            valor de la semilla para la generación de los datos aleatorios. Solo se usa si se específica un valor.
    Retorno:
        list :
            Devuelve de forma aleatoria un string "perro" o "gato" un número n de veces
    """
    if seed:
        np.random.seed(seed)
    return np.random.choice(['Gato', 'Perro'], n)


In [262]:
df_animales = pd.DataFrame({'animales' : generate_pet(20)})
prob_gato = df_animales.value_counts()['Gato'] / len(df_animales)
prob_perro = df_animales.value_counts()['Perro'] / len(df_animales)
print(f'La probabilidad de elegir un perro al azar es {prob_perro} y la probabilidad de elegir un gato al azar es: {prob_gato}')

La probabilidad de elegir un perro al azar es 0.7 y la probabilidad de elegir un gato al azar es: 0.3


In [263]:
df_animales_v2 = pd.DataFrame({'animales' : generate_pet(20, 2)})
prob_gato_v2 = df_animales_v2.value_counts()['Gato'] / len(df_animales_v2)
prob_perro_v2 = df_animales_v2.value_counts()['Perro'] / len(df_animales_v2)
print(f'La probabilidad de elegir un perro al azar es {prob_perro_v2} y la probabilidad de elegir un gato al azar es: {prob_gato_v2}')


La probabilidad de elegir un perro al azar es 0.6 y la probabilidad de elegir un gato al azar es: 0.4


# Parte 4
![d4](d4.png)

In [264]:
def simulate_pets_prob(n_sims):
    """simulate_pets_prob(n_sims)
    
    Permite crear un número finito de simulaciones. Las simulaciones permiten contar la cantidad de ocurrencias para situaciones especificas (combinaciones de mascotas jóvenes y/o viejas) con seed = 1.
    Parametros:
        n_sims : int
            Número de simulaciones a generar
    Retorno:
        tuple of float :
            Probabilidades de que de las dos listas generadas al menos una mascota sea perro, la mascota vieja sea perro y ambas mascotas sean perros. 
    """
    np.random.seed(1)
    young_pets = generate_pet(n_sims)
    old_pets = generate_pet(n_sims)
    df_pets = pd.DataFrame({'youngs': young_pets,
                            'olds': old_pets})
    p_at_least_1_dog    = (df_pets.youngs.isin(['Perro']) | df_pets.olds.isin(['Perro'])).mean()
    p_old_dog           = df_pets.olds.isin(['Perro']).mean()
    p_both_dogs         = (df_pets.youngs.isin(['Perro']) & df_pets.olds.isin(['Perro'])).mean()                
    return (p_at_least_1_dog, p_old_dog, p_both_dogs)
    


In [265]:
probs = simulate_pets_prob(n_sims= 1000000)

print(f'La probabilidad de que al menos uno de los dos selecciones sea un perro es: {probs[0]} \nLa probabilidad de que el que selecciono sea un perro viejo es: {probs[1]} \nLa probabilidad de que ambos selecciones sean perros es: {probs[2]}')

La probabilidad de que al menos uno de los dos selecciones sea un perro es: 0.749927 
La probabilidad de que el que selecciono sea un perro viejo es: 0.499987 
La probabilidad de que ambos selecciones sean perros es: 0.250049
