# Desafío - Funciones y probabilidad básica


## Desafío 1: Generación de funciones

In [104]:
import numpy as np
import pandas as pd
from scipy import stats

df=pd.read_csv('worldcup2014.csv')

df.head(5)

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
0,Brazil,southamerica,A,1,3,2,1,0,7,2,5,7,1
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
2,Croatia,europe,A,3,3,1,0,2,6,6,0,3,0
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
4,Netherlands,europe,B,1,3,3,0,0,10,3,7,9,1


In [105]:
# f(x) para calcular la media

def mean(x):
    """
    Definicion: Esta función entrega la media de un vector x, sumando todos los valores del vector x y dividiendo por el largo del vector x
    
    Parametros: tipo de dato: int. Necesita un vector numérico X
    
    Salida: tipo de dato: float (redondeado a 2 digitos) . retorna la media
    """
    x = x.dropna() #eliminar valores perdidos
    tmp_mean= round(sum(x)/len(x), 2) 
    return tmp_mean

    

In [106]:
help(mean)

Help on function mean in module __main__:

mean(x)
    Definicion: Esta función entrega la media de un vector x, sumando todos los valores del vector x y dividiendo por el largo del vector x
    
    Parametros: tipo de dato: int. Necesita un vector numérico X
    
    Salida: tipo de dato: float (redondeado a 2 digitos) . retorna la media



In [107]:
mean(df['goles_favor'])

4.25

In [108]:
# f(x) para calcular la varianza

def var(x):
    """
    Definicion: Esta función entrega la varianza de un vector x, para ello se aplica la formula de varianza, usando la media
    según la función anterior
    
    Parametros: tipo de dato: int. Necesita un vector numérico X
    
    Salida: tipo de dato: float (redondeado a 2 digitos) . retorna la varianza y la media en una lista
    """
    x = x.dropna() #eliminar valores perdidos
    tmp_mean= mean(x)
    var=0
    for var_elemento in x:
        var += (var_elemento - tmp_mean) ** 2
    variance=round(var/ float(len(x)),2)
  
       
    return variance
       
 
    
    
  

    
    
    

In [114]:
 # f(x) para calcular la Desviación estandar
from math import sqrt

def des_std(x):
    """
    Definicion: Esta función entrega la desviación standart de un vector x, aplicando la raíz cuadrada de la fx varianza
    
    Parametros: tipo de dato: int. Necesita un vector numérico X
    
    Salida: tipo de dato: float (redondeado a 2 digitos) . retorna la media
    """
    
    ds= round (sqrt(var(x)),2)
    
    return ds
    
 
    

In [110]:
var(df['goles_favor'])


5.19

In [115]:
des_std(df['goles_favor'])

2.28

In [116]:
round(np.var(df['goles_favor']),2)


5.19

In [117]:
mean(df['goles_contra'])

4.25

In [118]:
var(df['goles_contra'])

4.81

In [119]:
mean(df['puntos'])

4.22

In [120]:
var(df['puntos'])

8.05

## Desafío 2: 

In [122]:
# Primero generamos mediante una lista los sub dataframe de los continentes

lista = []
for continent in df['continent'].unique():
    lista.append(df[df['continent']==continent])
lista


[         team     continent group  group_pos  cantidad_juegos  juegos_ganados  \
 0      Brazil  southamerica     A          1                3               2   
 5       Chile  southamerica     B          2                3               2   
 8    Colombia  southamerica     C          1                3               3   
 13    Uruguay  southamerica     D          2                3               2   
 18    Ecuador  southamerica     E          3                3               1   
 20  Argentina  southamerica     F          1                3               3   
 
     juegos_empatados  juegos_perdidos  goles_favor  goles_contra  \
 0                  1                0            7             2   
 5                  0                1            5             3   
 8                  0                0            9             2   
 13                 0                1            4             4   
 18                 1                1            3             3   
 20       

In [132]:
def analysis(group_by:list,variable:str):
    """
    Definicion: Esta función entrega la media y la varianza de una lista de sub dataframes
    
    Parametros: group_by: lista de subdata frames: variable: str con el nombre de la serie del subdataframe a analizar
    
    Salida: Retorna un dataframe con la media y varianza de la serie analizada
    """
    continent = []
    store_mean = []
    store_std = []
    for d in group_by:
        continent.append(d.iloc[0,1])
        store_mean.append(mean(d[variable]))
        store_std.append(var(d[variable]))
    tmp = pd.DataFrame({'continente': continent,
                        'media_'+variable: store_mean,
                        'var_'+variable: store_std})
    return tmp

In [133]:
analysis(lista,'goles_favor' )

Unnamed: 0,continente,media_goles_favor,var_goles_favor
0,southamerica,5.67,3.89
1,northamerica,3.25,1.69
2,europe,4.77,6.33
3,africa,3.6,2.64
4,asia,2.25,0.69


In [135]:
analysis(lista,'puntos' )

Unnamed: 0,continente,media_puntos,var_puntos
0,southamerica,6.83,3.14
1,northamerica,4.5,8.25
2,europe,4.69,6.37
3,africa,2.4,2.64
4,asia,0.75,0.19


In [134]:
analysis(lista,'goles_contra' )

Unnamed: 0,continente,media_goles_contra,var_goles_contra
0,southamerica,2.83,0.47
1,northamerica,3.5,8.25
2,europe,4.0,3.54
3,africa,5.6,3.84
4,asia,6.25,3.19


In [None]:
# la mayor cantidad de goles a favor se encuentra en sudamérica con 5.67
# la mayor cantidad de goles en contra se encuentra en asia con 6.25
# la mayor cantidad de puntos se encuentra en sudamerica con 6.83

## Desafío 3

In [195]:
def generate_pet():
    """
    Definicion: Esta función genera aleatoriamente un string 'gato' o'perro'
    
    Parametros: Sin paramentros
    
    Salida: Retorna un str 'gato' o'perro'
    """
    lista =['perro','gato'] 
    return  np.random.choice(lista)
       
    
    

In [265]:
pet=[]
np.random.seed(2)
for i in range (20):
   
    pets= generate_pet()   
    pet.append(pets) 

print(pet)


['perro', 'gato', 'gato', 'perro', 'perro', 'gato', 'perro', 'gato', 'perro', 'gato', 'perro', 'gato', 'gato', 'gato', 'gato', 'gato', 'gato', 'gato', 'perro', 'perro']


In [266]:
probabilidad_perro=pet.count('perro')/len(pet)
print(probabilidad_perro)

0.4


In [267]:
probabilidad_gato=pet.count('gato')/len(pet)
print(probabilidad_gato)

0.6


In [261]:
# otra forma es transforma la lista a dataframe

df=pd.Series(pet)

df.value_counts('%')

 # la probabilidad de obtener un gato (0.6) es mayor que obtener un perro (0.4) para esta semilla

gato     0.6
perro    0.4
dtype: float64

In [None]:
# se usa randomseed para fijar un valor de la semilla generada al azar
# es decir, si se genera una vez un random, luego esos valores se mantienen fijos

## Desafío 4

In [485]:
def simulate_pets_prob(n:int):
    """
    Definicion: Esta función genera aleatoriamente una simulación finita de string 'gato' o 'perro' dependiendo de las condiciones
    de edad
    
    Parametros: n, recibe un entero que define la cantidad de simulaciones
    
    Salida: Retorna el n ingresado y los contadores de las condiciones de edad planteadas en el problema
    """
    almenosunperro=0
    perroviejo=0
    perrosviejoyjoven=0
    np.random.seed(1)
   
    for i in range (n):
        young_pet=np.random.choice(['perro','gato'])
        old_pet=np.random.choice(['perro','gato'])
        if young_pet=='perro'or old_pet=='perro':
            almenosunperro +=1
        if old_pet=='perro':
            perroviejo +=1       
        if young_pet=='perro'and old_pet=='perro':
            perrosviejoyjoven+=1  
    return  n, almenosunperro,perroviejo, perrosviejoyjoven


In [498]:
mascotas_simuladas=simulate_pets_prob(100)
n_mascotas_simuladas=mascotas_simuladas[0] #el n total de mascotas simuladas
print(n_mascotas_simuladas)

100


In [499]:
n_almenosunperro=mascotas_simuladas[1] #el n  de simulaciones donde al menos es un perro, es decir perro joven o perro viejo
print(n_almenosunperro)

68


In [500]:
n_perroviejo=mascotas_simuladas[2] #el n de simulaciones   donde son perros y viejos
print(n_perroviejo)

43


In [501]:
n_perrosviejosyjoven=mascotas_simuladas[3] #el n de simulaciones  donde son perros jovenes y viejos
print(n_perrosviejosyjoven)

28


In [502]:
n_almenosunperro/n_mascotas_simuladas # la pp (probabilidad) de obtener al menos un perro en la simulación

0.68

In [503]:
n_perroviejo/n_mascotas_simuladas # la pp (probabilidad) de obtener  un perro viejo en la simulación

0.43

In [504]:
n_perrosviejosyjoven/n_mascotas_simuladas # la pp (probabilidad) de obtener  un perro viejo y uno joven en la simulación

0.28

In [None]:
# según la simulación es más probable obtener al menos un perro con 68 % de probabilidad de la muestra total, luego sigue la pp
# de obtener un perro viejo (43 %) y finalmente es menos probable obtener un perro viejo y joven, es decir que cumpla ambas condiciones
# en la muestra con un 28 %