## Desafío - Funciones y probabilidad básica
<ul> Karen Cortés </ul>
<ul> Constanza Córdova </ul>
<ul> Gustavo Lizama </ul>

In [3]:
import pandas as pd
import numpy as np

df = pd.read_csv('worldcup2014.csv')

### Desafío 1: Generación de funciones

In [5]:
def func_media(x):
    """
    func_media: calcula la media de la variable x
    
                  Xm = suma(xi)/N, donde:
                      
    parametros:
        'x': corresponde a la serie numérica 
        
    """
    media = sum(x)/len(x) 
    return media

In [6]:
goles_favor = func_media(df['goles_favor'])
goles_contra = func_media(df['goles_contra'])
puntos = func_media(df['puntos'])

print(goles_favor, goles_contra, puntos)

4.25 4.25 4.21875


In [7]:
def func_varianza(x):
    """
    func_varianza: calcula la varianza de la variable x
                      
                      Var = Suma( xi-Xm)**2/N, donde:
                                  
    parametros:
        'x': corresponde a la serie numérica 
        
    """
    suma = 0
    
    for i in x:
        delta = (i - func_media(x))**2
        suma+= delta
    varianza = suma/len(x)
    return varianza

In [8]:
goles_favor = func_varianza(df['goles_favor'])
goles_contra = func_varianza(df['goles_contra'])
puntos = func_varianza(df['puntos'])

print(goles_favor, goles_contra, puntos)

5.1875 4.8125 8.0458984375


### Desafío 2: 

In [9]:
africa_df = df[df['continent'] == 'africa']
europe_df = df[df['continent'] == 'europe']
asia_df = df[df['continent'] == 'asia']
northamerica_df = df[df['continent'] == 'northamerica']
southamerica_df = df[df['continent'] == 'southamerica']


In [10]:
def func_resumen(group_var, var):

    continent = []
    store_sum = []
    store_mean = []
    store_std = []

    for d in group_var:
        continent.append(d.iloc[0,1])
        store_sum.append(sum(d[var]))
        store_mean.append(func_media(d[var]))
        store_std.append(func_varianza(d[var]))
    tmp = pd.DataFrame({'continente': continent,
                        'cantidad': store_sum,
                        'media': store_mean,
                        'std': store_std})
    return tmp

In [11]:
grupo = [africa_df, europe_df, asia_df, northamerica_df, southamerica_df]

func_resumen(grupo, 'goles_favor')

Unnamed: 0,continente,cantidad,media,std
0,africa,18,3.6,2.64
1,europe,62,4.769231,6.331361
2,asia,9,2.25,0.6875
3,northamerica,13,3.25,1.6875
4,southamerica,34,5.666667,3.888889


R: europa es el continente con mayor cantidad de goles a favor. Sin embargo, dada la media de goles por contintente, se observa que los teams de Sudamerica son los que lograron más goles a favor, en relación a los otros competidores 

In [12]:
func_resumen(grupo, 'goles_contra')

Unnamed: 0,continente,cantidad,media,std
0,africa,28,5.6,3.84
1,europe,52,4.0,3.538462
2,asia,25,6.25,3.1875
3,northamerica,14,3.5,8.25
4,southamerica,17,2.833333,0.472222


R: europa es el continente con mayor cantidad de goles en contra. Sin embargo, dada la media de goles en contra por contintente, se observa que los teams de Asia son los que tuvieron más goles en contra, en relación a los otros competidores 

In [13]:
func_resumen(grupo, 'puntos')

Unnamed: 0,continente,cantidad,media,std
0,africa,12,2.4,2.64
1,europe,61,4.692308,6.366864
2,asia,3,0.75,0.1875
3,northamerica,18,4.5,8.25
4,southamerica,41,6.833333,3.138889


R: europa es el continente con mayor cantidad de puntos. Sin embargo, dada la media de puntos obtenidos por team, se observa que los teams de Sudamerica son los que obtuvieron más puntos que en relación a los otros continentes 

### Desafío 3: Simulaciones

In [14]:
def generate_pet():
    return np.random.choice(['perro','gato'])

In [15]:
pet_list = []

for i in range(20):
    pet_list.append(generate_pet())

pet_list

['gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'perro',
 'gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'perro',
 'perro']

In [16]:
gatos = list(filter(lambda i: i == 'gato', pet_list))
perros = list(filter(lambda i: i == 'perro', pet_list))

pr_gatos = len(gatos)/len(pet_list)

print('Pr(gato):',pr_gatos,'\nPr(Perro):', 1 - pr_gatos)

Pr(gato): 0.55 
Pr(Perro): 0.44999999999999996


In [17]:
# Aplicando np.random.seed
pet_list = []
np.random.seed(2)
for i in range(20):

    pet_list.append(generate_pet())

pet_list

['perro',
 'gato',
 'gato',
 'perro',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'gato',
 'perro',
 'perro']

### Desafío 4: Función simuladora

In [18]:
def simulate_pets_prob(x):
    contador1 = 0
    contador2 = 0
    contador3 = 0
    
    np.random.seed(1)
    
    for i in range(x):
        young_pet = generate_pet()
        old_pet = generate_pet()
        
        # contar las ocasiones donde por lo menos uno de los animales sea un perro
        if young_pet == 'perro' or old_pet == 'perro':
            contador1 += 1
            
        #  contar las ocasiones donde por lo menos uno sea un perro viejo
        if old_pet == 'perro':
            contador2 += 1
            
        #  contar las ocasiones donde los dos sean perros
        if young_pet == 'perro' and old_pet == 'perro':
            contador3 += 1
    
    prob1 = contador1/x
    prob2 = contador2/x
    prob3 = contador3/x
    
    return contador1, contador2, contador3, prob1, prob2, prob3

In [24]:
condicion1, condicion2, condicion3, prob1, prob2, prob3 = simulate_pets_prob(50)

print('condición 1: ', condicion1, ', la probabilidad de la condición 1: ', prob1 )
print('condición 2: ', condicion2, ', la probabilidad de la condición 2: ', prob2 )
print('condición 3: ', condicion3, ', la probabilidad de la condición 3: ', prob3 )

condición 1:  34 , la probabilidad de la condición 1:  0.68
condición 2:  24 , la probabilidad de la condición 2:  0.48
condición 3:  11 , la probabilidad de la condición 3:  0.22


Dado los tres escenarios, el escenario menos probable es el tercero, mientras que el más probable es el primer escenario.