In [2]:
import pandas as pd
import numpy as np

df = pd.read_csv('worldcup2014.csv')

#### Desafio 1: Generación de funciones

In [3]:
# Función media
def get_media(x):
    """Esta función tiene como objetivo
    calcular la media de un vector"""
    return np.mean(x)

# Función varianza
def get_varianza(x):
    """Esta función tiene como objetivo
    calcular la varianza de un vector"""
    media = get_media(x)
    return np.var(x)

In [4]:
#Media y varianza de goles_favor
media_goles_favor = get_media(df['goles_favor'])
varianza_goles_favor = get_varianza(df['goles_favor'])

print(f'Los goles a favor tienen un promedio de {media_goles_favor} con una varianza de {varianza_goles_favor}')

Los goles a favor tienen un promedio de 4.25 con una varianza de 5.1875


In [5]:
#Media y varianza de goles_contra
media_goles_contra = get_media(df['goles_contra'])
varianza_goles_contra = get_varianza(df['goles_contra'])

print(f'Los goles en contra tienen un promedio de {media_goles_contra} con una varianza de {varianza_goles_contra}')

Los goles en contra tienen un promedio de 4.25 con una varianza de 4.8125


In [6]:
#Media y varianza de goles_favor
media_puntos = get_media(df['puntos'])
varianza_puntos = get_varianza(df['puntos'])

print(f'Los puntos tienen un promedio de {media_puntos} con una varianza de {varianza_puntos}')

Los puntos tienen un promedio de 4.21875 con una varianza de 8.0458984375


- Los goles a favor tienen un promedio de 4.25 con una varianza de 5.1875
- Los goles en contra tienen un promedio de 4.25 con una varianza de 4.8125
- Los puntos tienen un promedio de 4.21875 con una varianza de 8.0458984375

#### Desafio 2

In [7]:
df2 = df[['continent','goles_favor','goles_contra','puntos']].groupby(['continent'],as_index=False).agg(['sum','mean','var','std'])
df2

Unnamed: 0_level_0,goles_favor,goles_favor,goles_favor,goles_favor,goles_contra,goles_contra,goles_contra,goles_contra,puntos,puntos,puntos,puntos
Unnamed: 0_level_1,sum,mean,var,std,sum,mean,var,std,sum,mean,var,std
continent,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2
africa,18,3.6,3.3,1.81659,28,5.6,4.8,2.19089,12,2.4,3.3,1.81659
asia,9,2.25,0.916667,0.957427,25,6.25,4.25,2.061553,3,0.75,0.25,0.5
europe,62,4.769231,6.858974,2.618964,52,4.0,3.833333,1.95789,61,4.692308,6.897436,2.626297
northamerica,13,3.25,2.25,1.5,14,3.5,11.0,3.316625,18,4.5,11.0,3.316625
southamerica,34,5.666667,4.666667,2.160247,17,2.833333,0.566667,0.752773,41,6.833333,3.766667,1.94079


- Europa tiene la mayor cantidad de goles a favor, con 62 goles.
- Europa tiene la mayor cantidad de goles en contra, con 52 goles.
- Sudamerica tiene el mejor promedio de puntos con 6.83.

#### Desafio 3: Simulaciones

In [8]:
# Funcion generate_pet
def generate_pet(n):
    mascotas = []
    for i in range(n):
        mascotas.append(np.random.choice(['perro','gato']))
    
    return mascotas

In [9]:
generate_pet(8)

['perro', 'perro', 'perro', 'perro', 'perro', 'perro', 'gato', 'perro']

In [10]:
generate_pet(6)

['perro', 'gato', 'perro', 'gato', 'perro', 'gato']

In [11]:
#Funcion para generar 20 muestras:
lista_mascotas = generate_pet(20)
lista_mascotas

['perro',
 'perro',
 'gato',
 'perro',
 'perro',
 'perro',
 'perro',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'gato',
 'gato',
 'perro',
 'gato',
 'perro',
 'gato',
 'perro']

In [12]:
# Se convierte lista a DataFrame
df = pd.DataFrame(lista_mascotas)
df = df.rename(columns={0:'mascota'})
# Se crean DataFrame solo para perros y solo para gatos
df_perro = df[df['mascota'] == 'perro'].reset_index(drop=True)
df_gato = df[df['mascota'] == 'gato'].reset_index(drop=True)

n_perro = len(df[df['mascota'] == 'perro'])
print(n_perro)
n_gato = len(df[df['mascota'] == 'gato'])
print(n_gato)

print(f'Probabilidad perro: {len(df[df["mascota"] == "perro"]) / len(df)}')
print(f'Probabilidad gato: {len(df[df["mascota"] == "gato"]) / len(df)}')


12
8
Probabilidad perro: 0.6
Probabilidad gato: 0.4


- La probabilidad de elegir un perro al azar es de un 60%. Mientras que, la probabilidad de elegir un gato es de un 40%

#### Desafio 4: Función simuladora

In [59]:
def simulate_pets_prob(n):
    np.random.seed(1)
    probs = []
    
    df = pd.DataFrame({'young_pet': generate_pet(n), 'old_pet': generate_pet(n)})
    
    probs.append(len(df[(df.young_pet == 'perro') | (df.old_pet == 'perro')])/len(df))
    probs.append(len(df[(df.old_pet == 'perro')])/len(df))
    probs.append(len(df[(df.young_pet == 'perro') & (df.old_pet == 'perro')])/len(df))
    
    return probs

In [60]:
prob1, prob2, prob3 = simulate_pets_prob(20)

In [61]:
print(f'De las dos mascotas simuladas, por lo menos una de las mascotas sea un perro: {prob1}')
print(f'De las dos mascotas simuladas, old_pet sea perro: {prob2}')
print(f'De las dos mascotas simuladas, que los dos sean perros: {prob3}')

De las dos mascotas simuladas, por lo menos una de las mascotas sea un perro: 0.75
De las dos mascotas simuladas, old_pet sea perro: 0.6
De las dos mascotas simuladas, que los dos sean perros: 0.3


- El escenario más probable es donde al menos una mascota young u old sea perro ya que en este caso la probabilidad de un tipo de mascota no condiciona al otro.
- El escenario menos probable es donde tanto la mascota young y la mascota old sean perros, ya que en este caso no son excluyentes.