# Desafío Miércoles Semana 2 - Funciones y probabilidad básica

#### Gustavo Morales, G10 - 04.Sep.2019

### Desafío 1

In [1]:
import pandas as pd
import numpy as np

In [2]:
def get_mean(x):
    """Compute the arithmetic mean given the input array.

    Parameters
    ----------
    x : list
        Array containing numbers.

    Returns
    -------
    m : float
        Mean value of the input array.
    """

    return sum(x)/len(x)

In [3]:
def get_var(x):
    """Compute the average of the squared deviations from the mean (variance).
    
    Parameters
    ----------
    x : list
        Array containing numbers.

    Returns
    -------
    v : float
        Variance value of the input array.
    """
    variance = 0
    for i in x:
        variance += (get_mean(x) - i)**2
    return variance / len(x)

In [4]:
filename = "worldcup2014.csv"
df = pd.read_csv(filename)

In [5]:
def get_mean_and_var(dataframe, col_name):
    stats = {"mean": get_mean(dataframe[col_name].tolist()),
             "variance": get_var(dataframe[col_name].tolist())}
    return stats

In [6]:
stats_goles_favor = get_mean_and_var(df, "goles_favor")
stats_goles_contra = get_mean_and_var(df, "goles_contra")
stats_puntos = get_mean_and_var(df, "puntos")

In [7]:
print("goles a favor:", stats_goles_favor)
print("goles en contra:", stats_goles_contra)
print("puntos:", stats_puntos)

goles a favor: {'mean': 4.25, 'variance': 5.1875}
goles en contra: {'mean': 4.25, 'variance': 4.8125}
puntos: {'mean': 4.21875, 'variance': 8.0458984375}


### Desafío 2

In [8]:
europe_df = df[df["continent"] == "europe"]
southamerica_df = df[df["continent"] == "southamerica"]
africa_df = df[df["continent"] == "africa"]
northamerica_df = df[df["continent"] == "northamerica"]
asia_df = df[df["continent"] == "asia"]

In [9]:
continent_dfs = [europe_df, southamerica_df, africa_df, northamerica_df, asia_df]

In [10]:
def func(group_by, var):
    continent = []
    store_mean = []
    store_var = []

    for d in group_by:
        continent.append(d.iloc[0,1])
        store_mean.append(get_mean(d[var]))
        store_var.append(get_var(d[var]))
        tmp = pd.DataFrame({'continente': continent,
                            'media': store_mean,
                            'var': store_var})

    return tmp.sort_values(by='media', ascending=False)

In [11]:
def print_answer(var):
    a = func(continent_dfs, var)["continente"].tolist()[0]
    print("En {} se encuentra la mayor cantidad de {}.".format(a, var))

In [12]:
print_answer("goles_favor")
print_answer("goles_contra")
print_answer("puntos")

En southamerica se encuentra la mayor cantidad de goles_favor.
En asia se encuentra la mayor cantidad de goles_contra.
En southamerica se encuentra la mayor cantidad de puntos.


### Desafío 3

In [13]:
def generate_pet():
    c = np.random.choice(["perro", "gato"])

    return c

In [14]:
c1 = generate_pet(); print(c1)

gato


In [15]:
c2 = generate_pet(); print(c2)

gato


In [16]:
array = []
np.random.seed(2)  # added afterwards!
for i in range(20):
    array.append(generate_pet())

In [17]:
probs = pd.Series(array).value_counts("%").to_dict()

In [18]:
print("La probabilidad de elegir un perro al azar es de un {}%".format(round(probs["perro"]*100,2)))
print("La probabilidad de elegir un gato al azar es de un {}%".format(round(probs["gato"]*100,2)))

La probabilidad de elegir un perro al azar es de un 40.0%
La probabilidad de elegir un gato al azar es de un 60.0%


El método `np.random.seed(X)` fija la semilla pseudo-aleatoria con valor `X` al inicio de la celda. Esto provoca que los métodos que inicializan `np.random.RandomState(seed=None)` produzcan siempre el mismo resultado, aunque `X` sea obtenido de una distribución aleatoria. Un ejemplo es justamente `np.random.choice()`.

### Desafío 4

In [19]:
def simulate_pets_prob(sims_number):
    np.random.seed(1)

    young_pet, old_pet = [], []
    for i in range(sims_number):
        young_pet.append(np.random.choice(["dog", "cat"]))
        old_pet.append(np.random.choice(["dog", "cat"]))
    
    zippedList =  list(zip(young_pet, old_pet))

    return pd.DataFrame(zippedList, columns=["young_pet", "old_pet"])

In [20]:
sims_number = 100

In [21]:
df_sim = simulate_pets_prob(sims_number)

Para simular las ocasiones donde por lo menos uno de los animales sea un perro:

In [22]:
df_sim["dog|dog"] = np.logical_or(df_sim["young_pet"]=="dog", df_sim["old_pet"]=="dog")

Para simular las ocasiones donde por lo menos uno de los animales sea un perro viejo:

In [23]:
df_sim["old_dog"] = np.where(df_sim["old_pet"]=="dog", True, False)

Para simular las ocasiones donde los dos sean perros:

In [24]:
df_sim["dog&dog"] = np.logical_and(df_sim["young_pet"]=="dog", df_sim["old_pet"]=="dog")

Ahora contamos:

In [25]:
case1 = df_sim["dog|dog"].value_counts(sort=False).iloc[1]
case2 = df_sim["old_dog"].value_counts(sort=False).iloc[1]
case3 = df_sim["dog&dog"].value_counts(sort=False).iloc[1]

In [26]:
print("De una muestra de {}, hay {} ocasiones donde al menos uno de los animales es un perro.".format(sims_number, case1))
print("De una muestra de {}, hay {} ocasiones donde al menos uno de los animales es un perro viejo.".format(sims_number, case2))
print("De una muestra de {}, hay {} ocasiones donde ambos son perros.".format(sims_number, case3))

De una muestra de 100, hay 72 ocasiones donde al menos uno de los animales es un perro.
De una muestra de 100, hay 51 ocasiones donde al menos uno de los animales es un perro viejo.
De una muestra de 100, hay 27 ocasiones donde ambos son perros.


Para las probabilidades:

In [27]:
print("Probabilidad de al menos un perro = {}%.".format(case1))
print("Probabilidad de al menos un perro viejo = {}%.".format(case2))
print("Probabilidad de que ambos sean perros = {}%.".format(case3))

Probabilidad de al menos un perro = 72%.
Probabilidad de al menos un perro viejo = 51%.
Probabilidad de que ambos sean perros = 27%.


- El escenario menos probable es el último caso: "ambos son perros".
- El escenario menos probable es el primer caso: "al menos un perro".