# Desafío - Funciones y probabilidad básica


In [11]:
import numpy as np
import pandas as pd

df = pd.read_csv('./worldcup2014.csv')

### Desafío 1: Generación de funciones

In [9]:
""" Función para conseguir la media de una Serie pandas"""
def media(x):
    return x.mean()
""" Función para conseguir la media de una Serie pandas"""
def varianza(x):
    sum = 0
    for i in x:
        sum += (i - media(x))**2
    return sum/x.size

print(f"Varianza goles a favor {varianza(df['goles_favor'])}")
print(f"Varianza goles en contra {varianza(df['goles_contra'])}")
print(f"Varianza puntos {varianza(df['puntos'])}")

Varianza goles a favor 5.1875
Varianza goles en contra 4.8125
Varianza puntos 8.0458984375


### Desafío 2: Refactoring de código

In [110]:
def groupByVariable(variable):
    return df.groupby(by=variable).agg([media, varianza])
newDf = groupByVariable('continent')
def reportarTendenciasContinente(variable):
    print(f"Media de {variable}:\n")
    print(newDf[variable]['media'])
    print(f"varianza de {variable}:\n")
    print(newDf[variable]['varianza'])

In [111]:
reportarTendencias('goles_favor')
print('-----------0-----------')
reportarTendencias('goles_contra')
print('-----------0-----------')
reportarTendencias('puntos')

Media de goles_favor: continent
africa          3.600000
asia            2.250000
europe          4.769231
northamerica    3.250000
southamerica    5.666667
Name: media, dtype: float64
varianza de goles_favor: continent
africa          2.640000
asia            0.687500
europe          6.331361
northamerica    1.687500
southamerica    3.888889
Name: varianza, dtype: float64
-----------0-----------
Media de goles_contra: continent
africa          5.600000
asia            6.250000
europe          4.000000
northamerica    3.500000
southamerica    2.833333
Name: media, dtype: float64
varianza de goles_contra: continent
africa          3.840000
asia            3.187500
europe          3.538462
northamerica    8.250000
southamerica    0.472222
Name: varianza, dtype: float64
-----------0-----------
Media de puntos: continent
africa          2.400000
asia            0.750000
europe          4.692308
northamerica    4.500000
southamerica    6.833333
Name: media, dtype: float64
varianza de puntos

In [47]:
print(f"Continente con mayor cantidad de goles promedio a favor es {newDf['goles_favor'].sort_values(by='media').iloc[-1].name}")
print(f"Continente con mayor cantidad de goles promedio en contra es {newDf['goles_contra'].sort_values(by='media').iloc[-1].name}")
print(f"Continente con mayor promedio de puntos es {newDf['puntos'].sort_values(by='media').iloc[-1].name}")

Continente con mayor cantidad de goles promedio a favor es southamerica
Continente con mayor cantidad de goles promedio en contra es asia
Continente con mayor promedio de puntos es southamerica


### Desafio 3: Simulaciones

<li>Genere una función <code>generate_pet</code> que devuelva de forma aleatoria un string
    <span style="color:red">'perro'</span> o <span style="color:red">'gato'</span> un número n de veces. Ejecútela un par de veces.
</li>

In [80]:
def generate_pet(n):
    arr = []
    for i in range(n):
        arr.append(np.random.choice(['perro', 'gato']))
    return arr

for i in range(5):
    print(generate_pet(5))

['gato', 'gato', 'gato', 'gato', 'gato']
['perro', 'perro', 'gato', 'gato', 'gato']
['gato', 'perro', 'perro', 'gato', 'perro']
['perro', 'gato', 'perro', 'perro', 'gato']
['gato', 'perro', 'perro', 'perro', 'perro']


<li>Aplique la función para generar 20 muestras</li>

In [81]:
muestras = []
cantidadObservaciones = 5000  # cada muestra tendrá 5000 observaciones
for i in range(20):
    muestras.append(generate_pet(cantidadObservaciones))

<li>¿Cuál es la probabilidad de elegir un perro al azar? ¿Y un gato?</li>

In [82]:
probPerroPromedioMuestras = 0 
for arr in muestras:
    probPerroPromedioMuestras += arr.count('perro')/cantidadObservaciones
probPerro = probPerroPromedioMuestras/len(muestras)
print(f"La probabilidad de elegir un perro al azar es {probPerro}")
print(f"La probabilidad de elegir un gato al azar es {1-probPerro}")

La probabilidad de elegin un perro al azar es 0.49715
La probabilidad de elegin un gato al azar es 0.50285


<li>Agregue <code>np.random.seed(2)</code> al inicio del chunk. ¿Qué diferencia hay cuando se
ejecuta la función varias veces luego de fijar la semilla?</li>

In [83]:
np.random.seed(2)
muestras = []
cantidadObservaciones = 5000  # cada muestra tendrá 5000 observaciones
for i in range(20):
    muestras.append(generate_pet(cantidadObservaciones))

    probPerroPromedioMuestras = 0
for arr in muestras:
    probPerroPromedioMuestras += arr.count('perro')/cantidadObservaciones
probPerro = probPerroPromedioMuestras/len(muestras)
print(f"La probabilidad de elegir un perro al azar es {probPerro}")
print(f"La probabilidad de elegir un gato al azar es {1-probPerro}")

La probabilidad de elegin un perro al azar es 0.50125
La probabilidad de elegin un gato al azar es 0.49875


Cuando se fija la semilla significa que el numero pseudo-aleatorio que manejará <code>np.random</code> será siempre el mismo, provocando que la función siempre tenga el mismo resultado hasta que se reinicie la semilla o se específique otro valor para ésta.

### Desafío 4: Función simuladora

<li>Genere una función llamada <code>simulate_pets_prob</code> que tome como argumento un
número finito de simulaciones a generar.</li>

In [108]:
np.random.seed(1)
def simulate_pets_prob(n):
    atLeastOneDog = 0
    oldPetDog = 0
    bothPetDogs = 0
    for i in range(n):
        young_pet = generate_pet(1)
        old_pet = generate_pet(1)
        if young_pet.count('perro') == 1 or old_pet.count('perro') == 1 :
            atLeastOneDog += 1
        if old_pet.count('perro') == 1:
            oldPetDog += 1
        if young_pet.count('perro') == 1 and old_pet.count('perro') == 1:
            bothPetDogs += 1
    return (atLeastOneDog/n, oldPetDog/n, bothPetDogs/n)
print(simulate_pets_prob(5000))

(0.7486, 0.4986, 0.2526)


<li>La mayor probabilidad la tiene que al menos unos de los dos sea un perro, y la menor probabilidad es la de que ambos sean perro</li>
<li>Esto se debe a que la simulación tiene 4 resultados posibles: (g,g), (g,p), (p,g) y (p,p). Es por esto que la mejor probabilidad la tiene que al menos uno sea perro, ya que sucede en 3 de los 4 posibles resultado, por tanto dando probabilidad  ~ 0.75. De la misma manera se puede observar el que ambos sean perro, ya que es sólo 1 de los 4 resultados posibles por tanto tiene probabilidad ~ 0.25</li>