## Desafío - Funciones y probabilidad básica
### Cristian Vidal Muñoz

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('worldcup2014.csv')

In [3]:
df.sample(5)

Unnamed: 0,team,continent,group,group_pos,cantidad_juegos,juegos_ganados,juegos_empatados,juegos_perdidos,goles_favor,goles_contra,goles_diferencia,puntos,clasificado
15,England,europe,D,4,3,0,1,2,2,4,−2,1,0
16,France,europe,E,1,3,2,1,0,8,2,6,7,1
3,Cameroon,africa,A,4,3,0,0,3,1,9,−8,0,0
1,Mexico,northamerica,A,2,3,2,1,0,4,1,3,7,1
5,Chile,southamerica,B,2,3,2,0,1,5,3,2,6,1


### Desafío 1: Generación de funciones

##### Genere funciones para calcular la media y varianza de un vector. Debe cumplir con los siguientes requistos:
* Ambas funciones deben ingresar un argumento x .
* Las funciones deben contener docstrings con la documentación asociada a la variable.
* Deben retornar el resultado (tip: utilice return ).
* La función de la varianza debe llamar a la función de la media.
##### Utilice las funciones para reportar la información sobre goles_favor , goles_contra , puntos

In [4]:
def media(x):
    """
    media:
    Función que permite obtener el promedio de un conjunto de datos o población
    parameters:
        x: vector con el conjunto de datos
    returns:
        float: retorna la media de un conjunto de datos
    """
    return np.mean(x)

In [5]:
def varianza(x):
    """
    varianza:
        función que permite medir qué tan disperso es un conjunto de datos
    parameters:
        x: vector con el conjunto de datos
    returns:
        float: retorna la varianza de un conjunto de datos
    """
    return sum((xi - media(x)) ** 2 for xi in x) / len(x)

In [6]:
print('Media goles a favor: {}'.format(media(df['goles_favor'])))
print('Varianza goles a favor: {}'.format(varianza(df['goles_favor'])))
print('Media goles en contra: {}'.format(media(df['goles_contra'])))
print('Varianza goles en contra: {}'.format(varianza(df['goles_contra'])))
print('Media puntos: {}'.format(media(df['puntos'])))
print('Varianza puntos: {}'.format(varianza(df['puntos'])))

Media goles a favor: 4.25
Varianza goles a favor: 5.1875
Media goles en contra: 4.25
Varianza goles en contra: 4.8125
Media puntos: 4.21875
Varianza puntos: 8.0458984375


### Desafío 2

A continuación se presenta el siguiente código para obtener la media y varianza de una variable para
distintos continentes

In [7]:
europe_df = df[df['continent'] == 'europe']
southamerica_df = df[df['continent'] == 'southamerica']
africa_df = df[df['continent'] == 'africa']
asia_df = df[df['continent'] == 'asia']
northamerica_df = df[df['continent'] == 'northamerica']
continentes = [europe_df,southamerica_df,africa_df,asia_df,northamerica_df]

* En base a la información disponible, genere una función con los argumentos group_by y var para ingresar una lista de submuestras y una variable a analizar, respectivamente
* La función debe retornar un DataFrame .
* Implemente la función para extraer la información sobre la cantidad de goles a favor, en contra y la cantidad de puntos.
* Reporte en qué continente se encuentra la mayor cantidad de goles a favor, en contra y cantidad de puntos.

In [9]:
def  group_by_continent(group_by, var):
    
    nombre_continente = []
    total_variable = []
    
    for continente_df in group_by:
    
        # Obtener el nombre del continente
        nombre_continente.append(continente_df.iloc[0,1])
        
        # Obtener el total de la variable a analizar
        total_variable.append(continente_df[var].sum())
        
        # Crear un DataFrame con lo datos consolidados
        tmp = pd.DataFrame({
            'continente': nombre_continente, 
            'total': total_variable
        })
        
    return tmp

In [10]:
group_by_continent(continentes, 'goles_favor')

Unnamed: 0,continente,total
0,europe,62
1,southamerica,34
2,africa,18
3,asia,9
4,northamerica,13


<b>Se observa que el continente con mayor cantidad de goles a favor es europa con un total de 62.</b>

In [17]:
group_by_continent(continentes, 'goles_contra')

Unnamed: 0,continente,total
0,europe,52
1,southamerica,17
2,africa,28
3,asia,25
4,northamerica,14


<b>Se observa que el continente con mayor cantidad de goles en contra es europa con un total de 52.</b>

In [18]:
group_by_continent(continentes, 'puntos')

Unnamed: 0,continente,total
0,europe,61
1,southamerica,41
2,africa,12
3,asia,3
4,northamerica,18


<b>Se observa que el continente con mayor cantidad de puntos fue europa con un total de 61.</b>

### Desafío 3: Simulaciones

* Genere una función generate_pet que devuelva de forma aleatoria un string 'perro' o 'gato' . Ejecútela un par de veces.
  * tip: Puede utilizar la función np.random.choice para retornar elementos al azar.

In [13]:
np.random.seed(2)

def generate_pet():
    lista_animales = ['perro', 'gato']
    animal = np.random.choice(a=lista_animales)
    return animal

* Aplique la función generate_pet 20 veces mediante un loop y guarde los resultados en una lista.
    * tip: Puede generar una lista vacía con [ ] y asignarla a un objeto. Puede añadir elementos a la lista con .append .

In [14]:
resultado = []
for i in range(20):
    animal = generate_pet()
    resultado.append(animal)
animal_df = pd.DataFrame(data={'animal':resultado})

In [15]:
animal_df

Unnamed: 0,animal
0,perro
1,gato
2,gato
3,perro
4,perro
5,gato
6,perro
7,gato
8,perro
9,gato


<b>¿Cuál es la probabilidad de elegir un perro al azar? ¿Y un gato?</b>

In [16]:
animal_df['animal'].value_counts('%')

gato     0.6
perro    0.4
Name: animal, dtype: float64

La probabilidad de elegir un perro al azar es de un 40% y la probabilidad de elegir un gato es de un 60%.

<b>Agrege np.random.seed(2) al inicio del chunk. ¿Qué hace éste método en la simulación?</b>

Utilizar la función "np.random.seed(2)" permite generar números pseudoaleatorios, proporcionar un valor "inicial", las "semillas" aseguran obtener siempre el mismo resultado, pero si el parámetro ingresado en la semilla es diferente ejemplo "np.random.seed(1)" se producirá una salida distinta.

### Desafío 4: Función simuladora

* Genere un método llamado simulate_pets_prob que tome como argumento un número finito de simulaciones a generar.
* El método debe simular dos situaciones young_pet y old_pet , y contar la ocurrencia de los siguientes casos:
    * 1. De los dos animales simulados, contar las ocasiones donde por lo menos uno de los animales sea un perro. 
    * De los dos animales simulados, contar las ocasiones donde por lo menos uno sea un perro viejo.
    * De los dos animales simulados, contar las ocasiones donde los dos sean perros
* El método debe tener una semilla pseudoaleatoria de 1.
* De los tres escenarios, ¿Cuál es el menos probable? ¿Cuál es el más probable?

In [33]:
def simulate_pets_prob(simulaciones):
    
    np.random.seed(1)
    
    young_pet = []
    old_pet = []
    
    # Simulaciones
    for i in range(simulaciones):
        young_pet.append(generate_pet())
        old_pet.append(generate_pet())
    
    # Crear DataFrame
    animales_df = pd.DataFrame(data={'young_pet': young_pet, 'old_pet': old_pet})
    
     # 1- Contar las ocasiones donde por lo menos uno de los animales sea un perro
    animales_df['uno_es_perro'] = np.where((animales_df['young_pet'] == 'perro') | (animales_df['old_pet'] == 'perro'), 1, 0)
    
    # 2- Contar las ocasiones donde por lo menos uno sea un perro viejo
    animales_df['uno_es_perro_viejo'] = np.where(animales_df['old_pet'] == 'perro', 1, 0)
    
    # 3- Contar las ocasiones donde los dos sean perros
    animales_df['ambos_son_perros'] = np.where((animales_df['young_pet'] == 'perro') & (animales_df['old_pet'] == 'perro'), 1, 0)
    
    # Consolidar resultados
    resultado_final = pd.DataFrame({
        'Situacion': [
            'Uno de los animales es un perro', 
            'Al menos un animal es un perro viejo',
            'Los dos animales son perros'
        ], 
        'Probabilidad %':[
            animales_df['uno_es_perro'].value_counts('%')[1],
            animales_df['uno_es_perro_viejo'].value_counts('%')[1],
            animales_df['ambos_son_perros'].value_counts('%')[1]
        ]
    })
    
    return resultado_final

In [35]:
simulate_pets_prob(100)

Unnamed: 0,Situacion,Probabilidad %
0,Uno de los animales es un perro,0.72
1,Al menos un animal es un perro viejo,0.51
2,Los dos animales son perros,0.27


#### De los tres escenarios, ¿Cuál es el menos probable? ¿Cuál es el más probable?

Se puede observar que el escenario menos probable es "Los dos animales son perros" con un 27% y el escenario más probable es "Uno de los animales es un perro" con un 72%.