In [1]:
import numpy as np
import pandas as pd

df = pd.DataFrame([
    {"nombre": "Neko", "edad": 17, "especie": "gato"}, 
    {"nombre": "Fantasma", "edad": 5, "especie": "erizo"}, 
    {"nombre": "Miti", "edad": 10, "especie": "gato"},
    {"nombre": "Bahamut", "edad": 1, "especie": "ratón"}, 
    {"nombre": "Maggie", "edad": 7, "especie": "perro"}, 
    {"nombre": "Alonso", "edad": 2, "especie": "perro"}
])
df

Unnamed: 0,nombre,edad,especie
0,Neko,17,gato
1,Fantasma,5,erizo
2,Miti,10,gato
3,Bahamut,1,ratón
4,Maggie,7,perro
5,Alonso,2,perro


## Varianza de edad

In [3]:
# Guardamos Serie que contiene edad
edad = df["edad"]
edad

0    17
1     5
2    10
3     1
4     7
5     2
Name: edad, dtype: int64

In [4]:
edad.mean()

7.0

In [3]:
# Verificamos la operación vectorizada de restar la media a cada valor
edad - edad.mean()

0    10.0
1    -2.0
2     3.0
3    -6.0
4     0.0
5    -5.0
Name: edad, dtype: float64

In [7]:
# Elevamos al cuadrado, en forma vectorizada, la operación anterior
(edad - edad.mean()) ** 2

0    100.0
1      4.0
2      9.0
3     36.0
4      0.0
5     25.0
Name: edad, dtype: float64

In [8]:
# Realizamos la suma vectorizada del resultado anterior
sum((edad - edad.mean()) ** 2)

174.0

In [14]:
# Dividimos el resultado anterior por la cantidad de elementos del vector para obtener la varianza
sum((edad - edad.mean()) ** 2) / (len(edad) - 1)

34.8

In [15]:
np.sqrt(sum((edad - edad.mean()) ** 2) / (len(edad) - 1))

5.89915248150105

## Función que retorna un DataFrame

In [18]:
def genera_dataframe(datos, columna_subsets, columna_metricas):
    """
    Esta función genera un pandas.DataFrame a partir de una lista de diccionarios. Cada diccionario dentro de la lista 
    contiene tres columnas, la primera de tipo object, y las otras dos de tipo float, que corresponden a mínimo y máximo.
    
    Parámetros
    ----------
        - datos: De tipo pandas.DataFrame. Set de datos del cual extraer los datos para el nuevo DataFrame.
        - columna_subsets: De tipo string. Nombre de la columnade 'datos' por la cual se quiere hacer subsets.
        - columna_metricas: De tripo string. Nombre de la columa de 'datos' a la cual se quiere obtener mínimo y máximo.
    
    Retorno
    -------
        - Retorna un objeto de tipo pandas.DataFrame
    """
    return False

In [19]:
genera_dataframe(df, "especie", "edad")

False

In [20]:
"Hola {}".format("mundo")

'Hola mundo'

In [21]:
variable = "mundo"
f"Hola {variable}"

'Hola mundo'

In [24]:
# Código que se debiera refactorizar en la función

# parametro: columna_para_generar_subset = Ej: "especie"
# parametro: data = Ej: df
# parametro: columna_para_estadistica = E: "edad"

# Ejemplo refactorizacion
# nombres_subsets = data[columna_para_generar_subset].unique()
# { f"min_{columna_para_estadistica}": subset[columna_para_estadistica].min() }

filas = []
nombres_subsets = df["especie"].unique() # Se debe reemplazar "especie" por un parámetro
print(nombres_subsets)
    
for i in nombres_subsets:
    print("\n"+i)

    subset = df[df["especie"] == i] # Se debe reemplazar "especie" por un parámetro
    print(subset)

    filas.append({
        "especie": i, # Se debe reemplazar "especie" por un parámetro
        "min_edad": subset["edad"].min(), # Se debe reemplazar "edad" por un parámetro
        "max_edad": subset["edad"].max() # Se debe reemplazar "edad" por un parámetro
    })
        
pd.DataFrame(filas)

['gato' 'erizo' 'ratón' 'perro']

gato
  nombre  edad especie
0   Neko    17    gato
2   Miti    10    gato

erizo
     nombre  edad especie
1  Fantasma     5   erizo

ratón
    nombre  edad especie
3  Bahamut     1   ratón

perro
   nombre  edad especie
4  Maggie     7   perro
5  Alonso     2   perro


Unnamed: 0,especie,min_edad,max_edad
0,gato,10,17
1,erizo,5,5
2,ratón,1,1
3,perro,2,7


In [24]:
df["especie"].dtype

dtype('O')

In [25]:
df["edad"].dtype

dtype('int64')

In [35]:
df["edad"].dtype == 'int64' or df["edad"].dtype == 'float64'

True

In [30]:
df["decimal"] = 0.0
df["decimal"].dtype

dtype('float64')

In [34]:
from pandas.api.types import is_numeric_dtype
is_numeric_dtype(df['edad'])

True

In [36]:
isinstance(df["especie"], pd.Series)

True

In [39]:
# df["nombre"].mean()

## Numpy

In [12]:
# Elegir un elemento de una lista al azar
np.random.choice(["Azul", "Verde"]) # Ver documentación

'Azul'

In [33]:
colores = [np.random.choice(["Azul", "Verde"]), np.random.choice(["Azul", "Verde"]), np.random.choice(["Azul", "Verde"])]
colores

['Verde', 'Azul', 'Verde']

In [35]:
# Cantidad de verdes
colores.count("Verde") # Ver documentación

2

In [36]:
# La probabilidad de tener un verde sería:
colores.count("Verde") / 3

0.6666666666666666

In [8]:
np.random.seed(2) # Ver documentación
np.random.choice(["Azul", "Verde"]) 

'Azul'

In [33]:
def simulate_pets_prob(total_simulaciones):
    np.random.seed(1)
    por_lo_menos_1_es_perro = 0
    por_lo_menos_1_es_perro_viejo = 0
    los_dos_son_perros = 0
    
    for simulacion in range(total_simulaciones):
        young_pet = generate_pet()
        old_pet = generate_pet()
        
        if young_pet == "perro" or old_pet == "perro":
            por_lo_menos_1_es_perro += 1
        
        if old_pet == "perro":
            por_lo_menos_1_es_perro_viejo += 1
            
        if young_pet == "perro" and old_pet == "perro":
            los_dos_son_perros += 1
        
    print(f"La probabilidad de por lo menos un perro es {por_lo_menos_1_es_perro / n_sims}")

In [34]:
simulate_pets_prob(4)

La probabilidad de por lo menos un perro es 0.25
