**ü§ù Grupo 14:** Karina Barrientos - Lucas Brown - Vincent Bustamante

## üêº **Pandas Zoo**

El contexto de an√°lisis de datos que elegimos fue el de **visitas a un zool√≥gico**. Para ello, crearemos cinco datasets en los que almacenaremos la siguiente informaci√≥n:

- **Entradas vendidas**
- **H√°bitats disponibles para visitar**
- **Shows disponibles para visitar**
- **Relaci√≥n entre entradas vendidas y visitas a h√°bitats**, incluyendo el nivel de satisfacci√≥n de dichas visitas
- **Relaci√≥n entre entradas vendidas y visitas a shows**, tambi√©n con sus respectivos niveles de satisfacci√≥n

Elegimos este contexto por el **potencial de an√°lisis** que ofrece, ya que estos centros reciben grandes cantidades de personas. Identificar las **preferencias del p√∫blico** permitir√≠a **aumentar las ganancias** del zool√≥gico, al manejar la oferta de servicios de acuerdo a estas.



## üìä **Preguntas de investigaci√≥n**

- ¬øQu√© d√≠as de la semana hay una mayor frecuencia de visitantes seg√∫n cada rango etario?
- ¬øEn qu√© meses hay una mayor frecuencia de visitantes?
- ¬øExiste alguna relaci√≥n entre el tipo de ambiente de cada h√°bitat y la frecuencia de visitas?
- ¬øLa duraci√≥n de los shows afecta la preferencia de los diferentes rangos etarios?
- ¬øEn qu√© horario se concentra la mayor cantidad de visitas?
- ¬øLa presencia de comercios en los h√°bitats afecta la satisfacci√≥n de los visitantes?
- ¬øLa posibilidad de consumir alimentos dentro de los h√°bitats influye en la cantidad de visitas?
- ¬øExiste una correlaci√≥n entre el porcentaje de cupos ocupados en los shows y el nivel de satisfacci√≥n de los visitantes?
- ¬øExiste una correlaci√≥n entre el tipo de entrada (VIP) y el nivel de satisfacci√≥n de los visitantes?
- ¬øLa adquisici√≥n de entradas VIP se relaciona con la asistencia a shows?
- ¬øExiste una correlaci√≥n entre la cantidad de especies en un h√°bitat y el n√∫mero de visitas anuales?

### **Importando todas las librer√≠as utilizadas**

In [34]:
import random
import os
import pandas as pd
import numpy as np
import time
from datetime import datetime, timedelta

### **Generando Datasets**

In [35]:
# Carpeta donde se guardar√°n todos los DataFrames generados
carpeta_destino = 'zoo_dataset'

# Porcentaje de nulos que se introducir√°n programaticamente a cada columna
# de todos los datasets
porcentaje_nulos_general = 0.07

In [36]:
# Funci√≥n para guardar los DataFrames en archivos csv
def guardar_dataset(frame, nombre_archivo_csv):
    if not os.path.exists(carpeta_destino):
        os.makedirs(carpeta_destino)
        
    nombre_archivo_csv = os.path.join(carpeta_destino, nombre_archivo_csv)
    frame.to_csv(nombre_archivo_csv, encoding="utf-8", na_rep='NULL')

In [37]:
# --- Funci√≥n para introducir nulos ---
def introducir_nulos(data_array, porcentaje_nulos):
    """Introduce un porcentaje de valores NaN en una copia del array."""
    if pd.api.types.is_integer_dtype(data_array) and not pd.api.types.is_bool_dtype(data_array):  # No convertir booleanos a float
        data_array_con_nulos = data_array.astype(float)
    else:
        data_array_con_nulos = np.array(data_array, dtype=object)

    num_nulos = int(len(data_array_con_nulos) * porcentaje_nulos)
    if num_nulos > 0:  # Solo si hay nulos que introducir
        indices_nulos = np.random.choice(len(data_array_con_nulos), size=num_nulos, replace=False)
        data_array_con_nulos[indices_nulos] = np.nan
    return data_array_con_nulos

üéüÔ∏è **Dataset de Entradas Vendidas**

In [None]:
# Funci√≥n para generar fechas aleatorias
def fecha_random(inicio, fin, formato, prop):
    tiempo_i = time.mktime(time.strptime(inicio, formato))
    tiempo_f = time.mktime(time.strptime(fin, formato))

    tiempo_p = tiempo_i + prop * (tiempo_i - tiempo_f)

    return time.strftime(formato, time.localtime(tiempo_p))


# Funci√≥n que devuelve el d√≠a de la semana de una fecha dada
def dia_semana(fecha):
    dias = ["Lunes", "Martes", "Mi√©rcoles", "Jueves", "Viernes", "S√°bado", "Domingo"]
    fecha_dt = datetime.strptime(fecha, "%d/%m/%Y")
    return dias[fecha_dt.weekday()]


# Funci√≥n para generar horas aleatorias
def hora_random():
    hora_inicio = datetime.strptime("09:30", "%H:%M")
    hora_fin = datetime.strptime("17:30", "%H:%M")
    delta = hora_fin - hora_inicio
    segundos_random = random.random() * delta.total_seconds()
    hora_generada = hora_inicio + timedelta(seconds=segundos_random)
    return hora_generada

# Creando diccionario de ventas de entradas
diccionario_ventas = {"VIP": [], "rango_etario": [], "fecha": [], "d√≠a_semana": [], "hora_ingreso": []}


# Rellenando diccionario de ventas de entradas
for _ in range(200):
    definir_nulo = random.randint(1, 400)
    fecha = ""
    if definir_nulo in range(1, 41):
        diccionario_ventas["VIP"].append(None)
    else:
        diccionario_ventas["VIP"].append(random.choice([True, False]))
    if definir_nulo in range(41, 81):
        diccionario_ventas["rango_etario"].append(None)
    else:
        diccionario_ventas["rango_etario"].append(random.choice(["Ni√±o", "Adulto", "Adulto Mayor"]))
    if definir_nulo in range(81, 121):
        diccionario_ventas["fecha"].append(None)
    else:
        fecha = fecha_random("01/01/2025", "20/05/2025", "%d/%m/%Y", random.random())
        diccionario_ventas["fecha"].append(fecha)
    if definir_nulo in range(121, 161) or fecha == "":
        diccionario_ventas["d√≠a_semana"].append(None)
    else:
        diccionario_ventas["d√≠a_semana"].append(dia_semana(fecha))
    if definir_nulo in range(161, 201):
        diccionario_ventas["hora_ingreso"].append(None)
    else:
        diccionario_ventas["hora_ingreso"].append(hora_random().strftime("%H:%M"))

# Creando DataFrame a partir del diccionario de ventas de entradas
frame = pd.DataFrame(diccionario_ventas, columns=diccionario_ventas.keys())
frame.index.name = "ID_entrada"

# Guardando el DataFrame en archivo CSV
guardar_dataset(frame, 'entradas_zoo_sucio_generado.csv')

üèûÔ∏è **Dataset de H√°bitats**

In [39]:
# Datos necesarios para generar DataFrame
total_habitats = 18

habitat_ids = [
    "H001", "H002", "H003", "H004", "H005", "H006", "H007", "H008",
    "H009", "H010", "H011", "H012", "H013", "H014", "H015", "H016",
    "H017", "H018"
]

nombres_habitats = [
    "Selva Tropical",
    "Sabana Dorada",
    "Caverna de los Murci√©lagos",
    "Pantano Misterioso",
    "Bosque Templado",
    "Rinc√≥n de los Reptiles",
    "Altas Cumbres",
    "Mares Profundos",
    "Isla de los Primates",
    "Valle del Tigre",
    "Estepa Salvaje",
    "Refugio del Panda",
    "Jard√≠n de las Mariposas",
    "Desierto Rojo",
    "Granja Interactiva",
    "La Ant√°rtida Viva",
    "Bosque de Koalas",
    "Zona Nocturna"
]

tipos_ambientes = [
    "Cerrado", "Abierto", "Mixto"
]

# Generando combinaciones aleatorias de datos para cada columna
cantidad_especies = np.random.randint(1, 5, size=total_habitats)

ambientes = np.random.choice(tipos_ambientes, size=total_habitats)

permite_alimentos = np.random.choice([True, False], size=total_habitats)

comercio = np.random.choice([True, False], size=total_habitats)

aforo = np.random.randint(30, 50, size=total_habitats)

# Agregando nulos a cada columna
nombres_habitats_con_nulos = introducir_nulos(nombres_habitats, porcentaje_nulos_general)
cantidad_especies_con_nulos = introducir_nulos(cantidad_especies, porcentaje_nulos_general)
tipo_ambiente_con_nulos = introducir_nulos(ambientes, porcentaje_nulos_general)
permite_alimentos_con_nulos = introducir_nulos(permite_alimentos, porcentaje_nulos_general)
comercio_con_nulos = introducir_nulos(comercio, porcentaje_nulos_general)
aforo_con_nulos = introducir_nulos(aforo, porcentaje_nulos_general)

# Creando DataFrame a partir de los datos generados
habitats = pd.DataFrame({
    'ID_show': habitat_ids,
    'nombre_habitat': nombres_habitats_con_nulos,
    'cantidad_especies': cantidad_especies_con_nulos,
    'tipo_ambiente': tipo_ambiente_con_nulos,
    'permite_alimentos': permite_alimentos_con_nulos,
    'comercio': comercio_con_nulos,
    'aforo': aforo_con_nulos
})

# Ordenar por ID_entrada (Pandas por defecto pone los NULL al final al ordenar)
habitats = habitats.sort_values(by='ID_show').reset_index(drop=True)

# Guardando DataFrame en archivo CSV
guardar_dataset(habitats, 'habitats_sucio_generado.csv')


ü¶Å **Dataset de Shows**

In [40]:
# Datos necesarios para generar DataFrame
total_shows = 18

shows_ids = [
    "S001", "S002", "S003", "S004", "S005", "S006", "S007", "S008",
    "S009", "S010", "S011", "S012", "S013", "S014", "S015", "S016",
    "S017", "S018"
]

nombres_shows = [
    "Aventuras Salvajes",
    "El Rugido de la Selva",
    "Vuelo Majestuoso",
    "Guardianes del Reino Animal",
    "Entre Garras y Plumas",
    "Reptiles al Descubierto",
    "Safari Sonoro",
    "Zooluminaci√≥n Nocturna",
    "Amigos del Pantano",
    "Gigantes de la Sabana",
    "Baile de las Aves",
    "Peque√±os Exploradores",
    "Magia Marina",
    "Caminata con Canguros",
    "El Misterio del Amazonas",
    "Bestias del Crep√∫sculo",
    "Manada en Movimiento",
    "Historias del Zoo"
]

# Generando combinaciones aleatorias de datos para cada columna
cupos_totales = np.random.randint(30, 51, size=total_shows)

cupos_ocupados = np.array([np.random.randint(0, total + 1) for total in cupos_totales])

tipos_ambientes = [
    "Cerrado", "Abierto", "Mixto"
]

ambientes = np.random.choice(tipos_ambientes, size=total_shows)

duracion = np.random.randint(30, 121, size=total_shows)

# Agregar nulos a cada columna
nombres_shows_con_nulos = introducir_nulos(nombres_shows, porcentaje_nulos_general)
cupos_totales_con_nulos = introducir_nulos(cupos_totales, porcentaje_nulos_general)
cupos_ocupados_con_nulos = introducir_nulos(cupos_ocupados, porcentaje_nulos_general)
ambientes_con_nulos = introducir_nulos(ambientes, porcentaje_nulos_general)
duracion_con_nulos = introducir_nulos(duracion, porcentaje_nulos_general)

# Creando DataFrame a partir de los datos generados
shows = pd.DataFrame({
    'ID_show': shows_ids,
    'nombre_show': nombres_shows_con_nulos,
    'cupos_totales': cupos_totales_con_nulos,
    'cupos_ocupados': cupos_ocupados_con_nulos,
    'tipo_ambiente': ambientes_con_nulos,
    'duracion': duracion_con_nulos
})

# Ordenar por ID_entrada (Pandas por defecto pone los NULL al final al ordenar)
shows = shows.sort_values(by='ID_show').reset_index(drop=True)

# Guardando DataFrame en archivo CSV
guardar_dataset(shows, "shows_sucio_generado.csv")

üîóü¶ì **Dataset: Relaci√≥n entre Entradas y H√°bitats Visitados**

In [None]:
# Este es el total de filas que tendr√° esta tabla
total_visitas_habitats = 400

# Este es el rango de IDs en el que se generaron las entradas.
# Debido a que el foco en este √≠tem del proyecto es generar datos sint√©ticos,
# se consider√≥ conveniente no leer las tablas generadas anteriormente para 
# obtener los IDs, sino simplemente usar el mismo rango num√©rico.
min_id_entrada = 0
max_id_entrada = 199

# Definir las probabilidades de selecci√≥n para cada h√°bitat
habitat_probabilities = [
    0.05, 0.12, 0.08, 0.03, 0.06, 0.04, 0.05, 0.04,
    0.03, 0.02, 0.07, 0.03, 0.02, 0.10, 0.03, 0.04,
    0.04, 0.15
]


# Validar que la suma de las probabilidades sea igual a 1.0
if not np.isclose(sum(habitat_probabilities), 1.0):
    raise ValueError(f"La suma de las probabilidades de los h√°bitats debe ser 1.0. Suma actual: {sum(habitat_probabilities)}")

# Validar que la cantidad de IDs coincida con la cantidad de probabilidades
if len(habitat_ids) != len(habitat_probabilities):
    raise ValueError("La cantidad de IDs de h√°bitat debe coincidir con la cantidad de probabilidades.")


# Generar combinaciones aleatorias de datos para cada columna
id_habitat_lista_original = np.random.choice(
    habitat_ids,
    size=total_visitas_habitats,
    p=habitat_probabilities
)
id_entrada_lista_original = np.random.randint(min_id_entrada, max_id_entrada + 1, size=total_visitas_habitats)
satisfaccion_lista_original = np.random.randint(1, 6, size=total_visitas_habitats)

# Agregar nulos a cada columna
id_habitat_con_nulos = introducir_nulos(id_habitat_lista_original, porcentaje_nulos_general)
id_entrada_con_nulos = introducir_nulos(id_entrada_lista_original, porcentaje_nulos_general)
satisfaccion_con_nulos = introducir_nulos(satisfaccion_lista_original, porcentaje_nulos_general)


# Crear DataFrame a partir de los datos generados
df_visitas_habitats = pd.DataFrame({
    'ID_entrada': id_entrada_con_nulos,
    'ID_habitat': id_habitat_con_nulos,
    'satisfaccion': satisfaccion_con_nulos
})

# Ordenar por ID_entrada (Pandas por defecto pone los NULL al final al ordenar)
df_visitas_habitats = df_visitas_habitats.sort_values(by='ID_entrada').reset_index(drop=True)

# Guardar DataFrame en archivo CSV
guardar_dataset(df_visitas_habitats, "visitas_habitats_sucio_generado.csv")

üîóü¶≠ **Dataset: Relaci√≥n entre Entradas y Shows Visitados**

In [None]:
total_visitas_shows = 400

# Generar combinaciones aleatorias de datos para cada columna
id_shows_lista_original = np.random.choice(
    shows_ids,
    size=total_visitas_shows,
)
id_entrada_lista_original = np.random.randint(min_id_entrada, max_id_entrada + 1, size=total_visitas_shows)
satisfaccion_lista_original = np.random.randint(1, 6, size=total_visitas_shows)

# Agregar nulos a cada columna
id_shows_con_nulos = introducir_nulos(id_shows_lista_original, porcentaje_nulos_general)
id_entrada_con_nulos = introducir_nulos(id_entrada_lista_original, porcentaje_nulos_general)
satisfaccion_con_nulos = introducir_nulos(satisfaccion_lista_original, porcentaje_nulos_general)


# Crear DataFrame a partir de los datos generados
df_visitas_shows = pd.DataFrame({
    'ID_entrada': id_entrada_con_nulos,
    'ID_show': id_shows_con_nulos,
    'satisfaccion': satisfaccion_con_nulos
})

# Ordenar por ID_entrada (Pandas por defecto pone los NULL al final al ordenar)
df_visitas_shows = df_visitas_shows.sort_values(by='ID_entrada').reset_index(drop=True)

# Guardar DataFrame en archivo CSV
guardar_dataset(df_visitas_shows, 'visitas_shows_sucio_generado.csv')

In [1]:
import os
import pandas as pd

ruta = os.path.join('zoo_dataset', 'entradas_zoo_sucio_generado.csv')

loaded = pd.read_csv(ruta)
display(loaded)

Unnamed: 0,ID_entrada,VIP,rango_etario,fecha,d√≠a_semana,hora_ingreso
0,0,True,Adulto,15/11/2024,Viernes,15:04
1,1,True,Adulto Mayor,10/10/2024,Jueves,16:42
2,2,False,Adulto,01/11/2024,Viernes,15:41
3,3,False,Adulto Mayor,05/09/2024,Jueves,10:09
4,4,False,Adulto Mayor,18/09/2024,Mi√©rcoles,15:21
...,...,...,...,...,...,...
195,195,True,Ni√±o,15/11/2024,Viernes,14:24
196,196,False,Adulto,27/08/2024,,12:57
197,197,False,Adulto Mayor,,,14:28
198,198,,Adulto Mayor,01/11/2024,Viernes,17:06
