In [1]:
import pandas as pd
import nbformat as nbf

# Crear el DataFrame para almacenar las etiquetas decodificadas
encoded_labels = pd.Series([
    0, 1, 2, 3, 0, 4, 5, 6, 2, 1, 3, 0, 5, 4, 6, 1, 2, 5, 4, 3,
    7, 8, 9, 10, 7, 11, 12, 13, 9, 8, 10, 7, 12, 11, 13, 8, 9, 12, 11, 10,
    14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33
])

animal_labels = pd.Series([
    'cat', 'dog', 'bird', 'fish', 'lion', 'tiger', 'bear', 'elephant', 
    'giraffe', 'zebra', 'kangaroo', 'koala', 'panda', 'monkey',
    'shark', 'whale', 'dolphin', 'penguin', 'ostrich', 'crocodile', 
    'alligator', 'hippopotamus', 'rhinoceros', 'cheetah', 'leopard', 
    'jaguar', 'wolf', 'fox', 'rabbit', 'squirrel', 'bat', 'owl', 
    'hawk', 'eagle'
])

decoded_labels = animal_labels.take(encoded_labels)

# Crear un nuevo notebook
nb = nbf.v4.new_notebook()

# Añadir celdas al notebook
nb.cells = [
    nbf.v4.new_markdown_cell("# Análisis de Frecuencias de Animales\n"),
    nbf.v4.new_code_cell("""import pandas as pd

# Series de índices codificados ampliados
encoded_labels = pd.Series([
    0, 1, 2, 3, 0, 4, 5, 6, 2, 1, 3, 0, 5, 4, 6, 1, 2, 5, 4, 3,
    7, 8, 9, 10, 7, 11, 12, 13, 9, 8, 10, 7, 12, 11, 13, 8, 9, 12, 11, 10,
    14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33
])

# Series de etiquetas originales ampliadas
animal_labels = pd.Series([
    'cat', 'dog', 'bird', 'fish', 'lion', 'tiger', 'bear', 'elephant', 
    'giraffe', 'zebra', 'kangaroo', 'koala', 'panda', 'monkey',
    'shark', 'whale', 'dolphin', 'penguin', 'ostrich', 'crocodile', 
    'alligator', 'hippopotamus', 'rhinoceros', 'cheetah', 'leopard', 
    'jaguar', 'wolf', 'fox', 'rabbit', 'squirrel', 'bat', 'owl', 
    'hawk', 'eagle'
])

# Reconstruir las etiquetas originales
decoded_labels = animal_labels.take(encoded_labels)

# Mostrar el resultado
print("Etiquetas originales reconstruidas:")
print(decoded_labels)"""),
    nbf.v4.new_markdown_cell("## Frecuencia de cada etiqueta de animal"),
    nbf.v4.new_code_cell("""# Contar la frecuencia de cada etiqueta
frequency_counts = decoded_labels.value_counts()

# Mostrar los resultados
print("\\nFrecuencia de cada etiqueta de animal:")
print(frequency_counts)"""),
    nbf.v4.new_markdown_cell("## Etiquetas únicas presentes en los datos"),
    nbf.v4.new_code_cell("""# Identificar etiquetas únicas
unique_labels = decoded_labels.unique()

# Mostrar las etiquetas únicas
print("\\nEtiquetas únicas presentes en los datos:")
print(unique_labels)"""),
    nbf.v4.new_markdown_cell("## Animal más frecuente y menos frecuente"),
    nbf.v4.new_code_cell("""# Animal más frecuente
most_frequent_animal = frequency_counts.idxmax()
most_frequent_count = frequency_counts.max()

# Animal menos frecuente
least_frequent_animal = frequency_counts.idxmin()
least_frequent_count = frequency_counts.min()

# Mostrar los resultados
print(f"\\nAnimal más frecuente: {most_frequent_animal} con {most_frequent_count} apariciones")
print(f"Animal menos frecuente: {least_frequent_animal} con {least_frequent_count} apariciones")"""),
    nbf.v4.new_markdown_cell("## Frecuencia de animales por grupo"),
    nbf.v4.new_code_cell("""# Definir los grupos de animales
animal_groups = {
    'mamíferos': ['cat', 'dog', 'lion', 'tiger', 'bear', 'elephant', 'kangaroo', 'koala', 'panda', 'monkey', 
                  'alligator', 'hippopotamus', 'rhinoceros', 'cheetah', 'leopard', 'jaguar', 'wolf', 'fox', 'rabbit', 
                  'squirrel', 'bat'],
    'aves': ['bird', 'giraffe', 'zebra', 'penguin', 'ostrich', 'owl', 'hawk', 'eagle'],
    'marinos': ['fish', 'shark', 'whale', 'dolphin']
}

# Crear una serie para almacenar los resultados
group_counts = pd.Series(dtype=int)

# Contar la frecuencia de cada grupo
for group, animals in animal_groups.items():
    group_counts[group] = decoded_labels.isin(animals).sum()

# Mostrar los resultados
print("\\nFrecuencia de animales por grupo:")
print(group_counts)"""),
    nbf.v4.new_markdown_cell("## Posiciones de las primeras y últimas ocurrencias de cada animal"),
    nbf.v4.new_code_cell("""# Crear un DataFrame para almacenar las posiciones
position_df = pd.DataFrame(columns=['Animal', 'Primera Ocurrencia', 'Última Ocurrencia'])

# Identificar las posiciones
for animal in unique_labels:
    first_occurrence = decoded_labels[decoded_labels == animal].index[0]
    last_occurrence = decoded_labels[decoded_labels == animal].index[-1]
    position_df = position_df.append({
        'Animal': animal,
        'Primera Ocurrencia': first_occurrence,
        'Última Ocurrencia': last_occurrence
    }, ignore_index=True)

# Mostrar los resultados
print("\\nPosiciones de las primeras y últimas ocurrencias de cada animal:")
print(position_df)"""),
    nbf.v4.new_markdown_cell("## Resumen estadístico de las frecuencias de los animales"),
    nbf.v4.new_code_cell("""# Generar un resumen estadístico
summary_statistics = frequency_counts.describe()

# Mostrar los resultados
print("\\nResumen estadístico de las frecuencias de los animales:")
print(summary_statistics)"""),
    nbf.v4.new_markdown_cell("## Animales con una frecuencia mayor que 2"),
    nbf.v4.new_code_cell("""# Filtrar animales con frecuencia mayor que 2
filtered_animals = frequency_counts[frequency_counts > 2]

# Mostrar los resultados
print("\\nAnimales con una frecuencia mayor que 2:")
print(filtered_animals)"""),
    nbf.v4.new_markdown_cell("## Animales que aparecen solo una vez"),
    nbf.v4.new_code_cell("""# Encontrar etiquetas que aparecen solo una vez
animals_once = frequency_counts[frequency_counts == 1]

# Mostrar los resultados
print("\\nAnimales que aparecen solo una vez:")
print(animals_once)"""),
    nbf.v4.new_markdown_cell("## Porcentaje de apariciones de cada animal respecto al total"),
    nbf.v4.new_code_cell("""# Calcular el porcentaje de apariciones
total_count = frequency_counts.sum()
percentage_counts = (frequency_counts / total_count) * 100

# Mostrar los resultados
print("\\nPorcentaje de apariciones de cada animal respecto al total:")
print(percentage_counts)"""),
    nbf.v4.new_markdown_cell("## Frecuencia de animales por grupo (con solapamiento)"),
    nbf.v4.new_code_cell("""# Redefinir los grupos para incluir solapamiento
animal_groups_overlap = {
    'mamíferos': ['cat', 'dog', 'lion', 'tiger', 'bear', 'elephant', 'kangaroo', 'koala', 'panda', 'monkey', 
                  'alligator', 'hippopotamus', 'rhinoceros', 'cheetah', 'leopard', 'jaguar', 'wolf', 'fox', 'rabbit', 
                  'squirrel', 'bat'],
    'aves': ['bird', 'giraffe', 'zebra', 'penguin', 'ostrich', 'owl', 'hawk', 'eagle'],
    'marinos': ['fish', 'shark', 'whale', 'dolphin', 'penguin']
}

# Crear una serie para almacenar los resultados
overlap_counts = pd.Series(dtype=int)

# Contar cuántos animales están en más de un grupo
for group, animals in animal_groups_overlap.items():
    overlap_counts[group] = decoded_labels.isin(animals).sum()

# Mostrar los resultados
print("\\nFrecuencia de animales por grupo (con solapamiento):")
print(overlap_counts)"""),
    nbf.v4.new_markdown_cell("## Crear una columna que indique si un animal es común o raro"),
    nbf.v4.new_code_cell("""# Crear una nueva columna en el DataFrame original para indicar si el animal es común o raro
decoded_labels_df = pd.DataFrame(decoded_labels, columns=['Animal'])
decoded_labels_df['Frecuencia'] = decoded_labels_df['Animal'].map(frequency_counts)
decoded_labels_df['Tipo'] = decoded_labels_df['Frecuencia'].apply(lambda x: 'Común' if x > 2 else 'Raro')

# Mostrar los resultados
print("\\nDataFrame con columna de tipo (Común/Raro):")
print(decoded_labels_df)"""),
    nbf.v4.new_markdown_cell("## Ordenar las etiquetas de animales por frecuencia en orden descendente"),
    nbf.v4.new_code_cell("""# Ordenar las etiquetas de animales por frecuencia en orden descendente
sorted_frequency_counts = frequency_counts.sort_values(ascending=False)

# Mostrar los resultados
print("\\nFrecuencia de animales ordenada de mayor a menor:")
print(sorted_frequency_counts)"""),
    nbf.v4.new_markdown_cell("## Generar un DataFrame que muestre la frecuencia acumulativa de las etiquetas"),
    nbf.v4.new_code_cell("""# Calcular la frecuencia acumulativa
cumulative_frequency = sorted_frequency_counts.cumsum()

# Crear un DataFrame con la frecuencia acumulativa
cumulative_df = pd.DataFrame({'Frecuencia': sorted_frequency_counts, 'Frecuencia Acumulativa': cumulative_frequency})

# Mostrar los resultados
print("\\nFrecuencia acumulativa de las etiquetas:")
print(cumulative_df)""")
]

# Guardar el notebook
with open('animal_frequency_analysis.ipynb', 'w') as f:
    nbf.write(nb, f)
