In [22]:
import pandas as pd
import numpy as np

# Paso a) Cargar el CSV en un DataFrame
df = pd.read_csv("poblacion_provincias_cr.csv", header=None, names=["Provincia", "Poblacion"])

print("DataFrame:")
print(df)

DataFrame:
    Provincia  Poblacion
0    San_José    1601167
1    Alajuela    1035464
2     Cartago     545092
3  Puntarenas     500166
4     Heredia     479117
5       Limón     470383
6  Guanacaste     412808


In [23]:
# Paso b) Calcular la probabilidad p(s) de ser de una provincia s
def calcular_probabilidad(provincia):
    poblacion_total = df["Poblacion"].sum()
    poblacion_provincia = df[df["Provincia"] == provincia]["Poblacion"].values[0]
    return poblacion_provincia / poblacion_total

In [24]:
# Paso c) Calcular la entropía H(s) de cada provincia
def calcular_entropia(provincia):
    probabilidad = calcular_probabilidad(provincia)
    if probabilidad == 0:
        return 0
    else:
        return probabilidad * np.log2(1 / probabilidad)

In [25]:
# Paso d) Calcular la entropía total de las provincias
entropia_total = sum(calcular_entropia(provincia) for provincia in df["Provincia"])

print("\nEntropía total de las provincias:", entropia_total)


Entropía total de las provincias: 2.609202103993833


In [26]:
# Paso e) Calcular los bits para codificar Heredia y San José
entropia_heredia = calcular_entropia("Heredia")
entropia_san_jose = calcular_entropia("San_José")

print("Entropía de Heredia:", entropia_heredia)
print("Entropía de San José:", entropia_san_jose)



Entropía de Heredia: 0.3225815802576514
Entropía de San José: 0.5255015423312867


In [27]:
# Añadir una columna con las entropías de las provincias
df["Entropia"] = df["Provincia"].apply(calcular_entropia)

print("DataFrame con entropías:")
print(df)

DataFrame con entropías:
    Provincia  Poblacion  Entropia
0    San_José    1601167  0.525502
1    Alajuela    1035464  0.468927
2     Cartago     545092  0.346889
3  Puntarenas     500166  0.330603
4     Heredia     479117  0.322582
5       Limón     470383  0.319176
6  Guanacaste     412808  0.295524
