In [1]:
import pandas as pd

# Cargamos excel
df = pd.read_excel("data_salaries.xlsx")

# Limpieza de datos
df = df[df['frequency']=='yearly']
df = df[['city', 'median_salary']].dropna()
quartile_data = []

# Calculamos cuartiles para cada ciudad
for city in ['Madrid', 'Barcelona', 'Berlin']:
    city_salaries = df[df['city'] == city]['median_salary']
    if not city_salaries.empty:
        q25 = city_salaries.quantile(0.25)
        q50 = city_salaries.quantile(0.50)
        q75 = city_salaries.quantile(0.75)
        quartile_data.extend([
            {'Grupo': f'{city}_salary_25', 'Salario': q25, 'Ciudad': city},
            {'Grupo': f'{city}_salary_50', 'Salario': q50, 'Ciudad': city},
            {'Grupo': f'{city}_salary_75', 'Salario': q75, 'Ciudad': city},
        ])

quartiles_df = pd.DataFrame(quartile_data)

In [2]:
def calcular_impuestos_total(salario, ciudad):
    ciudad = ciudad.lower()
    irpf = 0
    ssocial = 0

    # IRPF España
    if ciudad in ['madrid', 'barcelona', 'españa']:
        tramos = [
            (12450, 0.19),
            (20200, 0.24),
            (35200, 0.30),
            (60000, 0.37),
            (float('inf'), 0.45)
        ]
        ssocial = salario * 0.0635

    # IRPF Alemania
    elif ciudad in ['berlin', 'alemania']:
        tramos = [
            (10908, 0.00),
            (61972, 0.30),
            (277825, 0.42),
            (float('inf'), 0.45)
        ]
        ssocial = salario * 0.20

    else:
        return None

    base = 0
    for limite, tipo in tramos:
        if salario > limite:
            irpf += (limite - base) * tipo
            base = limite
        else:
            irpf += (salario - base) * tipo
            break

    total = irpf + ssocial
    return round(total, 2)


In [3]:
quartiles_df['Impuestos'] = quartiles_df.apply(lambda row: calcular_impuestos_total(row['Salario'], row['Ciudad']), axis=1)
# Pasar nominas e impuesto a mensuales
quartiles_df['Salario Bruto Mensual'] = round(quartiles_df['Salario']/12, 2)
quartiles_df['Impuestos'] = round(quartiles_df['Impuestos']/12, 2)
quartiles_df = quartiles_df.drop(columns = ['Salario'])

In [4]:
costes = {
    "Madrid": {
        "Alquiler": 700,
        "Comida": 250,
        "Ocio": 200,
        "Transporte": 30
    },
    "Barcelona": {
        "Alquiler": 700,
        "Comida": 250,
        "Ocio": 200,
        "Transporte": 30
    },
    "Berlin": {
        "Alquiler": 600,
        "Comida": 300,
        "Ocio": 300,
        "Transporte": 50
    }
}
# Añadir columnas según ciudad
quartiles_df["Alquiler"] = quartiles_df["Ciudad"].map(lambda c: costes[c]["Alquiler"])
quartiles_df["Comida"] = quartiles_df["Ciudad"].map(lambda c: costes[c]["Comida"])
quartiles_df["Transporte"] = quartiles_df["Ciudad"].map(lambda c: costes[c]["Transporte"])
quartiles_df["Ocio"] = quartiles_df["Ciudad"].map(lambda c: costes[c]["Ocio"])
quartiles_df["Ahorro"] = round(quartiles_df["Salario Bruto Mensual"] - quartiles_df["Impuestos"] - quartiles_df["Alquiler"] - quartiles_df["Comida"] - quartiles_df["Transporte"] - quartiles_df["Ocio"], 2)

In [17]:
# Preparamos el formato Sankey
sankey_data = []

for _, row in quartiles_df.iterrows():
    Ciudad = row['Ciudad']
    Grupo = row['Grupo']
    Salario = f" {int(row['Salario Bruto Mensual'])}€"

    for expense in ['Impuestos', 'Alquiler', 'Comida', 'Transporte', 'Ocio', 'Ahorro']:
        sankey_data.append({
            'From': Ciudad + Salario,
            'To': expense,
            'Value': row[expense],
            'Grupo': Grupo
        })

sankey_df = pd.DataFrame(sankey_data)


In [19]:
# Guardamos el CSV
sankey_df.to_csv("sankey_flourish_ready.csv", index=False)