The Nobel Prize has been among the most prestigious international awards since 1901. Each year, awards are bestowed in chemistry, literature, physics, physiology or medicine, economics, and peace. In addition to the honor, prestige, and substantial prize money, the recipient also gets a gold medal with an image of Alfred Nobel (1833 - 1896), who established the prize.

![](Nobel_Prize.png)

The Nobel Foundation has made a dataset available of all prize winners from the outset of the awards from 1901 to 2023. The dataset used in this project is from the Nobel Prize API and is available in the `nobel.csv` file in the `data` folder.

In this project, you'll get a chance to explore and answer several questions related to this prizewinning data. And we encourage you then to explore further questions that you're interested in!

In [13]:
# Loading in required libraries
import pandas as pd
import seaborn as sns
import numpy as np

# Start coding here!

In [14]:
# Cargar el dataset
nobel_df = pd.read_csv('data/nobel.csv')
print("Dataset cargado correctamente!")
print("Filas y columnas:", nobel_df.shape)

# Ver las primeras filas para entender los datos
print("\nPrimeras 5 filas:")
print(nobel_df.head())

# Cambiar 'sex' por 'gender' para que sea más fácil de entender
nobel_df['gender'] = nobel_df['sex']

# pregunta 1: ¿Cuál es el género y país más común?
print("\nPREGUNTA 1")

# Contar cuántos hombres y mujeres hay
print("Conteo de géneros:")
print(nobel_df['gender'].value_counts())
top_gender = nobel_df['gender'].value_counts().index[0]
print("El género más común es:", top_gender)

# Contar países
print("\nConteo de países:")
print(nobel_df['birth_country'].value_counts().head(5))
top_country = nobel_df['birth_country'].value_counts().index[0]
print("El país más común es:", top_country)

# pregunta 2: ¿Qué década tuvo más ganadores de Estados Unidos?
print("\nPREGUNTA 2")

# Crear una columna para las décadas
nobel_df['decada'] = (nobel_df['year'] // 10) * 10
print("Décadas creadas, ejemplo:", nobel_df[['year', 'decada']].head(3))

# Contar ganadores de USA por década
usa_winners = nobel_df[nobel_df['birth_country'] == 'United States of America']
usa_por_decada = usa_winners.groupby('decada').size()
print("\nGanadores de USA por década:")
print(usa_por_decada)

# Contar total de ganadores por década
total_por_decada = nobel_df.groupby('decada').size()

# Calcular porcentaje
porcentaje_usa = (usa_por_decada / total_por_decada * 100).fillna(0)
print("\nPorcentaje de USA por década:")
for decade in porcentaje_usa.index:
    print(f"{decade}s: {porcentaje_usa[decade]:.1f}%")

max_decade_usa = porcentaje_usa.idxmax()
print(f"La década con más USA fue: {max_decade_usa}")

# pregunta 3: ¿Qué década y categoría tuvo más mujeres?
print("\nPREGUNTA 3")

# Buscar en cada década y categoría
mejor_porcentaje = 0
mejor_decada = 0
mejor_categoria = ""

for decade in nobel_df['decada'].unique():
    for category in nobel_df['category'].unique():
        # Filtrar por década y categoría
        grupo = nobel_df[(nobel_df['decada'] == decade) & (nobel_df['category'] == category)]
        
        if len(grupo) > 0:  # Si hay datos
            mujeres = len(grupo[grupo['gender'] == 'Female'])
            total = len(grupo)
            porcentaje = mujeres / total * 100
            
            if porcentaje > mejor_porcentaje:
                mejor_porcentaje = porcentaje
                mejor_decada = decade
                mejor_categoria = category

max_female_dict = {int(mejor_decada): mejor_categoria}
print(f"Mejor combinación: {mejor_decada}s en {mejor_categoria}")
print(f"Porcentaje de mujeres: {mejor_porcentaje:.1f}%")

# pregunta 4: ¿Quién fue la primera mujer?
print("\nPREGUNTA 4")

# Filtrar solo mujeres
mujeres = nobel_df[nobel_df['gender'] == 'Female']
print(f"Total de mujeres ganadoras: {len(mujeres)}")

# Encontrar el año más temprano
primera_mujer_año = mujeres['year'].min()
primera_mujer_datos = mujeres[mujeres['year'] == primera_mujer_año].iloc[0]

first_woman_name = primera_mujer_datos['full_name']
first_woman_category = primera_mujer_datos['category']

print(f"Primera mujer: {first_woman_name}")
print(f"Categoría: {first_woman_category}")
print(f"Año: {primera_mujer_año}")

# PREGUNTA 5: ¿Quién ganó más de una vez?
print("\nPREGUNTA 5")

# Contar cuántas veces aparece cada nombre
conteo_nombres = nobel_df['full_name'].value_counts()

# Filtrar solo los que aparecen más de una vez
repetidos = conteo_nombres[conteo_nombres > 1]
repeat_list = list(repetidos.index)

print(f"\nPersonas/organizaciones que ganaron más de una vez:")
for nombre in repeat_list:
    veces = repetidos[nombre]
    print(f"- {nombre}: {veces} veces")

print(f"\nTotal de ganadores múltiples: {len(repeat_list)}")

# RESULTADOS FINALES
print("\n" + "="*50)
print("RESPUESTAS FINALES")
print("="*50)
print(f"top_gender = '{top_gender}'")
print(f"top_country = '{top_country}'")
print(f"max_decade_usa = {max_decade_usa}")
print(f"max_female_dict = {max_female_dict}")
print(f"first_woman_name = '{first_woman_name}'")
print(f"first_woman_category = '{first_woman_category}'")
print(f"repeat_list = {repeat_list}")

Dataset cargado correctamente!
Filas y columnas: (1000, 18)

Primeras 5 filas:
   year    category  ... death_city death_country
0  1901   Chemistry  ...     Berlin       Germany
1  1901  Literature  ...   Châtenay        France
2  1901    Medicine  ...    Marburg       Germany
3  1901       Peace  ...     Heiden   Switzerland
4  1901       Peace  ...      Paris        France

[5 rows x 18 columns]

PREGUNTA 1
Conteo de géneros:
Male      905
Female     65
Name: gender, dtype: int64
El género más común es: Male

Conteo de países:
United States of America    291
United Kingdom               91
Germany                      67
France                       58
Sweden                       30
Name: birth_country, dtype: int64
El país más común es: United States of America

PREGUNTA 2
Décadas creadas, ejemplo:    year  decada
0  1901    1900
1  1901    1900
2  1901    1900

Ganadores de USA por década:
decada
1900     1
1910     3
1920     4
1930    14
1940    13
1950    21
1960    21
1970   