Instrucciones 
�
�
 
Para completar este caso, realiza las siguientes tareas: 
1. Carga y exploración de datos: 
○ Importa un dataset en formato CSV en un DataFrame. 
○ Inspecciona los datos con .head(), .info() y .describe(). 
○ Identifica valores nulos y duplicados. 
2. Limpieza y transformación de datos: 
○ Imputa valores nulos utilizando estrategias adecuadas (media, 
mediana o moda). 
○ Elimina registros duplicados. 
○ Convierte columnas categóricas en variables numéricas si es 
necesario. 
3. Optimización y estructuración de datos: 
○ Aplica funciones de groupby y agregación. 
○ Filtra los datos para obtener subconjuntos de interés. 
○ Renombra y reorganiza columnas para mejorar la interpretación. 
4. Exportación de datos: 
○ Guarda el DataFrame procesado en un archivo CSV sin incluir el 
índice. 
○ Exporta los datos limpios a Excel para su visualización y reporte. 

In [2]:
import pandas as pd

In [3]:
# Cargar dataset
df = pd.read_csv("medallas.csv")

# Exploración básica
print(df.head())
print(df.info())
print(df.describe())

# Detectar nulos y duplicados
print("Valores nulos por columna:\n", df.isnull().sum())
print("Cantidad de duplicados:", df.duplicated().sum())

    Oro  Plata  Bronce  Total        Pais
0   NaN    1.0     2.0      3   Argentina
1   NaN    2.0     2.0      4     Armenia
2  17.0    7.0    22.0     46   Australia
3   1.0    1.0     5.0      7     Austria
4   NaN    3.0     4.0      7  Azerbaijan
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB
None
             Oro      Plata     Bronce       Total
count  65.000000  69.000000  76.000000   93.000000
mean    4.400000   4.768116   4.934211   10.548387
std     7.633806   7.276362   6.261705   18.897617
min     1.000000   1.000000   1.000000    1.000000
25%     1.000000   1.000000   1.000000    2.000000
50%     2.0000

In [4]:
# Reemplazar todos los valores nulos por 0 en 
df.fillna(0, inplace=True)

In [5]:
#Agregacion

# Crear una columna "Total_Calculado" sumando medallas
df['Total_Calculado'] = df[['Oro', 'Plata', 'Bronce']].sum(axis=1)

# Verificar si coincide con la columna original
df['Coincide_Total'] = df['Total'] == df['Total_Calculado']



In [6]:
df[df['Coincide_Total'] == False]

Unnamed: 0,Oro,Plata,Bronce,Total,Pais,Total_Calculado,Coincide_Total
30,1.0,12.0,11.0,33,France,24.0,False
32,1.0,11.0,16.0,37,Germany,28.0,False
38,6.0,7.0,7.0,2,Hungary,20.0,False
49,4.0,4.0,2.0,1,Kenya,10.0,False
60,1.0,12.0,14.0,36,Netherlands,27.0,False
61,7.0,6.0,7.0,2,New Zealand,20.0,False
70,6.0,4.0,1.0,2,Republic of Korea,11.0,False
73,2.0,28.0,23.0,71,ROC,53.0,False


In [7]:
#Cambio de nombre por columnas

df.rename(columns={
    'Oro': 'Medallas_Oro',
    'Plata': 'Medallas_Plata',
    'Bronce': 'Medallas_Bronce',
    'Total': 'Total_Medallas'
}, inplace=True)

In [9]:
# Filtrar países que ganaron al menos una medalla de oro
df_con_oro = df[df['Medallas_Oro'] >= 1]

# Ordenar de mayor a menor por cantidad de medallas de oro
df_top5_oro = df_con_oro.sort_values(by='Medallas_Oro', ascending=False).head(5)

# Mostrar los 5 países con más medallas de oro
print(df_top5_oro[['Pais', 'Medallas_Oro']])

                          Pais  Medallas_Oro
25   Estados Unidos de America          39.0
72  Republica Popular de China          38.0
46                       Japon          27.0
34                Gran Bretana          22.0
2                    Australia          17.0


In [None]:
# Guardar CSV limpio sin índice
df.to_csv("datos_limpios_medallas.csv", index=False)

# Exportar a Excel
df.to_excel("datos_limpios_medallas.xlsx", index=False)