# Proyecto del Día - Análisis de Medallas Olímpicas

## Objetivo

Realizar un análisis exploratorio de datos (EDA) sobre un conjuntos de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series, DataFrames, limpieza de datos, operaciones básicas, filtrado y agregación** en Pandas.

## Consigna

Vas a trabajar con el conjunto de datos _medallas.csv_, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del cuestionario que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los datos:** Importar los datos desde el archivo CSV a un DataFrame de Pandas.
2. **Exploración inicial:** Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.
3. **Limpieza de datos:** Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.
4. **Análisis de medallas de oro por país:** Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de oro en total (vas a necesitar investigar los métodos de DataFrames para encontrar cuál te permita ordenar los valores de mayor a menor y viceversa).
5. **Análisis de medallas totales por país:** Obtener un DataFrame que contenga sólo los países que ganaron más de 10 medallas en total.

Una vez que hayas realizado estos pasos, realiza el cuestionario del día, que contiene preguntas que sólo podrás responder tras haber explorado los datos, siguiendo los pasos anteriores.

¡Mucha suerte!

In [2]:
import pandas as pd


# Carga de datos
medallas_df: pd.DataFrame = pd.read_csv('./data/medallas.csv')
print(medallas_df)

     Oro  Plata  Bronce  Total          Pais
0    NaN    1.0     2.0      3     Argentina
1    NaN    2.0     2.0      4       Armenia
2   17.0    7.0    22.0     46     Australia
3    1.0    1.0     5.0      7       Austria
4    NaN    3.0     4.0      7    Azerbaijan
..   ...    ...     ...    ...           ...
88   NaN    1.0     NaN      1  Turkmenistan
89   2.0    1.0     1.0      4        Uganda
90   1.0    6.0    12.0     19       Ukraine
91   3.0    NaN     2.0      5    Uzbekistan
92   1.0    3.0     NaN      4     Venezuela

[93 rows x 5 columns]


In [3]:
# Exploración inicial
print(
    f'El tamaño del DataFrame es de {medallas_df.shape[0]} filas '
    f'y {medallas_df.shape[1]} columnas.\n'
)
print(f'Las columnas son: {', '.join(list(medallas_df.columns))}\n')
print(f'Los tipos de datos por columna son:\n{medallas_df.dtypes}\n')
print(f'Algunos estadísticos descriptivos:\n{medallas_df.describe()}')

El tamaño del DataFrame es de 93 filas y 5 columnas.

Las columnas son: Oro, Plata, Bronce, Total, Pais

Los tipos de datos por columna son:
Oro       float64
Plata     float64
Bronce    float64
Total       int64
Pais       object
dtype: object

Algunos estadísticos descriptivos:
             Oro      Plata     Bronce       Total
count  65.000000  69.000000  76.000000   93.000000
mean    4.400000   4.768116   4.934211   10.548387
std     7.633806   7.276362   6.261705   18.897617
min     1.000000   1.000000   1.000000    1.000000
25%     1.000000   1.000000   1.000000    2.000000
50%     2.000000   2.000000   2.000000    4.000000
75%     3.000000   5.000000   5.250000    8.000000
max    39.000000  41.000000  33.000000  113.000000


In [26]:
# Limpieza de datos 1 - Diagnosticar el dataset
print(medallas_df.info())

# Limpieza de datos 2 - Determinar la cantidad de nulos por columna
print(
    '\nLa cantidad de entradas nulas por columna:'
    f'\n{medallas_df.isnull().sum()}'
)

# Limpieza de datos 3 - Reemplazar los valores nulos por ceros
medallas_df_sin_nulos: pd.DataFrame = medallas_df.fillna(0)
print(
    '\nSe han reemplazado los valores nulos por ceros:'
    f'\n{medallas_df_sin_nulos}'
)

# Limpieza de datos 4 - Reemplazar tipos de datos por los correctos
medallas_df_sin_nulos['Oro'] = medallas_df_sin_nulos['Oro'].astype('int64')
medallas_df_sin_nulos['Plata'] = medallas_df_sin_nulos['Plata'].astype('int64')
medallas_df_sin_nulos['Bronce'] = medallas_df_sin_nulos['Bronce'].astype('int64')
medallas_df_sin_nulos['Pais'] = medallas_df_sin_nulos['Pais'].astype('string')

print(
    '\nSe han reemplazado los valores flotantes por enteros:'
    f'\n{medallas_df_sin_nulos.dtypes}'
)

# Limpieza de datos 5 - Encontrar y manejar posibles duplicados
duplicados: list[bool] = medallas_df_sin_nulos['Pais'].duplicated().to_list()

if True in duplicados:
    print('\nSe han encontrado duplicados.')
else:
    print('\nNo se han encontrado duplicados.')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB
None

La cantidad de entradas nulas por columna:
Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

Se han reemplazado los valores nulos por ceros:
     Oro  Plata  Bronce  Total          Pais
0    0.0    1.0     2.0      3     Argentina
1    0.0    2.0     2.0      4       Armenia
2   17.0    7.0    22.0     46     Australia
3    1.0    1.0     5.0      7       Austria
4    0.0    3.0     4.0      7    Azerbaijan
..   ...    ...     ...    ...           ...
88   0.0    1.0     0.0      1  Turkmenistan
89   2.0    1.0     1.0      4        Uga

In [31]:
# Análisis de medallas de oro por país
medallas_df_orden_oro: pd.DataFrame = medallas_df_sin_nulos.sort_values(
    by='Oro',
    ascending=False
)
primer_lugar_oro: pd.Series = medallas_df_orden_oro.iloc[0]
segundo_lugar_oro: pd.Series = medallas_df_orden_oro.iloc[1]
tercer_lugar_oro: pd.Series = medallas_df_orden_oro.iloc[2]

print(
    'Los 3 países con mayor cantidad de medallas de oro son:'
    f'\n1. {primer_lugar_oro['Pais']}, con {primer_lugar_oro["Oro"]}.'
    f'\n2. {segundo_lugar_oro["Pais"]}, con {segundo_lugar_oro["Oro"]}.'
    f'\n3. {tercer_lugar_oro["Pais"]}, con {tercer_lugar_oro["Oro"]}.'
)

Los 3 países con mayor cantidad de medallas de oro son:
1. Estados Unidos de America, con 39.
2. Republica Popular de China, con 38.
3. Japon, con 27.


In [44]:
# Análisis de medallas totales por país
medallas_df_por_pais: pd.DataFrame = medallas_df_sin_nulos.sort_values(
    by='Total',
    ascending=False
)
filtro: pd.Series = medallas_df_por_pais['Total'] > 10
medallas_df_filtrado: pd.DataFrame = medallas_df_por_pais[filtro]
print('Los países que han obtenido más de 10 medallas en total son:\n')
print(
    medallas_df_filtrado[['Pais', 'Total', 'Oro', 'Plata', 'Bronce']]
    .drop(columns=['Oro', 'Plata', 'Bronce'])
    .to_string(index=False)
)

Los países que han obtenido más de 10 medallas en total son:

                      Pais  Total
 Estados Unidos de America    113
Republica Popular de China     88
                       ROC     71
              Gran Bretana     65
                     Japon     58
                 Australia     46
                   Germany     37
               Netherlands     36
                    France     33
                    Canada     24
                    Brazil     21
                   Ukraine     19
                     Spain     17
                      Cuba     15
                    Poland     14
                    Turkey     13
               Switzerland     13
            Chinese Taipei     12
                   Denmark     11
            Czech Republic     11
