# Proyecto del Día 6 - Análisis de Medallas Olímpicas

### Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **operaciones básicas**, **filtrado** y **agregación** en Pandas.

### Consigna
Vas a trabajar con el conjunto de datos *medallas.csv*, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del **cuestionario** que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

2. **Exploración Inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

4. **Análisis de Medallas de Oro por País**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

5. **Análisis de Medallas Totales por País**: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.


Una vez que hayas realizado estos pasos, realiza el **cuestionario del día**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!

In [71]:
#   1. Cargar los Datos: Importar los datos desde el archivo CSV a un DataFrame de Pandas.
import pandas as pd
df = pd.read_csv("medallas.csv")
df


Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


In [72]:
#   2. Exploración Inicial: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [73]:
#   3. Limpieza de Datos: Identificar y manejar valores faltantes o incorrectos, 
#                   especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

# Verificar que no se encuentren paises duplicados
conteo_duplicados = df.duplicated().sum()
print(f"Número total de Pais duplicadas encontrados: {conteo_duplicados}")

Número total de Pais duplicadas encontrados: 0


In [74]:
# Encontrar si se encuentran nulos en las distintas columnas
df.isnull().sum()


Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

In [75]:
# Dado que se encontraron valores null en las columnas Oro, Plata y Bronce 
# df clean para no perder ele stado inicial de DataFrame
df_clean =  df.fillna({'Oro' : 0, 'Plata': 0, 'Bronce' : 0 })
df_clean

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


In [76]:
#   4. Análisis de Medallas de Oro por País: Realiza las operaciones que sean necesarias para 
# identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

# Otorgar como indice el pais
df_clean.set_index('Pais', inplace=True)



In [77]:
df_clean.sort_values(by = 'Oro', ascending = False, inplace = True)
df_clean

Unnamed: 0_level_0,Oro,Plata,Bronce,Total
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Estados Unidos de America,39.0,41.0,33.0,113
Republica Popular de China,38.0,32.0,18.0,88
Japon,27.0,14.0,17.0,58
Gran Bretana,22.0,21.0,22.0,65
Australia,17.0,7.0,22.0,46
...,...,...,...,...
Grenada,0.0,0.0,1.0,1
Ghana,0.0,0.0,1.0,1
Republic of Moldova,0.0,0.0,1.0,1
Kuwait,0.0,0.0,1.0,1


In [78]:
top3_Oro = df_clean.head(3)

# Usamos enumerate() para obtener la posición (pos) y los datos de la fila
# iterrows : devuelve el indice y los elementos de cada fila
for pos, (nombre_pais, datos_fila) in enumerate(top3_Oro.iterrows(), start=1):
    print(f" {pos} - {nombre_pais}: {datos_fila.Oro} medallas de Oro")

 1 - Estados Unidos de America: 39.0 medallas de Oro
 2 - Republica Popular de China: 38.0 medallas de Oro
 3 - Japon: 27.0 medallas de Oro


In [79]:
# 5. Análisis de Medallas Totales por País: 
# Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.

# Solo obtener los que tengan mas de 10 medallas
paises_10 = df_clean[df_clean.Total > 10] 
paises_10.sort_values(by='Total', inplace = True)
paises_10


A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  paises_10.sort_values(by='Total', inplace = True)


Unnamed: 0_level_0,Oro,Plata,Bronce,Total
Pais,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Czech Republic,4.0,4.0,3.0,11
Denmark,3.0,4.0,4.0,11
Chinese Taipei,2.0,4.0,6.0,12
Turkey,2.0,2.0,9.0,13
Switzerland,3.0,4.0,6.0,13
Poland,4.0,5.0,5.0,14
Cuba,7.0,3.0,5.0,15
Spain,3.0,8.0,6.0,17
Ukraine,1.0,6.0,12.0,19
Brazil,7.0,6.0,8.0,21
