#Análisis de Medallas Olímpicas

### Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **operaciones básicas**, **filtrado** y **agregación** en Pandas.

### Consigna
Vas a trabajar con el conjunto de datos *medallas.csv*, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del **cuestionario** que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

2. **Exploración Inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

4. **Análisis de Medallas de Oro por País**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

5. **Análisis de Medallas Totales por País**: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.


Una vez que hayas realizado estos pasos, realiza el **cuestionario del día**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!

In [1]:
import pandas as pd

Descargamos el Dataset y lo leemos

df = pd.read_csv(r"C:\Users\nico\Desktop\medallas.csv")
df

Investigamos las primeras 5 líneas y las últimas 5 líneas

In [5]:
df.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [7]:
df.tail()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan
92,1.0,3.0,,4,Venezuela


Hacemos un conteo de elementos nulos que posee cada columna

In [9]:
df.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

En este caso reemplazamos los valores nulos por un 0

In [81]:
criterio = {"Oro": 0, "Plata": 0, "Bronce": 0}
df_relleno = df.fillna(criterio)
df_relleno

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


Cambiamos los datos de tipo Float a tipo Int ya que es la que mejor expresa lo que queremos analizar

In [125]:
df_relleno["Oro"] = df_relleno["Oro"].astype(int)
df_relleno

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,39,41,33,113,Estados Unidos de America
1,38,32,18,88,Republica Popular de China
2,27,14,17,58,Japon
3,22,21,22,65,Gran Bretana
4,17,7,22,46,Australia
...,...,...,...,...,...
88,0,0,1,1,Grenada
89,0,0,1,1,Ghana
90,0,0,1,1,Republic of Moldova
91,0,0,1,1,Kuwait


In [123]:
df_relleno["Plata"] = df_relleno["Plata"].astype(int)
df_relleno["Bronce"] = df_relleno["Bronce"].astype(int)
df_relleno

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,39.0,41,33,113,Estados Unidos de America
1,38.0,32,18,88,Republica Popular de China
2,27.0,14,17,58,Japon
3,22.0,21,22,65,Gran Bretana
4,17.0,7,22,46,Australia
...,...,...,...,...,...
88,0.0,0,1,1,Grenada
89,0.0,0,1,1,Ghana
90,0.0,0,1,1,Republic of Moldova
91,0.0,0,1,1,Kuwait


Verificamos que ahora cada columna no cuente con ningún elemento nulo

In [25]:
df_relleno.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Oro     93 non-null     int32 
 1   Plata   93 non-null     int32 
 2   Bronce  93 non-null     int32 
 3   Total   93 non-null     int64 
 4   Pais    93 non-null     object
dtypes: int32(3), int64(1), object(1)
memory usage: 2.7+ KB


In [67]:
serie = df_relleno["Oro"]
serie

0      0.0
1      0.0
2     17.0
3      1.0
4      0.0
      ... 
88     0.0
89     2.0
90     1.0
91     3.0
92     1.0
Name: Oro, Length: 93, dtype: float64

Con este método verificamos que ningún país esté repetido, ya que afectaría directamente nuestro análisis

In [69]:
df_relleno = df_relleno.drop_duplicates(subset='Pais')
df_relleno

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


Organizamos la lista de mayor a menor teniendo en cuenta las medallas de oro que poseen y mostramos los 3 primeros países

In [131]:
df_oro = df_relleno.sort_values('Oro', ascending=False).head(3)
df_oro

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,39,41,33,113,Estados Unidos de America
1,38,32,18,88,Republica Popular de China
2,27,14,17,58,Japon


Ahora filtraremos los países que cuenten con más de 10 medallas en total

In [138]:
filtro = df_relleno['Total'] > 10
df_medallas = df_relleno[filtro]
df_medallas = df_medallas.sort_values('Total', ascending=False)
df_medallas

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,39,41,33,113,Estados Unidos de America
1,38,32,18,88,Republica Popular de China
37,2,28,23,71,ROC
3,22,21,22,65,Gran Bretana
2,27,14,17,58,Japon
4,17,7,22,46,Australia
57,1,11,16,37,Germany
41,1,12,14,36,Netherlands
52,1,12,11,33,France
6,7,6,11,24,Canada


In [142]:
df_relleno.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,93.0,93.0,93.0,93.0
mean,3.075269,3.537634,4.032258,10.548387
std,6.682613,6.598022,5.969946,18.897617
min,0.0,0.0,0.0,1.0
25%,0.0,0.0,1.0,2.0
50%,1.0,1.0,2.0,4.0
75%,3.0,4.0,4.0,8.0
max,39.0,41.0,33.0,113.0
