# Proyecto del Día 6 - Análisis de Medallas Olímpicas

### Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **operaciones básicas**, **filtrado** y **agregación** en Pandas.

### Consigna
Vas a trabajar con el conjunto de datos *medallas.csv*, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del **cuestionario** que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

2. **Exploración Inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

4. **Análisis de Medallas de Oro por País**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

5. **Análisis de Medallas Totales por País**: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.


Una vez que hayas realizado estos pasos, realiza el **cuestionario del día**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!

In [1]:
import pandas as pd 

In [4]:
medallas = pd.read_csv(r"C:\Users\Usuario\Documents\COSAS PYTHON DATA SCIENCE Y ML UDEMY)\medallas.csv")

In [10]:
tamaño = medallas.shape
tamaño

(93, 5)

In [15]:
info = medallas.info()
info

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [19]:
medallas

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


In [20]:
medallas_fill = medallas.fillna(0)

In [21]:
medallas_fill

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


In [30]:
medallas_oro = medallas_fill.sort_values(by="Oro", ascending=False).head(3)

In [31]:
medallas_oro

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
46,27.0,14.0,17.0,58,Japon


In [32]:
medallas_tot = medallas_fill.sort_values(by="Total", ascending=False)

In [33]:
medallas_tot

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
73,2.0,28.0,23.0,71,ROC
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
...,...,...,...,...,...
59,0.0,1.0,0.0,1,Namibia
58,1.0,0.0,0.0,1,Morocco
54,0.0,1.0,0.0,1,Lithuania
51,0.0,0.0,1.0,1,Kuwait


In [34]:
filtro = medallas_tot["Total"] > 10

In [35]:
medallas_tot_filtrada = medallas_tot[filtro]

In [36]:
medallas_tot_filtrada

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
73,2.0,28.0,23.0,71,ROC
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
2,17.0,7.0,22.0,46,Australia
32,1.0,11.0,16.0,37,Germany
60,1.0,12.0,14.0,36,Netherlands
30,1.0,12.0,11.0,33,France
14,7.0,6.0,11.0,24,Canada


In [40]:
print("DATASET MEDALLAS LIMPIO: ")
medallas_fill

DATASET MEDALLAS LIMPIO: 


Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


In [41]:
print("DATASET MEDALLAS DE ORO PRIMEROS 3 PAISES: ")
medallas_oro

DATASET MEDALLAS DE ORO PRIEMROS 3 PAISES: 


Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
46,27.0,14.0,17.0,58,Japon


In [47]:
print("DATASET MEDALLAS TOTAL CON MAS DE 10 MEDALLAS: ")
medallas_tot_filtrada

DATASET MEDALLAS TOTAL CON MAS DE 10 MEDALLAS: 


Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
73,2.0,28.0,23.0,71,ROC
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
2,17.0,7.0,22.0,46,Australia
32,1.0,11.0,16.0,37,Germany
60,1.0,12.0,14.0,36,Netherlands
30,1.0,12.0,11.0,33,France
14,7.0,6.0,11.0,24,Canada


In [49]:
print(medallas_fill["Total"].std())

18.89761667111827
