# Proyecto del Día 6 - Análisis de Medallas Olímpicas

### Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **operaciones básicas**, **filtrado** y **agregación** en Pandas.

### Consigna
Vas a trabajar con el conjunto de datos *medallas.csv*, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del **cuestionario** que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

2. **Exploración Inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

4. **Análisis de Medallas de Oro por País**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

5. **Análisis de Medallas Totales por País**: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.


Una vez que hayas realizado estos pasos, realiza el **cuestionario del día**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!

## 1. Cargar los Datos

In [2]:
import pandas as pd

df = pd.read_csv('./medallas.csv')

## 2. Exploración Inicial

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [5]:
df.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [6]:
df.tail()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan
92,1.0,3.0,,4,Venezuela


In [7]:
df.shape

(93, 5)

In [8]:
df.columns

Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')

In [9]:
df.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.768116,4.934211,10.548387
std,7.633806,7.276362,6.261705,18.897617
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


## 3. Limpieza de Datos

In [None]:
# Manejo de nulos
df.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

In [13]:
df_rellenados = df.fillna(0)
df_rellenados.isnull().sum()

Oro       0
Plata     0
Bronce    0
Total     0
Pais      0
dtype: int64

In [14]:
df_rellenados.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan


In [15]:
# Manejo de tipos de datos
df.dtypes

Oro       float64
Plata     float64
Bronce    float64
Total       int64
Pais       object
dtype: object

In [17]:
df_corregido = df_rellenados.copy()
df_corregido.Oro = df_corregido.Oro.astype(int)
df_corregido.Plata = df_corregido.Plata.astype(int)
df_corregido.Bronce = df_corregido.Bronce.astype(int)
df_corregido.dtypes

Oro        int64
Plata      int64
Bronce     int64
Total      int64
Pais      object
dtype: object

In [18]:
df_corregido.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,2,3,Argentina
1,0,2,2,4,Armenia
2,17,7,22,46,Australia
3,1,1,5,7,Austria
4,0,3,4,7,Azerbaijan


## 4. Análisis de Medallas de Oro por País

In [19]:
# Paises con mas medallas de oro
df_corregido.sort_values(by='Oro', ascending=False).head(3)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
46,27,14,17,58,Japon


## 5. Análisis de Medallas Totales por País

In [29]:
# Df con paises con mas de 10 medallas en total
filtro = df_corregido['Total'] > 10
df_paises_mas_10 = df_corregido[filtro]
df_paises_mas_10

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
2,17,7,22,46,Australia
11,7,6,8,21,Brazil
14,7,6,11,24,Canada
15,2,4,6,12,Chinese Taipei
19,7,3,5,15,Cuba
20,4,4,3,11,Czech Republic
21,3,4,4,11,Denmark
25,39,41,33,113,Estados Unidos de America
30,1,12,11,24,France
32,1,11,16,28,Germany


In [30]:
df_paises_mas_10.sort_values(by='Total', ascending=False)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
34,22,21,22,65,Gran Bretana
46,27,14,17,58,Japon
73,2,28,23,53,ROC
2,17,7,22,46,Australia
32,1,11,16,28,Germany
60,1,12,14,27,Netherlands
14,7,6,11,24,Canada
30,1,12,11,24,France
