# Análisis de Medallas Olímpicas

### Objetivo

Realizar un **análisis exploratorio de datos (EDA)** sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **Limpieza de Datos**, **Operaciones Básicas**, **Filtrado** y **Agregación** en Pandas.

### Consigna

Trabajar con el conjunto de datos "medallas.csv", que incluye información sobre las medallas de oro, plata y bronce y el total obtenido por cada pais en los juegos olímpicos.

Se deben realizar una serie de tareas básicas que permitan responder a las preguntas del **cuestionario**. Las tareas a realizar son:

1. **Cargar los datos**: Importar los datos desde el archivo CSV a un DataFrame en Pandas.
2. **Exploración Inicial**: Utilizar metodos básicos para explorar el tamaño, las columnas y los tipos de datos de DataFrame
3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas, donde los valores faltantes indican cero medallas.
4. **Análisis de Medallas de Oro por Pais**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 paises con más medallas de Oro en total(se necesitan investigar los metodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).
5. **Análisis de Medallas Totales por Pais**: Obtener un dataframe que contenga solo los paises que ganaron más de 10 medallas en total.

Una vez realizados estos pasos realiza el **cuestionario**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

   * ¿Cual era el tipo d datos original (Dtype) de la columna "Bronce"?
   * ¿Cual es la desviasion estandar (std) de la columna "Total"?
   * ¿Cual fue el segundo pais con mas medallas de Oro?
   * ¿Cuantas medallas en total tuvo el pais con mas medallas conseguidas?

## Carga de Datos

In [1]:
import pandas as pd

df = pd.read_csv('/_DATA/medallas.csv')
df

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


## Exploración Inicial

In [3]:
df.shape

(93, 5)

In [4]:
df.columns

Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [39]:
df.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.768116,4.934211,10.548387
std,7.633806,7.276362,6.261705,18.897617
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


In [41]:
df.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

## Limpieza de datos

In [6]:
valores_nuevos = {'Oro':0, 'Plata':0, 'Bronce':0}
df_rellenados = df.fillna(valores_nuevos) # Con esto rellenamos los valores nulos con el valor de cero
df_rellenados

# df.fillna(0,inplace=True) # Asi modificabas el valor de los nulos sin generar nuevo DataFrame

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


#### Corregimos tipos de datos Float a Integer para ver mas limpio el DataFrame

In [42]:
df_rellenados['Oro'] = df_rellenados['Oro'].astype(int)
df_rellenados['Plata'] = df_rellenados['Plata'].astype(int)
df_rellenados['Bronce'] = df_rellenados['Bronce'].astype(int)
df_rellenados

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,2,3,Argentina
1,0,2,2,4,Armenia
2,17,7,22,46,Australia
3,1,1,5,7,Austria
4,0,3,4,7,Azerbaijan
...,...,...,...,...,...
88,0,1,0,1,Turkmenistan
89,2,1,1,4,Uganda
90,1,6,12,19,Ukraine
91,3,0,2,5,Uzbekistan


## Analisis de Medallas de Oro por Pais

In [40]:
df_order = df_rellenados.sort_values(by='Oro', ascending=False)
df_order.head(3)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
46,27.0,14.0,17.0,58,Japon


## Analisis de Medallas Totales por Pais

In [37]:
# df_order.info()
df_order.Total > 10

25     True
72     True
46     True
34     True
2      True
      ...  
62    False
63    False
75    False
84    False
88    False
Name: Total, Length: 93, dtype: bool

In [43]:
filtro = df_order.Total > 10
df_plus_ten_medalls = df_order[filtro]
df_plus_ten_medalls.sort_values('Total', ascending=False) # Visualizamos y ordenamos de mayor a menor por el Total de medallas obtenidas

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39.0,41.0,33.0,113,Estados Unidos de America
72,38.0,32.0,18.0,88,Republica Popular de China
73,2.0,28.0,23.0,71,ROC
34,22.0,21.0,22.0,65,Gran Bretana
46,27.0,14.0,17.0,58,Japon
2,17.0,7.0,22.0,46,Australia
32,1.0,11.0,16.0,37,Germany
60,1.0,12.0,14.0,36,Netherlands
30,1.0,12.0,11.0,33,France
14,7.0,6.0,11.0,24,Canada
