# Proyecto del Día 6 - Análisis de Medallas Olímpicas

### Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **operaciones básicas**, **filtrado** y **agregación** en Pandas.

### Consigna
Vas a trabajar con el conjunto de datos *medallas.csv*, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del **cuestionario** que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

2. **Exploración Inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

4. **Análisis de Medallas de Oro por País**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

5. **Análisis de Medallas Totales por País**: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.


Una vez que hayas realizado estos pasos, realiza el **cuestionario del día**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!

In [2]:
# 1. Cargar los Datos: Importar los datos desde el archivo CSV a un DataFrame de Pandas.
import pandas as pd # 1. importar la libreria 

medallas = pd.read_csv("medallas.csv")
medallas

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


In [12]:
# 2. Exploración Inicial:
medallas.shape # Me va a devolver el numero de columas y filas 

(93, 5)

In [14]:
medallas.info # Me da informacion general sobre el DataFrame 

<bound method DataFrame.info of      Oro  Plata  Bronce  Total          Pais
0    NaN    1.0     2.0      3     Argentina
1    NaN    2.0     2.0      4       Armenia
2   17.0    7.0    22.0     46     Australia
3    1.0    1.0     5.0      7       Austria
4    NaN    3.0     4.0      7    Azerbaijan
..   ...    ...     ...    ...           ...
88   NaN    1.0     NaN      1  Turkmenistan
89   2.0    1.0     1.0      4        Uganda
90   1.0    6.0    12.0     19       Ukraine
91   3.0    NaN     2.0      5    Uzbekistan
92   1.0    3.0     NaN      4     Venezuela

[93 rows x 5 columns]>

In [17]:
medallas.dtypes # Devuelve el tipo de Datos de cada Serie de mi DataFrame

Oro       float64
Plata     float64
Bronce    float64
Total       int64
Pais       object
dtype: object

In [21]:
#3. Limpieza de Datos:
medallas.head() #Me sirve para observar de forma general a la Base de Datos

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan
92,1.0,3.0,,4,Venezuela


In [23]:
medallas.isnull() #Me sirve para observar si existen valores NA

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,True,False,False,False,False
1,True,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,True,False,False,False,False
...,...,...,...,...,...
88,True,False,True,False,False
89,False,False,False,False,False
90,False,False,False,False,False
91,False,True,False,False,False


In [45]:
valores_nuevos = {"Oro":0, "Plata": 0, "Bronce":0}
medallas_corregida = medallas.fillna(valores_nuevos)
medallas_corregida

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


In [51]:
# Convertir cada dato de las medallas a entero debido a que no pueden existir valores float 
medallas_corregida[["Oro", "Plata", "Bronce"]] = medallas_corregida[["Oro", "Plata", "Bronce"]].astype(int)
medallas_corregida

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,2,3,Argentina
1,0,2,2,4,Armenia
2,17,7,22,46,Australia
3,1,1,5,7,Austria
4,0,3,4,7,Azerbaijan
...,...,...,...,...,...
88,0,1,0,1,Turkmenistan
89,2,1,1,4,Uganda
90,1,6,12,19,Ukraine
91,3,0,2,5,Uzbekistan


In [59]:
#4. Análisis de Medallas de Oro por País: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).
# Agrupa por país y suma las medallas de oro
suma_medallas_oro = medallas_corregida.groupby('Pais')['Oro'].sum()

# Ordena los países por la suma de medallas de oro en orden descendente
suma_medallas_oro_ordenada = suma_medallas_oro.sort_values(ascending=False)

# Selecciona los tres países con más medallas de oro
top_3_paises = suma_medallas_oro_ordenada.head(3)

# Mostrar los resultados
print(top_3_paises)

Pais
Estados Unidos de America     39
Republica Popular de China    38
Japon                         27
Name: Oro, dtype: int64


In [61]:
#5. Análisis de Medallas Totales por País: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.

# Agrupa por país y suma las medallas de oro
suma_medallas = medallas_corregida.groupby('Pais')['Total'].sum()

# Ordena los países por la suma de medallas de oro en orden descendente
filtro_10_medallas = suma_medallas > 10

# Selecciona los tres países con más medallas de oro
suma_medallas = suma_medallas[filtro_10_medallas]
suma_medallas

Pais
Australia                      46
Brazil                         21
Canada                         24
Chinese Taipei                 12
Cuba                           15
Czech Republic                 11
Denmark                        11
Estados Unidos de America     113
France                         33
Germany                        37
Gran Bretana                   65
Japon                          58
Netherlands                    36
Poland                         14
ROC                            71
Republica Popular de China     88
Spain                          17
Switzerland                    13
Turkey                         13
Ukraine                        19
Name: Total, dtype: int64

In [65]:
#6. Cálculo de las estadísticas
medallas_corregida.describe()


Unnamed: 0,Oro,Plata,Bronce,Total
count,93.0,93.0,93.0,93.0
mean,3.075269,3.537634,4.032258,10.548387
std,6.682613,6.598022,5.969946,18.897617
min,0.0,0.0,0.0,1.0
25%,0.0,0.0,1.0,2.0
50%,1.0,1.0,2.0,4.0
75%,3.0,4.0,4.0,8.0
max,39.0,41.0,33.0,113.0
