# Proyecto del Día 6 - Análisis de Medallas Olímpicas

### Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **operaciones básicas**, **filtrado** y **agregación** en Pandas.

### Consigna
Vas a trabajar con el conjunto de datos *medallas.csv*, que descargarás de la lección **Proyecto del Día 6**, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del **cuestionario** que encontrarás al final del día. Las tareas que realizarás son:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

2. **Exploración Inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

4. **Análisis de Medallas de Oro por País**: Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

5. **Análisis de Medallas Totales por País**: Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.


Una vez que hayas realizado estos pasos, realiza el **cuestionario del día**, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!

In [97]:
import pandas as pd

df_medallas = pd.read_csv("C:/Users/KeythiCL/Downloads/medallas.csv")

df_medallas

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


In [99]:
shape_df = df_medallas.shape
columns_df = df_medallas.columns
index_df = df_medallas.index
print(f"shape_df: {shape_df}\ncolumns_df: {columns_df}\nindex_df: {index_df}")

shape_df: (93, 5)
columns_df: Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')
index_df: RangeIndex(start=0, stop=93, step=1)


In [101]:
df_medallas.head(10)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
5,2.0,,,2,Bahamas
6,,1.0,,1,Bahrain
7,1.0,3.0,3.0,7,Belarus
8,3.0,1.0,3.0,7,Belgium
9,1.0,,,1,Bermuda


In [103]:
df_medallas.tail(10)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
83,3.0,4.0,6.0,13,Switzerland
84,,,1.0,1,Syrian Arab Republic
85,1.0,,1.0,2,Thailand
86,1.0,1.0,,2,Tunisia
87,2.0,2.0,9.0,13,Turkey
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan
92,1.0,3.0,,4,Venezuela


In [105]:
df_medallas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [123]:
df_medallas.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,93.0,93.0,93.0,93.0
mean,3.075269,3.537634,4.032258,10.548387
std,6.682613,6.598022,5.969946,18.897617
min,0.0,0.0,0.0,1.0
25%,0.0,0.0,1.0,2.0
50%,1.0,1.0,2.0,4.0
75%,3.0,4.0,4.0,8.0
max,39.0,41.0,33.0,113.0


In [147]:
df_medallas["Total"].std()

18.89761667111827

In [109]:
df_medallas.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

In [119]:
df_unicos = df_medallas.drop_duplicates(subset = "Pais")
df_unicos

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,2,3,Argentina
1,0,2,2,4,Armenia
2,17,7,22,46,Australia
3,1,1,5,7,Austria
4,0,3,4,7,Azerbaijan
...,...,...,...,...,...
88,0,1,0,1,Turkmenistan
89,2,1,1,4,Uganda
90,1,6,12,19,Ukraine
91,3,0,2,5,Uzbekistan


In [113]:
valores_nuevos = {"Oro": 0, "Plata": 0, "Bronce":0}
df_medallas = df_medallas.fillna(valores_nuevos)

In [115]:
df_medallas = df_medallas.astype({"Oro": int, "Plata": int, "Bronce": int})

In [121]:
df_medallas.isnull().sum()

Oro       0
Plata     0
Bronce    0
Total     0
Pais      0
dtype: int64

In [131]:
df_ordenado = df_medallas.sort_values(by="Oro", ascending=False).head(3)
df_ordenado

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
46,27,14,17,58,Japon


In [133]:
df_minimo = df_medallas.sort_values(by="Oro", ascending=True).head(3)
df_minimo

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,2,3,Argentina
59,0,1,0,1,Namibia
56,0,0,4,4,Mexico


In [135]:
filtro = df_medallas.query("Total > 10")
print(filtro)

    Oro  Plata  Bronce  Total                        Pais
2    17      7      22     46                   Australia
11    7      6       8     21                      Brazil
14    7      6      11     24                      Canada
15    2      4       6     12              Chinese Taipei
19    7      3       5     15                        Cuba
20    4      4       3     11              Czech Republic
21    3      4       4     11                     Denmark
25   39     41      33    113   Estados Unidos de America
30    1     12      11     33                      France
32    1     11      16     37                     Germany
34   22     21      22     65                Gran Bretana
46   27     14      17     58                       Japon
60    1     12      14     36                 Netherlands
66    4      5       5     14                      Poland
72   38     32      18     88  Republica Popular de China
73    2     28      23     71                         ROC
81    3      8

In [139]:
filtro = df_medallas[df_medallas["Total"] > 10]  
print(filtro)

    Oro  Plata  Bronce  Total                        Pais
2    17      7      22     46                   Australia
11    7      6       8     21                      Brazil
14    7      6      11     24                      Canada
15    2      4       6     12              Chinese Taipei
19    7      3       5     15                        Cuba
20    4      4       3     11              Czech Republic
21    3      4       4     11                     Denmark
25   39     41      33    113   Estados Unidos de America
30    1     12      11     33                      France
32    1     11      16     37                     Germany
34   22     21      22     65                Gran Bretana
46   27     14      17     58                       Japon
60    1     12      14     36                 Netherlands
66    4      5       5     14                      Poland
72   38     32      18     88  Republica Popular de China
73    2     28      23     71                         ROC
81    3      8

In [143]:
filtro = df_medallas['Total'] > 10
mas_de_10_medallas = df_medallas[filtro]
mas_de_10_medallas.sort_values('Total', ascending=False)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
73,2,28,23,71,ROC
34,22,21,22,65,Gran Bretana
46,27,14,17,58,Japon
2,17,7,22,46,Australia
32,1,11,16,37,Germany
60,1,12,14,36,Netherlands
30,1,12,11,33,France
14,7,6,11,24,Canada
