# Proyecto del Día 6 - Análisis de Medallas Olímpicas
### Aguirre Mares Juan Antonio
Objetivo
Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando Pandas. Este proyecto te permitirá aplicar los conceptos aprendidos sobre Series, DataFrames, limpieza de datos, operaciones básicas, filtrado y agregación en Pandas.

Consigna
Vas a trabajar con el conjunto de datos medallas.csv, que descargarás de la lección Proyecto del Día 6, y que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos.

Vas a realizar una serie de tareas básicas, que te permitirán responder a las preguntas del cuestionario que encontrarás al final del día. Las tareas que realizarás son:

Cargar los Datos: Importar los datos desde el archivo CSV a un DataFrame de Pandas.

In [9]:
import pandas as pd

# Se importa el archivo csv y se lee en un DataFrame
medallas = pd.read_csv("C:/Users/thete/Downloads/medallas.csv")
print(medallas)

     Oro  Plata  Bronce  Total          Pais
0    NaN    1.0     2.0      3     Argentina
1    NaN    2.0     2.0      4       Armenia
2   17.0    7.0    22.0     46     Australia
3    1.0    1.0     5.0      7       Austria
4    NaN    3.0     4.0      7    Azerbaijan
..   ...    ...     ...    ...           ...
88   NaN    1.0     NaN      1  Turkmenistan
89   2.0    1.0     1.0      4        Uganda
90   1.0    6.0    12.0     19       Ukraine
91   3.0    NaN     2.0      5    Uzbekistan
92   1.0    3.0     NaN      4     Venezuela

[93 rows x 5 columns]


### Exploración Inicial: 
Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.

In [2]:
# Mostrar información general del DataFrame
print("\nInformación del DataFrame:")
medallas.info()
# Numero de filas y columnas
print(f"\nTamanio del DataFrame: {medallas.shape}")
# Nombre de columnas
print(f"Columnas: {medallas.columns}")
# Tipos de datos de los valores del DataFrame
print(f"Tipos de datos: \n{medallas.dtypes}")


Información del DataFrame:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB

Tamanio del DataFrame: (93, 5)
Columnas: Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')
Tipos de datos: 
Oro       float64
Plata     float64
Bronce    float64
Total       int64
Pais       object
dtype: object


### Limpieza de Datos: 
Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.

In [3]:
# IDENTIFICAMOS LOS VALORES NULOS POR MEDIO DE VALORES BOOLEANOS
print(medallas.isnull())

      Oro  Plata  Bronce  Total   Pais
0    True  False   False  False  False
1    True  False   False  False  False
2   False  False   False  False  False
3   False  False   False  False  False
4    True  False   False  False  False
..    ...    ...     ...    ...    ...
88   True  False    True  False  False
89  False  False   False  False  False
90  False  False   False  False  False
91  False   True   False  False  False
92  False  False    True  False  False

[93 rows x 5 columns]


In [4]:
print(f"Numero total de valores NaN (nulos): \n{medallas.isnull().sum()}")

Numero total de valores NaN (nulos): 
Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64


In [5]:
# Se rellenan los valores nulos con 0 y se modifica el DataFrame original con inplace = True
medallas.fillna(0, inplace = True)
print(medallas)

     Oro  Plata  Bronce  Total          Pais
0    0.0    1.0     2.0      3     Argentina
1    0.0    2.0     2.0      4       Armenia
2   17.0    7.0    22.0     46     Australia
3    1.0    1.0     5.0      7       Austria
4    0.0    3.0     4.0      7    Azerbaijan
..   ...    ...     ...    ...           ...
88   0.0    1.0     0.0      1  Turkmenistan
89   2.0    1.0     1.0      4        Uganda
90   1.0    6.0    12.0     19       Ukraine
91   3.0    0.0     2.0      5    Uzbekistan
92   1.0    3.0     0.0      4     Venezuela

[93 rows x 5 columns]


In [6]:
# Verificamos si aún hay valores nulos
medallas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     93 non-null     float64
 1   Plata   93 non-null     float64
 2   Bronce  93 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


### Análisis de Medallas de Oro por País: 
Realiza las operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de Oro en total (vas a necesitar investigar los métodos de dataframes para encontrar cuál te permite ordenar los valores de mayor a menor o viceversa).

In [7]:
# Ordenamos por el metodo de sort_values() segun los criterios necesarios 
# Por cla columna de oro y no ascendente
medallas_ordenado = medallas.sort_values(by = "Oro", ascending = False)
print(medallas_ordenado)

     Oro  Plata  Bronce  Total                        Pais
25  39.0   41.0    33.0    113   Estados Unidos de America
72  38.0   32.0    18.0     88  Republica Popular de China
46  27.0   14.0    17.0     58                       Japon
34  22.0   21.0    22.0     65                Gran Bretana
2   17.0    7.0    22.0     46                   Australia
..   ...    ...     ...    ...                         ...
62   0.0    1.0     1.0      2                     Nigeria
63   0.0    1.0     0.0      1             North Macedonia
75   0.0    1.0     2.0      3                  San Marino
84   0.0    0.0     1.0      1        Syrian Arab Republic
88   0.0    1.0     0.0      1                Turkmenistan

[93 rows x 5 columns]


In [8]:
# Mostrar los 3 paises con mas medallas de oro
print(medallas_ordenado[["Pais", "Oro"]].head(3))

                          Pais   Oro
25   Estados Unidos de America  39.0
72  Republica Popular de China  38.0
46                       Japon  27.0


### Análisis de Medallas Totales por País: 
Obtener un dataframe que contenga sólo los países que ganaron más de 10 medallas en total.



In [None]:
# Se aplica un filtro en la columna total donde las medallas totales sean mayores a 10
medallas_top_10 = medallas[medallas["Total"] > 10]
# Se ordena de mayor a menor
medallas_top_10 = medallas_top_10.sort_values(by = "Total", ascending = False)
print(medallas_top_10[["Pais", "Total"]])

Una vez que hayas realizado estos pasos, realiza el cuestionario del día, que contiene preguntas que solo podrás responder tras haber explorado los datos siguiendo los pasos anteriores.

¡Mucha suerte!