### **Análisis de medallas olímpicas**

#### **Objetivo**

Realizar un análisis exploratorio de datos (EDA) sobre un conjunto de datos de medallas olímpicas utilizando **Pandas**. Este proyecto demuestra los conceptos aprendidos sobre **Series**, **DataFrames**, **limpieza de datos**, **filtrado** y **agregación** en **Pandas**.

#### **Consigna**

Trabajar con el conjunto de datos _medallas.csv_ que incluye información sobre las medallas de oro, plata, bronce y el total obtenido por cada país en los Juegos Olímpicos, para realizar una serie de tareas básicas que permitan responder a las preguntas del **cuestionario**.

Las tareas que se realizarán son las siguientes:

1. **Cargar los Datos**: Importar los datos desde el archivo CSV a un DataFrame de Pandas.
2. **Exploración inicial**: Utilizar métodos básicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame.
3. **Limpieza de Datos**: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican cero medallas.
4. **Análisis de medallas de oro por país**: Realizar operaciones que sean necesarias para identificar cuáles fueron los 3 países con más medallas de oro en total.
5. **Análisis de medallas totales por país**: Obtener un DataFrame que contenga sólo los países que ganaron más de 10 medallas en total.


In [1]:
import pandas as pd

# 🔹 Carga el archivo CSV.
df = pd.read_csv("medallas.csv")

# 🔹 Exploración básica del DataFrame.
print(df.shape)
print(df.columns)
df.info()

# 🔹 Estadísticas descriptivas.
print(df.describe())

# 🔹 Normaliza nombres de columnas a minúsculas.
df.columns = df.columns.str.lower()

# 🔹 Reordena columnas.
columnas_ordenadas = ["pais", "oro", "plata", "bronce", "total"]
df = df[columnas_ordenadas]

# 🔹 Muestra primeras y últimas filas.
print(df.head())
print(df.tail())

# 🔹 Cuenta valores nulos en columnas numéricas.
print(df.isnull().sum())

# 🔹 Sustituye nulos por 0 y convierte a enteros.
df[["oro", "plata", "bronce"]] = df[["oro", "plata", "bronce"]].fillna(0).astype("int64")

# 🔹 Verificar si hay países repetidos.
print(df["pais"].duplicated().sum())

# 🔹 Agrupa y ordena países por medallas de oro.
oro_por_pais = df.groupby("pais")["oro"].sum().sort_values(ascending=False)

# 🔹 Agrupa y ordena países por total de medallas.
medallas_por_pais = df.groupby("pais")["total"].sum().sort_values(ascending=False)

# 🔹 Muestra el 2do. país con más medallas de oro.
print(f"🥈 Segundo país con más medallas de oro: {oro_por_pais.index[1]}, con {oro_por_pais.iloc[1]} medallas de oro.")

# 🔹 Muestra el país con más medallas en total.
print(f"🥇 País con más medallas: {medallas_por_pais.index[0]}, con {medallas_por_pais.iloc[0]} medallas en total.")

(93, 5)
Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB
             Oro      Plata     Bronce       Total
count  65.000000  69.000000  76.000000   93.000000
mean    4.400000   4.768116   4.934211   10.548387
std     7.633806   7.276362   6.261705   18.897617
min     1.000000   1.000000   1.000000    1.000000
25%     1.000000   1.000000   1.000000    2.000000
50%     2.000000   2.000000   2.000000    4.000000
75%     3.000000   5.000000   5.250000    8.000000
max    39.000000  41.000000  33.000000  113.000000
         pais   oro  plata  bronce  total
0

#### **Cuestionario**:

1. ¿Cuál era el tipo de datos original(Dtype) de la columna "Bronce"?  
   R.- Float

2. ¿Cuál es la desviación estándar (std) de la columna "Total"?  
   R.- 18.897617
3. ¿Cuál fue el segundo país con más medallas de oro?  
   R.- República Popular de China
4. ¿Cuántas medallas tuvo el país con más medallas conseguidas?  
   R.- 113
