# Proyecto Analisis de Medallas Olimpicas

**Objetivo**
Realizar un analisis exploratorio de datos (EDA) sobre un conjunto de datos de medalladas olimpicas utilizando Pandas.

**Consigna**
Trabajar con el conjunto de datos medallas.csv que incluye informacion sobre las medallas de oro, plata, bronce y el total obtenido por cada pais en los Juegos Olimpicos

Tengo que realizar una serie de tareas basicas.
1. Cargar los datos: Importar los datos desde el archivo CSV a un DataFrame de Pandas
2. Exploracion inicial: Utilizar metodos basicos para explorar el tamaño, las columnas y los tipos de datos del DataFrame
3. Limpieza de datos: Identificar y manejar valores faltantes o incorrectos, especialmente en las columnas de medallas donde los valores faltantes indican 0 medallas
4. Analisis de Medallas de Oro por Pais: Realizar las operaciones que sean necesarias para identificar cuales fueron los 3 paises con mas medallas de Oro en total
5. Analisis de Medallas Totales por Pais: Obtener un dataframe que contenga solo los paises que ganaron mas de 10 medallas en total

# 1. Cargar Datos

In [3]:
import pandas as pd
df = pd.read_csv("medallas.csv") #Con esta linea el programa lee un archivo csv y lo carga como DataFrame
df

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,,1.0,,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,,2.0,5,Uzbekistan


# 2. Exploracion inicial

In [None]:
df.shape # Devuelve una tupla con la cantidad de filas y columnas eb este caso serian 93 filas 5 columnas

(93, 5)

In [None]:
df.info() # Muestra los datos generales, numero de filas, numero de columnas, tipos de datos

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


In [None]:
df.columns # Da el nombre de las columnas

Index(['Oro', 'Plata', 'Bronce', 'Total', 'Pais'], dtype='object')

In [None]:
df.isnull() # Devuelve True/False si la celda contiene un valor nulo

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,True,False,False,False,False
1,True,False,False,False,False
2,False,False,False,False,False
3,False,False,False,False,False
4,True,False,False,False,False
...,...,...,...,...,...
88,True,False,True,False,False
89,False,False,False,False,False
90,False,False,False,False,False
91,False,True,False,False,False


In [None]:
df.describe() # Esta linea saca estadisticas basicas de las columnas (promedio,minimo,maximo,)

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.768116,4.934211,10.548387
std,7.633806,7.276362,6.261705,18.897617
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


In [None]:
df.isnull().sum() # Esta linea cuenta cuantos valores nulos hay en cada columna

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

# 3. Limpieza de datos

Remplazar valores no validos

In [None]:
df.fillna(0,inplace=True) # Esta linea reemplaza todos los valores nulos por 0 en el dataframe original
df


Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0.0,1.0,2.0,3,Argentina
1,0.0,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,0.0,3.0,4.0,7,Azerbaijan
...,...,...,...,...,...
88,0.0,1.0,0.0,1,Turkmenistan
89,2.0,1.0,1.0,4,Uganda
90,1.0,6.0,12.0,19,Ukraine
91,3.0,0.0,2.0,5,Uzbekistan


In [None]:
df["Oro"] = df["Oro"].astype(int) # Convierte el tipo de datos de la columna Oro a enteros
df["Plata"] = df["Plata"].astype(int) # Convierte el tipo de datos de la columna Plata a enteros
df["Bronce"] = df['Bronce'].astype(int) # Convierte el tipo de datos de la columna Bronce a enteros
df

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,1,3,Argentina
1,0,2,2,4,Armenia
2,17,7,7,46,Australia
3,1,1,1,7,Austria
4,0,3,3,7,Azerbaijan
...,...,...,...,...,...
88,0,1,1,1,Turkmenistan
89,2,1,1,4,Uganda
90,1,6,6,19,Ukraine
91,3,0,0,5,Uzbekistan


In [None]:
top_3_oro = df.sort_values('Oro', ascending=False).head(3) # Ordena la columna Oro de mayor a menor y guarda los 3 primeros lugares
top_3_oro

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,41,113,Estados Unidos de America
72,38,32,32,88,Republica Popular de China
46,27,14,14,58,Japon


In [None]:
filtro = df['Total']>10 # Crea un filtro booleano para quedarse con los que tengas mas de 10 medallas en total
top_medallas = df[filtro]
top_medallas.sort_values('Total',ascending=False)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,41,113,Estados Unidos de America
72,38,32,32,88,Republica Popular de China
73,2,28,28,71,ROC
34,22,21,21,65,Gran Bretana
46,27,14,14,58,Japon
2,17,7,7,46,Australia
32,1,11,11,37,Germany
60,1,12,12,36,Netherlands
30,1,12,12,33,France
14,7,6,6,24,Canada
