# <center>Análisis de Medallas Olímpicas<center>

Realizar un análisis exploratorio de datos sobre un conjunto de datos utilizando pandas. Tareas a realizar:

1. Cargar los datos
2. Exploración inicial (Explorar el tamaño, las columnas y los tipos de datos)
3. Limpieza de datos
4. Análisis de medallas (¿Cuales fuerons los 3 países con más medallas? ¿Cuáles países ganaron más de 10 medallas?...)

In [1]:
import pandas as pd

### Cargar los datos

In [3]:
df = pd.read_csv('../Python para Data Science/Datasets/medallas.csv')

### Exploración inicial

In [4]:
df.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1.0,2.0,3,Argentina
1,,2.0,2.0,4,Armenia
2,17.0,7.0,22.0,46,Australia
3,1.0,1.0,5.0,7,Austria
4,,3.0,4.0,7,Azerbaijan


In [7]:
df.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.768116,4.934211,10.548387
std,7.633806,7.276362,6.261705,18.897617
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


### Limpieza de datos

In [None]:
# Verificar si hay valores nulos
df.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

In [None]:
# Rellenar los valores nulos con 0
df = df.fillna(0)
df.isnull().sum()

Oro       0
Plata     0
Bronce    0
Total     0
Pais      0
dtype: int64

In [None]:
# Modificar el tipo de dato de las columnas
df["Oro"] = df["Oro"].astype(int)
df["Plata"] = df["Plata"].astype(int)
df["Bronce"] = df["Bronce"].astype(int)

In [14]:
df.duplicated().sum()

np.int64(0)

### Análisis de Medallas

In [None]:
# Ordenar por Total de medallas
df_sorted = df.nlargest(df["Pais"].count(), "Total")
df_sorted

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
73,2,28,23,71,ROC
34,22,21,22,65,Gran Bretana
46,27,14,17,58,Japon
...,...,...,...,...,...
59,0,1,0,1,Namibia
58,1,0,0,1,Morocco
54,0,1,0,1,Lithuania
51,0,0,1,1,Kuwait


In [14]:
print(f'El país con más medallas es {df_sorted["Pais"].values[0]} con {df_sorted["Total"].values[0]} medallas')

El país con más medallas es Estados Unidos de America con 113 medallas


In [15]:
# Filtrar los países con más de 10 medallas
df_more_than_10 = df_sorted[df_sorted["Total"] > 10]
df_more_than_10

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
73,2,28,23,71,ROC
34,22,21,22,65,Gran Bretana
46,27,14,17,58,Japon
2,17,7,22,46,Australia
32,1,11,16,37,Germany
60,1,12,14,36,Netherlands
30,1,12,11,33,France
14,7,6,11,24,Canada


In [24]:
# Ordenar por Medallas de Oro
df_sorted_gold = df.nlargest(df["Pais"].count(), "Oro")
df_sorted_gold

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
25,39,41,33,113,Estados Unidos de America
72,38,32,18,88,Republica Popular de China
46,27,14,17,58,Japon
34,22,21,22,65,Gran Bretana
2,17,7,22,46,Australia
...,...,...,...,...,...
36,0,0,1,1,Grenada
33,0,0,1,1,Ghana
71,0,0,1,1,Republic of Moldova
51,0,0,1,1,Kuwait


In [19]:
# Filtrar los países con menos de 10 medallas
df_less_than_10 = df_sorted[df_sorted["Total"] < 10]
df_less_than_10.head(10)

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
77,3,1,5,9,Serbia
45,4,1,4,9,Jamaica
82,3,6,0,9,Sweden
48,0,0,8,8,Kazakhstan
64,4,2,2,8,Norway
31,2,5,1,8,Georgia
17,3,3,2,8,Croatia
39,1,2,4,7,India
3,1,1,5,7,Austria
4,0,3,4,7,Azerbaijan
