Ejercicio de análisis exploratorio con Pandas
=============================================
Resolución del Ejercicio con archivo _medallas.csv_

In [36]:
"""
Paso 1: Importar la librería y leer el archivo
Primero, importamos Pandas y cargamos el contenido de medallas.csv en un DataFrame.
"""
import pandas as pd

# Lee el archivo medallas.csv proporcionado y lo carga en un DataFrame
df = pd.read_csv('../Ejercicios Clase/medallas.csv')

print("--- Archivo 'medallas.csv' cargado exitosamente ---")

"""
Paso 2: Usar df.head() para ver los primeros registros
Este método nos da una vista previa de las primeras 5 filas del DataFrame para entender su estructura.
"""

print("\n--- 1. Primeros 5 registros del medallero ---")
print(df.head())



--- Archivo 'medallas.csv' cargado exitosamente ---

--- 1. Primeros 5 registros del medallero ---
    Oro  Plata  Bronce  Total        Pais
0   NaN    1.0     2.0      3   Argentina
1   NaN    2.0     2.0      4     Armenia
2  17.0    7.0    22.0     46   Australia
3   1.0    1.0     5.0      7     Austria
4   NaN    3.0     4.0      7  Azerbaijan


In [39]:
"""
Paso 3: Usar df.info() para revisar estructura y tipos de datos
Este método nos da un resumen técnico del DataFrame, incluyendo el número de filas, las columnas,
la cantidad de valores no nulos y el tipo de dato de cada columna.
"""

print("\n--- 2. Estructura y tipos de datos (df.info()) ---")
df.info()


--- 2. Estructura y tipos de datos (df.info()) ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Oro     65 non-null     float64
 1   Plata   69 non-null     float64
 2   Bronce  76 non-null     float64
 3   Total   93 non-null     int64  
 4   Pais    93 non-null     object 
dtypes: float64(3), int64(1), object(1)
memory usage: 3.8+ KB


**Análisis de info():** Vemos que hay 92 filas (RangeIndex: 93 entries).
La columna "País" es de tipo object (texto) y las demás son numéricas int64 o float64.

In [42]:
"""
Paso 4: Usar df.describe() para ver estadísticas básicas
Este método calcula estadísticas descriptivas (como media, desviación estándar, mínimo, máximo, etc.) para las columnas numéricas.
"""
print("\n--- 3. Estadísticas descriptivas de las medallas (df.describe()) ---")
print(df.describe())


--- 3. Estadísticas descriptivas de las medallas (df.describe()) ---
             Oro      Plata     Bronce       Total
count  65.000000  69.000000  76.000000   93.000000
mean    4.400000   4.768116   4.934211   10.548387
std     7.633806   7.276362   6.261705   18.897617
min     1.000000   1.000000   1.000000    1.000000
25%     1.000000   1.000000   1.000000    2.000000
50%     2.000000   2.000000   2.000000    4.000000
75%     3.000000   5.000000   5.250000    8.000000
max    39.000000  41.000000  33.000000  113.000000


**Análisis de describe():** Podemos ver rápidamente que el promedio de medallas de oro (mean) es de 4.4,
y el país con más medallas de oro tiene 39 (max).

In [45]:
"""
Paso 5: Aplicar df.isnull().sum() para detectar valores nulos
Este comando cuenta cuántos valores nulos o faltantes hay en cada columna.
"""
print("\n--- 4. Conteo de valores nulos por columna ---")
print(df.isnull().sum())


--- 4. Conteo de valores nulos por columna ---
Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64


**Análisis de isnull().sum():** El resultado que observamos con .info(). Es que existen valores nulos en el conjunto de datos.

In [46]:
"""
Paso 6: Usar df.mean(), df.median() y df.std()
Calculamos estas medidas estadísticas de forma individual.
"""

print("\n--- 5. Medidas estadísticas adicionales ---")

# Usamos numeric_only=True para que los cálculos ignoren las columnas de texto como 'País'
print("\nMedia de medallas:")
print(df.mean(numeric_only=True))

print("\nMediana de medallas:")
print(df.median(numeric_only=True))

print("\nDesviación estándar de medallas:")
print(df.std(numeric_only=True))


--- 5. Medidas estadísticas adicionales ---

Media de medallas:
Oro        4.400000
Plata      4.768116
Bronce     4.934211
Total     10.548387
dtype: float64

Mediana de medallas:
Oro       2.0
Plata     2.0
Bronce    2.0
Total     4.0
dtype: float64

Desviación estándar de medallas:
Oro        7.633806
Plata      7.276362
Bronce     6.261705
Total     18.897617
dtype: float64


In [49]:
"""
Paso 7: Utilizar otras funciones para expander el dominio
Ahora aplicaremos otras funciones muy útiles para analizar estos datos específicos.
"""

print("\n--- 6. Funciones adicionales para explorar ---")

# a) Ordenar el DataFrame por la cantidad de medallas de Oro (de mayor a menor)
print("\nPaíses ordenados por medallas de Oro:")
df_ordenado_oro = df.sort_values(by='Oro', ascending=False)
print(df_ordenado_oro)

# b) Filtrar los países que ganaron más de 20 medallas de oro
print("\nPaíses con más de 20 medallas de Oro:")
paises_top_oro = df[df['Oro'] > 20]
print(paises_top_oro)

# c) Calcular el total de medallas de cada tipo para este grupo de países
print("\nTotal de medallas de cada tipo en el top 10:")
total_medallas_tipo = df[['Oro', 'Plata', 'Bronce']].sum()
print(total_medallas_tipo)


--- 6. Funciones adicionales para explorar ---

Países ordenados por medallas de Oro:
     Oro  Plata  Bronce  Total                        Pais
25  39.0   41.0    33.0    113   Estados Unidos de America
72  38.0   32.0    18.0     88  Republica Popular de China
46  27.0   14.0    17.0     58                       Japon
34  22.0   21.0    22.0     65                Gran Bretana
2   17.0    7.0    22.0     46                   Australia
..   ...    ...     ...    ...                         ...
71   NaN    NaN     1.0      1         Republic of Moldova
75   NaN    1.0     2.0      3                  San Marino
76   NaN    1.0     NaN      1                Saudi Arabia
84   NaN    NaN     1.0      1        Syrian Arab Republic
88   NaN    1.0     NaN      1                Turkmenistan

[93 rows x 5 columns]

Países con más de 20 medallas de Oro:
     Oro  Plata  Bronce  Total                        Pais
25  39.0   41.0    33.0    113   Estados Unidos de America
34  22.0   21.0    22.0  