# Primer acercamiento al análisis exploratorio con pandas

Esta actividad busca que nos familiaricemos con la estructura de un Dataframey aplicar los métodos básicos de exploración y resumen de datos para obtener una primera comprensión de su contenido.

# Desarrollo

En una primera inspección de los datos, notamos que se trata del conteo de medallas de cada país en alguna competencia internacional. Dado que el número de medallas es un número no negativo y bastante acotado, podemos usar el tipo UInt8 para optimizar el uso de memoria. De la misma forma, podemos usar el tipo categoy de pandas para la columna con los nombres de países. Esto lo podemos ejecutar a través del argumento dtype de la función read_csv de pandas.

Iniciamos importando pandas e importando los datos en el archivo "datos.csv", dentro de la carpeta "Datos".

In [1]:
import os
import pandas as pd

In [2]:
direccion_datos = os.path.join(".", "Datos", "datos.csv")
df = pd.read_csv(
    direccion_datos,
    dtype={
        "Oro": "UInt8",
        "Plata": "UInt8",
        "Bronce": "UInt8",
        "Total": "UInt8",
        "Pais": "category",
    }
)

Ahora usamos el método head para ver los primeros 5 registros.

In [3]:
df.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,,1,2,3,Argentina
1,,2,2,4,Armenia
2,17.0,7,22,46,Australia
3,1.0,1,5,7,Austria
4,,3,4,7,Azerbaijan


Notamos inmediatamente que hay varios registros con datos faltantes. Para obtener más información del Dataframe, usamos el método info.

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype   
---  ------  --------------  -----   
 0   Oro     65 non-null     UInt8   
 1   Plata   69 non-null     UInt8   
 2   Bronce  76 non-null     UInt8   
 3   Total   93 non-null     UInt8   
 4   Pais    93 non-null     category
dtypes: UInt8(4), category(1)
memory usage: 3.7 KB


Por lo que se ve en la celda anterior, solo las columnas Total y País están completas. Ahora veamos información estadística de estos datos usando el método describe.

In [5]:
df.describe()

Unnamed: 0,Oro,Plata,Bronce,Total
count,65.0,69.0,76.0,93.0
mean,4.4,4.768116,4.934211,10.548387
std,7.633806,7.276362,6.261705,18.897617
min,1.0,1.0,1.0,1.0
25%,1.0,1.0,1.0,2.0
50%,2.0,2.0,2.0,4.0
75%,3.0,5.0,5.25,8.0
max,39.0,41.0,33.0,113.0


Por lo visto, en los datos disponibles, todos los países obtuvieron al menos una medalla de cada tipo. Agregando el contexto de una competencia internacional, es probable que los registros faltantes correspondan a países que no obtuvieron medallas de un tipo específico, y estos datos se hallan dejado sin completar.

Usaremos los métodos isnull y sum para obtener un conteo preciso de datos faltantes para cada columna.

In [6]:
df.isnull().sum()

Oro       28
Plata     24
Bronce    17
Total      0
Pais       0
dtype: int64

El hecho que el Oro tenga más datos faltantes, seguido de Plata y Bronce, refuerza la hipótesis de que los datos faltantes corresponden a ceros. Realizaremos una imputación simple con el método fillna antes de continuar.

In [7]:
df = df.fillna({"Oro": 0, "Plata": 0, "Bronce": 0})
df.head()

Unnamed: 0,Oro,Plata,Bronce,Total,Pais
0,0,1,2,3,Argentina
1,0,2,2,4,Armenia
2,17,7,22,46,Australia
3,1,1,5,7,Austria
4,0,3,4,7,Azerbaijan


In [8]:
df.isnull().sum()

Oro       0
Plata     0
Bronce    0
Total     0
Pais      0
dtype: int64

Ahora procedemos a calcular algunas métricas estadísticas adicionales.

In [9]:
df.mean(numeric_only=True)

Oro        3.075269
Plata      3.537634
Bronce     4.032258
Total     10.548387
dtype: Float64

In [10]:
df.median(numeric_only=True)

Oro       1.0
Plata     1.0
Bronce    2.0
Total     4.0
dtype: Float64

In [11]:
df.std(numeric_only=True)

Oro        6.682613
Plata      6.598022
Bronce     5.969946
Total     18.897617
dtype: Float64

De las estadísticas anteriores, se ve que el Oro tiene una menor media que la Plata y el Bronce, explicada por la diferencia en la dificultad de obtención de cada una. Además, siguen la misma tendencia en dispersión.