Una vez hemos conseguido realizar un reconocimiento y validación preliminar de nuestros datos, ha llegado el momento de comenzar a adentrarnos más en ellos. Ahora bien, antes de ir al detalle ¿Existirá una manera de computar una vista preliminar para cada columna de nuestro dataset?

La respuesta es: Sí  

Lo que aprenderás
Cómo obtener una vista preliminar descriptiva sobre las columnas de un dataset.


El método describe() es una función de un DataFrame o Serie en Pandas que ofrece un resumen estadístico detallado para cada una de las columnas que lo componen. Es aplicable tanto a datos numéricos como, opcionalmente, a datos categóricos.

Podemos utilizarlo de la siguiente forma:

import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.describe())
        capacity_mw      latitude     longitude
count  34936.000000  34936.000000  34936.000000
mean     163.355148     32.816637     -6.972803
std      489.636072     22.638603     78.405850
min        1.000000    -77.847000   -179.977700
25%        4.900000     29.256475    -77.641550
50%       16.745000     39.727750     -2.127100
75%       75.344250     46.263125     49.502675
max    22500.000000     71.292000    179.388700
En nuestro ejemplo, podemos ver que el método describe() ha generado un DataFrame que solo incluye tres columnas: capacity_mw, latitude y longitude, las cuales son numéricas. 

Examinemos en detalle la información que este método nos ha devuelto:

count: número de observaciones.

mean: media aritmética.

std: desviación estándar.

min: valor mínimo.

25%: primer cuartil (25% de los datos están por debajo de este valor).

50%: mediana (50% de los datos están por debajo de este valor).

75%: tercer cuartil (75% de los datos están por debajo de este valor).

max: valor máximo.

Nota: cada estadística obtenida, se calcula sobre los datos no nulos de cada columna.

Anteriormente, mencionamos que describe() es capaz de funcionar sobre datos categóricos. 

Aplicaremos el método de manera similar a como lo hicimos con los datos numéricos, pero esta vez agregaremos el parámetro include= dentro de describe() con el valor include='object'. Al incluir este parámetro, le estamos indicando de antemano al método que trabaje solo las columnas del tipo objeto. 

Veamos qué sucede:

import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.describe(include='object'))
                         country           name primary_fuel                    owner
count                      34936          34936        34936                    20868
unique                       167          34528           15                    10144
top     United States of America  Santo Antônio        Solar  Cypress Creek Renewable
freq                        9833              6        10665                      185

Al igual que en el caso numerico, analicemos lo que describe() nos devuelve:

'count': el número de valores no nulos.

'unique': el número de valores únicos.

'top': el valor que ocurre con mayor frecuencia.

'freq': el número de veces que ocurre el valor más frecuente.

Lo anterior lo podemos traducir de la siguiente forma, por ejemplo, para a variable country : 

En total, tenemos 34936 registros no nulos.
Nuestro dataset cuenta con información de 167 países.
Estados Unidos es el país con mayor número de centrales eléctricas, exactamente 9.833.

Por último, si buscamos combinar las estadísticas para ambos tipos de columnas, podemos utilizar el siguiente valor: include='all'. Sin embargo, bajo esta modalidad, describe() nos devolverá valores NaN para aquellas estadísticas que no sean aplicables al tipo de datos de la columna. Por ejemplo, para una columna numérica, no tiene sentido calcular la frecuencia de los valores, por lo que ese dato aparecerá como NaN. 

He aquí el resultado utilizando include='all' 

                         country           name   capacity_mw      latitude     longitude primary_fuel                     owner
count                      34936          34936  34936.000000  34936.000000  34936.000000        34936                     20868 
unique                       167          34528           NaN           NaN           NaN           15                     10144
top     United States of America  Santo Antônio           NaN           NaN           NaN        Solar  Cypress Creek Renewables
freq                        9833              6           NaN           NaN           NaN        10665                       185
mean                         NaN            NaN    163.355148     32.816637     -6.972803          NaN                       NaN
std                          NaN            NaN    489.636072     22.638603     78.405850          NaN                       NaN
min                          NaN            NaN      1.000000    -77.847000   -179.977700          NaN                       NaN
25%                          NaN            NaN      4.900000     29.256475    -77.641550          NaN                       NaN
50%                          NaN            NaN     16.745000     39.727750     -2.127100          NaN                       NaN
75%                          NaN            NaN     75.344250     46.263125     49.502675          NaN                       NaN
max                          NaN            NaN  22500.000000   

Práctica guiada

Obtén una vista general de la columna 'primary_fuel' llamando a describe() en ella. Devuelve el resultado de la misma.

In [None]:
import pandas as pd

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data['primary_fuel'].describe(include='object')) 

"""Resultado
count     34936
unique       15
top       Solar
freq      10665
Name: primary_fuel, dtype: object"""

En el ejercicio anterior, obtuvimos una vista preliminar para una única columna, 'primary_fuel'.  Ahora, aplica el mismo método sobre todas las columnas de tipo object. Devuelve el resultado de la misma.

In [None]:
import pandas as pd

pd.set_option('display.max_columns', None)

column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
]
data = pd.read_csv(
    '/datasets/gpp_modified.csv',
    sep='|',
    header=None,
    names=column_names,
    decimal=',',
)

print(data.describe(include='object'))# Tu código va aquí

"""Resultado
                         country           name primary_fuel  \
count                      34936          34936        34936   
unique                       167          34528           15   
top     United States of America  Santo Antônio        Solar   
freq                        9833              6        10665   

                           owner  
count                      20868  
unique                     10144  
top     Cypress Creek Renewables  
freq                         185 """

Actividad práctica

Ejercicio

Siguiendo con nuestro ejercicio de la lección anterior, el de la Fórmula 1, tu objetivo será explorar en mayor detalle este dataset. Para ello, deberás:

Aplicar el método describe() sobre un único tipo de columnas, es decir, categóricas o numéricas. Deberás determinar cual de éstas son las más informativas. Devolver solo este tipo de columnas.

Aplicar el método describe() sobre aquella columna que consideres más informativa y devolver el resultado de éste método sobre ésta. Utiliza la siguiente sintaxis para seleccionar una columna en específico: 
df[<nombre de tu columna>].

A lo largo de la historia de la F1, han competido muchos pilotos de diversas nacionalidades. Interpreta los resultados retornados por el método describe para responder las siguientes preguntas.

1. ¿Cuál es la nacionalidad con más pilotos que han competido? 

2. ¿Cuántas nacionalidades han participado en total en la historia de la F1?

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/Driver_Details.csv')
df.sample(5)

print(df.describe(include='object'))
print(df['nationality'].describe())

nacionalidad = 'British' 
n_nacionalidades = 42

Resultado

       driverRef number  ... nationality                                        url

count        859    859  ...         

859                                        859

unique       859     47  ...          

42                                        859

top          riu     \N  ...     British  http://en.wikipedia.org/wiki/
Jac_Nelleman

freq           1    802  ...         

166                                          1

[4 rows x 8 columns]

count         859

unique         42

top       British

freq          166

Name: nationality, dtype: object


Resumen

En esta lección, exploramos el método describe(), que ofrece un resumen estadístico para cada columna de un DataFrame o Serie. Este método proporciona estadísticas específicas para datos numéricos y categóricos, excluyendo los valores nulos de los cálculos en ambos casos.

Realizar una estadística descriptiva inicial es crucial, ya que proporciona una visión general que facilitará y guiará un análisis más detallado de nuestros datos.

Terminología

Medida Descriptiva	Descripción	Aplicable a Columnas Numéricas	Aplicable a Columnas Categóricas

count	Número de valores no nulos	Sí	Sí

mean	Media aritmética de los valores	Sí	No

std	Desviación estándar, que mide la dispersión de los valores	Sí	No

min	Valor mínimo	Sí	No

25%	Primer cuartil (25% de los valores están por debajo de este valor)	

Sí	No

50%	Mediana (50% de los valores están por debajo de este valor)	Sí	No

75%	Tercer cuartil (75% de los valores están por debajo de este valor)	

Sí	No

max	Valor máximo	Sí	No

unique	Número de valores únicos	No	Sí

top	Valor que ocurre con mayor frecuencia	No	Sí

freq	Frecuencia del valor más frecuente	No	Sí

Recursos adicionales
Pandas describe: https://www.w3schools.com/python/pandas/ref_df_describe.asp