# ***Using Python to read data files and explore their contents***

Este cuaderno demuestra el uso de la biblioteca de procesamiento de datos Pandas para leer un conjunto de datos en Python, y obtener una comprensión básica de su contenido.

Tenga en cuenta que Python por sí mismo es un lenguaje de programación de propósito general y no proporciona capacidades de procesamiento de datos de alto nivel. La biblioteca Pandas fue desarrollada para satisfacer esta necesidad. Pandas es la biblioteca más popular de Python para la manipulación de datos, y la utilizaremos ampliamente en este curso.

Además de Pandas, también haremos uso de las siguientes bibliotecas de Python

Numpy es una biblioteca para trabajar con arrays de datos

Matplotlib es una biblioteca para hacer gráficos

Seaborn es una interfaz de alto nivel para Matplotlib que puede utilizarse para simplificar muchas tareas de creación de gráficos

Statsmodels es una biblioteca que implementa muchas técnicas estadísticas

Scipy es una biblioteca de técnicas de cálculo numérico y científico



https://pandas.pydata.org/

https://numpy.org/ 

https://matplotlib.org/

https://seaborn.pydata.org/

https://www.statsmodels.org/stable/index.html

https://www.scipy.org/

# ***Importing libraries***
Cuando se utiliza Python, siempre hay que empezar los scripts importando las bibliotecas que se van a utilizar. Después de importar una biblioteca, sus funciones pueden ser llamadas desde tu código anteponiendo el nombre de la biblioteca al nombre de la función. Por ejemplo, para utilizar la función 'dot' de la biblioteca 'numpy', se introduce 'numpy.dot'. Para evitar tener que teclear repetidamente el nombre de la biblioteca en tus scripts, es convencional definir una abreviatura de dos o tres letras para cada biblioteca, por ejemplo, 'numpy' suele abreviarse como 'np'. Esto nos permite utilizar 'np.dot' en lugar de 'numpy.dot'. Del mismo modo, la biblioteca Pandas se suele abreviar como 'pd'.

La siguiente sentencia importa la biblioteca Pandas, y le da el nombre abreviado 'pd'.


In [1]:
import pandas as pd

# ***Reading a data file***

Trabajaremos con los datos de la NHANES (National Health and Nutrition Examination Survey) de la oleada 2015-2016, de la que se ha hablado anteriormente en este curso. Los datos brutos de este estudio están disponibles aquí:

https://wwwn.cdc.gov/nchs/nhanes/Default.aspx

Como en muchos grandes estudios, los datos de la NHANES están repartidos en múltiples archivos. Los archivos de la NHANES se almacenan en formato de transporte SAS (Xport). Este es un formato algo oscuro, y aunque Pandas es perfectamente capaz de leer los datos de NHANES directamente desde los archivos xport, realizar esta tarea es un tema más avanzado del que queremos entrar aquí. Por lo tanto, para este curso hemos preparado algunos conjuntos de datos fusionados en formato texto/csv.


https://v8doc.sas.com/sashtml/files/z0987199.htm

Pandas es una biblioteca grande y potente. Aquí sólo utilizaremos algunas de sus características básicas. La principal estructura de datos con la que trabaja Pandas se llama "marco de datos". Se trata de una tabla bidimensional de datos en la que las filas suelen representar casos (por ejemplo, sujetos de la NHANES), y las columnas representan variables. Pandas también tiene una estructura de datos unidimensional llamada Serie que encontraremos ocasionalmente.

Pandas tiene una variedad de funciones nombradas con el patrón 'read_xxx' para leer datos en diferentes formatos en Python. En este momento nos centraremos en la lectura de archivos 'csv', por lo que utilizaremos la función 'read_csv', que puede leer archivos con formato csv (y "tsv") que se exportan desde software de hojas de cálculo como Excel. La función 'read_csv' espera por defecto que la primera fila del archivo de datos contenga los nombres de las columnas.

Utilizar 'read_csv' en su modo por defecto es bastante sencillo. Hay muchas opciones para 'read_csv' que son útiles para manejar situaciones menos comunes. Por ejemplo, podría utilizar la opción sep='\t' en lugar de la opción por defecto sep=',' si los campos de su archivo de datos están delimitados por tabulaciones en lugar de comas. Vea aquí la documentación completa de 'read_csv'.

Pandas puede leer un archivo de datos a través de Internet cuando se le proporciona una URL, que es lo que haremos a continuación. En el script de Python llamaremos al conjunto de datos 'da', es decir, este es el nombre de la variable de Python que contendrá el marco de datos después de que lo hayamos cargado.

La variable 'url' contiene un valor de cadena (texto), que es la URL de Internet donde se encuentran los datos. Si tienes el archivo de datos en tu sistema de archivos local, también puedes usar 'read_csv' para leer los datos de este archivo. En este caso, pasarías una ruta de archivo en lugar de una URL, por ejemplo, pd.read_csv("mi_archivo.csv") leería un archivo llamado mi_archivo.csv que se encuentra en tu directorio de trabajo actual.

In [3]:
url = "/content/NHANES2015-2016.csv"
da = pd.read_csv(url)

Para confirmar que realmente hemos obtenido los datos que esperábamos, podemos mostrar la forma (número de filas y columnas) del marco de datos en el cuaderno. Ten en cuenta que la expresión final de cualquier celda del cuaderno Jupyter se imprime automáticamente, pero puedes forzar la impresión de otras expresiones utilizando la función 'print', por ejemplo 'print(da.shape)'.

Basándonos en lo que vemos a continuación, el conjunto de datos que se está leyendo aquí tiene 5735 filas, que corresponden a 5735 personas en esta ola del estudio NHANES, y 28 columnas, que corresponden a 28 variables en este archivo de datos en particular. Tenga en cuenta que la NHANES recoge miles de variables sobre cada sujeto del estudio, pero aquí estamos trabajando con un archivo reducido que contiene un número limitado de variables.

In [4]:
da.shape

(5735, 28)

# ***Exploring the contents of a data set***

Pandas tiene una serie de formas básicas para entender lo que hay en un conjunto de datos. Por ejemplo, arriba usamos el método 'shape' para determinar el número de filas y columnas de un conjunto de datos. Las columnas en un marco de datos de Pandas tienen nombres, para ver los nombres, utilice el método 'columns':

In [6]:
da.shape

(5735, 28)

In [7]:
da.columns

Index(['SEQN', 'ALQ101', 'ALQ110', 'ALQ130', 'SMQ020', 'RIAGENDR', 'RIDAGEYR',
       'RIDRETH1', 'DMDCITZN', 'DMDEDUC2', 'DMDMARTL', 'DMDHHSIZ', 'WTINT2YR',
       'SDMVPSU', 'SDMVSTRA', 'INDFMPIR', 'BPXSY1', 'BPXDI1', 'BPXSY2',
       'BPXDI2', 'BMXWT', 'BMXHT', 'BMXBMI', 'BMXLEG', 'BMXARML', 'BMXARMC',
       'BMXWAIST', 'HIQ210'],
      dtype='object')

Estos nombres corresponden a variables del estudio NHANES. Por ejemplo, SEQN es un identificador único para una persona, y BMXWT es el peso del sujeto en kilogramos ("BMX" es el prefijo NHANES para las medidas corporales). Las variables del conjunto de datos de la NHANES se documentan en un conjunto de "libros de códigos" que están disponibles en línea. Los libros de códigos de la oleada 2015-2016 de la NHANES se pueden encontrar siguiendo los enlaces de la siguiente página:

https://wwwn.cdc.gov/nchs/nhanes/continuousnhanes/default.aspx?BeginYear=2015

For convenience, direct links to some of the code books are included below:

Demographics code book
https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/DEMO_I.htm 

Body measures code book https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/BMX_I.htm

[Blood pressure code book](https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/BPX_I.htm)

 [Alcohol questionaire code book](https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/ALQ_I.htm)

* [Smoking questionaire code book](https://wwwn.cdc.gov/Nchs/Nhanes/2015-2016/SMQ_I.htm)

Cada variable en un marco de datos de Pandas tiene un tipo de datos. Hay muchos tipos de datos diferentes, pero lo más común es encontrar valores de punto flotante (números reales), enteros, cadenas (texto) y valores de fecha/hora. Cuando Pandas lee un archivo de texto/csv, adivina los tipos de datos basándose en lo que ve en las primeras filas del archivo de datos. Normalmente selecciona un tipo apropiado, pero ocasionalmente no lo hace. Para confirmar que los tipos de datos son consistentes con lo que representan las variables, inspeccione el atributo 'dtypes' del marco de datos.

In [8]:
da.dtypes

SEQN          int64
ALQ101      float64
ALQ110      float64
ALQ130      float64
SMQ020        int64
RIAGENDR      int64
RIDAGEYR      int64
RIDRETH1      int64
DMDCITZN    float64
DMDEDUC2    float64
DMDMARTL    float64
DMDHHSIZ      int64
WTINT2YR    float64
SDMVPSU       int64
SDMVSTRA      int64
INDFMPIR    float64
BPXSY1      float64
BPXDI1      float64
BPXSY2      float64
BPXDI2      float64
BMXWT       float64
BMXHT       float64
BMXBMI      float64
BMXLEG      float64
BMXARML     float64
BMXARMC     float64
BMXWAIST    float64
HIQ210      float64
dtype: object

Como vemos aquí, la mayoría de las variables tienen un tipo de datos de punto flotante o entero. A diferencia de muchos conjuntos de datos, la NHANES no utiliza ningún valor de texto en sus datos. Por ejemplo, mientras que muchos conjuntos de datos utilizarían etiquetas de texto como "F" o "M" para denotar el sexo de un sujeto, esta información se representa en la NHANES con códigos enteros. El significado real de estos códigos puede determinarse a partir de los libros de códigos. Por ejemplo, la variable RIAGENDR contiene el género de cada sujeto, con el género masculino codificado como 1 y el género femenino codificado como 2. La variable RIAGENDR forma parte del componente demográfico de la NHANES, por lo que esta codificación puede encontrarse en el libro de códigos de demografía.

Las variables como BMXWT, que representan una medida cuantitativa, suelen almacenarse como valores de datos de punto flotante.

# ***Cortar un conjunto de datos***

Como se ha comentado anteriormente, un marco de datos de Pandas es una tabla de datos rectangular, en la que las filas representan casos y las columnas representan variables. Una manipulación común de un marco de datos es extraer los datos de un caso o de una variable. Hay varias formas de hacerlo, como se muestra a continuación.

Para extraer todos los valores de una variable, los tres enfoques siguientes son equivalentes ("DMDEDUC2" es una variable NHANES que contiene el nivel educativo de una persona). En estas cuatro líneas de código, estamos asignando los datos de una columna del marco de datos da a nuevas variables w, x, y y z. Los tres primeros enfoques acceden a la variable por su nombre. La cuarta aproximación accede a la variable por su posición (nótese que DMDEDUC2 está en la posición 9 de la matriz da.columns mostrada arriba - recuerde que Python cuenta a partir de la posición cero).

In [9]:
w = da["DMDEDUC2"]
x = da.loc[:, "DMDEDUC2"]
y = da.DMDEDUC2
z = da.iloc[:, 9]  # DMDEDUC2 is in column 9

Otra razón para cortar una variable de un marco de datos es para poder pasarla a una función. Por ejemplo, podemos encontrar el valor máximo sobre todos los valores de DMDEDUC2 utilizando cualquiera de las siguientes cuatro líneas de código:

In [10]:
print(da["DMDEDUC2"].max())
print(da.loc[:, "DMDEDUC2"].max())
print(da.DMDEDUC2.max())
print(da.iloc[:, 9].max())

9.0
9.0
9.0
9.0


Cada valor en un programa de Python tiene un tipo, y la información del tipo puede obtenerse usando la función 'type' de Python. Esto puede ser útil, por ejemplo, si estás buscando la documentación asociada a algún valor, pero no sabes cuál es el tipo del valor.

Aquí vemos que la variable da tiene el tipo 'DataFrame', mientras que una columna de da tiene el tipo 'Series'. Como se ha indicado anteriormente, una Serie es una estructura de datos de Pandas para contener una sola columna (o fila) de datos.

In [11]:
print(type(da)) # The type of the variable


<class 'pandas.core.frame.DataFrame'>
<class 'pandas.core.series.Series'>
<class 'pandas.core.series.Series'>


In [12]:
print(type(da.DMDEDUC2)) # The type of one column of the data frame
print((da.DMDEDUC2)) 

<class 'pandas.core.series.Series'>
0       5.0
1       3.0
2       3.0
3       5.0
4       4.0
       ... 
5730    3.0
5731    5.0
5732    4.0
5733    1.0
5734    5.0
Name: DMDEDUC2, Length: 5735, dtype: float64


In [13]:
print((da.iloc[2,:])) # The type of one row of the data frame

SEQN        83734.00
ALQ101          1.00
ALQ110           NaN
ALQ130           NaN
SMQ020          1.00
RIAGENDR        1.00
RIDAGEYR       78.00
RIDRETH1        3.00
DMDCITZN        1.00
DMDEDUC2        3.00
DMDMARTL        1.00
DMDHHSIZ        2.00
WTINT2YR    12400.01
SDMVPSU         1.00
SDMVSTRA      131.00
INDFMPIR        1.51
BPXSY1        138.00
BPXDI1         46.00
BPXSY2        132.00
BPXDI2         44.00
BMXWT          83.40
BMXHT         170.10
BMXBMI         28.80
BMXLEG         35.60
BMXARML        37.00
BMXARMC        31.00
BMXWAIST      116.50
HIQ210          2.00
Name: 2, dtype: float64


También puede ser útil cortar una fila (caso) de un marco de datos. Al igual que las columnas de un marco de datos tienen nombres, las filas también tienen nombres, que se denominan "índice". Sin embargo, muchos conjuntos de datos no tienen nombres de fila significativos, por lo que es más común extraer una fila de un marco de datos utilizando su posición. El método iloc extrae filas o columnas de un marco de datos por posición (contando desde 0). La siguiente línea de código extrae la fila 3 del conjunto de datos (que es la cuarta fila, contando desde cero).

In [15]:
x = da.iloc[3, :]
print(x)

SEQN         83735.0
ALQ101           2.0
ALQ110           1.0
ALQ130           1.0
SMQ020           2.0
RIAGENDR         2.0
RIDAGEYR        56.0
RIDRETH1         3.0
DMDCITZN         1.0
DMDEDUC2         5.0
DMDMARTL         6.0
DMDHHSIZ         1.0
WTINT2YR    102718.0
SDMVPSU          1.0
SDMVSTRA       131.0
INDFMPIR         5.0
BPXSY1         132.0
BPXDI1          72.0
BPXSY2         134.0
BPXDI2          68.0
BMXWT          109.8
BMXHT          160.9
BMXBMI          42.4
BMXLEG          38.5
BMXARML         37.7
BMXARMC         38.3
BMXWAIST       110.1
HIQ210           2.0
Name: 3, dtype: float64


Otra manipulación importante del marco de datos es extraer un bloque contiguo de filas o columnas del conjunto de datos. A continuación cortamos por posición, en el primer caso tomando las posiciones de las filas 3 y 4 (contando desde 0, que son las filas 4 y 5 contando desde 1), y en el segundo caso tomando las columnas 2, 3 y 4 (columnas 3, 4, 5 si se cuenta desde 1).

In [16]:
x = da.iloc[3:5, :]
print(x)

    SEQN  ALQ101  ALQ110  ALQ130  ...  BMXARML  BMXARMC  BMXWAIST  HIQ210
3  83735     2.0     1.0     1.0  ...     37.7     38.3     110.1     2.0
4  83736     2.0     1.0     1.0  ...     36.0     27.2      80.4     2.0

[2 rows x 28 columns]


In [17]:
y = da.iloc[:, 2:5]
print(y)

      ALQ110  ALQ130  SMQ020
0        NaN     1.0       1
1        NaN     6.0       1
2        NaN     NaN       1
3        1.0     1.0       2
4        1.0     1.0       2
...      ...     ...     ...
5730     2.0     NaN       1
5731     2.0     NaN       2
5732     NaN     1.0       1
5733     NaN     NaN       1
5734     NaN     2.0       2

[5735 rows x 3 columns]


Missing value

Cuando se lee un conjunto de datos utilizando Pandas, hay un conjunto de valores que incluyen 'NA', 'NULL' y 'NaN' que se toman por defecto para representar un valor perdido. La lista completa de códigos de valores perdidos por defecto se encuentra en la documentación de 'read_csv' aquí. Este documento también explica cómo cambiar la forma en que 'read_csv' decide si el valor de una variable es faltante.

Pandas tiene unas funciones llamadas isnull y notnull que se pueden utilizar para identificar dónde se encuentran los valores perdidos y no perdidos en un marco de datos. A continuación utilizamos estas funciones para contar el número de valores faltantes y no faltantes de DMDEDUC2.

In [18]:
print(pd.isnull(da.DMDEDUC2).sum())
print(pd.notnull(da.DMDEDUC2).sum())

261
5474


Por otra parte, hay que tener en cuenta que puede haber una variedad de formas distintas de ausencia en una variable, y en algunos casos es importante mantener estos valores diferenciados. Por ejemplo, en el caso de la variable DMDEDUC2, además de los valores en blanco o NA que Pandas considera perdidos, tres personas respondieron "no sabe" (valor de código 9). En muchos análisis, los valores de "no sabe" también se tratarán como perdidos, pero en este momento consideramos que "no sabe" es una categoría distinta de respuesta observada.