## Limpieza de datos en ficheros CSV usando la Command Line and csvkit

El Museo de Arte Moderno es uno de los museos más influyentes en el mundo y han publicado un conjunto de datasets sobre las obras de arte en su colección. Los datasets, como TODOS los que nos encontremos en nuestra vida diaria (en el poco tiempo que tengo como Data Scientist no he visto el primer dataset que no tenga que limpiar) requieren de tratamiento y limpieza.

En este artículo, aprenderemos cómo usar la biblioteca csvkit para adquirir y explorar datos tabulares.

¿Por qué la línea de comandos?
Gran pregunta! Antes de empezar en esto, me la había hecho millones de veces y la respuesta es que cuando se trabaja en entornos de Data Science en la nube (cloud), a veces sólo se tiene acceso a la shell de un servidor. En estas situaciones, el dominio de la línea de comandos es una verdadera ventaja. Igualmente, cuando se trabaja con Big Data y datasets muuuuuuy grandes, es muy eficiente trabajar por esta vía y que nuestra computadora (ordenador) no se guinde!

A medida que nos volvemos más eficientes, el uso de la línea de comandos para algunas tareas de data science es mucho más rápida que escribir un script de Python o un job de Hadoop. 

Por último, la línea de comandos tiene un gran ecosistema de herramientas. Esto hace que ciertos tipos de tareas, especialmente aquellas que involucren múltiples archivos, sean increíblemente fáciles.


## Csvkit
Csvkit es una biblioteca optimizada para trabajar con archivos CSV. Está escrito en Python, pero la interfaz principal es la línea de comandos. Puede instalar csvkit utilizando pip:

(Nota: para trabajar desde Jupyter Notebook con la línea de comando, debemos preceder nuestras peticiones con el simbolo "!". Esto le indica al notebook que el comando que se ejecuta es de la command line)

In [None]:
! pip install csvkit

Vas a necesitar la librería para poder seguir con el tutorial.

## Data acquisition

El dataset de las obras de arte del MOMA está disponible en el repo del GitHub del museo. Usemos el comando curl para descargar el fichero Artworks.csv desde Github. 

curl es una herramienta que está dentro de la mayoría de los ambientes shell y que permite la trasferencia de data entre servidores. 

El dataset lo podemos conseguir en el Github del museo (https://github.com/MuseumofModernArt/collection). Debemos verificar que tenemos el link en Raw data. Finalmente usamos el operador > para redireccionar la salida de nuestro comando curl a un fichero llamado artworks.csv.

In [2]:
! curl https://media.githubusercontent.com/media/MuseumofModernArt/collection/master/Artworks.csv > artworks.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100 49.4M  100 49.4M    0     0  3629k      0  0:00:13  0:00:13 --:--:-- 3903k


Verificamos que efectivamente se descargó el fichero que queremos.

In [1]:
! ls -a

[1m[36m.[m[m                             artworks.csv
[1m[36m..[m[m                            command_line_tutorial.ipynb
.DS_Store                     [31mign.csv[m[m
[1m[36m.git[m[m                          ign.csv.zip
[1m[36m.ipynb_checkpoints[m[m            test.csv
README.md                     train.csv
Sample_Submission_Tm9Lura.csv wine.csv
abalone.csv                   wine_quality.ipynb
abaloneNames.txt              winequality-red.csv


## Data exploration

Podemos usar el comando head para mostrar las primeras n líneas de un fichero (10 por defecto). Para mostrar las primeras 3, cualquiera de estos comandos funcionaran:

In [7]:
! head -n 3 artworks.csv
#Para ver las últimas 3 líneas, utilizaríamos el comando tail: ! tail -n 3 artworks.csv

﻿Title,Artist,ConstituentID,ArtistBio,Nationality,BeginDate,EndDate,Gender,Date,Medium,Dimensions,CreditLine,AccessionNumber,Classification,Department,DateAcquired,Cataloged,ObjectID,URL,ThumbnailURL,Circumference (cm),Depth (cm),Diameter (cm),Height (cm),Length (cm),Weight (kg),Width (cm),Seat Height (cm),Duration (sec.)
"Ferdinandsbrücke Project, Vienna, Austria, Elevation, preliminary version",Otto Wagner,6210,"(Austrian, 1841–1918)",(Austrian),(1841),(1918),(Male),1896,Ink and cut-and-pasted painted pages on paper,"19 1/8 x 66 1/2"" (48.6 x 168.9 cm)",Fractional and promised gift of Jo Carole and Ronald S. Lauder,885.1996,Architecture,Architecture & Design,1996-04-09,Y,2,http://www.moma.org/collection/works/2,http://www.moma.org/media/W1siZiIsIjU5NDA1Il0sWyJwIiwiY29udmVydCIsIi1yZXNpemUgMzAweDMwMFx1MDAzZSJdXQ.jpg?sha=137b8455b1ec6167,,,,,,,,,
"City of Music, National Superior Conservatory of Music and Dance, Paris, France, View from interior courtyard",Christian de Portzamparc,747

In [4]:
! head -3 artworks.csv

﻿Title,Artist,ConstituentID,ArtistBio,Nationality,BeginDate,EndDate,Gender,Date,Medium,Dimensions,CreditLine,AccessionNumber,Classification,Department,DateAcquired,Cataloged,ObjectID,URL,ThumbnailURL,Circumference (cm),Depth (cm),Diameter (cm),Height (cm),Length (cm),Weight (kg),Width (cm),Seat Height (cm),Duration (sec.)
"Ferdinandsbrücke Project, Vienna, Austria, Elevation, preliminary version",Otto Wagner,6210,"(Austrian, 1841–1918)",(Austrian),(1841),(1918),(Male),1896,Ink and cut-and-pasted painted pages on paper,"19 1/8 x 66 1/2"" (48.6 x 168.9 cm)",Fractional and promised gift of Jo Carole and Ronald S. Lauder,885.1996,Architecture,Architecture & Design,1996-04-09,Y,2,http://www.moma.org/collection/works/2,http://www.moma.org/media/W1siZiIsIjU5NDA1Il0sWyJwIiwiY29udmVydCIsIi1yZXNpemUgMzAweDMwMFx1MDAzZSJdXQ.jpg?sha=137b8455b1ec6167,,,,,,,,,
"City of Music, National Superior Conservatory of Music and Dance, Paris, France, View from interior courtyard",Christian de Portzamparc,747

Como la mayoría de los datasets con los que habitualmente se trabaja, podemos ver que la primera fila es el header o cabecera. Este nos indica el nombre de las columnas. 

Aparte de eso, la salida es desordenada y es difícil ver o detallar alguna información adicional. Necesitamos una herramienta que sepa cómo mostrar archivos CSV de una manera legible.

## csvlook

Csvlook es una herramienta dentro de csvkit que nos permite mostrar y previsualizar un archivo CSV como una tabla. 
Si escribimos Csvlook artworks.csv mostrará todo el dataset, lo cual no tiene mucho sentido porque nos mostrará TODO, en estos casos siempre es ideal trabajar con pocas filas, que ya nos permite tener una idea del resto del dataset. 
Podemos hacer esto de la siguiente forma: 

In [9]:
! head -5 artworks.csv | csvlook

| ﻿Title                                                                                                        | Artist                   | ConstituentID | ArtistBio                                 | Nationality | BeginDate | EndDate | Gender |  Date | Medium                                                         | Dimensions | CreditLine                                                              | AccessionNumber | Classification | Department            | DateAcquired | Cataloged | ObjectID | URL                                    | ThumbnailURL                                                                                                                  | Circumference (cm) | Depth (cm) | Diameter (cm) | Height (cm) | Length (cm) | Weight (kg) | Width (cm) | Seat Height (cm) | Duration (sec.) |
| ------------------------------------------------------------------------------------------------------------- | ------------------------ | ------------- | ----------------------------

## csvcut
En datasets con campos muy grandes o que tienen mucha información, lo anterior sigue siendo nada atractivo. Debemos buscar una forma de poder ver estos datos y entenderlos ya que sigue siendo dificil hacer una exploración allí. 

Veamos como podemos utilizar csvcut para seleccionar sólo algunas columnas de interés y mostrarlas. csvcut es una herramienta dentro del ToolKit que permite cortar y modificar las columnas en el CSV. Primero vamos a enumerar todas las columnas usando el indicador -n:

In [12]:
! csvcut -n artworks.csv 

  1: ﻿Title
  2: Artist
  3: ConstituentID
  4: ArtistBio
  5: Nationality
  6: BeginDate
  7: EndDate
  8: Gender
  9: Date
 10: Medium
 11: Dimensions
 12: CreditLine
 13: AccessionNumber
 14: Classification
 15: Department
 16: DateAcquired
 17: Cataloged
 18: ObjectID
 19: URL
 20: ThumbnailURL
 21: Circumference (cm)
 22: Depth (cm)
 23: Diameter (cm)
 24: Height (cm)
 25: Length (cm)
 26: Weight (kg)
 27: Width (cm)
 28: Seat Height (cm)
 29: Duration (sec.)


Podemos usar el flag -c para especificar la o las columnas que queremos.

Todas las utilidades de csvkit aceptan un archivo de entrada como "standar in", además de un nombre de archivo. Esto significa que podemos hacer que la salida de una utilidad csvkit se convierta en la entrada de la siguiente.

Esto significa que podemos canalizar el stdout de csvcut a la stdin de csvlook! Podemos construir la siguiente tubería:

Extraer sólo las primeras 10 líneas usando head
Filtrar sólo las primeras 3 columnas utilizando csvcut
Mostrar de una manera limpia utilizando csvlook


In [5]:
! head -10 artworks.csv | csvcut -c Gender,Date,Medium | csvlook
#! head -10 artworks.csv | csvcut -c 8,9,10 | csvlook
#This last command show us the same as the other.

| Gender | Date    | Medium                                                         |
| ------ | ------- | -------------------------------------------------------------- |
| (Male) | 1896    | Ink and cut-and-pasted painted pages on paper                  |
| (Male) | 1987    | Paint and colored pencil on print                              |
| (Male) | 1903    | Graphite, pen, color pencil, ink, and gouache on tracing paper |
| (Male) | 1980    | Photographic reproduction with colored synthetic laminate      |
| (Male) | 1903    | Graphite, color pencil, ink, and gouache on tracing paper      |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photographs                                     |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photograph                                      |


## csvgrep

Cuando se trabaja con conjuntos de datos históricos, o en general con data que contiene fechas, debemos asegurarnos de que las columnas (de fecha y hora) estén correctamente formateadas. Exploremos las columnas Date y DateAcquired:


In [17]:
! head -20 artworks.csv | csvcut -c Date,DateAcquired | csvlook

| Date    | DateAcquired |
| ------- | ------------ |
| 1896    |   1996-04-09 |
| 1987    |   1995-01-17 |
| 1903    |   1997-01-15 |
| 1980    |   1995-01-17 |
| 1903    |   1997-01-15 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |
| 1976-77 |   1995-01-17 |


Mientras que los primeros 20 valores en DateAcquired parecen estar correctos, la columna Date tiene algunos valores que no se visualizarán correctamente si los tomamos como un valor tipo fecha (por estar en el formato 1976-77 por ejemplo). 

Podemos manejar fácilmente esto seleccionando simplemente el primer año en el rango (por ejemplo, 1976 del rango 1976-77). Antes de hacer esto, vamos a averiguar cuántas líneas coinciden con este patrón.

Usaremos el comando csvgrep para extraer todos los valores en una columna (o una serie de columnas) que coincidan con esa expresión regular. Especificamos las columnas que queremos que csvgrep empareje al usar el indicador -c. Especificamos la expresión regular que queremos que csvgrep utilice usando el indicador -regex.

El regex ^([0-9]*-[0-9]*) coincide con pares de valores numéricos que están separados por un guión (-). Dado que estamos buscando instancias del patrón en la columna Date, escribimos lo siguiente:


In [8]:
! csvgrep --columns Date --regex "^([0-9]*-[0-9]*)"

^C



Vamos a modificar y ejecutar la tubería que hemos construido para incorporar csvgrep. Con esto voy a seleccionar los valores que cumplan con mi formato deseado (AAAA-MM):

In [10]:
! head -10 artworks.csv | csvcut -c Date | csvgrep --c Date --regex "^([0-9]*-[0-9]*)" | csvlook

| Date    |
| ------- |
| 1976-77 |
| 1976-77 |
| 1976-77 |
| 1976-77 |


## csvstat

Ahora vamos a aplicar la expresión regular en toda la columna de fecha (en lugar de sólo las primeras 10 líneas) y determinar cuántas líneas coinciden con este patrón. La herramienta csvstat toma un CSV como entrada (stdin) y calcula las estadísticas de resumen. Podemos usar el indicador --count para especificar que sólo queremos contar la línea. También podemos eliminar csvcut, head y csvlook ya que no necesitamos mostrar la salida.


In [11]:
! csvgrep --c Date --regex "^([0-9]*-[0-9]*)" artworks.csv | csvstat --count

Row count: 18023


Tip: Cuando necesito saber cómo determinar una expresión Regex y su patrón, yo personalmente utilizo: https://regex101.com/

Existen 18,023 líneas que coinciden con este patrón. Calculemos ahora:

Cuántas lineas coinciden con el patrón de 4 dígitos. 
Cuántas líneas en total tiene el dataset. 
Podemos usar la expresión regex (^[0-9]{4}$) para conseguir los valores de year de 4 dígitos y hacer un pipe(tubería) del resultado a csvstat:


In [12]:
! csvgrep --c Date --regex "[0-9]{4}$" artworks.csv | csvstat --count

Row count: 10368


Finalmente, para obtener el número total de líneas del dataset, podemos usar el comando wc con el indicador o flag -l para mostrar sólo el número de líneas:

### Comando WC

In [13]:
! wc -l artworks.csv

  143015 artworks.csv


Por defecto, wc te mostrará de forma rápida cuántas lineas, palabras y bytes hay en el fichero. Sí sólo quieres ver la cantidad de líneas, haces como en el comando anterior, que usas el flag -l. 

Este comando es importante ya que te da una idea de la magnitud de tu dataset.

Si combinamos el número de líneas que coinciden con el regex de año de 4 dígitos (10368) con el número de líneas que coinciden con el intervalo de año regex (18023), obtenemos (28391) líneas. Dado que hay 143.015 líneas en total, ¡este es un gran punto de partida para nuestro análisis!

### Otros comando adicionales

### sort

Sort devuelve las líneas de un archivo en orden basándose en una clave de columna utilizando el parámetro -k. Si no se especifica una clave, sort tratará cada línea como una cadena concatenada y ordenará según los valores de la primera columna. Los parámetros -n y -r permiten ordenar numéricamente y en orden inverso, respectivamente.

In [19]:
! head -10 artworks.csv | csvcut -c Gender,Date,Medium | csvlook

| Gender | Date    | Medium                                                         |
| ------ | ------- | -------------------------------------------------------------- |
| (Male) | 1896    | Ink and cut-and-pasted painted pages on paper                  |
| (Male) | 1987    | Paint and colored pencil on print                              |
| (Male) | 1903    | Graphite, pen, color pencil, ink, and gouache on tracing paper |
| (Male) | 1980    | Photographic reproduction with colored synthetic laminate      |
| (Male) | 1903    | Graphite, color pencil, ink, and gouache on tracing paper      |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photographs                                     |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photograph                                      |


In [39]:
! head -10 artworks.csv | csvcut -c Gender,Date,Medium | csvlook | sort -k 1
#el último número, es el número de columna por el cual queremos ordenar.

| (Male) | 1896    | Ink and cut-and-pasted painted pages on paper                  |
| (Male) | 1903    | Graphite, color pencil, ink, and gouache on tracing paper      |
| (Male) | 1903    | Graphite, pen, color pencil, ink, and gouache on tracing paper |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photograph                                      |
| (Male) | 1976-77 | Gelatin silver photographs                                     |
| (Male) | 1980    | Photographic reproduction with colored synthetic laminate      |
| (Male) | 1987    | Paint and colored pencil on print                              |
| ------ | ------- | -------------------------------------------------------------- |
| Gender | Date    | Medium                                                         |


### Uniq
A veces queremos comprobar registros duplicados en un archivo de texto grande, aquí es cuando uniq es muy útil. Mediante el uso del parámetro -c, uniq emitirá la cuenta de las ocurrencias junto con la línea. También puede utilizar los parámetros -d y -u para generar únicamente registros duplicados o únicos.

In [48]:
! sort artworks.csv | uniq -c | sort -nr | head -10 | csvcut -c Gender,Date,Medium | csvlook




sort: write failed: standard output: Broken pipe
sort: write error
Column 'Gender' is invalid. It is neither an integer nor a column name. Column names are: u' 207 '



In [41]:
! sort artworks.csv | uniq -d



","11 3/4 x 8 1/4"" (29.8 x 21 cm)
","11 x 8 1/2"" (27.9 x 21.6 cm)
","25 3/4 x 37 1/4"" (65.4 x 94.6 cm)
","4 5/8 x 3 3/4"" (11.7 x 9.5 cm)
","7 1/2 x 11 1/8"" (19 x 28.3 cm)
","Acquired through the generosity of Robert Speyer, the Latin American and Caribbean Fund, Jill Kraus, Beatriz and Andres von Buch, Estrellita Brodsky, Adriana Cisneros de Griffin, Mauro Herlitzka, Marie-Josée Kravis, Raul Naón, Carlos Padula, Gonzalo Parodi, and Ernesto Poma
","Dimensions variable
","Mies van der Rohe Archive, gift of the architect
","Original film elements preserved by The Museum of Modern Art, New York. Gift of The Andy Warhol Foundation for the Visual Arts, Inc.
"860/880 Lake Shore Drive Apartment Building, Chicago, Illinois",Ludwig Mies van der Rohe,7166,"(American, born Germany. 1886–1969)",(American),(1886),(1969),(Male),c. 1948-51,,,"Mies van der Rohe Archive, gift of the architect
"860/880 Lake Shore Drive Apartment Building, Chicago, Illinois, Floor plan sketch",Ludwig Mies van der R

In [42]:
! sort artworks.csv | uniq -u | wc -l

  141225


Si comparamos este valor, con el que nos arrojó el wc unos pasos más atrás (143015 artworks.csv) NOS DAMOS CUENTA QUE HAY 1790 REGISTROS REPETIDOS!!!


Aunque a veces es difícil recordar todos los parámetros de los comandos, familiarizarse con ellos beneficiará nuestro trabajo y nuestra productividad y nos permitirá evitar muchos dolores de cabeza al trabajar con archivos de texto de gran tamaño, y archivos en general.

Referencias: 
    https://www.dataquest.io/blog/data-cleaning-command-line/
    https://csvkit.readthedocs.io/en/1.0.1/tutorial/3_power_tools.html
    http://www.gregreda.com/2013/07/15/unix-commands-for-data-science/
        