Ejecución de consultas SQL en Bash usando csvkit
===========================================================

* *30 min* | Última modificación: Diciembre 17, 2019.

## Instalación de csvkit

`csvkit` es una libreria de Python que permite ejecutar consultas SQL sobre archivos en formato CSV. Este lenguaje es utilizado en los motores de bases de datos para acceder a la información de manera práctica y resumida. Se abordará unicamente con efectos de consulta, no para administración de sistemas gestores de bases de datos.

Esta herramienta se instala a través del siguiente comando en Bash para los sistemas operativos basados en Linux:
```bash
sudo apt-get install -y csvkit
```    

## Documentación oficial

La documentación oficial del paquete está disponible en https://csvkit.readthedocs.io/en/1.0.3/index.html

## Tutorial corto

A continuación se presenta un tutorial corto de las principales funcionalidades de `csvkit`.

La función [in2csv](https://csvkit.readthedocs.io/en/1.0.3/tutorial/1_getting_started.html#in2csv-the-excel-killer) permite convertir diferentes formatos a CSV.

Para los siguientes ejemplos se usará el archivo `persons.csv`:

In [1]:
%%sh
cat > persons.csv <<- FILE
id,firstname,surname,birthday,color,quantity
1,Vivian,Hamilton,1971-07-08,green,1
2,Karen,Holcomb,1974-05-23,green,4
3,Cody,Garrett,1973-04-22,orange,1
4,Roth,Fry,1975-01-29,black,1
5,Zoe,Conway,1974-07-03,blue,2
6,Gretchen,Kinney,1974-10-18,viole,1
7,Driscoll,Klein,1970-10-05,blue,5
8,Karyn,Diaz,1969-02-24,red,1
9,Merritt,Guy,1974-10-17,indigo,4
10,Kylan,Sexton,1975-02-28,black,4
11,Jordan,Estes,1969-12-07,indigo,4
12,Hope,Coffey,1973-12-24,green,5
13,Vivian,Crane,1970-08-27,gray,5
14,Clio,Noel,1972-12-12,red,5
15,Hope,Silva,1970-07-01,blue,5
16,Ayanna,Jarvis,1974-02-11,orange,5
17,Chanda,Boyer,1973-04-01,green,4
18,Chadwick,Knight,1973-04-29,yellow,1
FILE

### Obtención de los nombres de las columnas

`csvcut` es una función que permite gestionar por columnas y filtrar y editar los campos. La opción `-n` imprime los nombres de las columnas y sus respectivos indices.

In [2]:
%%sh
csvcut -n persons.csv

  1: id
  2: firstname
  3: surname
  4: birthday
  5: color
  6: quantity


### Selección de columnas específicas

La opción `-c` permite obtener todos los registros para ciertas columnas de interés.

In [3]:
%%sh
csvcut -c firstname,color persons.csv

firstname,color
Vivian,green
Karen,green
Cody,orange
Roth,black
Zoe,blue
Gretchen,viole
Driscoll,blue
Karyn,red
Merritt,indigo
Kylan,black
Jordan,indigo
Hope,green
Vivian,gray
Clio,red
Hope,blue
Ayanna,orange
Chanda,green
Chadwick,yellow


### Realización de consultas

`csvsql` es la función que permite ejercutar comandos SQL sobre archivos CSV. El parámetro `--query` del comando `csvsql` permite ejecutar cualquier consulta del tipo DML (se usan para consultar, filtrar y ordenar datos) sobre un archivo usando el lenguaje SQL. Los elementos escenciales para este tipo de consulta son:

    SELECT             <campos o columnas en la tabla a visualizar> 
    SELECT DISTINCT    <valores únicos en los campos>
    FROM               <tabla o consulta> 
    WHERE              <condiciones sobre las columnas de la tabla> 
    AND/OR             <comando para indicar unión o intersección de condiciones>
    AS                 <renombrar una columna o nuevo campo>
    GROUP BY           <campos por los cuales se formaran conjuntos> 
    ORDER BY           <ordernar por un conjunto de columnas>
    LIMIT              <límite de filas que se mostratrán>

A continuación se presentan varios ejemplos.

In [4]:
%%sh
csvsql --query 'select id,firstname from persons' persons.csv 

id,firstname
1,Vivian
2,Karen
3,Cody
4,Roth
5,Zoe
6,Gretchen
7,Driscoll
8,Karyn
9,Merritt
10,Kylan
11,Jordan
12,Hope
13,Vivian
14,Clio
15,Hope
16,Ayanna
17,Chanda
18,Chadwick


In [5]:
%%sh
csvsql --query 'select distinct color from persons' persons.csv 

color
green
orange
black
blue
viole
red
indigo
gray
yellow


In [6]:
%%sh
csvsql --query 'select distinct color from persons limit 5' persons.csv

color
green
orange
black
blue
viole


## Actividad

Para el archivo `persons.csv` ejecute las siguientes tareas:

1. Ordene el archivo por el campo `surname`.
2. Obtenga los registros con `color` igual a `blue`.
3. Obtenga los registros donde el `color` empieza por `o`.

In [1]:
!rm *.csv