# Intro





En el día a día de un científico de datos en ocasiones se requiere el uso de linux y la línea de comandos o consola para diferentes tareas. Es la principal manera de comunicarnos con el sistema operativo y pedir por el estado de diferentes cosas: uso de memoria, espacio disponible, conexiones, buscar archivos, etc. 

También nos es muy útil para hacer ciertas tareas en ciencia de datos: obtener datos mediante consultas a páginas por petición directa o por medio de APIs. 

Un __comando__ es una instrucción de texto que se le da a la computadora via la terminal. Pueden tener opciones o modificadores y argumentos. El __shell__ es un tipo de programa que interpreta y ejecuta comandos de texto. Existen varios como _bash_, _csh_, _tcsh_, _zsh_. En particular trabajamos con _bash_.

La estructura básica de los comandos al meterle opciones es:
```console
command parametro1 parametro2 parametro3
```
o también 

```console
command <options> arguments
```

Para instalar en Windows 10 un subsistema linux, puedes seguir los pasos [aquí](https://docs.microsoft.com/en-us/windows/wsl/install-win10). O igual se puede crear un script en [repl.it](https://replit.com/).



NOTA: es posible ejecutar bash desde una libreta de jupyter anteponiendo un signo de admiración a los comandos, por ejemplo `!ls` nos ejecuta el comando listar contenido del directorio. Los comentarios dentro del código se inician con un "#" y nos permiten explicar detalles del comando.

In [None]:
# Esto me trae el contenido del working directory
!ls

sample_data


# Sistema de archivos

Podemos hacer operaciones con los directorios y archivos tales como crear, movernos a un directorio, enlistar el contenido, borrar archivos y sub-directorios.

## Comandos básicos
|Comando                          |Descripción                         |
|-------------------------------|-----------------------------|
|`pwd`           | Se usa para obtener la dirección del directorio donde estamos            |
|`hostame`       |El nombre de la computadora que estamos usando         |
|`mkdir test`         | Se usa para crear un directorio, en este caso "test"
| `rmdir dirname` | Se elimina una carpeta vacía, si tiene archivos dentro, marca error
| `rm -rf dirname` | elimina una carpeta forzando la eliminación del contenido
|`cd test`| se usa para entrar a un directorio, en este caso test
|`cd ..`| se usa para regresar al directorio que contiene al actual
|`ls` | Para enlistar los archivos en el directorio actual
|`ls -a`| Enlista archivos ocultos
|`ls -la`| Formato extenso donde se ven permisos para leer, escribir y ejecutar 
|`./filename`| Se usa para ejecutar un archivo.
|`mv filename foldername/.`| Se usa para mover un archivo a un directorio
|`# texto`| Para poner comentarios después de comandos sin afectar la ejecución de los comandos
| `history` | nos permite ver el historial de todos los comandos ejecutados, funciona en la terminal 
| `echo "texto"` | despliega en pantalla un texto, es como un print

In [None]:
# echo es como un print, despliega texto en pantalla

!echo "hola mundo mio"  

hola mundo mio


In [None]:
!mkdir test # crea un directorio llamado test, si se ejecuta por 2da vez puede marcar error porque ya existe el dir
!mkdir "test 1"

In [None]:
!cd test


In [None]:
!touch file.txt
!touch file2.txt

In [None]:
!ls    # Listar el contenido de la carpeta actual

# los wildcards * nos permiten localizar archivos que cumplan cierto patrón.

!ls *.txt # listar todos los archivos que tienen extensión txt

 file2.txt   file.txt   sample_data   test  'test 1'
file2.txt  file.txt


# Inspección de archivos y procesamiento de texto

### Edición y procesamiento de archivos de texto
|Comando                          |Descripción                         |
|-------------------------------|-----------------------------|
|`nano file.sh`| Se usa para crear un archivo de texto llamado "file.sh" desde la línea de comandos.
|`cat filename`| conCATenate se usa para desplegar el contenido de texto de algún archivo. 
| `tac filename` | Despliega el contenido de un archivo en orden inverso.
| `head filename` | Despliega las primeras líneas de texto de un archivo, 10 por default.
| `head -n 40 filename` | Despliega las primeras `n=40` líneas de texto de un archivo.
| `tail filename` | Despliega las últimas líneas de texto de un archivo, 10 por default.
| `tail -n 30 filename` | Despliega las últimas `n=30` líneas de texto de un archivo.
| `wc filename` | muestra el número de líneas, palabras y bytes de un archivo con texto.
| `seq 20` | despliega en pantalla los números del 1 al 20 (puede ser cualquier núm).
| `shuf -i 1-1000 -n 5` | genera 5 números aleatorios entre 1 y 1000





In [None]:
!echo "Hola mundo" > test/file.txt

In [None]:
!pwd #muestra la dirección actual de la carpeta
!ls test #muestra el contenido de la subcarpeta test
!cat test/file.txt  # despliega el contenido de file.txt

/content
file.txt
Hola mundo


In [None]:
!seq 20

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20


In [None]:
!shuf -i 1-100000 -n 10

97719
26003
52042
52000
60861
60433
99869
49563
68227
51681


# Redireccionamiento y pipelines

Es posible crear archivos como resultado de ejecutar comandos mediante los redireccionadores `>` y `>>`. 
Al ejecutar por ejemplo

```console
echo "hola" > filetext.txt
```
se va a crear un archivo "filetext" y si ya existía, se sobreescribe.

Si queremos agregar texto al final de un archivo que ya exista, se usa el doble `>>`.

```console
echo "linea 2" >> filetext.txt
```
el comando anterior le agrega a "filetext.txt" una línea.

con un `cat filetext.txt` se puede ver que el archivo ya tiene ambas líneas.


In [None]:
!seq 30 > nums.txt  # crea un archivo llamado nums con 30 líneas, c/u con los números del 1 al 30

In [None]:
!echo "hola mundo" >> nums.txt   # en vez de imprimir en pantalla "hola mundo", escribe en file1.txt

In [None]:
!tail -n 2 nums.txt

30
hola mundo


Los pipes `|` nos sirven para redireccionar la salida de un comando `cmd1` y que sea entrada de otro comando `cmd2`

```console
cmd1 | cmd2
```
por ejemplo el siguiente comando va a ejecutar desplegar en pantalla y contar palabras en una sola línea.

```console
cat file.txt | wc 
```

Se pueden encadenar varios comandos por ejemplo después del `cat` se puede pedir que solo despliegue el encabezado con `head`.

```console
cat file.txt | head -n 20 | wc
```


In [None]:
!cat nums.txt

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
hola mundo


In [None]:
!cat nums.txt | head -n 15 | wc

     15      15      36


In [None]:
# se puede combinar el uso de pipes y después escribir a un archivo

!cat nums.txt | head -n 15 | wc > filewc.txt

In [None]:
# otro ejemplo para combinar comandos: generamos una lista aleatoria y la ordenamos
# el comando sort ordena las líneas, con el modificador "-n" se especifica orden numérico.

!shuf -i 1-100000 -n 10 |sort -n

5734
24524
41915
42278
51006
54770
73782
77183
82744
97235


El shell permite definir y usar variables, para declararlas no se debe usar espacios y su valor debe estar entre comillas:

```console
var1="www.google.com"
text1="hi"
```

Para llamarla se antepone el símbolo `$` al nombre y preferentemente se escribe el nombre entre llaves.

```console
echo ${var1}
```


In [None]:
var = 3 

In [None]:
var

3

In [None]:
# el ";" nos permite escribir dos comandos del shell en una misma línea

!var1="www.amazon.com"; echo $var1;


www.amazon.com


In [None]:
#declaramos un min y un max, generamos 10 nums aleatorios y los guardamos en un archivo sort.txt

!nmin=500; nmax=1000; shuf -i ${nmin}-${nmax} -n 10 | sort -n > sort.txt

In [None]:
cat sort.txt

501
512
563
574
790
816
892
960
967
971


## Comandos para edición de variables de texto

El comando `echo` junto con otros comandos como cut, grep, awk nos permite editar texto. 

algunas referencias para awk son el libro [sed & awk](https://www.oreilly.com/library/view/sed-awk/1565922255/), [1](https://likegeeks.com/es/comando-awk/) y 

---

[2](https://www.cyberciti.biz/faq/bash-scripting-using-awk/)


|Comando                          |Descripción                         |
|-------------------------------|-----------------------------|
| `awk '{ print }' filename` | imprime el texto, como `cat filename`
| `awk '{ print $0 }' filename` | equivalente al comando anterior
| `awk -F':' '{ print $1 }' filename` | despliega la primera columna separada por ":"
| `awk -F':' '{ print $1 }' filename \| sort ` | el resultado anterior lo ordena
 
El siguiente comando compuesto nos da la lista de los 10 comandos más usados.

```console
history | awk '{print $2}' | sort | uniq -c | sort -rn | head 
```


El comando `cut -d "delimiter" -f (field number) file.txt` nos permite cortar una línea en pedazos y podemos ir usando solo ciertos campos. 

```console
cut -d " " -f 1-4 state.txt
```

In [None]:
!echo "this has four fields" | cut -d " " -f 2,4

has fields


El comando `grep [OPTIONS] "pattern" filename` nos permite encontrar lineas que cumplan cierto patrón.

In [None]:
!cat sample_data/README.md

This directory includes a few sample datasets to get you started.

*   `california_housing_data*.csv` is California housing data from the 1990 US
    Census; more information is available at:
    https://developers.google.com/machine-learning/crash-course/california-housing-data-description

*   `mnist_*.csv` is a small sample of the
    [MNIST database](https://en.wikipedia.org/wiki/MNIST_database), which is
    described at: http://yann.lecun.com/exdb/mnist/

*   `anscombe.json` contains a copy of
    [Anscombe's quartet](https://en.wikipedia.org/wiki/Anscombe%27s_quartet); it
    was originally described in

    Anscombe, F. J. (1973). 'Graphs in Statistical Analysis'. American
    Statistician. 27 (1): 17-21. JSTOR 2682899.

    and our copy was prepared by the
    [vega_datasets library](https://github.com/altair-viz/vega_datasets/blob/4f67bdaad10f45e3549984e17e1b3088c731503d/vega_datasets/_data/anscombe.json).


In [None]:
!grep "https" -v sample_data/README.md # si se pone -v, invierte la selección

This directory includes a few sample datasets to get you started.

*   `california_housing_data*.csv` is California housing data from the 1990 US
    Census; more information is available at:

*   `mnist_*.csv` is a small sample of the
    described at: http://yann.lecun.com/exdb/mnist/

*   `anscombe.json` contains a copy of
    was originally described in

    Anscombe, F. J. (1973). 'Graphs in Statistical Analysis'. American
    Statistician. 27 (1): 17-21. JSTOR 2682899.

    and our copy was prepared by the


# Trabajando con XML/HTML, json y APIs

### Comandos `curl` y `wget`

Client URL o `curl` es un comando disponible en la gran mayoría de los sistemas linux para verificar conectividad y transferir datos. Su sintaxis básica es `curl [opciones] [URL]`. Existen muchísimas variantes dependiendo de la tarea más específica que se requiera. Algunos ejemplos:

|Comando                          |Descripción                         |
|-------------------------------|-----------------------------|
| `curl "https://en.wikipedia.org/wiki/List_of_windmills_in_the_Netherlands" ` | descarga el doc y despliega en pantalla
| `curl -s "https://en.wikipedia.org/wiki/List_of_windmills_in_Friesland" -O ` | lo guarda con el mismo nombre del servidor
| `curl -s "https://en.wikipedia.org/wiki/List_of_windmills_in_Friesland" -o file.html ` | lo guarda con el nombre file.html
| `curl -s "https://en.wikipedia.org/wiki/List_of_windmills_in_Friesland" > friesland.html ` | guarda el archivo como friesland.html

Hay incluso libros solo de [curl](https://everything.curl.dev/how-to-read).
Se puede almacenar la URL en una variable y con eso se facilita escribir código

```console
url1="https://en.wikipedia.org/wiki/List_of_windmills_in_Friesland"
curl ${url1}    # es equivalente al primer comando de la tabla anterior
```

El comando wget se pude utilizar para obtener el contenido de una página web con el formato

```console
wget ${url1}
```
También se puede combinar con otros comandos en pipelines:

```console
$  echo "http://www.bbc.com" |
   wget -O- -i- | 
   hxnormalize -x | 
   hxselect -i "div.most_popular_content" |  
   lynx -stdin -dump > theMostPoupularInNews
```

In [None]:
!wget https://xpo6.com/wp-content/uploads/2015/01/stop-word-list.txt -O stopwords

--2021-12-13 03:34:17--  https://xpo6.com/wp-content/uploads/2015/01/stop-word-list.txt
Resolving xpo6.com (xpo6.com)... 104.21.28.138, 172.67.170.216, 2606:4700:3034::6815:1c8a, ...
Connecting to xpo6.com (xpo6.com)|104.21.28.138|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/plain]
Saving to: ‘stopwords’

stopwords               [ <=>                ]   2.18K  --.-KB/s    in 0s      

2021-12-13 03:34:18 (34.0 MB/s) - ‘stopwords’ saved [2231]



In [None]:
!head stopwords

a
about
above
across
after
afterwards
again
against
all
almost


## Scripts como herramientas de la línea de comandos

Enlistamos un ejemplo del libro [data science at the command line](https://www.datascienceatthecommandline.com/2e/chapter-4-creating-reusable-command-line-tools.html) donde respondemos a la pregunta ¿Cuáles son las 10 palabras más usadas en el libro de Alicia en el país de las maravillas?: 

```console
$ curl -sL "https://www.gutenberg.org/files/11/11-0.txt" | ➊
> tr '[:upper:]' '[:lower:]' | ➋
> grep -oE "[a-z\']{2,}" | ➌
> sort | ➍
> uniq -c | ➎
> sort -nr | ➏
> head -n 10 ➐
   1839 the
    942 and
    811 to
    638 of
    610 it
    553 she
    486 you
    462 said
    435 in
    403 alice
```

1. `curl` extrae la página
2. `tr '[:upper:]' '[:lower:]'` convierte las mayúsculas a minúsculas
3. `grep -oE "[a-z\']{2,}"` fragmenta todo el texto a una palabra por línea
4. `sort` ordena las palabras alfabéticamente
5. `uniq -c` nos arroja las palabras y agrega el número de veces que aparece cada palabra
6. `sort -nr` ordena la lista en orden numérico (n) descendente (r)
7. `head -n 10` filtra a solo los 10 primeros resultados.

En la línea de comandos de linux se pueden instalar nuevos comandos de varias maneras, en particular las distribuciones basadas en Debian podemos ejecutar lo siguiente para poder usar un nuevo comando, `html2text`:

```bash
sudo apt-get install html2text
```

Podemos instalar también más comandos en la consola para otras utilidades, por ejemplo:

```console
sudo apt install rand
sudo apt install util-linux
sudo apt-get install jq
sudo apt-get install html-xml-utils
sudo apt-get install tidy
```

In [None]:
!sudo apt-get install html2text

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following NEW packages will be installed:
  html2text
0 upgraded, 1 newly installed, 0 to remove and 37 not upgraded.
Need to get 85.7 kB of archives.
After this operation, 268 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 html2text amd64 1.3.2a-21 [85.7 kB]
Fetched 85.7 kB in 0s (231 kB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 76, <> line 1.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 
Selecting previously unselected package html2text.
(Reading database ... 155222 files and directories 

Las palabras que hay que evitar son conocidas como [Stopwords](https://gist.githubusercontent.com/sebleier/554280/raw/7e0e4a1ce04c2bb7bd41089c9821dbcf6d0c786c/NLTK's%2520list%2520of%2520english%2520stopwords). 

Ejemplos:
* I
* and
* me
* my
* we
* our
* you



## JSON

Para trabajar con peticiones en json podemos instalar el comando `js` en el shell y luego con curl hacemos un pipe para redireccionar y tener la petición en formato legible.

In [None]:
!sudo apt-get install jq

Reading package lists... Done
Building dependency tree       
Reading state information... Done
The following additional packages will be installed:
  libjq1 libonig4
The following NEW packages will be installed:
  jq libjq1 libonig4
0 upgraded, 3 newly installed, 0 to remove and 37 not upgraded.
Need to get 276 kB of archives.
After this operation, 930 kB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libonig4 amd64 6.7.0-1 [119 kB]
Get:2 http://archive.ubuntu.com/ubuntu bionic/universe amd64 libjq1 amd64 1.5+dfsg-2 [111 kB]
Get:3 http://archive.ubuntu.com/ubuntu bionic/universe amd64 jq amd64 1.5+dfsg-2 [45.6 kB]
Fetched 276 kB in 1s (464 kB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 76, <> line 3.)
debconf: falling back to frontend: Readline
debconf: unable to initialize fron

In [None]:
!man jq | head -n 20

JQ(1)                                                                    JQ(1)

NAME
       jq - Command-line JSON processor

SYNOPSIS
       jq [options...] filter [files...]

       jq  can transform JSON in various ways, by selecting, iterating, reduc‐
       ing and otherwise mangling JSON documents. For  instance,  running  the
       command  jq  ´map(.price)  | add´ will take an array of JSON objects as
       input and return the sum of their "price" fields.

       jq can accept text input as well, but by default, jq reads a stream  of
       JSON entities (including numbers and other literals) from stdin. White‐
       space is only needed to separate entities such as 1 and 2, and true and
       false.  One  or more files may be specified, in which case jq will read
       input from those instead.

       The options are described in the INVOKING JQ section; they mostly  con‐


In [None]:
#!curl -s -D "/dev/stderr" https://api.joind.in
!curl -s -D "/dev/stderr" https://api.joind.in | jq


/bin/bash: jq: command not found
HTTP/2 200 
date: Mon, 13 Dec 2021 03:34:52 GMT
content-type: application/json; charset=utf8
content-length: 363
access-control-allow-origin: *
strict-transport-security: max-age=0
x-debug-info: eyJyZXRyaWVzIjowfQ==
x-platform-cache: MISS
x-platform-cluster: asqvtdjv7b7w4-master-7rqtwti
x-platform-processor: nteapjut3ihyfwjmvdgita2eke
x-platform-router: osfdatwhmb7kf6gvuxay7mov54
x-request-id: 00-16c03323bb74099ba11fb1ffdc562318-65c86b0615dec709-00
cf-cache-status: DYNAMIC
expect-ct: max-age=604800, report-uri="https://report-uri.cloudflare.com/cdn-cgi/beacon/expect-ct"
report-to: {"endpoints":[{"url":"https:\/\/a.nel.cloudflare.com\/report\/v3?s=jXDr2Dx5ic4x1No1t7QH4AIpoBTVHtJSOfEX4eP1Sc9vOAApgFw5XGA5D8f3KeXDoQOt8SmeeWv7Bc%2FKG0a0AAgD0AJhoB8PF2Pnlnw1zWeqt3KfrJgjnxjfN%2FzvtmA%3D"}],"group":"cf-nel","max_age":604800}
nel: {"success_fraction":0,"report_to":"cf-nel","max_age":604800}
server: cloudflare
cf-ray: 6bcc23a30de07cd7-LAX
alt-svc: h3=":443"; ma=86

In [None]:
!curl -s "https://anapioficeandfire.com/api/characters/583" | jq '.'

[1;39m{
  [0m[34;1m"url"[0m[1;39m: [0m[0;32m"https://anapioficeandfire.com/api/characters/583"[0m[1;39m,
  [0m[34;1m"name"[0m[1;39m: [0m[0;32m"Jon Snow"[0m[1;39m,
  [0m[34;1m"gender"[0m[1;39m: [0m[0;32m"Male"[0m[1;39m,
  [0m[34;1m"culture"[0m[1;39m: [0m[0;32m"Northmen"[0m[1;39m,
  [0m[34;1m"born"[0m[1;39m: [0m[0;32m"In 283 AC"[0m[1;39m,
  [0m[34;1m"died"[0m[1;39m: [0m[0;32m""[0m[1;39m,
  [0m[34;1m"titles"[0m[1;39m: [0m[1;39m[
    [0;32m"Lord Commander of the Night's Watch"[0m[1;39m
  [1;39m][0m[1;39m,
  [0m[34;1m"aliases"[0m[1;39m: [0m[1;39m[
    [0;32m"Lord Snow"[0m[1;39m,
    [0;32m"Ned Stark's Bastard"[0m[1;39m,
    [0;32m"The Snow of Winterfell"[0m[1;39m,
    [0;32m"The Crow-Come-Over"[0m[1;39m,
    [0;32m"The 998th Lord Commander of the Night's Watch"[0m[1;39m,
    [0;32m"The Bastard of Winterfell"[0m[1;39m,
    [0;32m"The Black Bastard of the Wall"[0m[1;39m,
    [0;32m"Lord Crow"[0m[1;39m
 