# Herramientas GNU/Linux

Este documento muestra el uso de los comandos **grep, sort, cut, tr, uniq, joint, paste** y ejemplos con tail ,head, echo y el pipe "|".

## GREP

Busca patrones en cada archivo  e imprime cada linea que coincida con el patron.

### Caso 1 

De una lista se requiere de extraer los datos para la estación BJU

```
grep -i -e BJU lista.dat
```

In [1]:
%%bash -l

grep PMCO lista.dat

grep: lista.dat: No existe el fichero o el directorio


CalledProcessError: Command 'b'\ngrep PMCO lista.dat\n'' returned non-zero exit status 2.

### Caso 2

Se requiere encontrar dos parámetros tanto la estación __CUA__ como la variable __PMCO__, ignorando si son mayúsculas o minúsculas (-i).

```
grep  -i -e cua -e pmco lista.dat
```

In [3]:
%%bash -l

grep -i -e cua -e pmco lista.dat

01/01/2021 01:00,PMCO,MGH
01/01/2021 01:00,PMCO,AJM
01/01/2021 01:00,PMCO,MPA
01/01/2021 01:00,PMCO,BJU
01/01/2021 01:00,PMCO,INN
01/01/2021 01:00,PMCO,GAM
01/01/2021 02:00,PMCO,CAM
01/01/2021 02:00,CO,CUA
01/01/2021 02:00,NO,CUA
01/01/2021 02:00,NO2,CUA
01/01/2021 02:00,PMCO,BJU
01/01/2021 02:00,PMCO,MGH
01/01/2021 03:00,PMCO,BJU
01/01/2021 04:00,PMCO,BJU


### Caso 3

Si se requiere que sean exclusivas se puede emplear el comando pipe "__|__" para hacer un filtrado para luego volvera realizar otro filtrado:

```
grep -i -e BJU lista.dat | grep PMCO
```

In [4]:
%%bash -l
grep -i -e bju lista.dat |grep  PMCO

01/01/2021 01:00,PMCO,BJU
01/01/2021 02:00,PMCO,BJU
01/01/2021 03:00,PMCO,BJU
01/01/2021 04:00,PMCO,BJU


## SORT

sort - ordena las líneas de un archivo de texto

### Caso 4

Se desea ordenar el archivo por la estacion que es la columna 3 (-k 3) y esta separado por comas (-t ","):

```
sort -k3 -t"," lista.dat > lista_Est.txt
```

las salidas se direccionana al archivo lista_Est.txt con el caracter: "__>__"

In [5]:
%%bash -l

sort -k3 -t"," lista.dat >lista_Est.txt

# Verficacion de resultados
head -3 lista_Est.txt
echo "..."
tail -3 lista_Est.txt
echo "Líneas en el archivo"; wc -l lista_Est.txt

01/01/2021 02:00,CO,ACO
01/01/2021 02:00,CO,ACO
01/01/2021 02:00,NO2,ACO
...
01/01/2021 01:00,O3,SAC
01/01/2021 01:00,PM2.5,SAC
01/01/2021 01:00,SO2,SAC
Líneas en el archivo
152 lista_Est.txt


### Caso 5

Se desea ordenar el archivo por compuesto (columna 2) y 

```
sort -k2 -t, lista.dat >lista_comp.txt

```

In [6]:
%%bash -l

sort -k2 -t, lista.dat >lista_comp.txt

# Para comprobar que lo hizo
head -3 lista_comp.txt
echo "..."
tail -3 lista_comp.txt
echo "Líneas en el archivo"; wc -l lista_comp.txt

01/01/2021 02:00,CO,ACO
01/01/2021 02:00,CO,ACO
01/01/2021 01:00,CO,AJM
...
01/01/2021 02:00,SO2,MON
01/01/2021 01:00,SO2,MPA
01/01/2021 01:00,SO2,SAC
Líneas en el archivo
152 lista_comp.txt


# TR

tr - cambia o remueve caracteres en cada inea del archivo.

### CASO 6

Substituir de un archivo los caracteres "," por tabulaciones "\t"

  esta es una forma de hacerlo:
```
cat lista_Est.txt | tr "," "\t"  > lista_Est_tab.txt
```

y esta es otra forma:
```
tr "," "\t" < lista_Est.txt > lista_Est_tab.txt
```

In [7]:
%%bash -l

tr "," "\t" < lista_Est.txt > lista_Est_tab.txt

# para verificar el resultado
head -3 lista_Est_tab.txt

01/01/2021 02:00	CO	ACO
01/01/2021 02:00	CO	ACO
01/01/2021 02:00	NO2	ACO


para substituir por espacios:
```
tr "," " " < lista_comp.txt > lista_comp_esp.txt
```

In [8]:
%%bash -l
tr "," " " < lista_comp.txt > lista_comp_esp.txt

# para revisar el cambio de coma a espacio
head -3 lista_comp_esp.txt

01/01/2021 02:00 CO ACO
01/01/2021 02:00 CO ACO
01/01/2021 01:00 CO AJM


# CUT

cut - elimina fragmentos en cada línea de un archivo

### Caso 7

Seleccionar solo la columna de contaminantes (estan en la columna 2 por lo que se usa -f2)del archivo _lista.txt_ si se encuentra separado por comas (-d,).

```
cut -d, -f2 lista_comp.txt > lista_comp1.txt 

```


In [9]:
%%bash -l 
cut -d, -f2 lista_comp.txt > lista_comp1.txt

head -3 lista_comp1.txt
echo ...
tail -3 lista_comp1.txt
wc -l lista_comp1.txt

CO
CO
CO
...
SO2
SO2
SO2
152 lista_comp1.txt


# UNIQ

uniq - muestra u omite líneas duplicadas

### Caso 8

Muestra los compuestos unicos en el archivo lista_comp1.txt
```
uniq lista_comp1.txt
```

In [10]:
%%bash -l

uniq lista_comp1.txt > compuestos.txt

head compuestos.txt
# muestra el número de renglones
wc -l compuestos.txt

CO
NO2
NO
NOX
O3
PM10
PM2.5
PMCO
SO2
9 compuestos.txt


### CASO 9

Extraer las estaciones unicas a partir del archivo original lista.txt

Método 1
```
cut -d, -f3 lista.dat |sort |uniq > estaciones_unicas.txt

```
Método 2
```
cut -d, -f3 lista.dat |sort -u -o estaciones_unicas.txt
```

In [11]:
%%bash -l

cut -d, -f3 lista.dat |sort |uniq > estaciones_unicas.txt

# Para comprobar:
head -3 estaciones_unicas.txt 
echo ...
tail -3 estaciones_unicas.txt
echo "numero de líneas en el archivo"
wc -l  estaciones_unicas.txt

ACO
AJM
AJU
...
MON
MPA
SAC
numero de líneas en el archivo
17 estaciones_unicas.txt


# JOIN

join - junta las líneas de dos archivos con un archivo en comun.

### Caso 10

Se requiere de anexar al archivo con las estaciones ordenadas (archivo *lista_Est.txt*) los datos de descripción y ubicación de las estaciones que estan en el archivo  *des_estaciones.txt*,  sabiendo que tiene en común los tres caracteres que describen la estación:
```
lista_Est.txt
01/01/2021 02:00,CO,ACO
01/01/2021 02:00,CO,ACO
01/01/2021 02:00,NO2,ACO

des_estaciones.dat
ACO,Acolman,19.635501,-98.912003
AJM,Ajusco Medio,19.272161,-99.207744
AJU,Ajusco,19.154286,-99.162611
ARA,Aragón,19.470218,-99.074549
ATI,Atizapan,19.576963,-99.254133
```
 Con lo anterior se empleará ***join*** :
 
```
join -t, -13 lista_Est.txt des_estaciones.dat > list_Est_lo_lat.txt
```
Considerando que la columa que posee el identificador de la estación es la 3 en el archivo  _lista_Est.txt_ (***-13*** :archivo 1 campo 3) y la columna 1 en el archivo _des_Estaciones.txt_ ambos poseen como  separador de campos la coma (-t,)

In [12]:
%%bash -l

join -t, -13 -21 lista_Est.txt des_estaciones.dat > list_Est_lon_lat.txt

# Para revisar la lista
head -3 list_Est_lon_lat.txt
echo ...
tail -3 list_Est_lon_lat.txt

...


join: des_estaciones.dat: No existe el fichero o el directorio


# PASTE

paste - combina líneas de ficheros

Escribe  secuencialmente  en  la  salida  estándar  cada  línea de los ARCHIVOs especificados, separadas por tabuladores.

### Caso 11

Se tiene el archivo de __id_est.txt__ y se desea acoplar con el archivo de localización __loc.txt__

```
id_est.txt     loc.txt
 
DIC             19.298819 -99.185774
EDL             19.313357 -99.310635
INN             19.291968 -99.38052
LPR             19.534727 -99.11772
MON             19.460415 -98.902853
```
para juntarlos se emplea

```
paste id_est.txt loc.txt > combinado.txt
```


In [13]:
%%bash -l
# Crea los archivos a combinar

cat > id_est.txt << FDA
DIC
EDL
INN
LPR
MON
FDA
cat > loc << FDA
19.298819 -99.185774
19.313357 -99.310635
19.291968 -99.38052
19.534727 -99.11772
19.460415 -98.902853
FDA
# cambia espacio por tabulacion.
tr " " "\t" < loc > t ;mv t loc.txt


# Combina con PASTE

paste id_est.txt loc.txt > combinado.txt

#verifica la combinacion

head combinado.txt

# FDA simboliza Fin De Archivo 
# pero puede ser cualquier otro termino (EOF, END, etc)

DIC	19.298819	-99.185774
EDL	19.313357	-99.310635
INN	19.291968	-99.38052
LPR	19.534727	-99.11772
MON	19.460415	-98.902853


## GREP en archivos

Tambien se puede realizar la búsqueda de un patrón de caracteres en varios archivos

In [14]:
%%bash -l
# Busqueda de patrones en varios archivos

grep -l ACO list*

# indica en que archivos que inician con list se encuentra ACO 

lista_comp_esp.txt
lista_comp.txt
lista.dat
lista_Est_tab.txt
lista_Est.txt


In [15]:
%%bash -l

# se borran los archivos empleados en el ejercicio
rm lista_Est.txt list_Est_lon_lat.txt
rm combinado.txt id_est.txt loc.txt loc
rm lista_comp.txt  lista_Est_tab.txt lista_comp_esp.txt lista_comp1.txt
rm compuestos.txt estaciones_unicas.txt 