# GREP
`grep` significa `Gloabal Regular Expresson Print`.

Básicamente, busca patrones de texto de archivos o entradas de comandos y devuelve las líneas que coinciden.

A nivel interno:
  * `grep` lee los datos línea por línea
  * Compara cada línea con el patrón que le pasamos
  * Si la línea coincide, la imprime en la salida estándar 

> `grep` como un filtro inteligente de texto, que puede usar `REGEX` para búsquedas más complejas.

## Sintaxis
```bash
grep [opciones] 'patrón' archivo
```
  * `patrón` -> lo que se quiere buscar. Puede ser literal o una expresión regular
  * `archivo` -> dónde buscar. También puede ser la salida de otro comando usando `|`
  * `opciones` -> modifican el comportamiento (`-i`, `-v`, `-r`, etc)

In [42]:
!grep '' ../../files/test/test.txt # Sin filtro actúa como un cat

1:Juan Perez:IT:SysAdmin:2500:Madrid:2018-03-15
2:Ana Gomez:HR:Recruiter:1800:Barcelona:2019-07-01
3:Carlos Ruiz:IT:Developer:3000:Valencia:2017-01-20
4:Laura Martinez:Finance:Accountant:2200:Madrid:2020-11-10
5:Pedro Sanchez:IT:Developer:3200:Barcelona:2016-05-25
6:Maria Lopez:HR:Manager:2800:Sevilla:2015-09-30
7:David Torres:Finance:Analyst:2600:Valencia:2018-06-12
8:Elena Navarro:IT:Support:1900:Madrid:2021-02-01
9:Jorge Ramirez:Sales:SalesRep:2100:Sevilla:2019-04-18
10:Sofia Morales:Sales:Manager:3500:Barcelona:2014-12-05
11:Alberto Diaz:IT:Developer:3100:Madrid:2017-08-22
12:Lucia Fernandez:HR:Assistant:1700:Valencia:2022-01-10


In [8]:
# Uso simple
!grep "Laura" ../../files/test/test.txt
!grep juan ../../files/test/test.txt # Distingue mayúsculas y minúsculas

4:Laura Martinez:Finance:Accountant:2200:Madrid:2020-11-10


### OPCIONES


### `-i` 
Buscar ignorando mayúsculas y minúsculas.

In [9]:
!grep -i juan ../../files/test/test.txt 

1:Juan Perez:IT:SysAdmin:2500:Madrid:2018-03-15


### `-c` 
Contar coincidencias

In [12]:
!grep -ic developer ../../files/test/test.txt

3


### `-n`
Mostrar el número de las líneas

In [14]:
!grep -n Developer ../../files/test/test.txt

3:3:Carlos Ruiz:IT:Developer:3000:Valencia:2017-01-20
5:5:Pedro Sanchez:IT:Developer:3200:Barcelona:2016-05-25
11:11:Alberto Diaz:IT:Developer:3100:Madrid:2017-08-22


### `-v` 
Excluir de resultados

In [17]:
!grep -v IT ../../files/test/test.txt # Muestra que empleados que no son IT

2:Ana Gomez:HR:Recruiter:1800:Barcelona:2019-07-01
4:Laura Martinez:Finance:Accountant:2200:Madrid:2020-11-10
6:Maria Lopez:HR:Manager:2800:Sevilla:2015-09-30
7:David Torres:Finance:Analyst:2600:Valencia:2018-06-12
9:Jorge Ramirez:Sales:SalesRep:2100:Sevilla:2019-04-18
10:Sofia Morales:Sales:Manager:3500:Barcelona:2014-12-05
12:Lucia Fernandez:HR:Assistant:1700:Valencia:2022-01-10


### `-r`
Busca recursivamente en directorios

In [23]:
!grep -r "Soy" ../../files/borrador/

../../files/borrador/.oculto.txt:Soy un archivo oculto
../../files/borrador/texto1.txt:Soy el texto 1
../../files/borrador/texto2.txt:Soy el texto 2
../../files/borrador/texto3.txt:Soy el texto 3
../../files/borrador/texto4.txt:Soy el texto 4


### `-l`
Lista solo nombres de archivos que coinciden

In [26]:
!grep -l "Soy" ../../files/borrador/*.txt

../../files/borrador/texto1.txt
../../files/borrador/texto2.txt
../../files/borrador/texto3.txt
../../files/borrador/texto4.txt


### `-o` 
Muestra solo la línea que coincide

In [29]:
!grep -o Developer ../../files/test/test.txt

Developer
Developer
Developer


### `-w`
Coincide solo las palabras completas

In [33]:
!grep -w Diaz ../../files/test/test.txt

11:Alberto Diaz:IT:Developer:3100:Madrid:2017-08-22


## Usos
### a. Caracteres especiales
#### `.`
Cualquier carácter
```bash
grep "h.la" archivo
```
Encuentra `hola, hala, h3la, h la`

#### `*`
Cero o más repeticiones

El * SOLO controla el carácter (o grupo) inmediatamente anterior

Nunca:
  * toda la palabra
  * lo que viene después
  * varias letra a la vez (a menos que use paréntisis)

```bash
grep "ho*la" archivo
```
Encuentra: `hla, hola, hoola, hooola`

#### Inicio y fin de una línea
Para representar el inicio `^` y el fin `^`

##### `^` 
Buscar líneas que empiezan por algo

In [20]:
!grep "^3" ../../files/test/test.txt # Muestra cuyo ID empieza con 3

3:Carlos Ruiz:IT:Developer:3000:Valencia:2017-01-20


##### `$`
```bash
grep "hola$" archivo        # Líneas que TERMINAN con "hola"
grep "^hola$" archivo.txt   # Líneas que SOLO contienen "hola"
```

### b. Clases de caracteres
#### Corchetes `[]` | Conjunto de caracteres
```bash
grep "[aeiou]" archivo
# Encuentra cualquier vocal

grep "[0-9]" archivo
# Encuentra cualquier dígito

grep "[A-Z]" archivo
# Encuentra cualquier mayúscula

grep "[a-zA-Z]" archivo
# Cualquier letra
```

#### 

#### Negación `^`
```bash
grep "[^0-9]" archivo
# Examina todo lo que no sea dígito
```

### c. Extended Regex | `grep -E` o `egrep`
#### `+`
Un primo de `*` pero es una o más veces
```bash
grep -E "ho+la" archivo.txt
# Encuentra: hola, hoola, hooola (pero NO hla)
```

#### `?`
Cero o una vez
```bash
grep -E "colou?r" archivo.txt
# Encuentra: color, colour
```

#### `|`
El `|` es OR
```bash
grep -E "gato|perro" archivo.txt
# Encuentra líneas con "gato" O "perro"
```

#### `()`
Representa agrupación
```bash
grep -E "(gato|perro) negro" archivo.txt
# Encuentra: "gato negro" o "perro negro"
```

#### Cuantificadores 
##### `{}`
Repeticiones exactas
```bash
grep -E "[0-9]{3}" archivo
# Exactamente 3 dígitos consecutivos


grep -E "[0-9]{3,5}" archivo
# Entre 3 y 5 dígitos

grep -E "[0-9]{3,}" archivos
# 3 o más dígitos
```

### Clases Predefinidas
Usando -P (Perl regex):
```bash
grep -P "\d" archivo.txt      # Dígitos [0-9]
grep -P "\w" archivo.txt      # Letras, dígitos y _ [a-zA-Z0-9_]
grep -P "\s" archivo.txt      # Espacios en blanco
grep -P "\D" archivo.txt      # NO dígitos
grep -P "\W" archivo.txt      # NO palabra
grep -P "\S" archivo.txt      # NO espacio
```

### Trucos

```bash
# Estos NO cambian (funcionan igual siempre)
. * ^ $ []

# Estos SÍ cambian (necesitan -E o \)
+ ? | ( ) { }
```
Si queremos usar (`*, ?, |, (), {}`) sin `-E` usamos `\` para usarlos pero usando `-E` y queremos usar literalmente (`*, ?, |, (), {}`) usamos `\`.

> Si ves que necesitas muchos `\`, probablemente deberías usar grep -E para hacer tu vida más fácil.

## EXTRAS

In [None]:
# Buscar empleados IT o HR
!grep -E "IT|HR" ../../files/test/test.txt  

1:Juan Perez:IT:SysAdmin:2500:Madrid:2018-03-15
2:Ana Gomez:HR:Recruiter:1800:Barcelona:2019-07-01
3:Carlos Ruiz:IT:Developer:3000:Valencia:2017-01-20
5:Pedro Sanchez:IT:Developer:3200:Barcelona:2016-05-25
6:Maria Lopez:HR:Manager:2800:Sevilla:2015-09-30
8:Elena Navarro:IT:Support:1900:Madrid:2021-02-01
11:Alberto Diaz:IT:Developer:3100:Madrid:2017-08-22
12:Lucia Fernandez:HR:Assistant:1700:Valencia:2022-01-10


In [35]:
# Buscar salarios que empiecen por 3000
!grep "3[0-9]\{3\}" ../../files/test/test.txt

3:Carlos Ruiz:IT:Developer:3000:Valencia:2017-01-20
5:Pedro Sanchez:IT:Developer:3200:Barcelona:2016-05-25
10:Sofia Morales:Sales:Manager:3500:Barcelona:2014-12-05
11:Alberto Diaz:IT:Developer:3100:Madrid:2017-08-22


In [40]:
# Empleados que trabajen en Barcelona
!grep ":Barcelona:" ../../files/test/test.txt

2:Ana Gomez:HR:Recruiter:1800:Barcelona:2019-07-01
5:Pedro Sanchez:IT:Developer:3200:Barcelona:2016-05-25
10:Sofia Morales:Sales:Manager:3500:Barcelona:2014-12-05


In [44]:
# Emplearon que entraron en el 2020 o después
!grep ':20[2-9][0-9]-' ../../files/test/test.txt

4:Laura Martinez:Finance:Accountant:2200:Madrid:2020-11-10
8:Elena Navarro:IT:Support:1900:Madrid:2021-02-01
12:Lucia Fernandez:HR:Assistant:1700:Valencia:2022-01-10
