# Presentación del problema

Hay un archivo CSV (llamado `cargos.txt`) con unos 14.000 registros. Las primeras lineas del archivo son las siguientes:

---

`unidad,cargo,key,ano,grupo,item,puntaje
COMPUTACION,profesor_asistente,3010001,2000,titulos_universitarios,PhD,80
Economia,profesor_asociado,3111002,2000,titulos_universitarios,PhD,80
COMPUTACION,profesor_asistente,3010003,2000,Productividad,articulo_de_revista,12
Economia,profesor_asociado,3111001,2000,Productividad,articulo_de_revista,12
Economia,profesor_asociado,3111001,2000,Productividad,articulo_de_revista,12
Economia,PROFESOR_TITULAR,3113001,2000,Productividad,Capitulo-de-Libro,3`

---

Indique cómo haría lo siguiente:

* Contar la cantidad de unidades diferentes.
* Contar la cantidad de cargos diferentes.
* Convertir todo a mayúsculas o minúsculas.
* Obtener los registros (filas) correspondientes al item `articulo_de_revista`.
* Crear el archivo `2000.txt` y agregar los registros para el año 2000. Repetir para el año 2001 y así sucesivamente. 


# Objetivos

Al finalizar este bloque, el estudiante debe ser capaz de: 
* Explicar el uso los principales comandos de Linux
* Realizar manipulaciones y transformaciones básicas de archivos y carpetas desde el prompt de comandos

* * *
# Resumen de los principales comandos

**Miseláneos.**

`date  ` --- imprime la fecha actual.  
`cal   ` --- imprime un calendario mensual.  
`dc    ` --- calculadora rpn.  
`bc    ` --- calculadora infija.  
`man   ` --- visualiza la ayuda para un comando en particular.  
`touch ` --- cambia la fecha de acceso y modificación de un archivo.  


**Gestión de archivos y directorios.**

`pwd    ` --- imprime el nombre del directorio actual.  
`ls     ` --- imprime los archivos y subdirectorios del directorio actual.  
`cd     ` --- cambia el directorio actual.  
`mkdir  ` --- creación de directorios.  
`rmdir  ` --- remueve el directorio actual.  
`rm     ` --- remueve archivos.  
`mv     ` --- mover un archivo de directorio / cambiar el nombre.  
`cp     ` --- copiar un archivo.  


**Utilidades.**

`echo  ` --- imprime una cadena de texto.  

`cat   ` --- concatena archivos.  
`head  ` --- imprime las primeras lineas de un archivo.  
`tail  ` --- imprime las últimas lineas de un archivo.  
`split ` --- parte un archivo en piezas.  
`join  ` --- une archivos usando un campo en comun.  
`cut   ` --- corta campos de cada linea de un archivo.  
`uniq  ` --- permite remover o mostrar las lineas de un archivo.  
`tr`     --- traslada (reemplaza) un conjunto de caracteres a otro.  

`seq   ` --- genera una secuencia de enteros.  
`wc    ` --- cuenta las lineas, palabras o caracteres que hay en un archivo.  
`grep`, `egrep`, `fgrep` --- retorna las líneas de un archivo que un patrón específico.  
`sort  ` --- ordena las lineas de un archivo.  

`awk   ` --- lenguaje de procesamiento de patrones de texto. Reemplazado por el lenguaje Perl.  
`sed   ` --- stream editor.  

`chmod ` --- cambia permisos de un archivo.  
* * * 

# Problemas 

**Imprima un texto en la shell de comandos preservando el espacio entre las palabras.**  
Note el comportamiento respecto al uso de las comillas.

In [1]:
echo hola     mundo    cruel

hola mundo cruel


In [2]:
echo 'hola    mundo    cruel'

hola    mundo    cruel


In [3]:
echo "hola     mundo    cruel"

hola     mundo    cruel


**Redireccione la salida a un archivo en disco.**  
Se direcciona la salida al archivo *out.1* con el operador `>`.   
Con `cat` se imprime el contenido del archivo en pantalla.   
Con `>>`, la nueva salida se agrega al final del archivo. 

In [4]:
echo hola mundo feliz > out.1
cat out.1

hola mundo feliz


In [5]:
echo "otra vez hola mundo feliz" >> out.1
cat out.1

hola mundo feliz
otra vez hola mundo feliz


**Cree un archivo vacío.**  
Note que `echo` no tiene una cadena de texto.

In [6]:
echo > out.1
cat out.1




**Imprima varias lineas de texto usando `echo`.**  
La forma más simple es usar un comando `echo` por línea así:

    echo linea 1
    echo linea 2
    echo linea 3
    
pero en este caso es posible usar las comillas:

In [7]:
echo 'linea 1
linea 2
linea 3' 

linea 1
linea 2
linea 3


**Use el caracter de continuación `'\'` para indicar que la línea lógica continua en el siguiente renglón físico.**  
Todos los textos se imprimen en la misma línea de texto.

In [8]:
echo linea 1 \
linea 2 \
linea 3

linea 1 linea 2 linea 3


**Use caracteres de escape para introducir retornos de carro en el texto (caracter '\n').**  
En este caso se usa la opción '-e' del comando `echo`.

In [9]:
echo -e "linea 1\nlinea 2\nlinea 3"

linea 1
linea 2
linea 3


**Indique un procedimiento alternativo para imprimir varias líneas de texto a un archivo.**  
De acuerdo con lo anterior, hay varias alternativas:  

* Opción 1).  

```bash
echo 10,mark,AA > out.1
echo 10,steve,AA >> out.1
echo 20,scott,AB >> out.1
echo 30,chris,AC >> out.1
```



* Opción 2).

```bash
echo "10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC" > out.1
```



Una forma alternativa es usar `EOF`:

In [10]:
cat > out.1 <<EOF
10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC
EOF



In [11]:
cat out.1

10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC


**Cómo puedo imprimir lineas con un formato elaborado?.**  
En este caso use la función printf, la cual tiene una sintaxis similar a la del lenguaje C. 

* `%s` indica cadena de caracteres.
* `%f` indica un número en punto flotante.
* `%g` indica entero.

En los siguientes ejemplos se ilustra como puede indicar el tamaño del campo. Note la alineación de la impresión. 

In [12]:
printf '%s ---- %f' 'hola mundo'  1.23456789

hola mundo ---- 1.234568

In [13]:
printf '%15s --- %8.2f'  hola   1.23456789

           hola ---     1.23

In [14]:
printf '%15s --- %8.2f'  'hola mundo'   123.456789

     hola mundo ---   123.46

**Imprima los números del uno al cinco.**  
En vez de `echo` se puede usar `seq` que permite generar secuencias.

In [15]:
seq 5

1
2
3
4
5


Se puede usar la opción `-f` para dar formato a la secuencia, por ejemplo:

In [16]:
seq -f"linea %g" 5

linea 1
linea 2
linea 3
linea 4
linea 5


La opción `-s` permite indicar el separador.

In [17]:
seq -s, 2 2 10

2,4,6,8,10,

La opción `-w` permite especificar formato.

In [18]:
seq 0 .05 .1

0
0.05
0.1


In [19]:
seq -w 0 .05 .1

0.00
0.05
0.10


**Concatene el contenido de varios archivos.**

In [20]:
seq -f"linea %g" 1 1 3 > out.1
seq -f"linea %g" 4 1 6 > out.2
seq -f"linea %g" 7 1 9 > out.3
cat out.1 out.2 out.3

linea 1
linea 2
linea 3
linea 4
linea 5
linea 6
linea 7
linea 8
linea 9


**Imprima las primeras 3 lineas de un archivo.**  
El comando `head` imprime por defecto las primeras 10 líneas de un archivo. La cantidad se puede modificar mediante la opción `-n`.

In [21]:
seq -f"linea %g" 100 > out.1
head -n 3 out.1

linea 1
linea 2
linea 3


**Imprima las últimas 3 líneas de un archivo.**  
Similar al comando `head`.

In [22]:
tail -n 3 out.1

linea 98
linea 99
linea 100


**Imprima el contenido del archivo, excepto las primeras 4 líneas.**  
En el siguiente ejemplo, el argumento `+5` indica que se imprime desde la linea 5.

In [23]:
seq -f'linea %g' 6 > out.1
tail +5 out.1

linea 5
linea 6


**Cómo puedo colocar varios comandos en la misma línea.**  
Puede separar los comandos usando `;`.

In [24]:
echo 1; echo 2; echo 3

1
2
3


**Ordene el contenido de un archivo**  
En este ejemplo, se ordena con base en el contenido de toda la línea.

In [25]:
seq -f'linea %g' 3 > out.1
cat out.1 out.1 out.1 | sort

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 3
linea 3
linea 3


**Imprima las líneas que son diferentes de un archivo**  
En la primera parte se generan los archivos de datos.

In [26]:
seq -f'linea 1' 3 > out.1
seq -f'linea 2' 3 > out.2
cat out.1 out.2 out.1 out.2

linea 1
linea 1
linea 1
linea 2
linea 2
linea 2
linea 1
linea 1
linea 1
linea 2
linea 2
linea 2


El comando `uniq` opera sobre líneas adyacentes.

In [27]:
cat out.1 out.2 out.1 out.2 |  uniq

linea 1
linea 2
linea 1
linea 2


Para obtener líneas únicas es necesario ordenar el contenido antes de aplicar `uniq`.

In [28]:
cat out.1 out.2 out.1 out.2 | sort | uniq

linea 1
linea 2


**Cuente cuantas lineas tiene un archivo.**  
El comando `wc` permite contar líneas, palabras, caracteres y bytes. La opción `-l` cuanta líneas; `-m` caracteres y `-w` palabras.

In [29]:
wc -l out.1 out.2 # número de líneas

       3 out.1
       3 out.2
       6 total


In [30]:
wc -m out.1 out.2 # número de caracteres

      24 out.1
      24 out.2
      48 total


In [31]:
wc -w out.1 out.2 # número de palabras

       6 out.1
       6 out.2
      12 total


In [32]:
wc out.1 out.2 

       3       6      24 out.1
       3       6      24 out.2
       6      12      48 total


**Imprima los numeros del 1 al 20 que contienen un '1'.**  
El comando `grep` permite imprime las líneas del archivo que contiene la cadena especificada.

In [33]:
seq 20 | grep 1

1
10
11
12
13
14
15
16
17
18
19


**Imprima las líneas que contengan un '1'.**

In [34]:
seq -f'linea %g' 20 > out.1
grep 1 out.1

linea 1
linea 10
linea 11
linea 12
linea 13
linea 14
linea 15
linea 16
linea 17
linea 18
linea 19


**Imprima los números del 1 al 100 que finalicen con '1'.**

In [35]:
seq 100 | grep 1$

1
11
21
31
41
51
61
71
81
91


**Imprima los números del 1 al 100 que empiecen con '1'.**

In [36]:
seq 100 | grep ^1

1
10
11
12
13
14
15
16
17
18
19
100


**Cuántos números hay del 1 al 20 que contienen un '1'?.**

In [37]:
seq 20 | grep 1 | wc -l

      11


**Borre los `'-'` del contenido de un archivo.**  
En los siguientes ejemplos se usa el comando `tr`.

In [38]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr -d '-'  < out.1

hola mundo


**Cambie las `'-'` por `'='` en el contenido de un archivo.**

In [39]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '-'  '=' < out.1

h=o=l=a= =m=u=n=d=o


**Convierta las letras minúsculas a mayúsculas.**

In [40]:
echo 'h-o-l-a- -m-u-n-d-o' > out.1
tr '[:lower:]'  '[:upper:]' < out.1

H-O-L-A- -M-U-N-D-O


**Extraiga los caracteres en las posiciones 3, 4 y 5 de cada línea de un archivo.**  
En este caso se usa el comando `cut`.

In [41]:
echo "123456790
abcdefghi
jklmnopqr" > out.1
cut -c3-5 out.1

345
cde
lmn


In [42]:
cut -c3,4,5 out.1

345
cde
lmn


**Extraiga los caracteres en las posiciones 2 y 5 a 7 de cada línea de un archivo.**  

In [43]:
cut -c2,5-7 out.1

2567
befg
knop


**Obtenga la segunda columna del archivo delimitado por comas que es generado a continuación.** 

In [44]:
echo '10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC' > out.1
cat out.1

10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC


In [45]:
cut -d, -f2 out.1

mark
steve
scott
chris


**Extraiga las columnas 1 y 3 del archivo anterior.**

In [46]:
cut -d, -f1,3 out.1

10,AA
10,AA
20,AB
30,AC


**Extraiga los caracteres entre corchetes del archivo creado a continuación, **.

In [47]:
seq -f"--> [%g] <--" 5 > out.1
cat out.1

--> [1] <--
--> [2] <--
--> [3] <--
--> [4] <--
--> [5] <--


Observe que la parte después de `[` se podría extraer como:

In [48]:
cut -d'[' -f2 out.1 # primera parte

1] <--
2] <--
3] <--
4] <--
5] <--


Y la parte antes de `]` se podría extraer como:

In [49]:
cut -d']' -f1 out.1

--> [1
--> [2
--> [3
--> [4
--> [5


Combinando los dos comandos anteriores se tiene:

In [50]:
cut -d'[' -f2 out.1 | cut -d']' -f1

1
2
3
4
5


**Obtenga la segunda palabra de cada linea.**  
En este caso, el arhivo es deimitado por espacios.

In [51]:
echo "Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell." > out.1
cat out.1

Bash is a Unix shell and command language 
written by Brian Fox for the 
GNU Project as a free software 
replacement for the Bourne shell.


In [52]:
cut -d' ' -f2 out.1

is
by
Project
for


**En los dos archivos presentados a continuación, la primera columna funciona como un campo clave en una base de datos. Combine los campos e los archivos.**

In [53]:
echo '10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC' > out.1
cat out.1

10,mark,AA
10,steve,AA
20,scott,AB
30,chris,AC


In [54]:
echo '10,xxx
20,yyy
30,zzz' > out.2
cat out.2

10,xxx
20,yyy
30,zzz


In [55]:
join -t, out.1 out.2

10,mark,AA,xxx
10,steve,AA,xxx
20,scott,AB,yyy
30,chris,AC,zzz


**Imprima la fecha**

In [56]:
date

Fri Feb 12 13:49:45 COT 2016


**Imprima el calendario de septiembre de 2016**.

In [57]:
cal 9 2016

   September 2016
Su Mo Tu We Th Fr Sa
             1  2  3
 4  5  6  7  8  9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30



**Cuál es el directorio actual de trabajo?**

In [58]:
pwd

/Users/jdvelasq/Google Drive/Moodle/3009768 Ciencia de los Datos aplicada/Presentaciones/02 Conceptos esenciales y herramientas basicas


**Liste los archivos out.\***

In [59]:
ls -l out.*

-rw-r--r--  1 jdvelasq  staff  47 Feb 12 13:49 out.1
-rw-r--r--  1 jdvelasq  staff  21 Feb 12 13:49 out.2
-rw-r--r--  1 jdvelasq  staff  24 Feb 12 13:49 out.3


**Cree un directorio llamado `data` dentro del dictorio actual y mueva los archivos `out.*` a él.**

In [60]:
mkdir data
mv out.* ./data
ls -l ./data

total 24
-rw-r--r--  1 jdvelasq  staff  47 Feb 12 13:49 out.1
-rw-r--r--  1 jdvelasq  staff  21 Feb 12 13:49 out.2
-rw-r--r--  1 jdvelasq  staff  24 Feb 12 13:49 out.3


Los archivos ya no están en el directorio actual.

In [61]:
ls -l out.*

ls: out.*: No such file or directory


**Muevase al directorio `data`.**

In [62]:
cd data



In [63]:
pwd

/Users/jdvelasq/Google Drive/Moodle/3009768 Ciencia de los Datos aplicada/Presentaciones/02 Conceptos esenciales y herramientas basicas/data


**Regrese al directorio superior**

In [64]:
cd ..



In [65]:
pwd

/Users/jdvelasq/Google Drive/Moodle/3009768 Ciencia de los Datos aplicada/Presentaciones/02 Conceptos esenciales y herramientas basicas


**Borre el directorio `data`.**  
Se genera un mensaje de error porque el directorio no esta vacío. Primero debe borrarse el contenido.

In [66]:
rmdir ./data

rmdir: ./data: Directory not empty


In [67]:
rm ./data/*     # borra todos los archivos
ls -l ./data/   # no muestra nada porque el directorio ./data esta vacío



In [68]:
rmdir ./data



In [70]:
ls -l data*  # ya no existe el directorio data.

ls: data.data*: No such file or directory
ls: directorio: No such file or directory
ls: el: No such file or directory
ls: existe: No such file or directory
ls: no: No such file or directory
ls: ya: No such file or directory
