<a href="https://colab.research.google.com/github/ptobarra/spain-ai-python-course-20201122/blob/main/lesson06_command_line_argparse_subprocess.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Introducción

En este notebooks trabajaremos la ejecución de scripts de Python desde la linea de comandos.

Para ello, primero haremos una pequeña introducción a la ventana de comandos en Linux que es una de las herramientas con las que vamos a trabajar en esta sección. A posteriori, se mostrarán los comandos más importantes para introducir argumentos dentro de nuestro script. Mostraremos las siguientes cauísticas:
- Pasar argumentos a un script de Python
- Realizar acciones (conteos,sumas,...) sobre los argumentos
- Pasar argumentos excluyentes

A posteriori, trabajaremos la librería subprocess, que nos permitirá ejecutar desde el propio python comandos de la Terminal y trabajar con su output.

## Ventana de comandos

La ventana de comandos (llamada también Terminal) es una herramienta que permite navegar, acceder, ejecutar scripts e interacturar de otras maneras con el ordenador, sin necesidad de utilizar una interfaz gráfica.

La Terminal permite realizar acciones complejas y ejecuciones de comandos que desde las aplicaciones no siempre es posible. 

Un ejemplo puede ser la búsqueda de ficheros dentro de una estructura de carpetas que siguen un determinado patrón, como puede ser que finalicen con los números 2-3 en su nombre (ese comando desde la terminal sería el siguiente: ``` find * -name '*.[2-3]'```).

Las ventanas de comandos de entornos Linux y Windows contienen comandos diferentes. Nos encontraremos entornos Linux en sistemas operativos como Ubuntu y generalmente los veremos cuando trabajemos con máquinas virtuales en entornos cloud. Cuando trabajamos en windos, los comandos tienen unas ligeras diferencias, aunque actualmente Windows ya cuenta con un subsistema integrado que permite usar una Terminal similar a la de Linux.

En nuestro caso, nos centraremos en los comandos básicos de esta herramienta que nos permitan movernos a nuestra carpeta de trabajo y ejecutar scripts de python con argumentos.



### Linux
La mayoría de comandos que podemos ejecutar, se pueden ejecutar con diferentes argumentos. 


```
- ls <path>: listar los ficheros y directorios dentro de una carpeta (list) no ocultos (comienzan por .<nombre-fichero>). Se suele utilizar ls <path>/* para mostrar todos los ficheros del directorio
- cd <path>: permite cambiar de directorio (change directory).
- pwd: Mostrar la ruta del directorio actual donde nos encontramos (print working directory).
- mkdir <path>: Crear una carpeta (make directory).
- rm <path>: Eliminar un fichero (remove). Si se introduce el flag -r (de recursive), permite eliminar un directorio.
- echo "text": Print de un texto
- # <texto libre>: la almohadilla permite tener una línea de comentarios.
- sudo <command>:  Ejecución de un comando como administrador.
- cat <file>: leer un fichero de lectura.
```


### Ejecución de comandos Linux y creación de ficheros dentro de notebooks
Podemos ejecutar comandos de Linux dentro de un notebook, dentro de una celda tipo código poniendo al inicio de todo el comando mágico:
```%%sh```. Lo veremos a continuación.

Por otro lado, con el comando mágico `%%writefile <file>` al inicio del notebook, podemos crear un fichero que se guardará con el nombre file. 

Durante todo el ejercicio trabajaremos con estos dos comandos.

*** Ejemplos prácticos con linux ***
En este caso, este Notebook que estamos trabajando corre sobre un sistema operativo Ubuntu. Eso lo podemos ver con el siguiente comando:

In [58]:
%%sh
 cat /etc/os-release

NAME="Ubuntu"
VERSION="18.04.5 LTS (Bionic Beaver)"
ID=ubuntu
ID_LIKE=debian
PRETTY_NAME="Ubuntu 18.04.5 LTS"
VERSION_ID="18.04"
HOME_URL="https://www.ubuntu.com/"
SUPPORT_URL="https://help.ubuntu.com/"
BUG_REPORT_URL="https://bugs.launchpad.net/ubuntu/"
PRIVACY_POLICY_URL="https://www.ubuntu.com/legal/terms-and-policies/privacy-policy"
VERSION_CODENAME=bionic
UBUNTU_CODENAME=bionic


In [59]:
 %%sh
## mostramos primero el directorio sobre el que estamos trabajando con pwd
echo "\n Print working directory..."
pwd 

## mostramos los ficheros que existen dentro de este directorio
echo "\nlist files..."
ls 

## mostramos los ficheros que existen dentro del directorio content
echo "\nlist files content..."
ls /content/*




 Print working directory...
/content

list files...
sample_data
script_examples

list files content...
/content/sample_data:
anscombe.json
california_housing_test.csv
california_housing_train.csv
mnist_test.csv
mnist_train_small.csv
README.md

/content/script_examples:
1_arg_parse_empty.py
2_arg_parse_initialization_help.py
2_arg_parse_initialization.py
3_arg_parse_trainpath_arg.py


In [60]:
%%sh
## creamos una carpeta llamada modelos
echo "\n mkdir models..."
mkdir -p models # -p fuerza a sobrescribir la carpeta si existe actualmente

#refresca las carpetas y mira si se ha creado models.



 mkdir models...


In [61]:
%%sh
# descomenta los siguientes comandos para eliminar la carpeta

echo "\n remove models directory..."
rm -r models # r significa recursive y es para eliminar la carpeta entera


 remove models directory...



#### Ejecución de scripts de python desde la ventana de comandos
Los scripts de python son generalmente guardados con la extensión .py.


Para la ejecución de scripts de Python dentro de la ventana de comandos, podemos hacerlo de dos maneras:
- ejecutando `python script.py`
- Introduciendo en la primera línea del script `#!/usr/bin/env python` y haciendo el script un ejecutable (chmod +x script.py). Esto nos permite ejecutar el script de python simplemente haciendo `./script.py`. La primera línea define donde está el ejecutable de python, de manera que si utilizaremos otro ejecutable de python (por ejemplo por diferente versión, que fuese con anaconda o con la librería del sistema), podríamos cambiar el comando y poner la ruta del ejecutable (p.e. `#!/usr/bin/python`)








In [62]:
%%writefile example.py
#!/usr/bin/env python
print("Hello, World!")

Writing example.py


In [63]:
%%sh
## ejecución poniendo python antes del nombre del script
echo "example con python\n"

python example.py

#Probemos con ./example.py
echo "example sin ser un ejecutable\n"
./example.py



example con python

Hello, World!
example sin ser un ejecutable



sh: 8: ./example.py: Permission denied


In [64]:
%%sh
## ejecución, haciendolo un fichero ejecutable (Ojo! tiene que contener #!/usr/bin/env python en la primera línea)
echo "example como ejecutable\n"
chmod +x example.py


example como ejecutable



In [65]:
%%sh
./example.py


Hello, World!


In [66]:
%%sh
## eliminamos el script
rm example.py

Conocer estas herramientas es muy importante para el trabajo del día a día de un desarrollador en Python, si queréis seguir aprendiendo Shell Scripting recomiendo:
- https://www.learnshell.org/

### Windows
La ventana de comandos **cmd** de Windows no es igual que la de sistemas operativos sobre Linux,  actualmente Windows ya cuenta con un subsistema integrado que permite usar una Terminal similar a la de Linux.
- Si queréis instalar esto: https://docs.microsoft.com/es-es/windows/wsl/install-win10
- Por otro lado, si preferís usar la ventana de comandos, os mostramos los principales comandos: http://www.dba-oracle.com/t_windows_dos_unix_linux_commands.htm
#### Diferente nombrado de ficheros en Windows

Algo a tener en cuenta importante es que en Windows separa rutas de ficheros por backslash `\` mientras que en Linux es con slash `/`, así, para acceder a una ruta es:
- Windows: "G:\Engineering\Software_Development\python\Tool"
- Ubuntu: "/Engineering/Software_Development/python/Tool"


## Preparación del entorno
A continuación preparamos el entorno para la sesión de hoy:
1. Creamos la carpeta script_examples donde guardaremos los ejercicios realizados durante esta sesión.
2. Verificamos que tenemos la carpeta sample_data con el fichero california_housing_train.csv


In [67]:
%%sh
mkdir -p script_examples


In [68]:
import os
import subprocess
path = "sample_data/california_housing_train.csv"
url = "https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv"
# veo si extiste la ruta path
if os.path.exists(path):
  print(f"El fichero {path} existe")
else:
  print(f"El fichero {path} no existe")
  # si tampoco existe el directorio sample_data lo creas
  if not os.path.exists("sample_data"): os.mkdir("sample_data")
  args = ['wget', url,"-O",path]
  # voy a usar el subprocess para ejecutar el comando ['wget', url,"-O",path]
  output = subprocess.Popen(args, stdout=subprocess.PIPE)


El fichero sample_data/california_housing_train.csv existe


In [69]:
%%sh
wget

wget: missing URL
Usage: wget [OPTION]... [URL]...

Try `wget --help' for more options.


In [70]:
# si a wget le paso la url del fichero q quiero descargar y luego le paso el argumento '-O' y le meto la ruta sample_data/california_housing_train.csv

%%sh
wget "https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv" -O sample_data/california_housing_train.csv

--2020-12-12 15:43:51--  https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv
Resolving dl.google.com (dl.google.com)... 173.194.214.136, 173.194.214.93, 173.194.214.91, ...
Connecting to dl.google.com (dl.google.com)|173.194.214.136|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 1706430 (1.6M) [text/csv]
Saving to: ‘sample_data/california_housing_train.csv’

     0K .......... .......... .......... .......... ..........  3% 44.5M 0s
    50K .......... .......... .......... .......... ..........  6% 44.1M 0s
   100K .......... .......... .......... .......... ..........  9% 50.3M 0s
   150K .......... .......... .......... .......... .......... 12% 40.6M 0s
   200K .......... .......... .......... .......... .......... 15% 39.3M 0s
   250K .......... .......... .......... .......... .......... 18% 47.3M 0s
   300K .......... .......... .......... .......... .......... 21% 56.1M 0s
   350K .......... .......... .......... .......... .........

In [71]:
# el output que me da en la celda anterior es lo q se almacena en la variable 'output' de la celda 10 y podria trabajar con ello si me interesara.
# no me interesa pq solo me indica el % de dasrcaga q lleva ese archivo

# dos celdas anteriores he usado la libreria subprocess para hacer algo q yo podria hacer desde la terminal

# por tanto en:
  # args = ['wget', url,"-O",path]  
  # output = subprocess.Popen(args, stdout=subprocess.PIPE)
# he usado la libreria subprocess para hacer lo equivalente a la celda anterior sin necesidad de usar el terminal 

# Introducción a Argparse
En esta introducción veremos varios ejemplos de como trabajar con argparse. Esta librería nos permite pasar argumentos a los scripts de python para ejecutarlos.

- Pasar argumentos con valores por defecto
- Realizar acciones sobre los argumentos
- Pasar argumentos excluyentes



Para demostrar como trabaja Python con argparse, lo primero que vamos a hacer es crear un fichero que no use estos comandos y ver que sucede cuando lo llamamos desde la terminal introduciendole diferentes argumentos:

In [72]:
%%writefile script_examples/1_arg_parse_empty.py
#! /usr/bin/env python 
# Este script no contiene argparse
print("Hello, World!")

Overwriting script_examples/1_arg_parse_empty.py


In [73]:
# hacemos 1o un ej sin argsparse y luego otro ejemplo con argsparse

In [74]:
%%sh
python script_examples/1_arg_parse_empty.py --help

Hello, World!


Vemos que no sucede absolutamente nada debido a que los argumentos que hemos pasado por la terminal, no son tratados interiormente en el script.


In [75]:
# incluso le puedo meter todos los argumentos q quiera
%%sh
python script_examples/1_arg_parse_empty.py --help --dghgfjkdsfhdaskj --fdhjfkdhsklj sdjksldña

Hello, World!


In [76]:
# en celda anterior la info q yo meto en el script no esta siendo ni interpretada ni usada por el script

Sin embargo, ahora probamos a introducir dentro del script la librería argparse.

In [77]:
# ahora con 3 lineas la cosa cambia completamente

In [78]:
%%writefile script_examples/2_arg_parse_initialization.py
#! /usr/bin/env python 
import argparse # importo la libreria
parser = argparse.ArgumentParser() # creo el objeto parser a partir de ArgumentParser
parser.parse_args() # ejecuto el metodo parse_args()
print("Hello, World!")

Overwriting script_examples/2_arg_parse_initialization.py


In [79]:
%%sh
python script_examples/2_arg_parse_initialization.py --help

usage: 2_arg_parse_initialization.py [-h]

optional arguments:
  -h, --help  show this help message and exit


In [80]:
# en respuesta celda anterior me da una info de ayuda para ejecutar el script desde la ventana de comandos
# me da la info anterior pq por defecto argsparse contiene el argumento --help
# ese argumento lo puedo convocar como --help o -h

In [81]:
%%sh
python script_examples/2_arg_parse_initialization.py -h

usage: 2_arg_parse_initialization.py [-h]

optional arguments:
  -h, --help  show this help message and exit


In [82]:
%%sh
python script_examples/2_arg_parse_initialization.py -dhfgdkjghdfkljsh

usage: 2_arg_parse_initialization.py [-h]
2_arg_parse_initialization.py: error: unrecognized arguments: -dhfgdkjghdfkljsh


In [83]:
# en celda anterior he invocado un argumento no definido dentro del scrip y entonces da error

**¿Qué vemos aquí?**
- Simplemente con introducir esta librería, inicializarla con el ArgumentParser y utizar el método parse_args, python ya interpreta que va a tener unos argumentos.
- Al pasar --help nos devuelve el único argumento definido dentro de esta librería por defecto. 
- Esta opción help, nos muestra en los comandos que también puede ser ejecutada con el argumento -h. 
- Si introducimos otro argumento como -b, que no esté definido dentro del script, nos llevará igualmente a este output de ayuda.
- Es importante ver que el interior del script no se ha ejecutado y no ha mostrado el texto Hello, World!

**Ejercicio práctico**

¿ Qué sucede si ejecutamos el script `script_examples/2_arg_parse_initialization.py` sin ningún argumento?
1. Se ejecutará, mostrando Hello, Word y luego mostrará los argumentos opcionales.
2. Ejecutará el script, mostrando Hello, World!.
3. No se ejecutará y mostrará los argumentos opcionales.

In [84]:
%%sh
### EJERCICIO
python script_examples/2_arg_parse_initialization.py

Hello, World!


In [85]:
# en la celda anterior ejecutamos el scrip sin argumentos y entonces se ejecuta el script por defecto --> se ejecuta la solucion '2'

Hemos visto como el comando help nos devuelve una descripción de uso por defecto. En caso de escribir mal los argumentos, también nos saldrá esta ventana. Podemos modificar el output que mostramos en la ventana. Veamos unos ejemplos

In [86]:
%%writefile script_examples/2_arg_parse_initialization_help.py
#! /usr/bin/env python 
import argparse
parser = argparse.ArgumentParser(prog="program.py",description="Script that prints Hello World.")
parser.parse_args()
print("Hello, World!")



Overwriting script_examples/2_arg_parse_initialization_help.py


In [87]:
# profe nos va a enseñar un poquito como configurar lo que se muestra en la ventana de help

In [88]:
%%sh
python script_examples/2_arg_parse_initialization.py -h

usage: 2_arg_parse_initialization.py [-h]

optional arguments:
  -h, --help  show this help message and exit


In [89]:
# en 'usage: 2_arg_parse_initialization.py [-h]' te dice como se usa este script pasándole argumentos
# como vemos pone argumentos opcionales y entre ellos '-h'
# y en 'usage:' te muestra el nombre del script: '2_arg_parse_initialization'

In [90]:
%%sh
./script_examples/2_arg_parse_initialization_help.py --help 

sh: 1: ./script_examples/2_arg_parse_initialization_help.py: Permission denied


* El argumento prog por defecto muestra el nombre del script, pero podemos modificarlo.
* Podemos (y deberíamos) mostrar una descripción de lo que hace el programa.

In [91]:
# con el prog en celda de abajo yo puedo cambiar q se muestre el nombre del script por otra cosa
# con el prog yo le paso el argumento "program.py" al ArgumentParser y pongo, por ejemplo, el program.py ; y luego incluso le puedo añadir una description a esa ventana de help.

Por otro lado, podemos probar dentro del propio script el paso de los argumentos

In [92]:
%%writefile script_examples/2_arg_parse_initialization_help.py
#! /usr/bin/env python 
import argparse
parser = argparse.ArgumentParser(prog="program.py",description="Script that prints Hello World.")
parser.parse_args()
print("Hello, World!")

print(parser.parse_args(["-h"]))



Overwriting script_examples/2_arg_parse_initialization_help.py


In [93]:
%%sh
python script_examples/2_arg_parse_initialization_help.py --help

usage: program.py [-h]

Script that prints Hello World.

optional arguments:
  -h, --help  show this help message and exit


In [94]:
# vemos q hemos cambiado el program.py ya que antes loq aparecia era el nombre del script.

# en la siguiente celda voy a ejecutar los dos bloques de codigo anterior pero quitando el prog="program.py"

In [95]:
%%writefile script_examples/2_arg_parse_initialization_help.py
#! /usr/bin/env python 
import argparse
parser = argparse.ArgumentParser(description="Script that prints Hello World.")
parser.parse_args()
print("Hello, World!")

print(parser.parse_args(["-h"]))

Overwriting script_examples/2_arg_parse_initialization_help.py


In [96]:
%%sh
python script_examples/2_arg_parse_initialization_help.py --help

usage: 2_arg_parse_initialization_help.py [-h]

Script that prints Hello World.

optional arguments:
  -h, --help  show this help message and exit


In [97]:
%%sh
python script_examples/2_arg_parse_initialization_help.py -h

usage: 2_arg_parse_initialization_help.py [-h]

Script that prints Hello World.

optional arguments:
  -h, --help  show this help message and exit


In [98]:
# y vemos que tras haber quitado el prog en usage: me sale el nombre del script '2_arg_parse_initialization_help.py'

# lo de cambiar la 'description' es muy importante para una persona que coja por 1a vez el script q sepa como ejecutarlo.

# en el caso anteior la description q le hemos metido es "Script that prints Hello World."

# y si lo ejecuto sin -h ni --help me sigue mostranso el "Hello, World!" y lo demás lo mismo.

In [99]:
%%sh
python script_examples/2_arg_parse_initialization_help.py

Hello, World!
usage: 2_arg_parse_initialization_help.py [-h]

Script that prints Hello World.

optional arguments:
  -h, --help  show this help message and exit


In [100]:
# vamos a ver ahora como yo puedo sin necesidad de ir a la ventana, a la terminal, hacer pruebas de q es loq pasaria si yo le meto argumentos a mi script

# lo q quiere decir profe esq siempre tiene q trabajar con 2 celdas: la 1a celda donde defino el script, la 2a celda donde ejecuto el script

"""
%%writefile script_examples/2_arg_parse_initialization_help.py
#! /usr/bin/env python 
import argparse
parser = argparse.ArgumentParser(prog="program.py",description="Script that prints Hello World.")
parser.parse_args()
print("Hello, World!")

print(parser.parse_args(["-h"]))
"""

"""
%%sh
python script_examples/2_arg_parse_initialization_help.py --help
"""

# con el argumento parse_args y con 'print(parser.parse_args(["-h"]))' me muestra lo mismo q si yo le pasara el argumento "-h" 
# i.e. "python script_examples/2_arg_parse_initialization_help.py --h"

#loq pasa esq como en celda de abajo 'print(parser.parse_args(["-h"]))' me lo está ejecutando dentro de la parte del script

'\n%%sh\npython script_examples/2_arg_parse_initialization_help.py --help\n'

In [101]:
%%writefile script_examples/2_arg_parse_initialization_help.py
#! /usr/bin/env python 
import argparse
parser = argparse.ArgumentParser(description="Script that prints Hello World.")
parser.parse_args()
print("Hello, World!")

print(parser.parse_args(["-h"]))

Overwriting script_examples/2_arg_parse_initialization_help.py


In [102]:
# ahora vamos a ver como podemos pasarle argumentos a nuestro script.
# pq hasta ahora solo hemos visto el argumento q tenia por defecto q es el 'help'
# pero yo a veces querré pasarle argumentos mas complicados y q me los interprete

## Pasar argumentos con valores por defecto
Consideraremos ahora el caso en el que queremos pasar la ruta de un fichero a un script en Python con el que entrenaremos nuestros datos de un modelo de machine learning. 
Para acceder a los argumentos introducidos mediante la ventana de comandos, realizamos los siguientes pasos:

1. Identifica que argumentos vas a pasar por la ventana de comandos
2. Crea el objeto parser a partir del argparse.ArgumentParser() y de manera opcional aunque recomendable, añade una descripción del script.
3. utilizar el método add_argument para añadir los argumentos identificados en el paso uso.
  - Añade el argumento y su abreviación, el tipo de variable, una descripción de ayuda y un parámetro por defecto (sino por defecto es None).
  - accede a ese argumento mediante `args.<argumento>`.



In [103]:
%%writefile script_examples/3_arg_parse_trainpath_arg.py
#! /usr/bin/env python 
import argparse
# 1o - creamos el objeto parser
parser = argparse.ArgumentParser(description="Script that prints a training path.")
# 2o - añadimos un argumento al objeto parser
# por argumento le meto el "--training_path" que sera la ruta del fichero de un fichero de training para un modelo para un de ml q usemos.
# -t es la abreviatura del argumento --training_path, el type es string str, con el help ponemos descripcion de paraq sirve este argumento.
# si no le paso un --training_path el script va a ver q el default=None
parser.add_argument("--training_path","-t", type=str,
                    help="Path to training data",
                    default=None)

# 3o - ejecuto el metodo parse_args() sobre el objeto parser --> pero ahora me quedo con loq estoy metiendo q se queda en args
args = parser.parse_args()
# 4o - accedo al argumento q le he pasado con args.nombre_abreviado_del_argumento
training_path = args.training_path
print(training_path)

Overwriting script_examples/3_arg_parse_trainpath_arg.py


In [104]:
# al ejecutar la celda anterior creamos el fichero script_examples/3_arg_parse_trainpath_arg.py

In [105]:
%%sh
# primero lo probamos con el comando --help y luego lo probamos con el --training_path
python script_examples/3_arg_parse_trainpath_arg.py --help 

usage: 3_arg_parse_trainpath_arg.py [-h] [--training_path TRAINING_PATH]

Script that prints a training path.

optional arguments:
  -h, --help            show this help message and exit
  --training_path TRAINING_PATH, -t TRAINING_PATH
                        Path to training data


In [106]:
# vemos q en help nos aparece el nuevo argumento q le hemos metido '--training_path TRAINING_PATH,'
# y el TRAINING_PATH significará la variable de --training_path q le vamos a meter, q es la ruta del fichero q vamos a usar.
# 'Path to training data' es la ruta q le hemos metido dentro del help

In [107]:
%%sh
# primero lo probamos con el comando --help y luego lo probamos con el --training_path
# python script_examples/3_arg_parse_trainpath_arg.py --help 
echo "\n"
echo "Running with path argument..."
echo "\n"
python script_examples/3_arg_parse_trainpath_arg.py --training_path "sample_data/mnist_test.csv"



Running with path argument...


sample_data/mnist_test.csv


In [108]:
# en la celda anterior he pasado el argumento:
"""
parser.add_argument("--training_path","-t", type=str,
                    help="Path to training data",
                    default=None)
"""
# lo he guardado en 'args = parser.parse_args()'
# he entrado en 'training_path = args.training_path'
# y he hecho un print 'print(training_path)' y nos muestra justamente el argumento q le hemos metido "sample_data/mnist_test.csv"

'\nparser.add_argument("--training_path","-t", type=str,\n                    help="Path to training data",\n                    default=None)\n'

In [109]:
%%sh
# pero tb le puedo pasar una ruta erronea
echo "\n"
echo "Running with path argument..."
echo "\n"
python script_examples/3_arg_parse_trainpath_arg.py --training_path "sample_data/mnist_test.csvHJGKLFHJGFHÑLJGL"



Running with path argument...


sample_data/mnist_test.csvHJGKLFHJGFHÑLJGL


In [110]:
# por ello cuando le pasamos una ruta hemos de ver si existe con la libreria os y la funcion de arriba
"""
import os
import subprocess
path = "sample_data/california_housing_train.csv"
url = "https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv"
# veo si extiste la ruta path
if os.path.exists(path):
  print(f"El fichero {path} existe")
else:
  print(f"El fichero {path} no existe")
  # si tampoco existe el directorio sample_data lo creas
  if not os.path.exists("sample_data"): os.mkdir("sample_data")
  args = ['wget', url,"-O",path]
  # voy a usar el subprocess para ejecutar el comando ['wget', url,"-O",path]
  output = subprocess.Popen(args, stdout=subprocess.PIPE)
"""

# pq claramente si la ruta no existe luego nos va a dar error pero para este ejemplo no hace falta

'\nimport os\nimport subprocess\npath = "sample_data/california_housing_train.csv"\nurl = "https://dl.google.com/mlcc/mledu-datasets/california_housing_train.csv"\n# veo si extiste la ruta path\nif os.path.exists(path):\n  print(f"El fichero {path} existe")\nelse:\n  print(f"El fichero {path} no existe")\n  # si tampoco existe el directorio sample_data lo creas\n  if not os.path.exists("sample_data"): os.mkdir("sample_data")\n  args = [\'wget\', url,"-O",path]\n  # voy a usar el subprocess para ejecutar el comando [\'wget\', url,"-O",path]\n  output = subprocess.Popen(args, stdout=subprocess.PIPE)\n'

- Vemos ahora que el comando --training_path aparece dentro de la ventana de ayuda y que contiene una descripción.


A continuación veamos un ejemplo con múltiples argumentos de diferentes tipos donde veremos:
- como introducir una lista como argumento (nargs='+')
- cambiar el valor por defecto de un argumento (default=1000, si no se cambia está en None).
- cambiar el type del argumento a entero (type=int)
- definir solo un conjunto de opciones posibles para pasar como argumento (choices=[10,100,500,1000]).




In [112]:
# vamos a ver q pasa si le queremos meter otra serie de argumentos aqui

%%writefile script_examples/4_arg_parse_trainpath_arg.py
#! /usr/bin/env python 
import argparse
import pandas as pd
parser = argparse.ArgumentParser()
# 1o mantenemos el argumento delq habiamos hablado antes q es el --training_path pero añadiendole 'required=True' q significa q si yo no le meto el
# training_path el script no se va a ejecutar
parser.add_argument("--training_path","-t", type=str,
                    help="Path to training data",
                    default=None,required=True)
# las features son las columnas q voy a usar para entrenar los datos.
# van a ser multiples columnas q le voy a meter. entonces yo tengo q tener una funcion nargs='+' qw loq hace es ir concatenando las features para al
# final tener una lista de todas las columnas q se han introducido.
# pero con nargs='+' yo le meto multiples columnas -f "median_income" "total_rooms" "housing_median_age" "total_bedrooms" y, a posteriori, se guardaran
# en features = args.features como una lista. y tb en df.columns
parser.add_argument("--features","-f", type=str,
                    help="cols used to train data",
                    default=None,nargs='+')
# el argumento target es la columna q nos sirve de target dentro de nuestro dataset q tb es un str y default=None 
# target es la columna predictiva y sobre la cual luego vamos a tener predicciones
parser.add_argument("--target","-y", type=str,
                    help="target column",
                    default=None)
# por ultimo le metemos el numero de filas q vamos a coger dentro de nuevo dataset.
# el numero de ejemplos q usaremos dentro del fichero q hemos pasado.
# choices se usa paraq cuando introducimos un argumento solo queremos q tenga unos valores definidos. por ej quiero q el numero de filas sean 10, 100,
# 500 o 1000 pero no 299
parser.add_argument("--nrows","-n", type=int,
                    help="target column",
                    choices=[10, 100, 500, 1000],
                    default=1000)

# vamos a usar el california_housing_train.csv y por ello es por loq profe en celda anterior verificaba q tuvieramos estos datos


args = parser.parse_args()
# de la misma manera q hemos hablado antes cogemos las 4 variables con args.training_path, args.features, args.target, args.nrows y las
# asignamos a training_path, features, target, nrows
training_path = args.training_path
features = args.features
target = args.target
nrows = args.nrows

# a continuacion usamos la libreria pandas para leer el csv donde yo le estoy indicando el fichero de entrada training_path, el usecols q van a ser
# las columnas q yo voy a cargar dentro de la tabla con laq voy a trabajar q en este caso van a ser las features mas el target [*features, target].
# y luego por otro lado voy a introducir el numero de filas q voy a leer nrows=nrows dentro de todo el fichero training_path.
# si clicamos a la izquierda en california_housing_train.csv, a la derecha nos saldra la tabla q estamos cargando.
df = pd.read_csv(training_path,usecols=[*features, target],nrows=nrows)
# a continuacion mostramos las columnas q contiene
print("columns loaded:")
print(df.columns)
# mostramos el numero de rows
print("number of rows: ",len(df))
# mostramos las 3 1as filas
print("first 3 rows of the dataframe:")
print(df.head(3))

Overwriting script_examples/4_arg_parse_trainpath_arg.py


In [115]:
%%sh
# en este ejemplo le paso el fichero california_housing_train.csv, el target es "median_house_value", y luego le voy a meter todas las demas 
# columnas q van a ser mis features con lasq entrenamos el modelo: -f  "median_income" "total_rooms" "housing_median_age" "total_bedrooms".
# las 4 anteriores van a ser las variables con lasq yo prediga la variable target y por eso profe las diferencia
python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value" -f  "median_income" "total_rooms" "housing_median_age" "total_bedrooms" \
        -n 100      

columns loaded:
Index(['housing_median_age', 'total_rooms', 'total_bedrooms', 'median_income',
       'median_house_value'],
      dtype='object')
number of rows:  100
first 3 rows of the dataframe:
   housing_median_age  total_rooms  ...  median_income  median_house_value
0                15.0       5612.0  ...         1.4936             66900.0
1                19.0       7650.0  ...         1.8200             80100.0
2                17.0        720.0  ...         1.6509             85700.0

[3 rows x 5 columns]


Usando aquí la librería pandas adicionalmente (muy usada en proyectos de Data Science), vemos como hemos sido capaces de acceder al fichero `sample_data/california_housing_train.csv`, seleccionar el target y elegir las variables "median_income","total_rooms,"housing_median_age" y "total_bedrooms.
Esto es un buen ejemplo de como podríamos ejecutar un modelo de machine Learning pasando un fichero diferente, con diferentes nombres de variables!


In [116]:
# imaginemos q quiero usar el modelo anterior pero en vez de usar las 4 variables anteriores solo quiero usar "median_income" y "total_rooms" pq 
# quiero probar el poder predictivo solo con las dos con las q me quedo.
# entonces podría hacer un modelo q solo tuviera esas variables.
# y no tenemos q entrar ni cambiar nada en codigo. solo pasando diferentes argumentos yo podria hacerlo.
# y tambien podria trabajar con nrows
%%sh

python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value" -f  "median_income" "total_rooms" \
        -n 100 

columns loaded:
Index(['total_rooms', 'median_income', 'median_house_value'], dtype='object')
number of rows:  100
first 3 rows of the dataframe:
   total_rooms  median_income  median_house_value
0       5612.0         1.4936             66900.0
1       7650.0         1.8200             80100.0
2        720.0         1.6509             85700.0


Veamos ahora como ejemplo un modelo de Machine Learning.
**Esto es meramente como ejemplo, no os preocupais no entendeis el código!**

In [117]:
# para q me salgan 10 rows pongo -n 10
%%sh
python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value" -f  "median_income" "total_rooms" \
        -n 10

columns loaded:
Index(['total_rooms', 'median_income', 'median_house_value'], dtype='object')
number of rows:  10
first 3 rows of the dataframe:
   total_rooms  median_income  median_house_value
0       5612.0         1.4936             66900.0
1       7650.0         1.8200             80100.0
2        720.0         1.6509             85700.0


In [118]:
# si le pongo 99 rows me dara error
%%sh
python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value" -f  "median_income" "total_rooms" \
        -n 99

usage: 4_arg_parse_trainpath_arg.py [-h] --training_path TRAINING_PATH
                                    [--features FEATURES [FEATURES ...]]
                                    [--target TARGET]
                                    [--nrows {10,100,500,1000}]
4_arg_parse_trainpath_arg.py: error: argument --nrows/-n: invalid choice: 99 (choose from 10, 100, 500, 1000)


In [119]:
# a continuacion un ej real de como podriamos usar esta libreria para ejecutar un modelo de data science

# en este caso al script anterior lo unico q hemos hecho es añadirle un modelo predictivo sobre la variable target y en base a las columnas q habiamos
# definido como features.

# profe nos va a enseñar como realizar un modelo predictivo con argparse

%%writefile script_examples/4_arg_parse_trainpath_arg.py
#! /usr/bin/env python 
import argparse
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

parser = argparse.ArgumentParser()
parser.add_argument("--training_path","-t", type=str,
                    help="Path to training data",
                    default=None,required=True)
# si --features None entonces le digo q me coja todas las columnas del dataset
parser.add_argument("--features","-f", type=str,
                    help="cols used to train data",
                    default=None,nargs='+')
parser.add_argument("--target","-y", type=str,
                    help="target column",
                    default=None)
parser.add_argument("--nrows","-n", type=int,
                    help="target column",
                    choices=[10, 100,500, 1000],
                    default=None)




args = parser.parse_args()
training_path = args.training_path
features = args.features
target = args.target
nrows = args.nrows
# en caso de que no se pasen las variables, que coja todas las columns
df_cols = [*features, target] if features!=None else None
df = pd.read_csv(training_path,usecols=df_cols,nrows=nrows)
# si features=None entonces en siguiente linea le digo q me coja todas las variables del dataset excepto el target pq es loq queremos predecir.
features = features if features!=None else [col for col in df.columns if col!=target]
X = df[features]
y = df[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# inicializa y entrena el modelo
model = xgb.XGBRegressor()
model.fit(X_train, y_train)
# hacemos predicciones sobre Y
y_pred = model.predict(X_test)
# evaluamos predicciones
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE: %.2f" % (rmse))
print(model)

Overwriting script_examples/4_arg_parse_trainpath_arg.py


In [120]:
%%sh
python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value" -f  "median_income" "total_rooms" "housing_median_age" "total_bedrooms"
      

RMSE: 71830.61
XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)


In [None]:
# por RMSE: 71830.61 vemos q no es el mejor q existe pero sirve como ejemplo para quedarnos con la idea de pq es importante trabajar con esta
# libreria.

Ahora probamos con todas las demás variables.

In [None]:
%%sh
python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value"

RMSE: 55030.18
XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)


In [None]:
# loq nos acaba de comentar profe se usa mucho dentro de proyectos de data science y por ello q veamos el potencial.

# profe a continuacion nos deja un pequeño ejercicio practico. profe nos recomienda que intentemos meter los parametros de la celda siguiente como
# nuevos parametros.

**Ejercicio práctico**

En el script anterior, permite que se introduzcan los siguientes parámetros para el modelo:
- learning_rate: con un valor por defecto de 0.1
- max_depth: con unos valores posibles de [3,5,8,10]
- reg_alpha: Parámetro de regularización que por defecto sea 0.1



In [121]:
"""
los 3 parametros anteriores estan dentro del modelo:

XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)
"""

"\nlos 3 parametros anteriores estan dentro del modelo:\n\nXGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,\n             colsample_bynode=1, colsample_bytree=1, gamma=0,\n             importance_type='gain', learning_rate=0.1, max_delta_step=0,\n             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,\n             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,\n             reg_alpha=0, reg_lambda=1, scale_pos_weight=1, seed=None,\n             silent=None, subsample=1, verbosity=1)\n"

In [122]:
### EJERCICIO

%%writefile script_examples/4_arg_parse_trainpath_arg.py
#! /usr/bin/env python 
import argparse
import pandas as pd
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

parser = argparse.ArgumentParser()
parser.add_argument("--training_path","-t", type=str,
                    help="Path to training data",
                    default=None,required=True)
parser.add_argument("--features","-f", type=str,
                    help="cols used to train data",
                    default=None,nargs='+')
parser.add_argument("--target","-y", type=str,
                    help="target column",
                    default=None)
parser.add_argument("--nrows","-n", type=int,
                    help="n rows",
                    choices=[10, 100,500, 1000],
                    default=None)
parser.add_argument("--learning_rate","-lr", type=float,
                    help="learning_rate",                    
                    default=0.1)
parser.add_argument("--max_depth","-md", type=int,
                    help="max_depth",
                    choices=[3,5,8,10],
                    default=3)
parser.add_argument("--reg_alpha","-rg", type=float,
                    help="reg_alpha",                    
                    default=0.1)


args = parser.parse_args()
training_path = args.training_path
features = args.features
target = args.target
nrows = args.nrows
learning_rate = args.learning_rate
max_depth=args.max_depth
reg_alpha=args.reg_alpha

# en caso de que no se pasen las variables, que coja todas las columans
df_cols = [*features, target] if features!=None else None
df = pd.read_csv(training_path,usecols=df_cols,nrows=nrows)
features = features if features!=None else [col for col in df.columns if col!=target]
X = df[features]
y = df[target]
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# inicializa y entrena el modelo
model = xgb.XGBRegressor(learning_rate=learning_rate, max_depth=max_depth, reg_alpha=reg_alpha)
model.fit(X_train, y_train)
# hacemos predicciones sobre Y
y_pred = model.predict(X_test)
# evaluamos predicciones
rmse = np.sqrt(mean_squared_error(y_test, y_pred))
print("RMSE: %.2f" % (rmse))
print(model)

Overwriting script_examples/4_arg_parse_trainpath_arg.py


In [123]:
%%sh
python script_examples/4_arg_parse_trainpath_arg.py -t sample_data/california_housing_train.csv\
        -y "median_house_value" -f  "median_income" "total_rooms" "housing_median_age" "total_bedrooms"

RMSE: 71830.61
XGBRegressor(base_score=0.5, booster='gbtree', colsample_bylevel=1,
             colsample_bynode=1, colsample_bytree=1, gamma=0,
             importance_type='gain', learning_rate=0.1, max_delta_step=0,
             max_depth=3, min_child_weight=1, missing=None, n_estimators=100,
             n_jobs=1, nthread=None, objective='reg:linear', random_state=0,
             reg_alpha=0.1, reg_lambda=1, scale_pos_weight=1, seed=None,
             silent=None, subsample=1, verbosity=1)


In [124]:
# loq quiere profe esq aprendamos a buscar y q empecemos a adentrarnos en este mundo para cuando hagamos nuestro 1er modelo de data science

## (OPCIONAL) Realizar acciones sobre los argumentos
A continuación, veremos que es posible también realizar acciones sobre los argumentos. Por ejemplo, si introducimos múltiples argumentos -v, juntar los resultados, contar el número de veces que aparecen o mostrar por ejemplo la versión.

In [None]:
%%writefile script_examples/5_arg_parse_trainpath_arg_action.py
#! /usr/bin/env python 
import argparse
import pandas as pd
parser = argparse.ArgumentParser(description="Script to count number of -v") 
parser.add_argument('--verbose', '-v', action='count', default=0) # 
parser.add_argument('--version', action='version', version='%(prog)s 2.0')
args = parser.parse_args()
verbose = args.verbose
version = args.version
print("number of v: ",verbose)
print("version: ",version)


Overwriting script_examples/5_arg_parse_trainpath_arg_action.py


In [None]:
%%sh
python script_examples/5_arg_parse_trainpath_arg_action.py -v -v --version
      

myscript.py 2.0


Por otro lado, podemos hacer sumas sobre argumentos que pasemos al script.



In [None]:
%%writefile script_examples/6_arg_parse_trainpath_arg_action.py
#! /usr/bin/env python 
import argparse
import pandas as pd
parser = argparse.ArgumentParser(description="Script to show different actions on arguments") 
parser.add_argument('integers', metavar='N', type=int, nargs='+',
                    help='enteros para el acumulador')
parser.add_argument('--sum', dest='accumulate', action='store_const',
                    const=sum, default=max,
                    help='suma (default:encuentra el max)')
parser.add_argument('--version', action='version', version='%(prog)s 2.0',default="1.0.0")
args = parser.parse_args()
print(args.accumulate(args.integers))


Overwriting script_examples/6_arg_parse_trainpath_arg_action.py


In [None]:
%%sh
## por defecto sale el máximo
python script_examples/6_arg_parse_trainpath_arg_action.py 1 2 3 4 5
## 
echo "\nwith sum..."
python script_examples/6_arg_parse_trainpath_arg_action.py 1 2 3 4 5 --sum

1

with sum...
15


Por otro lado, podemos hacer 

In [None]:
%%writefile script_examples/7_arg_parse_trainpath_arg_action.py
#! /usr/bin/env python 
import argparse

parser = argparse.ArgumentParser()

parser.add_argument('-s', action='store', dest='simple_value',
                    help='Guardar un valor simple')

parser.add_argument('-c', action='store_const', dest='constant_value',
                    const='value-to-store',
                    help='Guardar una constante')

parser.add_argument('-t', action='store_true', default=False,
                    dest='boolean_switch',
                    help='Poner un switch a true')
parser.add_argument('-f', action='store_false', default=False,
                    dest='boolean_switch',
                    help='Poner switch a false')

parser.add_argument('-a', action='append', dest='collection',
                    default=[],
                    help='Añadir valores repetidos a una lista',
                    )

parser.add_argument('-A', action='append_const', dest='const_collection',
                    const='value-1-to-append',
                    default=[],
                    help='Añadir valores diferentes a una lista')
parser.add_argument('-B', action='append_const', dest='const_collection',
                    const='value-2-to-append',
                    help='Añadir valores diferentes a una lista')

parser.add_argument('--version', action='version', version='%(prog)s 1.0')

results = parser.parse_args()
print ('simple_value     =', results.simple_value)
print ('constant_value   =', results.constant_value)
print ('boolean_switch   =', results.boolean_switch)
print ('collection       =', results.collection)
print ('const_collection =', results.const_collection)

Writing script_examples/7_arg_parse_trainpath_arg_action.py


In [None]:
%%sh
script_path="script_examples/7_arg_parse_trainpath_arg_action.py"
echo "\nhelp\n"
python $script_path -h
echo "\n-s value \n"

python $script_path -s value
echo "\n-c \n"

python $script_path -c


echo "\n-t \n"
python $script_path -t
echo "\n-f \n"

python $script_path -f
echo " \n-a one -a two -a three \n"

python $script_path -a one -a two -a three

echo "\n -B -A \n"

python $script_path -B -A




help

usage: 7_arg_parse_trainpath_arg_action.py [-h] [-s SIMPLE_VALUE] [-c] [-t]
                                           [-f] [-a COLLECTION] [-A] [-B]
                                           [--version]

optional arguments:
  -h, --help       show this help message and exit
  -s SIMPLE_VALUE  Guardar un valor simple
  -c               Guardar una constante
  -t               Poner un switch a true
  -f               Poner switch a false
  -a COLLECTION    Añadir valores repetidos a una lista
  -A               Añadir valores diferentes a una lista
  -B               Añadir valores diferentes a una lista
  --version        show program's version number and exit

-s value 

simple_value     = value
constant_value   = None
boolean_switch   = False
collection       = []
const_collection = []

-c 

simple_value     = None
constant_value   = value-to-store
boolean_switch   = False
collection       = []
const_collection = []

-t 

simple_value     = None
constant_value   = None
boole

## (OPCIONAL) Pasar argumentos excluyentes
A veces, sucede que dos argumentos no pueden producirse en la misma ejecución, es por ello que utilizamos los argumentos excluyentes.

In [None]:
%%writefile script_examples/8_arg_parse_trainpath_arg_exclusive.py
#! /usr/bin/env python 
import argparse

parser = argparse.ArgumentParser()
group = parser.add_mutually_exclusive_group()
group.add_argument("-v", "--verbose", action="store_true")
group.add_argument("-q", "--quiet", action="store_true")
parser.add_argument("x", type=int, help="the base")
parser.add_argument("y", type=int, help="the exponent")
args = parser.parse_args()
answer = args.x**args.y

if args.quiet:
    print(answer)
elif args.verbose:
    print("{} to the power {} equals {}".format(args.x, args.y, answer))
else:
    print("{}^{} == {}".format(args.x, args.y, answer))

Writing script_examples/8_arg_parse_trainpath_arg_exclusive.py


In [None]:
%%sh

echo "\n-v\n"
python script_examples/8_arg_parse_trainpath_arg_exclusive.py  2  3 -v 

echo "\n-q\n"

python script_examples/8_arg_parse_trainpath_arg_exclusive.py  2  3 -q

echo "\n-v -q\n"

python script_examples/8_arg_parse_trainpath_arg_exclusive.py  2  3 -v -q



-v

2 to the power 3 equals 8

-q

8

-v -q



usage: 8_arg_parse_trainpath_arg_exclusive.py [-h] [-v | -q] x y
8_arg_parse_trainpath_arg_exclusive.py: error: argument -q/--quiet: not allowed with argument -v/--verbose



## Subprocess
Subprocess es una librería que nos permite ejecutar procesos de la Terminal, dentro de un script de Python. Esto puede resultar interesante en casos como los siguientes:
- Queremos ejecutar un script de R desde un script de Python
- Queremos ejecutar algún comando de la Terminal como puede ser [ImageMagick](http://www.imagemagick.org/script/index.php) que no tenemos una librería directa desde Python para hacerlo.

A continuación vamos a ver cómo utilizar esta librería.


In [None]:
import subprocess

A continuación vamos a ejecutar un script en python que muestre lo mismo que el comando ls y muestra el resultado dentro de la pantalla de python. 

Puntos a tener en cuenta:
* Para ejecutar un comando de la terminal con subprocess, usaremos el comando POpen o run.
* El método run, espera a que el comando introducido finalice (si estamos realizando una descarga, espera a que esta finalice). Por otro lado el método POpen, permite que mientras el comando está corriendo, sigan ejecutándose otros procesos.
* Cuando invocamos un comando que contiene espacios (especialmente en distribuciones de Linux) es recomendable en vez de pasar un string con el comando (e.j. "echo Hello,World!") pasar una lista a este método en lugar de una cadena para evitar que sea interpretado erróneamente (["echo","Hello,World!"])
* el argumento stdout=subprocess.PIPE permite guardar los resultados que saldrían dentro de la ventana de comandos como una variable tipo string en python.


In [None]:
%%sh
ls

sample_data
script_examples


In [None]:
%%writefile script_examples/10_subprocess_ls.py
import subprocess
completed = subprocess.run(['ls'],stdout=subprocess.PIPE)
print('returncode:', completed.returncode)
print(completed)

Overwriting script_examples/10_subprocess_ls.py


In [None]:
%%sh
python script_examples/10_subprocess_ls.py

returncode: 0
CompletedProcess(args=['ls'], returncode=0, stdout=b'sample_data\nscript_examples\n')


Observamos que hemos obtenido el mismo resultado con ls que dentro de python pero aquí, podemos capturar este resultado y trabajarlo.

Veamos un ejemplo similar para capturar el resultado. Esto se realiza con el comando Popen.


In [None]:
%%sh
echo "se guarda como stdout" 

se guarda como stdout


In [None]:
%%writefile script_examples/12_subprocess_save_std.py
import subprocess

print('read:')
proc = subprocess.Popen(
    ['echo', '"se guarda como stdout"'],
    stdout=subprocess.PIPE,
)
print(proc)
stdout_value = proc.communicate()[0].decode('utf-8')
print('stdout:', repr(stdout_value))


Overwriting script_examples/12_subprocess_save_std.py


In [None]:
%%sh
python script_examples/12_subprocess_save_std.py

read:
<subprocess.Popen object at 0x7f05723b60f0>
stdout: '"se guarda como stdout"\n'


**Ejercicio**
-Guarda el Standard Output de el comando ls.

In [None]:
### EJERCICIO

(Opcional) Para finalizar, vamos a hacer un ejemplo un poco mas complicado. Esto es más avanzado y require de un mayor conocimiento en Linux. Para entender el siguiente script, recomiendo la siguiente lectura: 
- https://www.howtogeek.com/435903/what-are-stdin-stdout-and-stderr-on-linux/


In [None]:
%%writefile script_examples/13_subprocess_pipe.py
import subprocess

print('popen3:')
proc = subprocess.Popen(
    'cat -; echo "to stderr" 1>&2',
    shell=True,
    stdin=subprocess.PIPE,
    stdout=subprocess.PIPE,
    stderr=subprocess.PIPE,
)
msg = 'through stdin to stdout'.encode('utf-8')
stdout_value, stderr_value = proc.communicate(msg)
print('pass through:', repr(stdout_value.decode('utf-8')))
print('stderr      :', repr(stderr_value.decode('utf-8')))

Overwriting script_examples/13_subprocess_pipe.py


In [None]:

%%sh
python script_examples/13_subprocess_pipe.py

popen3:
pass through: 'through stdin to stdout'
stderr      : 'to stderr\n'


# Más información

- Argparse
    - https://pymotw.com/2/argparse/
    - https://sciprolab1.readthedocs.io/en/latest/practical7.html
- Subprocess
    - https://rico-schmidt.name/pymotw-3/subprocess/


# Introducción al ejercicio práctico de la actividad
El ejercicio completo y sobre el que tenéis que trabajar está en el siguiente Colab: [Bloque IV ejercicio práctico](https://colab.research.google.com/drive/1Ozi3Uh2D7U9OBHDDOfwyBcokop41o2bz?usp=sharing)
En él tendreis un script como el que se presenta a continuación y donde tendréis que añadir los siguientes argumentos
- RANDOM_STATE: Con valor por defecto None, tiene que ser entero.
- TEST_SIZE: Puede ser valores tipo float de 0 a 1 de 0.1 en 0.1. Por defecto 0.3
- N_NEIGHBORS: Por defecto 3, Tiene que ser entero y mayor que 0.

Y a posteriori: Crea otro script desde el que ejecutes el siguiente modelo con subprocess y extraigas el accuracy del modelo.


In [None]:
%%sh
mkdir -p exercise


In [None]:
%%writefile exercise/model.py

from sklearn.datasets import load_iris 
from sklearn.model_selection import train_test_split 
from sklearn.neighbors import KNeighborsClassifier 
from sklearn import metrics 


RANDOM_STATE=1
TEST_SIZE=0.4
N_NEIGHBORS=3


# load the iris dataset as an example 
iris = load_iris() 
  
# store the feature matrix (X) and response vector (y) 
X = iris.data 
y = iris.target 
  
# splitting X and y into training and testing sets 
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=TEST_SIZE, 
                                                    random_state=RANDOM_STATE) 
  
# training the model on training set 
knn = KNeighborsClassifier(n_neighbors=N_NEIGHBORS) 
knn.fit(X_train, y_train) 
  
# making predictions on the testing set 
y_pred = knn.predict(X_test) 
  
# comparing actual response values (y_test) with predicted response values (y_pred) 
print("model accuracy:", metrics.accuracy_score(y_test, y_pred)) 
  
# making prediction for out of sample data 
#sample = [[3, 5, 4, 2], [2, 3, 5, 4]] 
#preds = knn.predict(sample) 
#pred_species = [iris.target_names[p] for p in preds] 
#print("Predictions:", pred_species) 


Writing exercise/model.py


In [None]:
%%sh
python exercise/model.py 


model accuracy: 0.9666666666666667
