###### Contenido bajo licencia Creative Commons Attribution CC-BY 4.0, código bajo licencia BSD 3-Clause © 2017 L.A. Barba, N.C. Clementi


TO DO: ¿Directorios? ¿Arriba? ¿Abajo? ¿Padre-hijo?

# Strings y listas en acción

Después de completar las lecciones [1 - Interactuando con Python](http://nbviewer.jupyter.org/github/engineersCode/EngComp1_offtheground/blob/master/notebooks_en/1_Interacting_with_Python.ipynb) y [2 - Strings y Listas](http://nbviewer.jupyter.org/github/engineersCode/EngComp1_offtheground/blob/master/notebooks_en/2_Jupyter_strings_and_lists.ipynb) de este curso en _"Engineering Computations_", en este notebook se desarrolla un ejemplo práctico y completo usando todo lo que has aprendido.

Quizás te estés preguntando por qué estamos dedicando las primeras lecciones del curso a jugar con strings y listas. _"¡Los cálculos de ingeniería implican números, fórmulas y ecuaciones!"_, estás pensando. La razón es que este curso no asume ninguna experiencia de programación, por lo que queremos que todos estén acostumbrados a Python primero, sin agregar la complejidad adicional de la utilización de números. La idea es familiarizarse primero con los reglas de la programación, aplicándolas a situaciones que no implican matemáticas ... ¡por ahora!

## Juega con el boletín MAE

Vamos a jugar con el texto de un archivo que contiene una copia del [MAE Bulletin](http://bulletin.gwu.edu/engineering-applied-science/mechanical-aerospace-engineering/#coursestext) para 2017-2018 (Nota de la traducción: El MAE Bulletin corresponde al detalle de los cursos dictados por la Universidad GSW en los periodos de invierno y otoño entre septiembre 2017 y agosto 2018). Crearemos diferentes listas para permitirnos ubicar el título, los créditos y la descripción de un curso en función del código del curso.

El archivo de datos para este ejemplo debe ubicarse en una carpeta llamada `data`, correspondientes a dos niveles anteriores a la ubicación de esta lección, si has copiado los materiales del curso tal como fueron almacenados. Si tienes los datos en otro lugar, deberás editar tu mismo la ruta según la ubicación correcta para el archivo.

Comenzaremos leyendo el archivo de datos en el Jupyter notebook, luego limpiaremos un poco los datos y finalmente presentaremos algunas formas de interactuar con él.

### Leer datos de un archivo

Tenemos un archivo de datos y nos gustaría leer su contenido en el Jupyter notebook. Por lo general, es una buena idea echar un vistazo primero al archivo, para ver cómo se ve su contenido. Esto también nos da la oportunidad de enseñarte un truco muy útil.

Recuerde que las celdas de código en una computadora portátil Jupyter pueden manejar cualquier declaración válida **IPython**. Bueno, IPython es capaz de hacer algo más que solo Python: también puede ejecutar cualquier [comando del sistema](https://ipython.org/ipython-doc/3/interactive/reference.html#system-shell-access). Si conoce un poco de Unix, esto puede ser muy útil; por ejemplo, podría enumerar todos los archivos en el directorio de trabajo (su ubicación en el sistema de archivos de la computadora).

Para ejecutar un comando de sistema (a.k.a., shell), antepone `!` -un "bang" o signo de exclamación. El comando que necesitamos es `head`, que imprime las primeras líneas de un archivo.

Nuestra carpeta de datos se encuentra dos directorios arriba de las lecciones (este Jupyter noteboko): en Unix, ir a un directorio superior (padre) está indicado por dos puntos; así que necesitamos tener `../../ data/` antes del nombre del archivo, `mae_bulletin.txt`, como parte de la ruta.

Llamemos `head` con un signo de exclamación:

In [None]:
!head ../data/mae_bulletin.txt

¡Se ve bien! El siguiente paso es abrir el archivo y guardar sus contenidos en una variable de Python que podamos usar.

La función **`open()`** con el nombre del archivo como un argumento _string_ (tenga en cuenta las comillas) devuelve un objeto de archivo Python. Tenemos varias opciones posibles, y definitivamente debes leer la [documentación](https://docs.python.org/2/tutorial/inputoutput.html#reading-and-writing-files) sobre cómo leer y escribir archivos.

Si usa el método de archivo **`read()`**, obtendrás un único string (cadena de texto) con todos los contenidos del archivo. Si utiliza el método **`readlines()`**, obtendrás una lista de strings, donde cada cadena de texto contiene una línea del archivo. Otra opción es usar la función **`list()`** para crear una lista de líneas a partir del contenido del archivo. ***<- No se explica bien. cual es la equivalencia?***

In [None]:
mae_bulletin_file = open('../data/mae_bulletin.txt')

In [None]:
mae_bulletin_text = mae_bulletin_file.readlines()

In [None]:
type(mae_bulletin_text)

In [None]:
len(mae_bulletin_text)

### Limpieza y organización de datos de texto

Al manipular datos de texto, una de las acciones más comunes es deshacerse de líneas y espacios en blanco innecesarios. En nuestro caso, eliminaremos los espacios al principio y al final de cada línea.

Ten en cuenta que también hay algunas líneas en blanco: las omitiremos. El objetivo es obtener dos listas nuevas: una con la línea de identificación del curso y otra con las descripciones de los cursos.

Estudia el siguiente bloque de código:

In [None]:
courses = []
descriptions = []

for line in mae_bulletin_text:
    line = line.strip()            #Remove white spaces
    if line == '':                 #Skip the empty lines 
        continue
    elif line.startswith('MAE'): 
        courses.append(line)       #Save lines that start with MAE in list
    else:
        descriptions.append(line)  #Save descriptions in other list

Asegúrate de visitar la [documentación](https://docs.python.org/3/library/stdtypes.html#string-methods) para conocer los métodos de strings, para tener una idea de todas las cosas que pueden hacerse con Python. Aquí, usamos el método **`strip()` ** para deshacernos de los espacios iniciales y finales, y también usamos **`startswith()`** para identificar las líneas de identificación del curso.

Para verificar lo que hemos obtenido, sólo es necesario imprimir algunos elementos de cada lista:

In [None]:
#imprimir los primeros 5 elementos
print(courses[0:5])

In [None]:
#imprmir los primeros 3 elementosde las descripciones
print(descriptions[0:3])

¡También deberíamos verificar que ambas listas tengan la misma longitud!

In [None]:
print(len(courses))
print(len(descriptions))

### Separa la lista de "cursos" en la identificación del curso, título y créditos

Es posible que deseemos tener la información de la identificación, título y créditos del curso en listas separadas. Una forma posible es la siguiente:

In [None]:
course_id = []
course_title = []
course_credits = []

for course in courses:
    course_info = course.split('. ') 
    course_id.append(course_info[0])
    course_title.append(course_info[1])
    course_credits.append(course_info[2])

Ten en cuenta que dividimos la información del curso utilizando el string ''. '' (punto + espacio) para evitar tener un espacio en blanco adicional al comienzo de cada cadena en las listas de títulos y créditos del curso.

Imprimamos los primeros elementos de las nuevas listas.

In [None]:
print(course_id[0:5])

In [None]:
print(course_title[0:5])

In [None]:
print(course_credits[0:5])

### Información del curso de seguimiento

Las listas que hemos creado están alineadas: cada elemento en la misma ubicación de índice corresponde al mismo curso. Al encontrar la ubicación (el índice) de un identificador de curso, podemos acceder a toda la otra información.

Usamos el método `index()` para encontrar el índice de un identificador de curso y rastrear el resto de la información. ¡Pruébalo!

In [None]:
course_id.index('MAE 3190')

In [None]:
print(course_id[17])
print(course_title[17])
print(course_credits[17])
print(descriptions[17])

### ¿Cuántos cursos tienen prerrequisitos?

Exploremos una nueva idea: podemos buscar todos los cursos que tengan requisitos previos usando una declaración `for`. En este caso, iteraremos sobre los _indices_ de los elementos en la lista `descriptions`.

Esto nos da la oportunidad de presentar un objeto (***METODO??***) Python muy útil: **`range`**: crea una secuencia de números en la progresión aritmética para iterar. Con un único argumento, `range(N)` creará una secuencia de longitud `N` comenzando en cero:` 0, 1, 2, ..., N-1`.

In [None]:
for i in range(4):
    print(i)

Un detalle interesante del método `range` es que se crea sobre la marcha, al iterar sobre él. No es realmente una lista, aunque para la mayoría de los propósitos prácticos, se comporta como tal.

Una forma típica de usarlo es con un argumento que sale de la función `len ()`. 

Analiza el siguiente bloque de código:

In [None]:
course_with_pre = []

for i in range(len(descriptions)):
    if 'Prerequisite' in descriptions[i]:
        course_with_pre.append(course_id[i])

Ahora tenemos una lista llamada `course_with_pre` que contiene el identificador de curso de todos los cursos que tienen requisitos previos.

In [None]:
print(course_with_pre)

##### Ejercicio:

1. Guarda en una nueva lista llamada `course_with_cor` todos los cursos que tengan un correquisito e imprime la lista.
2. Utilizando una declaración `for` y declaraciones` if-elif-else`, separa los cursos que se ofrecen en el semestre de otoño, los ofrecidos en el semestre de primavera, los que se ofrecen en ambos semestres y los que no especifican un semestre. Crea 4 listas: `fall_and_spring`,` fall`, `spring` y` not_spec`.

Para comprobar tus respuestas, elimine los comentarios de las siguientes líneas eliminando el símbolo # y ejecutando la celda. La ejecución de la celda no arroja errores, ¡lo hiciste bien!

In [None]:
#course_with_cor_ans = ['MAE 3184', 'MAE 4183', 'MAE 4195', 'MAE 6194', 'MAE 6195']
#fall_and_spring_ans = []
#fall_ans = ['MAE 1004', 'MAE 2117', 'MAE 3126', 'MAE 3145', 'MAE 3162', 'MAE 3166W', 'MAE 3190', 'MAE 3191', 'MAE 4157', 'MAE 4163', 'MAE 4193', 'MAE 4199', 'MAE 6210', 'MAE 6275']
#spring_ans = ['MAE 3128', 'MAE 3167W', 'MAE 3193', 'MAE 6194', 'MAE 6195', 'MAE 6229', 'MAE 6235', 'MAE 6242', 'MAE 6247', 'MAE 6249', 'MAE 6258']
#not_spec_ans = ['MAE 2124', 'MAE 2131', 'MAE 2170', 'MAE 3120', 'MAE 3134', 'MAE 3155', 'MAE 3171', 'MAE 3184', 'MAE 3187', 'MAE 3192', 'MAE 3195', 'MAE 3196', 'MAE 3197', 'MAE 4129', 'MAE 4149', 'MAE 4168', 'MAE 4172', 'MAE 4182', 'MAE 4183', 'MAE 4194', 'MAE 4195', 'MAE 4198', 'MAE 6201', 'MAE 6203', 'MAE 6204', 'MAE 6207', 'MAE 6220', 'MAE 6221', 'MAE 6222', 'MAE 6223', 'MAE 6224', 'MAE 6225', 'MAE 6226', 'MAE 6227', 'MAE 6228', 'MAE 6230', 'MAE 6231', 'MAE 6232', 'MAE 6233', 'MAE 6234', 'MAE 6237', 'MAE 6238', 'MAE 6239', 'MAE 6240', 'MAE 6241', 'MAE 6243', 'MAE 6244', 'MAE 6245', 'MAE 6246', 'MAE 6251', 'MAE 6252', 'MAE 6253', 'MAE 6254', 'MAE 6255', 'MAE 6257', 'MAE 6260', 'MAE 6261', 'MAE 6262', 'MAE 6263', 'MAE 6270', 'MAE 6271', 'MAE 6274', 'MAE 6276', 'MAE 6277', 'MAE 6280', 'MAE 6281', 'MAE 6282', 'MAE 6283', 'MAE 6284', 'MAE 6286', 'MAE 6287', 'MAE 6288', 'MAE 6290', 'MAE 6291', 'MAE 6292', 'MAE 6298', 'MAE 6998', 'MAE 6999', 'MAE 8350', 'MAE 8351', 'MAE 8352', 'MAE 8998', 'MAE 8999']

#assert course_with_cor == course_with_cor_ans
#assert fall_and_spring == fall_and_spring_ans 
#assert fall == fall_ans
#assert spring == spring_ans
#assert not_spec == not_spec_ans

## Lo que hemos aprendido

* Los comandos del sistema en una celda de código comienzan con un bang o exclamación (`!`).
* Abrir un archivo de texto y guardar su contenido en una cadena o lista de variables.
* Limpiar datos de texto usando métodos de cadena.
* Manipular texto en listas.

In [None]:
# Execute this cell to load the notebook's style sheet, then ignore it
from IPython.core.display import HTML
css_file = '../style/custom.css'
HTML(open(css_file, "r").read())