###### Contenido bajo licencia Creative Commons Attribution CC-BY 4.0, código bajo licencia BSD 3-Clause © 2017 L.A. Barba, N.C. Clementi

# Cadenas y listas en acción

Después de completar [Lección 1](http://nbviewer.jupyter.org/github/engineersCode/EngComp1_offtheground/blob/master/notebooks_en/1_Interacting_with_Python.ipynb) y [Lesson 2](http://nbviewer.jupyter.org/github) /engineersCode/EngComp1_offtheground/blob/master/notebooks_en/2_Jupyter_strings_and_lists.ipynb) de este curso en _"Engineering Computations_,"
aquí tenemos un ejemplo completo usando todo lo que has aprendido.

Quizás te estés preguntando por qué estamos dedicando las primeras lecciones del curso a jugar con cadenas y listas. _"¡Los cálculos de ingeniería implican números, fórmulas y ecuaciones!"_, Puede estar pensando. La razón es que este curso no asume ninguna experiencia de programación, por lo que queremos que todos estén acostumbrados a Python primero, sin agregar la complejidad adicional de la generación de números. La idea es familiarizarse primero con los constructos de programación, aplicándolos a situaciones que no implican matemáticas ... ¡por ahora!

## Juega con el boletín MAE

Vamos a jugar con el texto de un archivo que contiene una copia del [MAE Bulletin](http://bulletin.gwu.edu/engineering-applied-science/mechanical-aerospace-engineering/#coursestext) para 2017-2018. Crearemos diferentes listas para permitirnos ubicar el título, los créditos y la descripción de un curso en función del código del curso.

El archivo de datos para este ejemplo debe ubicarse en una carpeta llamada `datos`, dos niveles por encima de la ubicación de esta lección, si copió los materiales del curso tal como fueron almacenados. Si tiene los datos en otro lugar, debe editar la ruta completa a continuación.

Comenzaremos leyendo el archivo de datos en el cuaderno Jupyter, luego limpiaremos un poco los datos y finalmente resolveremos las formas de jugar con él.

### Leer datos de un archivo

Sabemos que tenemos un archivo de datos y nos gustaría leer su contenido en el cuaderno de Jupyter. Por lo general, es una buena idea echar un vistazo primero al archivo, para ver cómo se ve su contenido. Esto también nos da la oportunidad de enseñarle un truco muy bueno.

Recuerde que las celdas de código en una computadora portátil Jupyter pueden manejar cualquier declaración válida ** IPython **. Bueno, IPython es capaz de hacer algo más que solo Python: también puede ejecutar cualquier [comando del sistema](https://ipython.org/ipython-doc/3/interactive/reference.html#system-shell-access) . Si conoce un poco de Unix, esto puede ser muy útil; por ejemplo, podría enumerar todos los archivos en el directorio de trabajo (su ubicación en el sistema de archivos de la computadora).

Para ejecutar un comando de sistema (a.k.a., shell), antepone `!` -a "bang". El comando que necesitamos es `head`: imprime las primeras líneas de un archivo.

Nuestra carpeta de datos se encuentra dos directorios arriba de las lecciones (este cuaderno Jupyter): en Unix, ir _a_ un directorio está indicado por dos puntos; así que necesitamos tener `../../ data /` antes del nombre del archivo, `mae_bulletin.txt`, como parte de la ruta.

Llamemos `head` con un golpe:

In [1]:
!head ../data/mae_bulletin.txt

MAE 1004. Engineering Drawing and Computer Graphics. 0-3 Credits.

Introduction to technical drawing, including use of instruments, lettering, geometric construction, sketching, orthographic projection, section view, dimensioning, tolerancing, and pictorial drawing. Introduction to computer graphics, including topics covered in manual drawing and computer-aided drafting.   (Fall and spring).

MAE 2117. Engineering Computations. 3 Credits.

Numerical methods for engineering applications. Round-off errors and discretization errors. Methods for solving systems of linear equations, root finding, curve fitting, numerical Fourier transform, and data approximation. Numerical differentiation and integration and numerical solution of differential equations. Computer applications. Prerequisite: MATH 1232. (Fall, Every Year).

MAE 2124. Linear Systems Analysis for Robotics. 3 Credits.



¡Eso se ve bien! El siguiente paso es abrir el archivo y guardar sus contenidos en una variable de Python que podamos usar.

La función ** `open ()` ** con el nombre del archivo como un argumento _string_ (tenga en cuenta las comillas) devuelve un objeto de archivo Python. Tenemos varias opciones a continuación, y definitivamente debe leer la [documentación](https://docs.python.org/2/tutorial/inputoutput.html#reading-and-writing-files) sobre cómo leer y escribir archivos.

Si usa el método de archivo ** `read ()` **, obtiene una cadena (grande) con todos los contenidos del archivo. Si utiliza el método ** `readlines ()` **, obtendrá una lista de cadenas, donde cada cadena contiene una línea en el archivo. Otra opción es usar la función ** `list ()` ** para crear una lista de líneas a partir del contenido del archivo.

In [2]:
mae_bulletin_file = open('../data/mae_bulletin.txt')

In [3]:
mae_bulletin_text = mae_bulletin_file.readlines()

In [4]:
type(mae_bulletin_text)

list

In [5]:
len(mae_bulletin_text)

431

### Limpieza y organización de datos de texto

Al manipular datos de texto, una de las acciones típicas es deshacerse de líneas y espacios en blanco adicionales. Aquí, eliminaremos los espacios al principio y al final de cada línea.

Tenga en cuenta que también hay algunas líneas en blanco: las omitiremos. El objetivo es obtener dos listas nuevas: una con la línea de identificación del curso y otra con las descripciones de los cursos.

Estudia el siguiente bloque de código:

In [6]:
courses = []
descriptions = []

for line in mae_bulletin_text:
    line = line.strip()            #Remove white spaces
    if line == '':                 #Skip the empty lines 
        continue
    elif line.startswith('MAE'): 
        courses.append(line)       #Save lines that start with MAE in list
    else:
        descriptions.append(line)  #Save descriptions in other list

Asegúrese de visitar también la [documentación](https://docs.python.org/3/library/stdtypes.html#string-methods) para conocer los métodos de cadena, ¡para tener una idea de todas las cosas que puede hacer con Python! Aquí, usamos el método ** `strip ()` ** para deshacernos de los espacios iniciales y finales, y también usamos ** `startswith ()` ** para identificar las líneas de identificación del curso.

Comprobemos con qué terminamos imprimiendo algunos artículos en cada lista:

In [7]:
#print first 5 elements of courses
print(courses[0:5])

['MAE 1004. Engineering Drawing and Computer Graphics. 0-3 Credits.', 'MAE 2117. Engineering Computations. 3 Credits.', 'MAE 2124. Linear Systems Analysis for Robotics. 3 Credits.', 'MAE 2131. Thermodynamics. 3 Credits.', 'MAE 2170. History and Impact of the US Patent System. 3 Credits.']


In [8]:
#print first 3 elements of descriptions
print(descriptions[0:3])

['Introduction to technical drawing, including use of instruments, lettering, geometric construction, sketching, orthographic projection, section view, dimensioning, tolerancing, and pictorial drawing. Introduction to computer graphics, including topics covered in manual drawing and computer-aided drafting.   (Fall and spring).', 'Numerical methods for engineering applications. Round-off errors and discretization errors. Methods for solving systems of linear equations, root finding, curve fitting, numerical Fourier transform, and data approximation. Numerical differentiation and integration and numerical solution of differential equations. Computer applications. Prerequisite: MATH 1232. (Fall, Every Year).', 'Properties of linear systems. Mathematical modeling of dynamic systems. State space, state variables, and their selection. Linearization of non-linear behavior. Matrix functions. Solution of state equations in the time domain and using transformations. System stability and frequen

¡También deberíamos verificar que ambas listas tengan la misma longitud!

In [9]:
print(len(courses))
print(len(descriptions))

108
108


### Separa la lista de "cursos" en la identificación del curso, título y créditos

Es posible que deseemos tener la información de la identificación, título y créditos del curso en listas separadas. Así es como podríamos hacer eso:

In [10]:
course_id = []
course_title = []
course_credits = []

for course in courses:
    course_info = course.split('. ') 
    course_id.append(course_info[0])
    course_title.append(course_info[1])
    course_credits.append(course_info[2])

Tenga en cuenta que dividimos usando la cadena `'. '' (período + espacio) para evitar tener un espacio en blanco adicional al comienzo de cada cadena en las listas de títulos y créditos del curso.

Vamos a imprimir los primeros elementos de las nuevas listas.

In [11]:
print(course_id[0:5])

['MAE 1004', 'MAE 2117', 'MAE 2124', 'MAE 2131', 'MAE 2170']


In [12]:
print(course_title[0:5])

['Engineering Drawing and Computer Graphics', 'Engineering Computations', 'Linear Systems Analysis for Robotics', 'Thermodynamics', 'History and Impact of the US Patent System']


In [13]:
print(course_credits[0:5])

['0-3 Credits.', '3 Credits.', '3 Credits.', '3 Credits.', '3 Credits.']


### Información del curso de seguimiento

Las listas que hemos creado están alineadas: es decir, cada elemento en la misma ubicación de índice corresponde al mismo curso. Entonces, al encontrar la ubicación de una identificación de curso, podemos acceder a toda la otra información.

Usamos el método `index ()` para encontrar el índice de la identificación del curso y rastrear el resto de la información. ¡Pruébalo!

In [14]:
course_id.index('MAE 3190')

17

In [15]:
print(course_id[17])
print(course_title[17])
print(course_credits[17])
print(descriptions[17])

MAE 3190
Analysis and Synthesis of Mechanisms
3 Credits.
Kinematics and dynamics of mechanisms. Displacements, velocities, and accelerations in linkage, cam, and gear systems by analytical, graphical, and computer methods. Synthesis of linkages to meet prescribed performance requirements. Prerequisite: APSC 2058.  (Fall).


### ¿Cuántos cursos tienen prerrequisitos?

Aquí hay una idea: podemos buscar todos los cursos que tengan requisitos previos usando una declaración `for`. En este caso, iteraremos sobre el _index_ de los elementos en la lista `descriptions`.

Nos da la oportunidad de presentarle un objeto Python muy útil: ** `range` **: crea una secuencia de números en la progresión aritmética para iterar. Con un único argumento, `range (N)` creará una secuencia de longitud `N` comenzando en cero:` 0, 1, 2, ..., N-1`.

In [16]:
for i in range(4):
    print(i)

0
1
2
3


Lo gracioso con `range` es que se crea sobre la marcha, al iterar sobre él. Entonces, no es realmente una lista, aunque para la mayoría de los propósitos prácticos, se comporta como tal.

Una forma típica de usarlo es con un argumento que sale de la función `len ()`. Estudia este bloque de código:

In [17]:
course_with_pre = []

for i in range(len(descriptions)):
    if 'Prerequisite' in descriptions[i]:
        course_with_pre.append(course_id[i])

Ahora tenemos una lista llamada `course_with_pre` que contiene el id de todos los cursos que tienen requisitos previos.

In [18]:
print(course_with_pre)

['MAE 2117', 'MAE 2131', 'MAE 3120', 'MAE 3126', 'MAE 3128', 'MAE 3134', 'MAE 3145', 'MAE 3155', 'MAE 3162', 'MAE 3166W', 'MAE 3167W', 'MAE 3187', 'MAE 3190', 'MAE 3191', 'MAE 3192', 'MAE 3193', 'MAE 3195', 'MAE 3197', 'MAE 4129', 'MAE 4149', 'MAE 4157', 'MAE 4163', 'MAE 4168', 'MAE 4172', 'MAE 4182', 'MAE 4193', 'MAE 4194', 'MAE 4198', 'MAE 4199', 'MAE 6201', 'MAE 6207', 'MAE 6220', 'MAE 6221', 'MAE 6222', 'MAE 6223', 'MAE 6224', 'MAE 6225', 'MAE 6226', 'MAE 6227', 'MAE 6228', 'MAE 6229', 'MAE 6230', 'MAE 6231', 'MAE 6232', 'MAE 6233', 'MAE 6234', 'MAE 6237', 'MAE 6238', 'MAE 6239', 'MAE 6240', 'MAE 6241', 'MAE 6243', 'MAE 6244', 'MAE 6245', 'MAE 6246', 'MAE 6247', 'MAE 6249', 'MAE 6251', 'MAE 6252', 'MAE 6253', 'MAE 6254', 'MAE 6255', 'MAE 6257', 'MAE 6258', 'MAE 6260', 'MAE 6261', 'MAE 6262', 'MAE 6270', 'MAE 6271', 'MAE 6274', 'MAE 6276', 'MAE 6280', 'MAE 6281', 'MAE 6282', 'MAE 6283', 'MAE 6284', 'MAE 6286', 'MAE 6287', 'MAE 6288', 'MAE 6290', 'MAE 6291', 'MAE 6292', 'MAE 8350', '

##### Ejercicio:

1. Guarde en una nueva lista llamada `course_with_cor` todos los cursos que tengan un correquisito e imprima la lista.
2. Utilizando una declaración `for` y declaraciones` if-elif-else`, separe los cursos que se ofrecen en el semestre de otoño, los ofrecidos en el semestre de primavera, los que se ofrecen en ambos semestres y los que no especifican un semestre. Crea 4 listas: `fall_and_spring`,` fall`, `spring` y` not_spec`.

Para comprobar sus respuestas, elimine el comentario de las siguientes líneas eliminando el símbolo # y ejecutando la celda. Si no hay salida, ¡lo hiciste bien!

In [19]:
#course_with_cor_ans = ['MAE 3184', 'MAE 4183', 'MAE 4195', 'MAE 6194', 'MAE 6195']
#fall_and_spring_ans = []
#fall_ans = ['MAE 1004', 'MAE 2117', 'MAE 3126', 'MAE 3145', 'MAE 3162', 'MAE 3166W', 'MAE 3190', 'MAE 3191', 'MAE 4157', 'MAE 4163', 'MAE 4193', 'MAE 4199', 'MAE 6210', 'MAE 6275']
#spring_ans = ['MAE 3128', 'MAE 3167W', 'MAE 3193', 'MAE 6194', 'MAE 6195', 'MAE 6229', 'MAE 6235', 'MAE 6242', 'MAE 6247', 'MAE 6249', 'MAE 6258']
#not_spec_ans = ['MAE 2124', 'MAE 2131', 'MAE 2170', 'MAE 3120', 'MAE 3134', 'MAE 3155', 'MAE 3171', 'MAE 3184', 'MAE 3187', 'MAE 3192', 'MAE 3195', 'MAE 3196', 'MAE 3197', 'MAE 4129', 'MAE 4149', 'MAE 4168', 'MAE 4172', 'MAE 4182', 'MAE 4183', 'MAE 4194', 'MAE 4195', 'MAE 4198', 'MAE 6201', 'MAE 6203', 'MAE 6204', 'MAE 6207', 'MAE 6220', 'MAE 6221', 'MAE 6222', 'MAE 6223', 'MAE 6224', 'MAE 6225', 'MAE 6226', 'MAE 6227', 'MAE 6228', 'MAE 6230', 'MAE 6231', 'MAE 6232', 'MAE 6233', 'MAE 6234', 'MAE 6237', 'MAE 6238', 'MAE 6239', 'MAE 6240', 'MAE 6241', 'MAE 6243', 'MAE 6244', 'MAE 6245', 'MAE 6246', 'MAE 6251', 'MAE 6252', 'MAE 6253', 'MAE 6254', 'MAE 6255', 'MAE 6257', 'MAE 6260', 'MAE 6261', 'MAE 6262', 'MAE 6263', 'MAE 6270', 'MAE 6271', 'MAE 6274', 'MAE 6276', 'MAE 6277', 'MAE 6280', 'MAE 6281', 'MAE 6282', 'MAE 6283', 'MAE 6284', 'MAE 6286', 'MAE 6287', 'MAE 6288', 'MAE 6290', 'MAE 6291', 'MAE 6292', 'MAE 6298', 'MAE 6998', 'MAE 6999', 'MAE 8350', 'MAE 8351', 'MAE 8352', 'MAE 8998', 'MAE 8999']

#assert course_with_cor == course_with_cor_ans
#assert fall_and_spring == fall_and_spring_ans 
#assert fall == fall_ans
#assert spring == spring_ans
#assert not_spec == not_spec_ans

## Lo que hemos aprendido

* Los comandos del sistema en una celda de código comienzan con un bang (`!`).
* Abrir un archivo de texto y guardar su contenido en una cadena o lista de variables.
* Limpiando datos de texto usando métodos de cadena.
* Manipulando texto en listas.

In [20]:
# Execute this cell to load the notebook's style sheet, then ignore it
from IPython.core.display import HTML
css_file = '../style/custom.css'
HTML(open(css_file, "r").read())