# Python avanzado y principios del desarrollo de software

### Operadores de comparación

Todos los lenguajes de programación tienen operadores que sirven para hacer comparaciones entre una cosa y otra, de tal modo que podamos tomar decisiones y clasificar datos. Por ejemplo, si quiero saber si el usuario actual es menor de edad, puedo preguntar eso usando el comparador < o > (menor que, o mayor que):


In [46]:
edad_del_usuario = 21

mayoria_de_edad = 21


edad_del_usuario <= mayoria_de_edad

True

Para esto usamos también los operadores mayor o igual qué `>=` y menor o igual que `<=`.

Para comparar si algo es igual a algo más usamos el operador `==`. Por ejemplo:

In [52]:
current_user = 'Jorge Perez'

'JorGE PeReZ'

usuario_buscado = 'jorge perez'

current_user != usuario_buscado

True

In [51]:
import datetime
now = datetime.datetime.now()

print(str(now))

2018-11-07 10:33:36.358997


Para comparar que algo es diferente de usamos `!=`

In [14]:
edad_del_usuario = 17

mayoria_de_edad = 18


edad_del_usuario != mayoria_de_edad

True

Para más información sobre operadores de comparación [aquí](https://docs.python.org/3/reference/lexical_analysis.html#operators)

### Control de flujo o Control Flow

El control de flujo es la manera que tiene un lenguaje para encaminar la data por uno u otro lado según los requerimientos que tu necesites usando condiciones que pueden ayudarse de comparadores.

Por ejemplo, si el usuario es mayor de edad, imprime: es mayor de edad.



In [58]:
edad_del_usuario = 17
mayoria_de_edad = 18

if edad_del_usuario >= mayoria_de_edad:
    print("es mayor de edad")

Podemos un bloque de código que se ejecute en caso de que la condición sea falsa usando un `else` statement:

In [57]:
edad_del_usuario = 21
mayoria_de_edad = 18

if edad_del_usuario >= mayoria_de_edad:
    print("es mayor de edad")
else:
    print("es menor de edad")

es mayor de edad


Incluso, podemos agregar una o más condiciones adicionales a la primer condicional usando `elif` statements:

In [38]:
edad_del_usuario = 18
mayoria_de_edad = 18

if edad_del_usuario > mayoria_de_edad:
    print("es mayor de edad")
elif edad_del_usuario == 18:
    print("tiene 18 años")
else:
    print("es menor de edad")

tiene 18 años


Los siguientes elif statements pueden usarse sobre otras características del dataset, por ejemplo, si este fuera un arreglo con otros datos como color de pelo, podría poner en un elif: si el `color de pelo` es igual a `rojo` y pasar otro bloque de código, e inclusive poner más de una condición por cada `if` o `elif`:


In [22]:
usuario = {"edad": 29, "pelo": "rojo", "nombre":"Ron Weasley"}

if usuario["edad"] > 10 and usuario["pelo"] == "rojo":
    print("debes ser un Weasley")

debes ser un Weasley


Del mismo modo, puedes usar not para tus condicionantes:

In [63]:
usuario = {"edad": 2, "pelo": "sin pelo", "nombre":"Voldemort"}

if usuario["edad"] < 10:
    print("no eres un Weasley")

### Ahora, un ejercicio:

Usemos lo que hemos aprendido de flujo de control y condicionantes para clasificar la edad, supongamos que tienes encuestas de salud de una población amplia y quieres __clasificar__ a los encuestados según su edad para comenzar a hacer estadística. Para ello recopilaste el dato __Edad__. Los registros que tienes se parecen a estos de abajo, donde recopilas género, edad, cantidad de hijos, colonia, salario mensual, si padecen de diabetes:

In [33]:
encuestados = [['Femenino', 38, 2, "Nuevo Repueblo", "de 0 a 5,000", False], 
               ['Femenino', 19, 0, "Contry La silla", "de 10,000 a 15,000", False], 
               ['Masculino', 22, 1, "Fomerrey 22", "de 0 a 5,000", False], 
               ['Masculino', 70, 3, "Valle Verde", "de 5,000 a 7,000", True], 
               ['Femenino', 57, 4, "Centro", "de 7,000 a 10,000", False], 
               ['Femenino', 44, 0, "Valle Alto", "de 30,000 a 50,000", False], 
               ['Femenino', 20, 2, "Burócratas Municipales", "de 5,000 a 7,000", True], 
               ['Masculino', 19, 0, "Buenos Aires", "de 10,000 a 13,000", True], 
               ['Femenino', 12, 0, "Obrera", "de 5,000 a 7,000", True], 
               ['Masculino', 32, 3, "Contry Sol", "de 10,000 a 15,000", False], 
               ['Femenino', 87, 9, "Del Paseo", "de 15,000 a 20,000", True], 
               ['Femenino', 25, 1, "Roma", "de 20,000 a 25,000", False], 
               ['Masculino', 65, 3, "Estadio", "de 10,000 a 15,000", True], ]

Para clasificar las edades quiero usar una metodología de la universidad autónoma de tangamandapio que va así:

In [34]:
# Dificultad normal:

# edad mayor a 20: no-joven
# edad menor a 20: joven


# dificultad insanity:

rango_de_edades = { "joven": [10, 19], 
                    "millenial": [20, 35], 
                    "super adulto": [36, 300],
                  }


Agrega un último valor a cada registro que represente la clasificación según la edad. Usa un for loop, las comparaciones que consideres necesarias, los elifs que consideres necesarios y las dobles condicionales que consideres necesarias y append.

__Input__: la variable encuestados y la clasificación normal, o la insanity  
__cómputo__: clasificar cada registro según la edad  
__output__: la lista con una columna más que represente esta clasificación

### Funciones

__¿Qué es una función?__


En python, como en muchos otros lenguajes, las funciones se __definen__ para encapsular un comportamiento o reutilizar código. Por ejemplo, en nuestro ejemplo de arriba para verificar la edad, es posible que tengamos que utilizarlo en el futuro. Para no re-escribirlo, definamos una función:

In [66]:
edad_del_usuario = 18


def checar_edad(usuario):
    mayoria_de_edad = 18
    if usuario > mayoria_de_edad:
        print("es mayor de edad")
    elif usuario == 18:
        print("tiene 18 años")
    else:
        print("es menor de edad")

def hola_hola():
    print("hola mundo")
        
checar_edad(edad_del_usuario)

hola_hola()



tiene 18 años
hola mundo


## Programación estructurada y modular

Hasta ahora la mayoría de nuestro código lo hemos ejecutado en la consola, sin embargo, en cuanto cerramos la consola nuestro código, nuestras variables y nuestro trabajo desaparecen. Es por eso que cuando ya comenzamos a trabajar como científicas de datos, lo que requerimos hacer es guardar nuestro código en un archivo tipo python, al que le llamamos script. Cualquier archivo que termine en `.py` es un script de python y puede ser ejecutado con el intérprete de `python`. 

La programación que hacemos en un solo archivo, con un solo punto de salida arriba a abajo se llama programación estructurada y es el tipo de programación que hemos hecho hasta ahora. A medida que nuestro trabajo se vuelva más complejo vamos a requerir separar nuestro código en partes más pequeñas y trabajarlo por separado para aminorar las fallas y facilitar su manejo: recuerda, divide y vencerás. En desarrollo de software, dividir grandes problemas en problemas más y más chicos es la mejor manera de programar. Para ello existe la programación modular: donde nosotros agrupamos nuestro código en módulos, e incluso en archivos distintos para mandarlo llamar cuando así lo consideremos. Los programadores suelen además escribir sus propios módulos que usan frecuentemente y algunas veces, cuando es código muy extenso y necesario, el desarrollador lo distribuye como una librería.

Para escribir y mandar a llamar un módulo: 

1. definamos un archivo con el nombre del módulo y sus funciones adentro. Por ejemplo: modulo_de_nombres.py
2. mandemos a llamar ese archivo usando la función `import modulo_de_nombres`
3. dentro de ese nuevo documento podemos usar las funciones escribiendo modulo_de_nombres.nombre_de_función.

Demostración.


## Manipulación de strings

Los strings pueden ser manipulados de muchas maneras, y ustedes como científicas de datos estarán manipulando strings muy comúnmente. Veamos algunos métodos.

Accesando substrings:

`a = '20180927'`
`a[1:4]`


__capitalize__

str.capitalize() capitaliza el string

__count__

cuenta la cantidad de veces que ocurre el string que le pasas.
str.count(string_a_buscar)

__find__

str.find(string_a_buscar) Retorna la posición en la que se encuentra el string buscado.

__in__

In retorna si el substring existe o no en el string.

__replace__

str.replace(old, new, count) regresa una copia del string, con los valores remplazados. Count es un argumento opcional para sólo reemplazar un número definido de veces.

__split__

str.split(delimitador, maxsplit=-1) regresa una lista con los strings separados por el delimitador. Max split es un argumento opcional para delimitar la cantidad de veces máxima que este delimitador será aplicado.

[Aquí puedes ver la documentación de los strings.](https://docs.python.org/3.7/library/string.html)

Update: esa no es tan buena, les agrego más:

[La de python 2.5](https://docs.python.org/release/2.5.2/lib/string-methods.html)  
[Un tutorial](https://thehelloworldprogram.com/python/python-string-methods/)


### Ejercicio: Nombres y apellidos.

A partir de la siguiente lista de nombres genera sublistas donde separes los dos apellidos del nombre, independientemente si la persona tiene uno o dos nombres.

__input__: Lista de nombres y apellidos
__cómputo__: separar los últimos dos apellidos en una sub-lista, y el nombre o nombres en otra sub-lista
__output__: ejemplo `['Ana Gabriel González García], ['Gisel Martínez Cordero']` debe cambiar a `[['Ana Gabriel'], ['González García']], [['Gisel'], ['Martínez Cordero']]`



In [None]:
nombres = [
    'María del Rosario Estupiñan Hernández',
    'Ana Gabriela Martinez Martinez',
    'Gabriela Muñoz Pérez',
    'Claudia González Aguirre',
    'Denise Martínez Garcia',
    'Ana Karenina Macías Flores',
    'Roberta Pulido Díaz',
    'Yolanda Eréndira Ibarra Márquez',
    'Carmen Ochoa Escandón',
    'Josefina Salinas Martínez',
    'Hilda María Bañuelos Cortés',
    'Eunice Romero Garza',
    'María Margadalena Sanchez Sanchez',
    'Ana Carolina Junco Treviño',
    'Paula Ivette Durán Rosas',
    'Sandra Maldonado Barrón',
    'Amparo Armendáriz Ruiz',
    'Nadia Leticia Carranza Téllez',
    'Cinthia Ontiveros Garza'
]


### Importando Numpy

__Numpy__ es una librería estadística de python especialidada en arreglos (listas) multidimensionales. Justamente es un conjunto de módulos que alguien escribió para realizar funciones estadísticas porque se dio cuenta que era una actividad recurrente en su trabajo, y decidió escribir módulos y luego liberar su código para que los programadores del público lo mejoraran. Para importar `numpy` hay que tenerlo instalado y sólo indicar `import numpy` al principio de mi script.

Juguemos con Numpy:

In [44]:
import numpy as np

a = [1, 2, 3]
b = [2, 3, 4]
print(a + b)

c = np.array(a)
d = np.array(b)

print(c + d)
print(c * d)

[1, 2, 3, 2, 3, 4]
[3 5 7]
[ 2  6 12]


In [119]:
encuestados_numpy = np.array(encuestados)
encuestados_numpy

print(type(encuestados))
print(encuestados_numpy)


<class 'list'>
[['Femenino' 38 2 'Nuevo Repueblo' 'de 0 a 5,000' False 'joven']
 ['Femenino' 19 0 'Contry La silla' 'de 10,000 a 15,000' False None]
 ['Masculino' 22 1 'Fomerrey 22' 'de 0 a 5,000' False 'joven']
 ['Masculino' 70 3 'Valle Verde' 'de 5,000 a 7,000' True 'joven']
 ['Femenino' 57 4 'Centro' 'de 7,000 a 10,000' False 'joven']
 ['Femenino' 44 0 'Valle Alto' 'de 30,000 a 50,000' False 'joven']
 ['Femenino' 20 2 'Burócratas Municipales' 'de 5,000 a 7,000' True None]
 ['Masculino' 19 0 'Buenos Aires' 'de 10,000 a 13,000' True None]
 ['Femenino' 12 0 'Obrera' 'de 5,000 a 7,000' True None]
 ['Masculino' 32 3 'Contry Sol' 'de 10,000 a 15,000' False 'joven']
 ['Femenino' 87 9 'Del Paseo' 'de 15,000 a 20,000' True 'joven']
 ['Femenino' 25 1 'Roma' 'de 20,000 a 25,000' False 'joven']
 ['Masculino' 65 3 'Estadio' 'de 10,000 a 15,000' True 'joven']]


In [116]:
# forma del arreglo
encuestados_numpy.shape


(13, 7)

Test drive de Numpy [aquí](https://docs.scipy.org/doc/numpy/user/quickstart.html)

### Leyendo archivos CSV

Antes de procesar datos, una habilidad necesaria será la de leer datos en CSV y escribir datos nuevos. En el directorio hay un conjunto de datos llamado `declaratorias_emergencia_desastre.csv` estaremos trabjando con ese para abrirlo.

La función de lectura con python empieza con la función open:

file_object  = open(“filename”, “mode”)

donde file_object es el nombre de la variable con la que vas a estar trabajando, "filename" es el nombre del archivo, y "mode" es el modo en el que estarás abriendo el archivo.

__Modo__

Hay tres modos de abrir el archivo, _lectura, escritura y añadidura_ representados por la letra "r", "w" y "a" respectivamente.

__Lectura__ (Read) el archivo se abre en modo lectura y no se puede escribir en él.
__Escritura__ (Write) abrimos el archivo y lo sobre-escribimos. Si tenía algo antes, se borrará.
__Añadidura__ (Append) al igual que la función, este modo añade los datos que estás escribiendo al final del renglón, respetando lo que había antes.

Si el archivo no existía, python lo crea, por lo que esta también es la forma de escribir el output de tus funciones.


Ahora veamos un ejemplo de lectura:

In [70]:

file_object = open("declaratorias_emergencia_desastre.csv", "r")

print(file_object.read())


estado,municipio,clave_inegi,declaratoria_emergencia_ordinaria,declaratoria_emergencia_extraordinaria,declaratoria_desastre,magniud_sismo,fecha_evento
Chiapas,Acacoyagua,07001,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Acala,07002,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Acapetahua,07003,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Altamirano,07004,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Amatán,07005,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Amatenango de la Frontera,07006,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Amatenango del Valle,07007,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Angel Albino Corzo,07008,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Arriaga,07009,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Bejucal de Ocampo,07010,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Bella Vista,07011,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Berriozábal,07012,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Bochil,07013,no aplica,sí,sí,8.2,2017-09-07
Chiapas,El Bosque,07014,no aplica,sí,sí,8.2,2017-09-07
Chiapas,Cacahoatán,07015,no aplica,sí,sí

Ahora veamos un ejemplo de escritura con un for loop

In [133]:
# print(encuestados)

# print(len(encuestados))

nuevo_archivo = open('nuevo_archivo.csv', 'w')

for encuestado in encuestados:
    for each in encuestado:
        nuevo_archivo.write(str(each) + ',')
    nuevo_archivo.write('\n')

nuevo_archivo.close()

nuevo_archivo = open('nuevo_archivo.csv', 'r')
        
print(nuevo_archivo.read())

Femenino,38,2,Nuevo Repueblo,de 0 a 5,000,False,joven,
Femenino,19,0,Contry La silla,de 10,000 a 15,000,False,None,
Masculino,22,1,Fomerrey 22,de 0 a 5,000,False,joven,
Masculino,70,3,Valle Verde,de 5,000 a 7,000,True,joven,
Femenino,57,4,Centro,de 7,000 a 10,000,False,joven,
Femenino,44,0,Valle Alto,de 30,000 a 50,000,False,joven,
Femenino,20,2,Burócratas Municipales,de 5,000 a 7,000,True,None,
Masculino,19,0,Buenos Aires,de 10,000 a 13,000,True,None,
Femenino,12,0,Obrera,de 5,000 a 7,000,True,None,
Masculino,32,3,Contry Sol,de 10,000 a 15,000,False,joven,
Femenino,87,9,Del Paseo,de 15,000 a 20,000,True,joven,
Femenino,25,1,Roma,de 20,000 a 25,000,False,joven,
Masculino,65,3,Estadio,de 10,000 a 15,000,True,joven,



In [130]:
print(len(encuestados))
print(len(encuestados[0]))


encuestados[0][1]


13
7


38

In [136]:
import pandas as pd

alerta = pd.read_csv('declaratorias_emergencia_desastre.csv', sep=',')

alerta


Unnamed: 0,estado,municipio,clave_inegi,declaratoria_emergencia_ordinaria,declaratoria_emergencia_extraordinaria,declaratoria_desastre,magniud_sismo,fecha_evento
0,Chiapas,Acacoyagua,7001,no aplica,sí,sí,8.2,2017-09-07
1,Chiapas,Acala,7002,no aplica,sí,sí,8.2,2017-09-07
2,Chiapas,Acapetahua,7003,no aplica,sí,sí,8.2,2017-09-07
3,Chiapas,Altamirano,7004,no aplica,sí,sí,8.2,2017-09-07
4,Chiapas,Amatán,7005,no aplica,sí,sí,8.2,2017-09-07
5,Chiapas,Amatenango de la Frontera,7006,no aplica,sí,sí,8.2,2017-09-07
6,Chiapas,Amatenango del Valle,7007,no aplica,sí,sí,8.2,2017-09-07
7,Chiapas,Angel Albino Corzo,7008,no aplica,sí,sí,8.2,2017-09-07
8,Chiapas,Arriaga,7009,no aplica,sí,sí,8.2,2017-09-07
9,Chiapas,Bejucal de Ocampo,7010,no aplica,sí,sí,8.2,2017-09-07


In [137]:
# imprimiento los primeros datos

alerta.head()

Unnamed: 0,estado,municipio,clave_inegi,declaratoria_emergencia_ordinaria,declaratoria_emergencia_extraordinaria,declaratoria_desastre,magniud_sismo,fecha_evento
0,Chiapas,Acacoyagua,7001,no aplica,sí,sí,8.2,2017-09-07
1,Chiapas,Acala,7002,no aplica,sí,sí,8.2,2017-09-07
2,Chiapas,Acapetahua,7003,no aplica,sí,sí,8.2,2017-09-07
3,Chiapas,Altamirano,7004,no aplica,sí,sí,8.2,2017-09-07
4,Chiapas,Amatán,7005,no aplica,sí,sí,8.2,2017-09-07


In [139]:
# imprimiendo los últimos datos

alerta.tail()

Unnamed: 0,estado,municipio,clave_inegi,declaratoria_emergencia_ordinaria,declaratoria_emergencia_extraordinaria,declaratoria_desastre,magniud_sismo,fecha_evento
720,Veracruz de Ignacio de la Llave,Cosoleacaque,30048,no aplica,no aplica,sí,8.2,2017-09-07
721,Veracruz de Ignacio de la Llave,Hidalgotitlán,30070,no aplica,no aplica,sí,8.2,2017-09-07
722,Veracruz de Ignacio de la Llave,Jáltipan,30089,no aplica,no aplica,sí,8.2,2017-09-07
723,Veracruz de Ignacio de la Llave,Minatitlán,30108,no aplica,no aplica,sí,8.2,2017-09-07
724,Veracruz de Ignacio de la Llave,Texistepec,30172,no aplica,no aplica,sí,8.2,2017-09-07


In [140]:
print(type(alerta))


# imprimiendo las columnas

print(alerta.columns)
print()
# imprimiendo los tipos de columnas

print(alerta.dtypes)
print()

# imprimiento los valores en una lista
print(alerta.values)
print()

# obteniendo una descripción general de los datos

print(alerta.describe())


<class 'pandas.core.frame.DataFrame'>
Index(['estado', 'municipio', 'clave_inegi',
       'declaratoria_emergencia_ordinaria',
       'declaratoria_emergencia_extraordinaria', 'declaratoria_desastre',
       'magniud_sismo', 'fecha_evento'],
      dtype='object')

estado                                     object
municipio                                  object
clave_inegi                                 int64
declaratoria_emergencia_ordinaria          object
declaratoria_emergencia_extraordinaria     object
declaratoria_desastre                      object
magniud_sismo                             float64
fecha_evento                               object
dtype: object

[['Chiapas' 'Acacoyagua' 7001 ... 'sí' 8.2 '2017-09-07']
 ['Chiapas' 'Acala' 7002 ... 'sí' 8.2 '2017-09-07']
 ['Chiapas' 'Acapetahua' 7003 ... 'sí' 8.2 '2017-09-07']
 ...
 ['Veracruz de Ignacio de la Llave' 'Jáltipan' 30089 ... 'sí' 8.2
  '2017-09-07']
 ['Veracruz de Ignacio de la Llave' 'Minatitlán' 30108 ... 'sí' 8.2

In [111]:
alerts.groupby('estado').mean()

Unnamed: 0_level_0,clave_inegi,magniud_sismo
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
CIudad de México,9009.5,7.1
Chiapas,7061.247934,8.2
Guerrero,12036.315789,7.1
Morelos,17017.0,7.1
México,15066.25,7.1
Oaxaca,20285.620219,7.971585
Puebla,21110.125,7.1
Tlaxcala,29034.125,7.1
Veracruz de Ignacio de la Llave,30087.666667,8.2


Prueba de manejo de pandas [aquí](http://pandas.pydata.org/pandas-docs/stable/10min.html)