## Welcome to Python !

En este cuaderno de trabajo vamos a interactuar con el ambiente básico de Python. Aprederemos los tipos básicos de datos y sus funcionalidades para poder aplicarlos, posteriormente, al análisis de datos.

## 1. Variables y operaciones aritméticas


### 1.1 Asignación y tipos de variable
---

En Python asignamos un valor a una variable con la sintaxis
```python
nombre_de_variable = valor
```

Observe lo siguiente:
1. El signo para asignar es, únicamente, `=` en todas las circunstancias (unlike R)
2. Los espacios no son importantes desde el punto de vista programático; pero se recomienda desde un punto de vista estilístico.

Por ejemplo, podemos asignar las variables `altura` y `peso` de este modo:
```python
altura = 1.79
peso   = 68
```
Estas variables tienen un tipo (`type()`) 

Type | Información sobre el tipo
--- | --- 
`int` |  _Integer_: Números enteros, $\mathbb{Z}.$ La restricción de su magnitud es la cantidad de memoria en tu ordenador
`float` | _Floating point numbers_ (fraccionales $\mathbb{Q}$ e irracionales $\mathbb{R}\setminus \mathbb{Q}$). Siguiendo el estándar [IEEE 754](https://en.wikipedia.org/wiki/IEEE_754-2008_revision) el número máximo que se puede representar en Python es, aproximadamente, $1 x 10^{308}$.  Números mayores serán indicados por `inf`.  El número más pequeño es, aproximadamente $5 x 10 ^{-324}$ y cualquier número menor es, efectivamente, `0`.  Se admite la notación científica `5e-5`.
`complex` | Números complejos $\mathbb{C}.$ Indicados como `<Real> + <Imag>j`;  por ejemplo `3.51 + 4j`.
`str` |  _Strings_.  Se refiere a _cadenas_ de texto, es decir, cualquier sucesión de caracteres tomados como tales. Se distinguen por estar _citadas_ entre comillas (dobles o sencillas). Por ejemplo `saludo = 'Hola gente!'`o bien `saludo = "Hola gente!"`. Esta dualidad es útil cuando la propia cadena contiene una de las dos comillas, por ejemplo: `cita = 'Citando a Bloom: "We read, frequently if not unknowingly, in search of a mind more original than our own." '`
`bool`| _Boolean_. Se refiere a variables lógicas cuyos posibles valores son `True` y `False`.  La ortografía es exacta.

__Nota:__ Puedes convertir un tipo a otro, si es necesario, usando el nombre de tipo como función, por ejemplo `str(5)` devuelve la _cadena de texto_ `'5'`, etc.


### 1.2 Operadores
---

#### 1.2.1 Aritméticos

La siguiente tabla muestra los operadores binarios aritméticos básicos:

Operador |  Resultado
--- | ---
`+`  |  Suma
`-`  |  Resta
`*`  |  Producto
`/` |  División (exacta)
`//` | División entera
`**` | Potencia
`%` | Módulo 

#### 1.2.2 De comparación

Los operadores de comparación verifican una condición y producen por output `True` o `False` y son los siguientes

Operador | Descripción
--- | ---
`==` | Verifica igualdad. Observa que son __dos__ signos de igualdad.
`!=`| Verifica diferencia (negación de igualdad)
`<` | Menor que
`>`  | Mayor que
`<=`| Menor o igual que
`>=`| Mayor o igual que




#### 1.2.3 Lógicos

Los operadores lógicos son `and`,  `or`,  `not` y su función es clara de su nombre.  Por ejemplo, `True and True` etc.  Generalmente se utilizan para corroborar condiciones complejas,


#### Tu turno
1. Utiliza la asignación de peso y altura para calcualar el índice de masa corporal definido como el cociente de el peso por el cuadrado de la altura.  Asigna el resultado de esta operación a la variable `BMI`.

2. Ahora cambia el peso a 75 kg y recalcula el índice de masa corporal

3. Verifica que la variable `BMI` es de tipo `float`

4. Siguiendo las indicaciones de la OMS, verifica si este BMI corresponde a Obesidad comprobando si es mayor o igual que 30

5. Coorrobora ahora si el índice de masa corporal corresponde a la categoría de _normal_ (entre 18.5 y 24.99).



In [5]:
altura = 1.79
peso   = 68
BMI = peso / (altura**2)
print(BMI)
peso = 75
BMI = peso / altura ** 2
print(BMI)
print(BMI >= 30) # Corrobora obesidad
BMI >= 18.5 and BMI <= 24.99 # Corrobora "normal"

21.22280827689523
23.40750912892856
False


True

## 2. Vectorización: Listas 

La _lista_ es la forma nativa de manejar vectores de variables y se definen escribiendo la sucesión de sus elementos separados por comas y entre corchetes, por ejemplo,

```python
alturas = [1.73, 1.68, 1.79]
type(alturas)
```
Tome en cuenta lo siguiente:

1. La lista en Python puede contener elementos de distinto tipo
2. Una lista puede ser elemento de otra lista (es un vector recursivo)
3. `list` es un tipo, en sí mismo, de modo que implica nuevas funcionalidades
4. Las listas en Python no tienen nombres (atributo `names`)

Para acceder a los elementos de una lista se utiliza el operador _subset_ representado por un par de corchetes.  Los elementos están indexados _de izquierda a derecha comenzando por el índice 0_.  Por ejemplo, 

```python
velocidades_kph = ['gato doméstico', 48, 'tigre', 64, 'león', 80.5, 'cheetah', 109.4]
velocidades_kph[0]
velocidades_kph[7]
```
El último elemento se puede acceder con `velocidades_kph[-1]`.  Además, podemos seleccionar secciones de la lista usando la sintaxis general 

```python
a[start:stop:step]
```

En esta sintaxis `a` representa una lista, `start` es el índice del primer elemento que deseamos seleccionar, `stop` es el _índice inmediato a la derecha_ del último elemento que deseamos seleccionar y `step` nos dice cada cuántos elementos se debe seleccionar.  
Por ejemplo,

```python
velocidades_kph[0:3]
velocidades_kph[1:5]
# Cómo seleccionar desde león hasta el final?
velocidades_kph[0:6:2]
# Cómo seleccionar todos los nombres de animal?
```
En caso de no proveer el argumento `start` o `stop` tomarán como valor por defecto el inicio de la serie y el final (+1) de la misma.  Los parámetros admiten valores negativos.  En `start` y `stop` un número negativo simboliza la posición desde el final de la serie (indexada desde 1!).   Si el argumento `step` es negativo, indica un recorrido de la serie de derecha a izquierda. Por ejemplo

```python
velocidades_kph[-1]
velocidades_kph[:,-1]
velocidades_kph[-1,:]
velocidades_kph[ : :-1]
velocidades_kph[ : :-2]
# Cómo seleccionar los primeros dos elementos en reversa?
# Cómo seleccionar los nombres de animales en reversa ?
# Cómo seleccionar todo salvo los últimos 3 registros ?
```

#### Tu turno

En este ejercicio seleccionarás objetos de la siguiente lista:
```python
smart_watches = [['garmin vivoactive 4s', 'multideporte', 7443],
                 ['garmin vivosmart hr' , 'monitor de actividad', 3268.4],
                 ['garmin venu', 'multideporte, amoled', 9544.84],
                 ['garmin fenix 6x pro', 'multideporte', 18499],
                 '20 de julio de 2020',
                 'amazon.com.mx',
                 'MXN',
                 ['tipo de cambio', 22.50]
                ]

```
Como puedes observar, esta lista contiene la cotización en un día y sitio específicos de cuatro relojes inteligentes y la información del tipo de cambio USD/MXN al día de la cotización.

1. Selecciona la especificación del reloj `garmin venu`y su precio
2. La moneda, fuente, y fecha, en ese orden
3. La información sobre el tipo de cambio (toda la lista)
4. El tipo de cambio (sólo el número)


Una forma muy útil de hacer listas en Python es por comprensión, por ejemplo,

```python
[i**2 for i in range(1, 11)]
```
calcula el cuadrado de cada uno de los números enteros entre 1 y __10__.  Vea `help(range)`.  También podemos dar más condiciones como en

```python
[i*j for i in range(1, 11) for j in range(1, 11)]
```
que calcula todos los productos de elementos de {1, ..., 10}. 

#### Ejemplo:
1. Usando la lista `smart_watches` y las listas por comprehensión, genere
    1. Una lista con todos los nombres de reloj 
    2. Una lista donde cada elemento sea una lista con el nombre de reloj y su precio
2. Puede describir lo que calcula esta lista?
```python
[(x, y) for x in [1,2,3] for y in [3,1,4] if x != y]
```


In [35]:
smart_watches = [['garmin vivoactive 4s', 'multideporte', 7443],
                 ['garmin vivosmart hr' , 'monitor de actividad', 3268.4],
                 ['garmin venu', 'multideporte, amoled', 9544.84],
                 ['garmin fenix 6x pro', 'multideporte', 18499],
                 '20 de julio de 2020',
                 'amazon.com.mx',
                 'MXN',
                 ['tipo de cambio', 22.50]
                ]

# A
[elemento[0] for elemento in smart_watches[0:4]]
#B: calculando nombre de reloj y precios
watches_prices = [elemento[::2] for elemento in smart_watches[0:4]]
smart_watches.append('Esto es algo nuevo')
smart_watches

[['garmin vivoactive 4s', 'multideporte', 7443],
 ['garmin vivosmart hr', 'monitor de actividad', 3268.4],
 ['garmin venu', 'multideporte, amoled', 9544.84],
 ['garmin fenix 6x pro', 'multideporte', 18499],
 '20 de julio de 2020',
 'amazon.com.mx',
 'MXN',
 ['tipo de cambio', 22.5],
 'Esto es algo nuevo']

Los siguientes son los [métodos asociados con el tipo `list` en Python] (https://docs.python.org/3/tutorial/datastructures.html) y producen modificaciones en el objeto (no en una copia).  

Método | Descripción
--- | ---
`.append(x)` | Añadir el objeto `x` __al final__ de la lista.  Puede usarse el operador `+` para este fin
`.extend(iterable)` | Extender la lista añadiendo el `iterable` __al final__ de la lista
`.insert(i, x)`| Inserta x en la posición `i`. Recuerda que la lista se indexa desde 0.
`.remove(x)` | Quita __la primera__ ocurrencia de `x` en la lista
`.pop([i])`| Quita el \[i\]--ésimo elemento de la lista.  El argimento `i` es opcional y su valor por defecto es la longitud de la lista `len(lista)`. Puede usarse la función `del`.
`.clear()` | Elimina todos los elementos de la lista
`.index(x[,start[, end]])` | Nos da el índice, base 0, de la __primera ocurrencia__ de x en la lista o `ValueError`.  Los argumentos `start` y `end` son opcionales.
`.count(x)` | Cuenta las ocurrencias de `x` en la lista
`.sort(key = None, reverse = False)` | Ordena los elementos de la lista.  `key` y `reverse` son opcionales y  tienen que darse con nombre. `key` especifica una función de un argumento (transformación) para hacer la comparación.  Puede ver más detalles sobre ordenar en python [aquí](https://docs.python.org/3/howto/sorting.html).
`.reverse()` | Invierte el orden de los elementos de la lista
`.copy()` | Genera una copia (superficial) de la lista.  Note la diferencia de `b = a` con `b = a.copy()`


## Ciclos con listas

Las listas son objetos **iterables**, es decir, capaces de devolver y operar con sus objetos uno por uno en un ciclo **for**.  En el caso de listas podemos iterar de dos maneras fundamentales:

1.  Iterando los objetos únicamente:

```python 
marcas = ['apple', 'garmin', 'samsung', 'huawei']
for marca in marcas:
    print(marca)
```

Observa los **:** segudios de una **indentación exacta** (de 4 espacios).  

2.  Iterando en reversa:

```python
for marca in reversed(marcas):
    print(marca)
```

3.  Iterando sobre los objetos enumerándolos:

```python
marcas = ['apple', 'garmin', 'samsung', 'huawei']
for indice, marca in enumerate(marcas):
    print('La marca', indice, 'es', marca)
```

4.  Iterando sobre dos o más listas de forma simultánea (comprimida)

```python
marcas = ['apple', 'garmin', 'samsung', 'huawei']
productos = ['applewatch', 'fenix 6x pro', 'galaxy active 2', 'watch gt2 sport']
motivo = ['fancy', 'robusto', 'funcional', 'compatible')
for producto, marca in zip(productos, marcas):
    print('De la marca', marca, 'me gusta el', producto)
```


## Listas o...NumPy?

Siendo un lenguaje general de programación, Python necesita módulos para ser más eficiente.  En el caso de arreglos numéricos, o vectores de datos, el módulo pertinente es [NumPy](https://numpy.org) que se ha vuelto el estánar para el cómputo científico en Pyhton.   Citando del sitio oficial:

> NumPy is the fundamental package for scientific computing in Python. It is a Python library that provides a **multidimensional array object**, various derived objects (such as masked arrays and matrices), and an assortment of routines for **fast operations on arrays**, including mathematical, logical, shape manipulation, sorting, selecting, I/O, discrete Fourier transforms, basic linear algebra, basic statistical operations, random simulation and much more.

El objeto fundamental es un arreglo (vector atómico) y se define a partir de estructuras de múltiples argumentos como *tuples* o *listas*.  La estructura dimensional del arreglo será inferida del número de elementos.  Por ejemplo

```python
import numpy as np
alturas = np.array([1.65, 1.60, 1.79, 1.68, 1.90, 1.85, 1.69])
pesos = np.array((75, 55, 68, 60, 80, 85, 88))
matriz = np.array([alturas, pesos]) # observe que el argumento es UNA lista
```

Otra forma usual de crear el arreglo es con la función `np.arrange()`, equivalente a `range`.  Por ejemplo

```python
np.arange(10, 30, 5)
np.arange(0, 1, 0.05)
np.arange(10)
```

Los siguientes son atributos importantes del objeto `np.array`

Atributo |  Descripción
--- | ---
`.ndim` |  El número de dimensiones del arreglo (p.ej. 2)
`.shape`| Las dimensiones del arreglo (p. ej (2, 7))
`.size`| El número total de elementos del arreglo (p. ej. 14)
`.dtype` | El tipo de elementos del arreglo (p. ej. float64)


Hay algunos arreglos especiales y útiles:

```python
np.zeros((3, 5))
np.ones([4, 2])
np.diag([1, 3, 6, 9])
np.empty(8)
```

### Operaciones elementales

NumPy acepta los operadores aritméticos elementales aplicándolos elemento por elemento y 
provee operaciones matemáticas universles (universal functions `help(np.ufunc)`).  Por ejemplo:

```python
bmi = pesos / alturas ** 2
log_pesos = np.log(pesos)
sqrt_alturas = np.sqrt(alturas)
```

#### Ejemplo:
Se hace un pago de \$1500 cada año durante 15 meses comenzando el primero. Si la tasa de interés efectiva anual es del 9\%, la teoría financiera nos dice que el valor presente de esta inversión es

$$ PV = 1500 \left( \frac{1}{1+i} + \frac{1}{(1+i)^2} + \dots + \frac{1}{(1+i)^{15}}\right)  $$

1. Cree un arreglo NumPy que contenga los números $((1+i), (1+i)^2, \dots (1+i)^{15})$ (Int)
2. Usando el arreglo anterior cree un nuevo arreglo que contenga los inversos multiplicativos del anterior (Vs)
3. Calcule el valor presente usando la función `np.sum()` (PV)  

In [41]:
# A : crear el vector
import numpy as np
# forma 1 con numpy
Int = np.array([1.09 ** j for j in range(1,16)])
# forma 2 con numpy
Int = 1.09 ** np.arange(1, 16)
# forma 3 con listas
Int = [1.09 ** j for j in range(1,16)]

#B : 1 entre el arreglo anterior
# forma numpy
Vs = 1 / Int

# forma lista
Vs = [1 / value for value in Int]

#C:
# forma numpy
PV = sum(Vs) * 1500
PV

# forma lista y for
suma = 0
for valor in Vs:
    suma += valor
suma * 1500

12091.03264478136

### Selección de subvectores, `shape`, y estadísticas elementales

Ilustremos distintas formas de seleccionar dentro de un vector:

```python
a = np.arange(15)
b = np.arange(3, 18)**2
# 1. como una lista
a[1:3]
a[:3]
a[3:]
a[:]
a[1:-1:3]

# 2. indexando con una condición
index = a % 2 == 1  # seleccionamos los índices impares
a[index]

a[a < 6]
a[b < 200]  # una condición que no depende de a...

# 3. con un arreglo o lista
a[[1, 3, 8]]
b[a]
```
Podemos controlar la forma del arreglo con el método `.reshape()` y hacer operaciones elementales con él, por ejemplo:

```python
a.reshape(3, 5)
a.reshape(3, -1) # -1 significa "lo que haga falta"
a.reshape(3, 5) + b.reshape(3, 5)
a.reshape(3, 5) * b.reshape(3, 5)
a.reshape(3, 5) @ b.reshape(5, 3)
```

Otra forma de redimensionar es usando el método `.transpose()` que transpone la matriz, como tal.  Una vez en la forma indicada, podemos hacer cálculos estadísticos básicos con funciones de NumPy, por ejemplo:

```python

# no cambiar. este segmento genera datos simulados ---
alturas = np.round(np.random.normal(1.75, 0.35, 5000), 2)
pesos = np.round(np.random.normal(75, 10, 5000), 2)
data = np.array([alturas, pesos]).transpose()
# ---

# 
np.mean(data[:, 0])
np.median(data[:, 0])
np.std(data[:, 1])
np.var(data[:, 1])
np.corrcoef(data[:, 0], data[:, 1])
```

### Ejemplo
Vamos a analizar un juego de datos (simulado) de alturas de jugadores de fútbol.  Tenemos tres variables: `posiciones`, que nos indica si el jugador es un atacante, defensor, medio campista, o portero, `alturas` y `pesos` que nos dan lo propio de cada jugador.  Los arreglos se crean en la siguiente celda (cuyo código no es relevante por el momento).

1. Qué dimensiones tiene el objeto data (Véalo en un atributo de `data`)?
2. Genere un vector que contenga las alturas de todos los mediocampistas
3. Genere una matriz que contenta las alturas y los pesos de todos los porteros
4. Calcule un vector con los BMI para cada jugador que juegue en el Ataque y seleccione aquellos que tengan un BMI mayor o igual que 25
5. Utilice la función `len` para averiguar cuántos jugadores tienen un BMI mayor que 25
6. Utilice la función `np.sum` y un vector lógico para obtener el mismo resultado
7. Calcule la media y la mediana de la altura de los porteros

Como ayuda para recordar los materiales aprendidos hasta el momento, puedes consultar la [*Python For Data Science Cheat Sheat*](https://datacamp-community-prod.s3.amazonaws.com/e30fbcd9-f595-4a9f-803d-05ca5bf84612)

## Cargando datos con NumPy

El módulo NumPy implementa la función `loadtxt` para leer archivos de texto.  El requisito fundamental es que cada renglón del archivo debe contener el mismo número de valores.  Como argumento a la función daremos la ubicación del archivo que deseamos leer. Por ejemplo, el archivo `desempleoMX.csv` contiene la tasa de desocupación total en el territorio nacional desde Enero dee 2005 hasta Marzo de 2020 con periodicidad mensual.  Para leerlo haremos:

```python
desempleo = np.loadtxt('../Datos/desempleoMX.txt')
```
La primera columna corresponde al tiempo y la segunda a la tasa de desocupación.  Observe que siendo un arreglo de NumPy, ambas columnas deben tener el mismo `.dtype`, en este caso `float`.


## Ciclo con un arreglo en NumPy

Para iterar sobre un arreglo multidimensional podemos usar el método `np.nditer()` que da un iterador eficiente.  Por ejemplo:

```python
a = np.arange(6).reshape(2,3)
for x in np.nditer(a):
    print(x, end=' ')
    
for x in np.nditer(a.T.copy):
    print(x, end = ' ')
```
Obsérvese que el orden de recorrido es fijo (por asignación en memoria) y no por posición en el arreglo, como en otros lenguajes.  Si queremos recorrer el arreglo por renglones, debemos usar el argumento `order = 'C'` y si lo queremos recorrer por columna, debemos usar `order = 'F'`.

Por defecto esta iteración es de lectura únicamente y no permite cambiar el vector.  Para cambiar los valores del vector sobre la iteración deberemos especificar la *operation flag* como `writeonly` o `readwrite`:

```python
a = np.arange(6).reshape(2, 3)
with np.nditer(a, op_flags=['readwrite']) as iterador:
    for x in iterador:
        x[...] = 3*x # ... expands to the number of : objects needed for the selection tuple to index all dimensions.

a # ahora cada elemento ha sido multiplicado por 3
```

El objeto `np.nditer` es bastante flexible y tiene distintas funcionalidades.  Para conocerlo más a fondo comienza por visitar [esta página](https://numpy.org/doc/stable/reference/arrays.nditer.html).



## Los primeros gráficos: Matplotlib + NumPy


Usaremos el módulo `matplotlib.pyplot` para generar gráficos.  Primero deberemos importarlo con

```python
import matplotlib.pyplot as plt
```

Para hacer un **gráfico de línea** usaremos el comando `plt.plot()` con los dos ejes por argumento comenzando por el horizontal.  Por ejemplo
```python
import matplotlib.pyplot as plt
x = np.linspace(0, 2, 100)
plt.plot(x, x)
plt.show()
```

Observa el uso de `plt.show()` para mostrar la figura.  Podemos añadir nuevas capas al gráfico antes de mostrarlo, por ejemplo:

```python
x = np.linspace(0, 2, 100)
plt.plot(x, x, label='linear')  # Gráfico lineal en ejes implícitos
plt.plot(x, x**2, label='quadratic')  # Gráfico cuadrático
plt.legend()
plt.show()

```
Observa el uso del argumento `label` acompañado de `plt.legend()`.  Podemos modificar otros elementos comunes, por ejemplo:

```python
x = np.linspace(0, 2, 100)
plt.plot(x, x, color = 'yellow', linestyle = '-.', label='lineal')  # Gráfico lineal en ejes implícitos
plt.plot(x, x**2, label='cuadrática')  # Gráfico cuadrático
plt.legend()
plt.xlabel('Variable x')
plt.ylabel('Función de x')
plt.title('Transformaciones polinomiales de x')
plt.show()
```

#### Tu Turno:
Añade las gráficas de las funciones $x^3$ y $x^4$ en el gráfico poniendo a cada una un `label`.  Asegúrate, además, de que las líneas tengan los siguientes atributos:

Función |  Atributos de línea
--- | --- 
x | Color negro (`color = 'black'`), línea completa
x^2 | Color azul, línea punteada (`linestyle = ':'`)
x^3 | Color naranja, línea punto-raya (`linestyle = '-.'`)
x^4 | Color #a307f0, línea guiones (`linestyle = '--'`)



#### Tu turno 2: El diagrama de dispersión

Considera los siguientes datos (simulados) de botellas de vino que contienen el volumen, cantidad de botellas, ranking del vino, y precio unitario.  Grafica un diagrama de dispersión (`plt.scatter()`) con las siguientes indicaciones:

1. Ubica en el eje x la cantidad y en el eje y el volumen
2. Consulta `?plt.scatter` para saber cómo asignar el color de los puntos a la variable `ranking`.  Utiliza el mapeo de color `Spectral`.
3. Asigna la variable $0.3 * (3*price)^2$ para el tamaño de los puntos
4. Agrega títulos a cada uno de los ejes y al gráfico

#### Tu turno 3: El Histograma

Utiliza, en este ejercicio, la función `plt.hist()` para graficar un histograma. (Consulta `?plt.hist` si es necesario)

1. Haz un histograma de la variable `volume`
2. Cambia el número de `bins` a distintos números, para explorar un poco
3. Cambia la `orientation` a `horizontal`
4. Utilize un histograma normalizado usando el parámetro `density = True`.

### Mejorando el gráfico

En este problema graficaremos un panorama del desarrollo mundial en 2007 tomando dos medidas para muchos y distintos países: el producto interno bruto per cápita (en USD) y la esperanza de vida (en años). Importe los datos con:

```python
desarrollo = np.loadtxt('../Datos/NumPy_GapMinder.txt')
colors = np.loadtxt('../Datos/Numpy_Colors.txt')
poblacion = desarrollo[:, 0]
gdp_cap = desarrollo[:, 1]
espe_vida = desarrollo[:, 2]
```

1. **El gráfico básico:**  Genere un gráfico de dispersión que muestre el gdp per cápita contra la esperanza de vida.  Póngale por título "Desarrollo mundial en 2007".  Añada nombres a los ejes: `Gdp per cápita (USD)` para el eje x y `Esperanza de vida (años)` para el eje y
2. **La escala correcta:** El gráfico anterior muestra una relación exponencial, de modo que visualizar una escala logarítmica será mejor.  Ponga el eje x en escala logarítmica usando `plt.xscale('log')`.  Cambie además las marcas del eje x usando:
```python
values = [1000, 10000, 100000]
labels = [1, 10, 100]
plt.xticks(values, labels)
```
3. **El tamaño de los puntos:** Asigna la población (en millones) como tamaño de punto usando el argumento `s = poblacion`.
4. **Añade una rejilla** con `plt.grid(True)`


## Diccionarios 

En Python, un Diccionario (`dict`)  es un objeto que contiene pares en la forma `llave:valor`. Es la forma nativa de hacer listas referenciadas por nombre. Por ejemplo:

```python
poblaciones = {'Aguascalientes': 944285, 'Baja California': 2487367, 'Baja California Sur': 424041} 
```
En este constructo la llave es el acceso al valor, como selector.  Por ejemplo `poblaciones['Aguascalientes']` corresponde al valor 944,285.  El conjunto de todas las llaves se encuentra en el método `.keys()`.  Podemos añadir nuevos términos usando nuevas llaves, por ejemplo

```python
poblaciones['Campeche'] = 690689
```

y corroborar la existencia de llaves usando `in` o `not in`.  Por ejemplo

```python
'México' in poblaciones
'México' not in poblaciones
```

Eliminamos llaves (con el valor asociado) usando `del`, por ejemplo
```python
del(poblaciones['Campeche'])
```

#### Experimenta
En este ejercicio, crearás un diccionario _de diccionarios_ llamado `estados` y basado en la siguiente tabla

Estado | Capital | Población
--- | --- | ---
Aguascalientes | Aguascalientes | 944285
Baja California | Mexicali | 2487367
Baja California Sur | La Paz | 42041
Campeche | Campeche| 690689

Asignarás como llave el nombre de estado y como valor _un diccionario_ con llaves `capital` y `población`. Los valores de estas llaves están en la tabla.  Usa después el seleccionador para imprimir la capital de Campeche.  Usa el seleccionador para asignar una llave más, Coahuila, con capital Saltillo y población de 2298070.


Los diccionarios admiten el acceso a sus elementos de forma recursiva.  Por ejemplo, el siguiente diccionario contiene los 50 nombres más populares para bebés (mujeres) en México (según padresehijos.com.mx).

```python
famosos_2020 = {1: 'Sofía', 2:'Camila', 3: 'Valentina', 4:'Isabella', 5: 'Valeria', 6:'Daniela', 
                7:'Mariana', 8:'Sara', 9:'Victoria', 10:'Gabriela', 11:'Ximena', 12:'Andrea',
                13:'Natalia', 14:'Mía', 15: 'Martina', 16: 'Lucía', 17:'Samantha', 18:'María',
                19:'María Fernanda', 20:'Nicole', 21:'Alejandra', 22:'Paula', 23:'Emily',
                24:'María José', 25:'Fernanda', 26:'Luciana', 27:'Ana Sofía', 28:'Melanie',
                29:'Regina', 30:'Catalina', 31:'Ashley', 32:'Renata', 33:'Agustina', 34:'Abril', 
                35:'Emma', 36:'Emilia', 37:'Jazmín', 38:'Juanita', 39:'Briana', 40:'Vanessa',
                41:'Antonia', 42:'Laura', 43:'Antonella', 44:'Luna', 45:'Carla', 46:'Allison',
                47:'Monserrat', 48:'Paulin', 49:'Isabel', 50:'Juliana'}
```

En este diccionario hemos usado por llave el _ranking_ del nombre y como valor el nombre mismo.  Podemos generar el mismo diccionario; pero por nombres, como sigue:

```python
nombres_2020 = {}
for rank, nombre in famosos_2020.items():
    nombres_2020[nombre]= rank
```

Podemos ordenar un diccionario por sus llaves con el comando `sorted`, por ejemplo, para imprimir el diccionario de nombres en orden alfabético haríamos

```python
for nombre in sorted(nombres_2020):
    print(nombres_2020[nombre])
```


## Funciones

Podemos escribir nuestras propias funciones en Python con la sintaxis:
```python
def nombre_de_funcion(argumentos):
    # cuerpo de la ejecución
    return(resultado_de_ejecucion)
```
Puntos esenciales:
1. El uso de la definición funcional con la palabra clave `def` seguida del nombre de la función y los argumentos de la función
2. La indentación bajo la palabra `def` de **4 espacios** (dados por cualquier editor de Python decente)
3. El uso de la palabra clave `return` para dar el resultado

#### Ejemplo 1: Funciones de operacione simples:
1. La función `cubo` eleva al cubo su argumento:
```python 
def cubo(x):
    return(x**3)
```

2. La función "suma de dos argumentos" se define:

```python
def suma(x, y):
    return(x + y)
```

3. (Tu turno): La función "elevar x a la potencia y" se define:
```python
def power(x, y)
    ...
```

#### Ejemplo 2: Funciones y control de flujo
En este ejemplo jugaremos un poco con la sucesión de Fibonacci definida como "la suma de los dos números anteriores" y comenzando con (0, 1).  La primera función será `fibonacci` y tendrá como argumento `n`, una cota superior para la serie.  Esta función imprime todos los números de la sucesión de Fibonacci menores que `n`.

```python
def fibonacci(n):
    a, b = 0, 1
    while(a < n):
        print(a)
        a, b = b, a + b
```

Nuestra segunda función imprimirá únicamente los números impares de la serie acotados por `n`:

```python
def fibonacci_par(n):
    a, b = 0, 1
    while(a < n):
        if(a % 2 == 1):
            print(a, end = ' ')
        a, b = b, a + b
```

Nuestra tercera función imprimirá el número de la sucesión (hasta el argumento `n`) y su clasificación según la siguiente tabla:

Número |  Clasificación
--- | ---
0 | Cero
1 al 20 | Pequeño
21 al 100 | Mediano
100 en adelante | Grande

```python
def fibonacci_clasif(n):
    a, b = 0, 1
    while(a < n):
        if(a == 0):
            print(a, "se clasifica como Cero")
        elif(1 <= a <= 20):
            print(a, "se clasifica como Pequeño")
        elif(21 <= a <= 100):
            print(a, "se clasifica como Mediano")
        else:
            print(a, "se clasifica como Grande")
        a, b = b, a + b
```

#### Ejemplo 3: Funciones iterando (ciclo for y cláusulas)

Otra forma de controlar el flujo de una función es *iterando* los elementos de una lista o un rango numérico, por ejemplo, podemos calcular el factorial de un número `n` como el producto `n(n-1)(n-2)...(2)(1)` con el siguiente código:

```python
def factorial(n):
    result = 1;
    for i in range(n):
        result *= i
    return(result)
```

El ciclo `for` en Python admite las afirmaciones `break`, para terminar el ciclo, `continue` para saltar la iteración actual y `else` que se activa cuando no entró en acción ninguna afirmación tipo `break`. Por ejemplo, la siguiente función nos podría dar el mínimo divisor de un número o indicarnos si es primo:

```python
def divisor_o_primo(n):
    for num in range(2, n):
        if n % num == 0:
            print(n, 'es divisible por', num)
            break
    else:
        print(n, 'es primo')
```



#### Ejemplo 4: Funciones con output múltiple
Para producir un output múltiple podemos usar una `list`, un `dict`, o una `tuple`.  
1. La función que, dado un vector de NumPy, devuelve su media y su varianza en una `tuple` es

```python 
def mean_var(vector):
    mean, var = (np.mean(vector), np.var(vector))
    return((mean, var))
```

2. Podríamos cambiar el modo de respuesta a lista o a diccionario. Por ejemplo:
```python
def mean_var(vector):
    mean, var = (np.mean(vector), np.var(vector))
    return({'mean': mean, 'variance': var})
```

**NOTAS:** 

En caso de no utilizar la palabra clave `return`, la función devolverá el valor `None`

Cuando la función puede reducirse, sintácticamente, a una línea, podemos usar las *funciones anónimas* como en `suma = lambda x,y : x + y`

Para saber más sobre cómo operan las funciones definidas en Python, visita [esta página](https://docs.python.org/3/tutorial/controlflow.html).


#### Tu turno
Una de las aplicaciones más comunes de un diccionario es la de contar elementos en una lista.  En este ejemplo haremos justo eso.  

1.  Comenzaremos importando un archivo de tweets que contiene, entre otra, la información del idioma del mensaje en el campo `lang`.  Esta parte del script te es dada y crea una lista de nombre `langs` que contiene el lenguaje de cada uno de los tweets.
2. Crearemos un diccionario vacío con nombre `dict_langs` y haremos un ciclo: Para cada elemento de la lista `langs` _si_ el lenguaje ya es _una llave_ del diccionario `dict_langs`, entonces sumaremos a ese _valor_ 1; en otro caso inicializaremos esa _llave_ con el _valor_ 1.  
3. Sintetiza lo anterior en una función llamada `conteo_elem` que tome por argumento una lista y que devuelva el conteo de sus elementos.  Aplica tu función sobre la lista de lenguajes para corroborar su funcionamiento.

**Nota:** 
1.  Investiga el objeto `Counter` del módulo `collections`.  El problema que acabamos de resolver podría haberse abordado así:
```python
from collections import Counter
langs_counter = Counter(langs)
langs_counter
```


2.  Otro constructo útil sería el `defaultdict` que asigna valores por defecto cuando una llave no se encuentra en el diccionario.  Otra solución al problema de conteo sería:
```python
from collections import defaultdict
dict_langs = defaultdict(int)
for lenguaje in langs:
    dict_langs[lenguaje] += 1

```


## Manejo de Errores y Excepciones

El error más común que obtendremos cuando aprendemos Python es el error sintáctico como en

```python
for in in range(3) print(i)
```

En general, el intérprete mostrará un mensaje en donde apunta al primer carácter en el que la interpretación resulta imposible.  En nuestro ejemplo, el intérprete apunta a la p de `print` diciéndonos que no pudo interpretar este comando.  La razón, en este caso, es la falta del símbolo `:` en el ciclo.  La sitaxis correcta sería:

```python
for i in range(3): print(i)
```

**Nota:** La sintaxis recomendada usaría una línea nueva para `print(i)` y usaría una indentación de cuatro espacios.

No obstante, hay errores más sutiles que no son producto de la sintaxis, sino de la cadena de ejecución. Por ejemplo, al tratar de ejecutar la operación `10/ 0` obtenemos un error, en este caso el denominado `ZeroDivisionError`.  Otros dos errores clásicos son `NameError` que viene de llamar objetos que no existen en el ambiente y `TypeError` que viene de operar con tipos incompatibles. Por ejemplo:

```python
agua * 3  # NameError
'2' + 45  # TypeError
```
[Estas](https://docs.python.org/3/library/exceptions.html#bltin-exceptions) son todas las excepciones ya definidas en Python.


### Try, exept ...

La cláusula `try, except` ayuda a administrar las excepciones.  Por ejemplo:

```python
def repite(palabra, num_veces = 2):
    repetido = " "
    try:
        repetido = palabra * 2
    except:
        print('El argumento palabra debe ser del tipo str y el argumento num_veces debe ser un entero')
    return(repetido)

repite('arroz', 'con leche')
```

### ... finally

Podemos añadir una cláusula `finally` al constructo `try` - `except` que se ejecuta haya o no una excepción.  Por ejemplo:

```python
def div(x,y):
    try:
        result = x / y
    except ZeroDivisionError:
        print('División entre cero!')
        tipo = 'con excepción'
    else: 
        print('El resultado es', result)
        tipo = 'sin excepción'
        return(result)
    finally:
        print('Ejecución de la cláusula finally', tipo)

```


#### Ejemplo:
Se pueden levantar excepciones con la palabra clave `raise`.  En este ejemplo modificarás la función `repite` para evitar que el parámetro `num_veces` sea negativo.  En caso de serlo, se levantará una excepción del tipo `ValueError` con mensaje "El argumento num_veces debe ser un entero positivo".  Para ello, escribirás:
```python
raise ValueError('mensaje')
```
en el momento indicado del flujo del código.  Lidia con la excepción como antes; pero añade un mensaje final indique si hubo error, excepción, o nada usando una cláusula `finally`.

## Clases

En Python una clase es una forma programática de asociar información (en atributos) y funcionalidad (en métodos) creando un tipo de objeto que se puede instanciar de forma muy similar a como funciona una lista o un diccionario de forma nativa; pero con mucha mayor flexibilidad.  La definición básica de una clase comienza por:

```python
class MiClase:
    atributo = 'un atributo de clase'
    def metodo(self, arg):
        print('Este sería un método del objeto con el argumento arg =', arg)
```

El acceso al atributo y al método se realizaría de esta manera:
```python
x = MiClase()
print(x.atributo)
x.metodo(15)
```

Podemos utilizar un atributo dado por el usuario para instanciar una clase como sigue:
```python
class MiClase:
    def __init__(self, atributo):
        self.atributo = atributo
    def metodo(self, arg):
        print('Este sería un método del objeto con el argumento arg =', arg)
    def __repr__(self):
        return('Intervactive prompt del objeto de clase MiClase con atributo ' + self.atributo)
    def __str__(self):
        return('Impresión del objeto clase MiClase y con atributo ' + self.atributo)
        
x = MiClase('color')
print(x)
x
````

## Fechas y tiempos

En general, las fechas y tiempos en Python se manejan con el módulo `datetime` que contiene el tipo `datetime`, el método `.strptime()` para interpretar cadenas de texto como fechas (una operación clásica), el método `.strftime()` para interpretar fechas como cadenas de texto, el método `.isoformat()` para dar formato ISO a las fechas, entre otros. Por ejemplo:

```python
fecha_str =  '2002/12/31'
fecha_str2 = '12/31/2002'
fecha_str3 = '31/12/2002'

from datetime import datetime
fecha_dt =  datetime.strptime(fecha_str,  '%Y/%m/%d')
fecha2_dt = datetime.strptime(fecha_str2, '%m/%d/%Y')
fecha3_dt = datetime.strptime(fecha_str3, '%d/%m/%Y')

print('La primera versión es', fecha_dt)
print('La segunda versión es', fecha2_dt)
print('La tercera versión es', fecha3_dt)

print('La fecha en formato ISO es', fecha_dt.isoformat())

print('Cambiamos el formato de la fecha a:', datetime.strftime(fecha_dt, '%m/%Y/%d'))

```
El *formato* para interpretar el texto se especifica según los estándares (compartidos por varios softwares) establecidos en [la documentación oficial de Python](https://docs.python.org/3/library/datetime.html#strftime-strptime-behavior).  

El objeto tipo `datetime` tiene los atributos `year`, `month`, `day`, `hour`, `minute`, `second`.  En este ejemplo trabajaremos con un juego de [datos de  la ciudad de Chicago](https://data.cityofchicago.org/browse?q=&sortBy=relevance) sobre abordajes diarios en autobuses y trenes de transporte de pasajeros.  Haremos la importación a una lista vía el módulo `csv` como sigue:

```python
import csv
daily_summaries = []
with open('../Datos/CTA_Daily_Totals_2020.csv') as csv_file:
    for row in csv.reader(csv_file):
        daily_summaries.append(row)
daily_summaries.pop(0)  # quitando los nombres de las columnas: (service_date, day_type, bus, rail_boardings, total_rides)
daily_summaries
```

Ahora usaremos el mes para agregar manualmente los viajes en un ciclo `for`.  Para ello:

#### Tu turno:

1. Define un `deaultdict` de tipo entero (si es necesario, importa `defaultdict` del módulo `collections`) llamado `viajes_mensuales`
2. Haz un ciclo `for` sobre la lista `daily_summaries`.  En este ciclo define la variable `fecha_dt` que contenga la fecha, en tipo `datetime`, del registro en turno
3. Dentro del mismo ciclo, usa el mes de la fecha (`fecha_dt.month`) como llave del diccionario `viajes_mensuales` e incrementa el valor de esa llave por el número total de viajes (el quinto elemento del registro). Cuida hacerlo tipo `int` para evitar un `TypeError`
4. Ve en este diccionario cuántos viajes hubo en Agosto.

### Horarios, husos y usos
Para que una hora tenga sentido es necesario reportarla en una zona horaria específica.  Las zonas horarias se manejan importando `timezone` del módulo `pytz`.  Para que un objeto tipo `datetime` sea "sensible" a la zona horaria, debemos primero utilizar una zona horaria definida con `timezone` y el método `replace` con argumento `tzinfo` asignado a esa zona horaria.  El total de zonas horarias puede consultarse [aquí](https://en.wikipedia.org/wiki/List_of_tz_database_time_zones).  Por ejemplo:

```python
from datetime import datetime
from pytz import timezone

fecha = datetime.now()
cdmx_zona = timezone('America/Mexico_City')
jpn_zona = timezone('Japan')
fecha.replace(tzinfo = cdmx_zona)
fecha_jpn = fecha.astimezone(jpn_zona)

print('En CDMX', fecha, 'y en Japón', fecha_ny)
```
 
De forma nativa, Python maneja las diferencias temporales en el objeto tipo `timedelta` del módulo `datetime`.  Por ejemplo:
```python
from datetime import timedelta
ahora = datetime.now()
un_dia_mas = timedelta(days = 1)
print(ahora + un_dia_mas)
cuatro_horas_menos = timedelta(hours = 4)
print(ahora - cuatro_horas_menos)

desde_que_naci = ahora - datetime.strptime('1979/05/08', '%Y/%m/%d')
print(desde_que_naci)
```

Alternativamente, podemos usar el paquete `pendulum` que facilita la manera de tratar con fechas.  Usaremos el método `.parse()` en vez de `.strptime()` y el método `.in_timezone()` en vez de la combinación de `replace` y `.astimezone()`.  Además, el método `.now()` admite un argumento: la zona horaria.  Por ejemplo

```python
import pendulum
ahora_sydney = pendulum.now('Australia/Sydney')
ahora_londres = ahora_sydney.in_timezone('Europe/London')
print(ahora_sydney)
termina_semestre = pendulum.parse('2020/12/07')
falta = termina_semestre - pendulum.now()
print(falta.in_words())
```