# Clase 1a: Estructuras básicas, librerías Numpy y Pandas
Lo que veremos en esta notebook:

- [x] Estructuras básicas: listas, tuplas y diccionarios
- [x] Librería Numpy: Manejo básico de arrays, acceso a los datos, operaciones básicas y máscaras
- [x] Librería Pandas: Estructuras Series y DataFrame, acceso a los datos y filtros

# Python

Python es un lenguaje de programación gratuito y de código abierto, creado Guido van Rossum, el cual fue lanzado en 1991. Es un lenguaje interpretado, lo que significa que el código se ejecuta directamente, no existe una compilación previa. Es un lenguaje de alto nivel, por lo que su sintaxis es muy sencilla y requiere menos líneas de código para su ejecución.

# 0. Algunos tips antes de comenzar...

Un resumen del manual de buenas prácticas se puede encontrar en el siguiente [enlace](https://realpython.com/python-pep8/).

### Indentación:
La indentación es un aspecto fundamental en python que consiste en una serie de espacios que agrupan el código, proporcionando una jerarquía al mismo. Se recomienda que cada nivel de indentación se realice con cuatro espacios de la siguiente manera:

```python
lista = [2, 3, 4, 5]

for elem in lista:
    elem_cuadrado = elem**2
    print(elem_cuadrado)
```
Cualquier inconsistencia en los espacios proporcionará un error. Probemos por ejemplo:

```python
lista = [2, 3, 4, 5]

for elem in lista:
   elem_cuadrado = elem**2
    print(elem_cuadrado)
```

In [1]:
lista = [2, 3, 4, 5]

for num in lista:
    square_num = num**2
    print(square_num)

4
9
16
25


Para consultar errores pueden dirigirse al siguiente [enlace](https://docs.python.org/es/3/tutorial/errors.html)

### Comentarios:

Los comentarios son líneas en nuestro código que contribuyen a la comprensión del mismo. Existen tres tipos de comentarios:

- Comentarios sobre bloques de código (Block Comments):
Son aquellos que se utilizan para documentar una pequeña sección de código. Se definen anteponiendo un # a la línea y van indentados al mismo nivel que la sección de código que explican.

```python
# Itera sobre i, asignando los valores de 0 a 9 e
# imprime su valor seguido un salto de línea
for i in range(10):
    print(i, '\n')
```

- Comentarios entre líneas (Inline Comments):
Se utilizan para explicar una línea de código. Generalmente van al final de la misma y se definen de igual manera anteponiendo un # al inicio de los mismos y deben comenzar por lo menos dos espacios después de terminar la línea de código.

```python
name = 'Santiago'  # Asigna a la variable "name" el nombre del docente
print(f'El docente se llama {name}')
```

- Cadenas de documentación (Documentation Strings):
Se utilizan generalmente para describir módulos, funciones, clases o métodos. Son _strings_ encerrados por tres comillas, bien sean dobles o simples. Cabe resaltar que python utiliza comillas simples o dobles sin hacer diferencia entre ellas, siempre que estas sean consistentes al abrir y cerrar.

```python
def suma(a, b):
    '''
    Función suma de enteros

    parámetros:
    a: número entero
    b: número entero

    retorna:
    retorna la suma de los mismos, de lo contrario, retorna None.
    '''

    if isinstance(a, int) and isinstance(b, int):
        resultado = a + b
    else:
        print('los datos de entrada deben ser de tipo entero')
        resultado = None

    return resultado

```

In [2]:
for i in range(10):
    print(i, "\n")

0 

1 

2 

3 

4 

5 

6 

7 

8 

9 



In [3]:
name = "Santiago"  # Asigna a la variable "name" el nombre del docente
print(f"El docente se llama {name}")

El docente se llama Santiago


In [4]:
import os

def limp_pant():
    
    return os.system("cls" if os.name=="nt" else "clear")

In [5]:
def suma(a=9, b=10):
    '''
    Función suma de enteros

    parámetros:
    a: número entero
    b: número entero

    retorna:
    retorna la suma de los mismos, de lo contrario, retorna None.
    '''

    if isinstance(a, int) and isinstance(b, int):
        resultado = a + b
    else:
        print("los datos de entrada deben ser de tipo entero")
        resultado = None

    return resultado

In [6]:
band1 = False
band2 = False

while not band1:

    try:
        
        n1 = int(input("Introduzca el primer numero entero: \n"))

        print(f"El numero 1 introducido es {n1}")

        band1 = True

    except Exception as e:

        print("Debe introducir un numero entero")

        input("Presione una tecla para continuar...")
        
        limp_pant()


while not band2:

    try:
        
        n2 = int(input("Introduzca el segundo numero entero: \n"))

        print(f"El numero 2 introducido es {n2}")

        band2 = True

    except Exception as e:

        print("Debe introducir un numero entero")

        input("Presione una tecla para continuar...")
        
        limp_pant()
    

Introduzca el primer numero entero: 
 4


El numero 1 introducido es 4


Introduzca el segundo numero entero: 
 5


El numero 2 introducido es 5


In [7]:
suma(n1, n2)

9

### Imprimir en pantalla:

Hasta la versión 2.7, para imprimir un valor en pantalla, Python utilizaba la sentencia _print_, seguida directamente del elemento que queríamos mostrar. Sin embargo, a partir de la versión 3x, se hizo necesario el uso del paréntesis dado que se incluyó como función y las funciones en Python hacen uso de paréntesis. Veamos algunos ejemplos:

``` python
print('El carro es azul')
print(15)
print(12.5)
```

Para concatenar un string con un entero, hay que convertir dicho entero a string:

``` python
edad = 29
print('Juan tiene ' + str(edad) + ' años')
```

O utilizando _fstrings_:

``` python
print(f'Juan tiene {edad} años')
print('Juan tiene {:2d} años'.format(edad))
```


In [8]:
print("El carro es azul")
print(15)
print(12.5)

El carro es azul
15
12.5


### Variables:

Una variable es un espacio para almacenar datos en la memoria de un ordenador. En Python, una variable se define de la siguiente manera:

```python
Nombre_Variable = Valor
```
Las variables pueden contener diferentes tipos de elementos, como valores enteros, flotantes, string, listas, entre otros. Veamos algunos ejemplos:

| Nombre del tipo de dato | Tipo de dato | Ejemplo |
| :-: | :-: | :-: | 
| int | Valores enteros | 4 |
| float | Valores decimales | 3.1415 | 
| str | Texto (Strings) | 'Hot' | 
| bool | Valores booleanos: True/False | True |

Como se ve en la tabla anterior, cuando se define un elemento tipo _string_, este debe ir entre comillas, mientras que un número sea entero o flotante así como un valor _booleano_, puede escribirse de manera directa a menos que vaya concatenado con un string, en cuyo caso hay que realizar un cambio de tipo de variable.


```python
entero = 2
flotante = 5.3
lista = [1, 'Gato', 5.4]
```

In [9]:
entero = 2
flotante = 5.3
lista = [1, 'Gato', 5.4]

### Operadores:

Existen algunos operadores adicionales que permiten realizar comparaciones o asignaciones, siendo muy útiles cuando realizamos ciclos o queremos evaluar condiciones. Estos operadores se detallan a continuación:


|Función del Operador |Símbolos| 
| :-: | :-: | 
| Operadores de asignación | =, +=, -=, etc.| 
| Comparaciones | (==, !=, >, <. >=, <=) y (is, is not, in, not in)|
| Booleanos | (and (&), not (~), or ) | 

Probemos algunos ejemplos:
```python
# Operadores de asignación
a = 5
a *= 2
print(a)

# Operadores de comparación
a = 6
print(a == 6)

lista = [1, 'Gato', 5.4]
b  = 'Gato'
print(b in lista)

# Operadores booleanos
a = 6
print(a==10 and a>5)
```


In [10]:
a = 5
a *= 2
print(a)

10


In [11]:
a = 6
print(a == 6)

True


In [12]:
lista = [1, 'Gato', 5.4]
b  = 'Gato'
print(b in lista)

True


In [13]:
a = 6
print(a==10 and a>5)

False


# 1. Estructuras Básicas

## 1.1. ¿Qué es una lista?
Una lista es una estructura de datos que permiten almacenar diferentes tipos de elementos (enteros, flotantes, cadenas de texto, listas, etc.) en un mismo objeto y el acceso a cada uno de sus elementos, se puede realizar por medio de su ubicación dentro de la lista, comenzando a contar a partir de cero, por ejemplo:

![lista_1.png](attachment:lista_1.png)

```python
from termcolor import colored

lista = [1, 'perro', [2, 3], 1.5, None, 1]

print(lista)

print(colored('\nTercer elemento de la lista: ', 'blue'),
      lista[2])

print(colored('\nPrimeros dos elementos de la lista: ', 'blue'),
      lista[:2])

print(colored('\nÚltimo elemento de la lista: ', 'blue'),
      lista[-1])

```

In [14]:
from termcolor import colored

lista = [1, 'perro', [2, 3], 1.5, None, 1]

print(lista)

[1, 'perro', [2, 3], 1.5, None, 1]


In [15]:
print(colored('\nTercer elemento de la lista: ', 'blue'),
      lista[2])

[34m
Tercer elemento de la lista: [0m [2, 3]


In [16]:
print(colored('\nPrimeros dos elementos de la lista: ', 'blue'),
      lista[:2])

[34m
Primeros dos elementos de la lista: [0m [1, 'perro']


In [17]:
print(colored('\nÚltimo elemento de la lista: ', 'blue'),
      lista[-1])

[34m
Último elemento de la lista: [0m 1


También es posible conocer información sobre la lista y sus elementos con métodos como _type()_ o _len()_:

```python
lista = [1, 'perro', [2, 3], 1.5, None, 1]

print(colored('\nTipo de elemento de la posición 2 de la lista: ', 'blue'),
      type(lista[2]))

print(colored('\nLongitud de la lista: ', 'blue'),
      len(lista))

print(colored('\nTipo y longitud del segundo elemento de la lista: ', 'blue'),
      f'{type(lista[1])} , {len(lista[1])}')

```

In [18]:
print(colored('\nTipo de elemento de la posición 2 de la lista: ', 'blue'),
      type(lista[2]))

[34m
Tipo de elemento de la posición 2 de la lista: [0m <class 'list'>


In [19]:
print(colored('\nLongitud de la lista: ', 'blue'),
      len(lista))

[34m
Longitud de la lista: [0m 6


In [20]:
print(colored('\nTipo y longitud del segundo elemento de la lista: ', 'blue'),
      f'{type(lista[1])} , {len(lista[1])}')

[34m
Tipo y longitud del segundo elemento de la lista: [0m <class 'str'> , 5


Las listas son de tipo mutable, esto quiere decir que sus características pueden ser modificadas, lo que permite a las mismas crecer de manera dinámica, ejemplo:

```python
lista = [1, 'perro', [2, 3], 1.5, None, 1]

lista.append('nuevo elemento')

print(lista)

# Removemos el segundo elemento de la lista:
print(colored('\nMétodo pop: ', 'blue'),
      lista[2])

lista.pop(2)

print(lista)
```

In [21]:
lista = [1, 'perro', [2, 3], 1.5, None, 1]

lista.append('nuevo elemento')

print(lista)

# Removemos el segundo elemento de la lista:
print(colored('\nMétodo pop: ', 'blue'),
      lista[2])

lista.pop(2)

print(lista)

[1, 'perro', [2, 3], 1.5, None, 1, 'nuevo elemento']
[34m
Método pop: [0m [2, 3]
[1, 'perro', 1.5, None, 1, 'nuevo elemento']


Esta propiedad de mutabilidad, hace que al realizar modificaciones sobre una lista, las mismas se realicen en todos los elementos que hagan uso de ella

```python
lista = [1, 'perro', [2, 3], 1.5, None, 1]

lista2 = ['a', 'b', 'c', lista]

print(colored('La lista 2 contiene la lista original: \n', 'blue'),
      lista2)
```

In [22]:
lista = [1, 'perro', [2, 3], 1.5, None, 1]

lista2 = ['a', 'b', 'c', lista]

print(colored('La lista 2 contiene la lista original: \n', 'blue'),
      lista2)

[34mLa lista 2 contiene la lista original: 
[0m ['a', 'b', 'c', [1, 'perro', [2, 3], 1.5, None, 1]]


Al modificar el segunto elemento de la lista original, también se modifica la lista2:

```python
lista[1] = 'Gato'

print(colored('lista original modificada:\n', 'blue'),
      lista)

print(colored('\nlista 2:\n', 'blue'),
      lista2)
```

In [23]:
lista[1] = 'Gato'

print(colored('lista original modificada:\n', 'blue'),
      lista)

print(colored('\nlista 2:\n', 'blue'),
      lista2)

[34mlista original modificada:
[0m [1, 'Gato', [2, 3], 1.5, None, 1]
[34m
lista 2:
[0m ['a', 'b', 'c', [1, 'Gato', [2, 3], 1.5, None, 1]]


Y si modificamos un elemento de `lista` que se encuentra contenida en `lista2`?

### Ejercicio 1.1:
- Modificar la lista que se encuentra contenida en `lista2`, cambiar el elemento con el nombre 'Gato' a 'Perro' y verificar qué pasa con ambas listas. Para acceder a esta posición deberá utilizar dos índices, el índice de la lista seguido por el índice del elemento en la segunda lista, ejemplo:

```python
lista_t = [1, 2, [3, 4], 5]
print(f'Tercer elemento de lista_t: {lista_t[2]}')
print(f'Segundo elemento de la lista que se encuentra en la tercer posición de lista_t: {lista_t[2][1]}')
```



In [24]:
lista2[3][1] = "Perro"
print(f"Lista 2 modificada {lista2}")
print(f"Lista original insertada en lista 2 (fue modificada): {lista}")

Lista 2 modificada ['a', 'b', 'c', [1, 'Perro', [2, 3], 1.5, None, 1]]
Lista original insertada en lista 2 (fue modificada): [1, 'Perro', [2, 3], 1.5, None, 1]


¿Cómo hago para que esto no pase?

- Probar el método copy(). Para esto vamos a redefinir las dos listas anteriores, la diferencia es que esta vez incluiremos en la lista2, la lista original seguida del método `.copy()`:

```python
lista = [1, 'perro', [2, 3], 1.5, None, 1]

lista2 = ['a', 'b', 'c', lista.copy()]

```

In [25]:
lista = [1, 'perro', [2, 3], 1.5, None, 1]

lista2 = ['a', 'b', 'c', lista.copy()]

print(lista2)

['a', 'b', 'c', [1, 'perro', [2, 3], 1.5, None, 1]]


In [26]:
lista2[3][1] = "Gato"
print(f"Lista 2 modificada {lista2}")
print(f"Lista original insertada en lista 2 (fue modificada): {lista}")

Lista 2 modificada ['a', 'b', 'c', [1, 'Gato', [2, 3], 1.5, None, 1]]
Lista original insertada en lista 2 (fue modificada): [1, 'perro', [2, 3], 1.5, None, 1]


En caso de querer hacer una copia recursiva de los elementos, también podemos hacer uso de la librería copy:

```python
import copy

# Creamos una una copia profunda de la lista anidada 'lista2'

lista3 = copy.deepcopy(lista2)

# Imprimamos nuestras listas:
print(colored('lista 2:\n', 'blue'), lista2)
print(colored('lista 3:\n', 'blue'), lista3)

# probemos modificar el elemento [3][2][1]
lista3[3][2][1] = 9
print(colored('lista 2:\n', 'blue'), lista2)
print(colored('lista 3 modificada:\n', 'blue'), lista3)
```

In [27]:
import copy

# Creamos una una copia profunda de la lista anidada 'lista2'

lista3 = copy.deepcopy(lista2)

# Imprimamos nuestras listas:
print(colored('lista 2:\n', 'blue'), lista2)
print(colored('lista 3:\n', 'blue'), lista3)

# probemos modificar el elemento [3][2][1]
lista3[3][2][1] = 9
print(colored('lista 2:\n', 'blue'), lista2)
print(colored('lista 3 modificada:\n', 'blue'), lista3)

[34mlista 2:
[0m ['a', 'b', 'c', [1, 'Gato', [2, 3], 1.5, None, 1]]
[34mlista 3:
[0m ['a', 'b', 'c', [1, 'Gato', [2, 3], 1.5, None, 1]]
[34mlista 2:
[0m ['a', 'b', 'c', [1, 'Gato', [2, 3], 1.5, None, 1]]
[34mlista 3 modificada:
[0m ['a', 'b', 'c', [1, 'Gato', [2, 9], 1.5, None, 1]]


También podemos iterar sobre una lista. Por ejemplo, si queremos conocer todas las posiciones en nuestra _lista_ donde el valor de nuestro elemento sea _1_ podemos: 

```python

print(lista)
posiciones = []

for pos, val in enumerate(lista):
    if val == 1:
        posiciones.append(pos)

print(colored('Posiciones donde nuestro elemento vale 1:\n', 'blue'),
      posiciones)
```


In [28]:
print(lista)
posiciones = []

for pos, val in enumerate(lista):
    if val == 1:
        posiciones.append(pos)

print(colored('Posiciones donde nuestro elemento vale 1:\n', 'blue'),
      posiciones)

[1, 'perro', [2, 3], 1.5, None, 1]
[34mPosiciones donde nuestro elemento vale 1:
[0m [0, 5]


O por comprensión de listas:
```python
posiciones = [pos for pos, val in enumerate(lista) if val == 1]

print(colored('Posiciones donde nuestro elemento vale 1:\n', 'blue'),
      posiciones)
```

In [29]:
posiciones = [pos for pos, val in enumerate(lista) if val == 1]

print(colored('Posiciones donde nuestro elemento vale 1:\n', 'blue'),
      posiciones)

[34mPosiciones donde nuestro elemento vale 1:
[0m [0, 5]


Para conocer más sobre listas y sus métodos consultar el siguiente [enlace](https://docs.python.org/es/3/tutorial/datastructures.html)

## 1.2. ¿Qué es una tupla?
Una tupla es una estructura iterable similar a las listas. Permiten almacenar diferentes tipos de elementos (enteros, flotantes, cadenas de texto, listas, etc.) en un mismo objeto y el acceso a cada uno de sus elementos se realiza, al igual que las listas, por su ubicación en la misma. Sin embargo, a diferencia de las listas, las tuplas son estructuras que no son mutables, es decir, sus valores son fijos. Ejemplo:

```python
a = (1, 'Gato', 3)

print(colored('El elemento almacenado en a es de tipo: ', 'blue'),
      type(a))

print(colored('El segundo elemento de a es: ', 'blue'),
      a[1])

# Intentando modificar una tupla:
a[0] = 5
```

In [30]:
a = (1, 'Gato', 3)

print(colored('El elemento almacenado en a es de tipo: ', 'blue'),
      type(a))

print(colored('El segundo elemento de a es: ', 'blue'),
      a[1])

# Intentando modificar una tupla:
a[0] = 5

[34mEl elemento almacenado en a es de tipo: [0m <class 'tuple'>
[34mEl segundo elemento de a es: [0m Gato


TypeError: 'tuple' object does not support item assignment

En caso de querer modificar nuestros elementos deberíamos cambiar el tipo de objeto de tupla a uno mutable. Esta acción es posible realizarla mediante los comandos list() y tuple():

```python
list(a)
```

In [31]:
a = (1, 'Gato', 3)

print(colored('El elemento almacenado en a es de tipo: ', 'blue'),
      type(a))

print(colored('El segundo elemento de a es: ', 'blue'),
      a[1])

a = list(a)

# Intentando modificar una tupla:
a[0] = 5

print(a)

[34mEl elemento almacenado en a es de tipo: [0m <class 'tuple'>
[34mEl segundo elemento de a es: [0m Gato
[5, 'Gato', 3]


## 1.3. ¿Qué es un diccionario?
Los diccionarios son estructuras de datos que, al igual que las listas y las tuplas, permiten almacenar diferentes tipos de datos, sin embargo, a diferencia de estas los elementos no son indexados, sino que se almacenan de la forma llave y valor, donde la llave corresponde a un identificador único que permite acceder al elemento. Un diccionario se define entre llaves {}, cada uno de sus elementos se encuentra separado por comas (,) y cada par {llave: valor} se separa por dos puntos (:)

![diccionario_1.png](attachment:diccionario_1.png)

Veamos esto con ejemplos:

```python
dic = {'a': 1, 'b': 2, 'c': 'Perro'}
print(dic)
```

In [32]:
dic = {'a': 1, 'b': 2, 'c': 'Perro'}
print(dic)

{'a': 1, 'b': 2, 'c': 'Perro'}


Podemos conocer tanto las llaves como los valores de un diccionario haciendo uso de sus métodos keys() y values():

```python
print(colored('Las llaves de nuestro diccionario son: \n', 'blue'),
      dic.keys())

print(colored('\nLos valores de nuestro diccionario son: \n', 'blue'),
      dic.values())
```

In [33]:
print(colored('Las llaves de nuestro diccionario son: \n', 'blue'),
      dic.keys())

print(colored('\nLos valores de nuestro diccionario son: \n', 'blue'),
      dic.values())

[34mLas llaves de nuestro diccionario son: 
[0m dict_keys(['a', 'b', 'c'])
[34m
Los valores de nuestro diccionario son: 
[0m dict_values([1, 2, 'Perro'])


Así como recuperar todos los elementos como una lista de tuplas, donde cada tupla corresponde a un par (llave, valor):

```python
print(dic.items())
```

In [34]:
print(dic.items())

dict_items([('a', 1), ('b', 2), ('c', 'Perro')])


Adicionalmente, podemos recorrer los elementos del diccionario. Ejemplos:

```python
# Recorramos las llaves:
for k in dic:
    print(k)

# Recorramos los valores:
for v in dic.values():
    print(v)

# Recorramos ambos:
for k, v in dic.items():
    print(f'llave: {k}, valor: {v}')
```

In [35]:
# Recorramos las llaves:
for k in dic:
    print(k)

# Recorramos los valores:
for v in dic.values():
    print(v)

# Recorramos ambos:
for k, v in dic.items():
    print(f'llave: {k}, valor: {v}')

a
b
c
1
2
Perro
llave: a, valor: 1
llave: b, valor: 2
llave: c, valor: Perro


Ahora bien, los diccionarios pueden ser creados de diferentes maneras, a continuación les presentaremos algunas alternativas tomando datos extraídos de la página de [Datos Agroindustriales](https://datos.magyp.gob.ar/dataset/estimaciones-agricolas) del Ministerio de Agricultura Ganadería y Pesca de Argentina:

```python
# Forma simple
dic1 = {'id_provincia': 14,
        'provincia': 'Cordoba',
        'id_departamento': 63,
        'departamento': 'Marcos Juarez',
        'id_cultivo': 34,
        'cultivo': 'Soja 1ra',
        'id_campaña': 50,
        'campaña': '2018/2019',
        'sup_sembrada': 333319,
        'sup_cosechada': 319179,
        'produccion': 1390982,
        'rendimiento': 4358}

print(dic1)
print(type(dic1))
```

In [36]:
dic1 = {'id_provincia': 14,
        'provincia': 'Cordoba',
        'id_departamento': 63,
        'departamento': 'Marcos Juarez',
        'id_cultivo': 34,
        'cultivo': 'Soja 1ra',
        'id_campaña': 50,
        'campaña': '2018/2019',
        'sup_sembrada': 333319,
        'sup_cosechada': 319179,
        'produccion': 1390982,
        'rendimiento': 4358}

print(dic1)
print(type(dic1))

{'id_provincia': 14, 'provincia': 'Cordoba', 'id_departamento': 63, 'departamento': 'Marcos Juarez', 'id_cultivo': 34, 'cultivo': 'Soja 1ra', 'id_campaña': 50, 'campaña': '2018/2019', 'sup_sembrada': 333319, 'sup_cosechada': 319179, 'produccion': 1390982, 'rendimiento': 4358}
<class 'dict'>


```python
# A partir de argumentos con nombre
dic2 = dict(id_provincia=14,
            provincia='Cordoba',
            id_departamento=63,
            departamento='Marcos Juarez',
            id_cultivo=34,
            cultivo='Soja 1ra',
            id_campaña=50,
            campaña='2018/2019',
            sup_sembrada=333319,
            sup_cosechada=319179,
            produccion=1390982,
            rendimiento=4358)

print(dic2)
```

In [37]:
dic2 = dict(id_provincia=14,
            provincia='Cordoba',
            id_departamento=63,
            departamento='Marcos Juarez',
            id_cultivo=34,
            cultivo='Soja 1ra',
            id_campaña=50,
            campaña='2018/2019',
            sup_sembrada=333319,
            sup_cosechada=319179,
            produccion=1390982,
            rendimiento=4358)

print(dic2)

{'id_provincia': 14, 'provincia': 'Cordoba', 'id_departamento': 63, 'departamento': 'Marcos Juarez', 'id_cultivo': 34, 'cultivo': 'Soja 1ra', 'id_campaña': 50, 'campaña': '2018/2019', 'sup_sembrada': 333319, 'sup_cosechada': 319179, 'produccion': 1390982, 'rendimiento': 4358}


```python
# A partir de listas

llaves = ['id_provincia',
          'provincia',
          'id_departamento',
          'departamento',
          'id_cultivo',
          'cultivo',
          'id_campaña',
          'campaña',
          'sup_sembrada',
          'sup_cosechada',
          'produccion',
          'rendimiento']

valores = [14,
           'Cordoba',
           63,
           'Marcos Juarez',
           34,
           'Soja 1ra',
           50,
           '2018/2019',
           333319,
           319179,
           1390982,
           4358]
```

In [38]:
llaves = ['id_provincia',
          'provincia',
          'id_departamento',
          'departamento',
          'id_cultivo',
          'cultivo',
          'id_campaña',
          'campaña',
          'sup_sembrada',
          'sup_cosechada',
          'produccion',
          'rendimiento']

valores = [14,
           'Cordoba',
           63,
           'Marcos Juarez',
           34,
           'Soja 1ra',
           50,
           '2018/2019',
           333319,
           319179,
           1390982,
           4358]

Aquí vamos a tener en cuenta dos formas, asumiendo que nuestras dos listas contienen el mismo número de elementos y se encuentran ordenadas, es decir, que cada posición de la lista valor corresponde a la misma posición en la lista llaves. La primera consiste en crear un diccionario vacío e ir agregando valores:
```python
dic3 = {}  # Definimos nuestro diccionario vacío
print(dic3)

dic3['valor1'] = 5  # Agregamos un nuevo valor
print(dic3)
```

Teniendo en cuenta lo anterior, vamos a iterar sobre nuestras listas 
```python
dic3 = {}
for pos, key in enumerate(llaves):
    dic3[key] = valores[pos]

# O por comprensión:
# dic3 = {key:valores[pos] for pos, key in enumerate(llaves)}

print(dic3)
```

In [39]:
dic3 = {}
for pos, key in enumerate(llaves):
    dic3[key] = valores[pos]

# O por comprensión:
# dic3 = {key:valores[pos] for pos, key in enumerate(llaves)}

print(dic3)

{'id_provincia': 14, 'provincia': 'Cordoba', 'id_departamento': 63, 'departamento': 'Marcos Juarez', 'id_cultivo': 34, 'cultivo': 'Soja 1ra', 'id_campaña': 50, 'campaña': '2018/2019', 'sup_sembrada': 333319, 'sup_cosechada': 319179, 'produccion': 1390982, 'rendimiento': 4358}


La segunda forma es utilizando la fución _zip()_. Esta función forma pares de elementos entre las listas teniendo en cuenta sus posiciones. Veamos como funciona:

```python
x = zip(llaves, valores)
print(x)
```

Si queremos entender lo que hace, podemos indicar que se ejecute, para lo cual utilizaremos la función _list()_:

```python
print(list(x))
```

Como convertir esto en un diccionario?

Probemos ahora la función _dict()_.
```python
dict(zip(llaves, valores))
```

In [40]:
x = zip(llaves, valores)
print(x)

<zip object at 0x0000023E2A7F6500>


In [41]:
print(list(x))

[('id_provincia', 14), ('provincia', 'Cordoba'), ('id_departamento', 63), ('departamento', 'Marcos Juarez'), ('id_cultivo', 34), ('cultivo', 'Soja 1ra'), ('id_campaña', 50), ('campaña', '2018/2019'), ('sup_sembrada', 333319), ('sup_cosechada', 319179), ('produccion', 1390982), ('rendimiento', 4358)]


In [42]:
dict(zip(llaves, valores))

{'id_provincia': 14,
 'provincia': 'Cordoba',
 'id_departamento': 63,
 'departamento': 'Marcos Juarez',
 'id_cultivo': 34,
 'cultivo': 'Soja 1ra',
 'id_campaña': 50,
 'campaña': '2018/2019',
 'sup_sembrada': 333319,
 'sup_cosechada': 319179,
 'produccion': 1390982,
 'rendimiento': 4358}

Por otro lado, como mencionamos anteriormente, los valores en el diccionario no son indexados numéricamente, es decir, no podemos acceder a una determinada posición con números, si lo podemos hacer por medio de su llave, por ejemplo:

```python
print(dic3['id_provincia'])

print(dic3.get('id_provincia'))
```

Prueben las dos líneas ejecutadas anteriormente alterando la llave por una no existente en el diccionario.
¿Qué diferencia notaste entre ambas?

In [43]:
print(dic3['id_provincia'])

print(dic3.get('id_provincia'))

14
14


### Ejercicio 1.2: 

Dado el diccionario:

```python
dic = {'id_provincia': 14,
       'provincia': 'Cordoba',
       'id_departamento': 63,
       'departamento': 'Marcos Juarez',
       'id_cultivo': 34,
       'cultivo': 'Soja 1ra',
       'id_campaña': 50,
       'campaña': '2018/2019',
       'sup_sembrada': 333319,
       'sup_cosechada': 319179,
       'produccion': 1390982,
       'rendimiento': 4358}
```
así como la lista:

```python
lista = ['provincia', 'cultivo', 'campaña', 'produccion']
```

A partir de la variable _dic_, crear un nuevo diccionario que contenga únicamente las llaves de la lista.

<!-- <span style="color:blue">Recomendación</span>: Recuerda la forma simple de crear un diccionario y la comprensión de listas. -->

In [44]:
dic = {'id_provincia': 14,
       'provincia': 'Cordoba',
       'id_departamento': 63,
       'departamento': 'Marcos Juarez',
       'id_cultivo': 34,
       'cultivo': 'Soja 1ra',
       'id_campaña': 50,
       'campaña': '2018/2019',
       'sup_sembrada': 333319,
       'sup_cosechada': 319179,
       'produccion': 1390982,
       'rendimiento': 4358}

lista = ['provincia', 'cultivo', 'campaña', 'produccion']

In [45]:
# Resolución

dict_res = {key: value for key, value in dic.items() if key in lista}

dict_res

{'provincia': 'Cordoba',
 'cultivo': 'Soja 1ra',
 'campaña': '2018/2019',
 'produccion': 1390982}

# 2. Librería Numpy
Numpy es una librería que se especializa en el manejo objetos de tipo array de n dimensiones. Es utilizada como base en la mayoría de paquetes científicos de Python como por ejemplo Pandas, Scikit-learn, además de paquetes de visualización como Matplotlib.

## 2.1. ¿Cómo se importa numpy?
Para importar una librería en python, normalmente se hace uso de la palabra _import_, donde es muy común que se utilice un _alias_ para modificar su nombre, esto se hace por medio de la palabra _as_. Por ejemplo, al importar la librería numpy, en la mayoría de la documentación que encontremos vamos a ver que se se utiliza el _alias_ _"np"_, de esta manera, siempre utilizaremos este _alias_ para invocar las diferentes funciones de esta librería:  

```python
import numpy as np

print(colored('Versión de numpy: ', 'blue'), np.__version__)
```


In [46]:
import numpy as np

print(colored('Versión de numpy: ', 'blue'), np.__version__)

[34mVersión de numpy: [0m 2.0.2


## 2.2 ¿Qué es un Array?
Un array es un arreglo de n dimensiones, donde cada elemento contiene valores del mismo tipo (float, int, etc.), por ejemplo:

```python
# arr = np.arange(12).reshape(3, 4)
arr = np.array([[0,  1,  2,  3],
                [4,  5,  6,  7],
                [8,  9, 10, 11]])

print(colored('Array creado:\n', 'blue'),
      arr)

print(colored('\nDimensiones:', 'blue'),
      arr.shape)

print(colored('\nTipo de objeto:', 'blue'),
      type(arr))

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)
```

In [47]:
# arr = np.arange(12).reshape(3, 4)
arr = np.array([[0,  1,  2,  3],
                [4,  5,  6,  7],
                [8,  9, 10, 11]])

print(colored('Array creado:\n', 'blue'),
      arr)

print(colored('\nDimensiones:', 'blue'),
      arr.shape)

print(colored('\nTipo de objeto:', 'blue'),
      type(arr))

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)

[34mArray creado:
[0m [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[34m
Dimensiones:[0m (3, 4)
[34m
Tipo de objeto:[0m <class 'numpy.ndarray'>
[34m
Tipo de dato:[0m int64


Existen diversas formas de crear un array, por ahora vamos a nombrar solo algunas, sin embargo podemos consultar más información en este [enlace](https://numpy.org/doc/stable/user/basics.creation.html#arrays-creation):

```python
# A partir de una lista:
lista = [4, 6, 5, 7]
arr = np.array(lista)

print(colored('Array creado:', 'blue'),
      arr)

print(colored('\nTipo de objeto:', 'blue'),
      type(arr))

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)
```

In [48]:
# A partir de una lista:
lista = [4, 6, 5, 7]
arr = np.array(lista)

print(colored('Array creado:', 'blue'),
      arr)

print(colored('\nTipo de objeto:', 'blue'),
      type(arr))

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)

[34mArray creado:[0m [4 6 5 7]
[34m
Tipo de objeto:[0m <class 'numpy.ndarray'>
[34m
Tipo de dato:[0m int64


A partir de una tupla:

```python
tupla = (3, 6, 8, 8)
arr = np.array(tupla, dtype=float)

print(colored('\nArray creado:', 'blue'),
      arr)

print(colored('\nTipo de objeto:', 'blue'),
      type(arr))

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)
```

In [49]:
tupla = (3, 6, 8, 8)
arr = np.array(tupla, dtype=float)

print(colored('\nArray creado:', 'blue'),
      arr)

print(colored('\nTipo de objeto:', 'blue'),
      type(arr))

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)

[34m
Array creado:[0m [3. 6. 8. 8.]
[34m
Tipo de objeto:[0m <class 'numpy.ndarray'>
[34m
Tipo de dato:[0m float64


A partir de funciones generales de Numpy:

```python
# Array de ceros
ceros = np.zeros((3, 4))
print(colored('\nArray de ceros:\n', 'blue'),
      ceros)

# Array de unos
unos = np.ones((2, 3))
print(colored('\nArray de unos:\n', 'blue'),
      unos)

# Array random
# np.random.seed(seed=5)
random1 = np.random.random((2, 4))
print(colored('\nArray random 1:\n', 'blue'),
      random1)

random2 = np.random.randint(0, 5, size=(3, 4))
print(colored('\nArray random 2:\n', 'blue'),
      random2)
```

In [50]:
# Array de ceros
ceros = np.zeros((3, 4))
print(colored('\nArray de ceros:\n', 'blue'),
      ceros)

# Array de unos
unos = np.ones((2, 3))
print(colored('\nArray de unos:\n', 'blue'),
      unos)

# Array random
# np.random.seed(seed=5)
random1 = np.random.random((2, 4))
print(colored('\nArray random 1:\n', 'blue'),
      random1)

random2 = np.random.randint(0, 5, size=(3, 4))
print(colored('\nArray random 2:\n', 'blue'),
      random2)

[34m
Array de ceros:
[0m [[0. 0. 0. 0.]
 [0. 0. 0. 0.]
 [0. 0. 0. 0.]]
[34m
Array de unos:
[0m [[1. 1. 1.]
 [1. 1. 1.]]
[34m
Array random 1:
[0m [[0.75271968 0.17159307 0.30032426 0.58286082]
 [0.72208304 0.10460552 0.46395828 0.35475122]]
[34m
Array random 2:
[0m [[3 0 1 2]
 [0 3 2 3]
 [3 1 2 4]]


A diferencia de las listas, cuando insertamos un array en otro los elementos no se vinculan, por lo que al modificar uno el otro no se ve alterado:

```python
arr1 = np.array([1, 2, 3, 4])
arr2 = np.array([arr1,
                [5, 6, 7, 8],
                [9, 10, 11, 12],
                [13, 14, 15, 16]])

print(colored('El array 2 contiene el array original:\n', 'blue'),
      arr2)

arr1[2] = 50

print(colored('\nArray original modificado:\n', 'blue'),
      arr1)

print(colored('\nEl Array 2 mantiene sus valores iniciales:\n', 'blue'),
      arr2)
```

In [51]:
arr1 = np.array([1, 2, 3, 4])
arr2 = np.array([arr1,
                [5, 6, 7, 8],
                [9, 10, 11, 12],
                [13, 14, 15, 16]])

print(colored('El array 2 contiene el array original:\n', 'blue'),
      arr2)

arr1[2] = 50

print(colored('\nArray original modificado:\n', 'blue'),
      arr1)

print(colored('\nEl Array 2 mantiene sus valores iniciales:\n', 'blue'),
      arr2)

[34mEl array 2 contiene el array original:
[0m [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[34m
Array original modificado:
[0m [ 1  2 50  4]
[34m
El Array 2 mantiene sus valores iniciales:
[0m [[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]


Veamos qué pasa si tenemos diferentes tipos de datos en un array:
```python
arr3 = np.array([1, 'a', 3.])

print(arr3)
print(colored('El array 3 es de tipo:', 'blue'),
      arr3.dtype)
```

In [52]:
arr3 = np.array([1, 'a', 3.])

print(arr3)
print(colored('El array 3 es de tipo:', 'blue'),
      arr3.dtype)

['1' 'a' '3.0']
[34mEl array 3 es de tipo:[0m <U32


Para más información acerca de los formatos de datos que maneja numpy consultar el siguiente [enlace](https://numpy.org/doc/stable/reference/arrays.dtypes.html#).

## 2.3. Acceso a los datos de un array

Los array de numpy son arreglos n-dimensionales, donde cada posición es indexada comenzando a contar a partir del cero. Veamos esto gráficamente:

```python
# Creamos el siguiente array:
arr = np.array([[4, 3, 1, 0],
                [8, 2, 9, 4],
                [5, 7, 6, 5],
                [9, 3, 5, 2],
                [4, 6, 7, 1]])

print(colored('arr:\n', 'blue'),
      arr)

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)

# Consultemos sus dimensiones:
print(colored('\nDimensiones:', 'blue'),
      arr.shape)
```

In [53]:
arr = np.array([[4, 3, 1, 0],
                [8, 2, 9, 4],
                [5, 7, 6, 5],
                [9, 3, 5, 2],
                [4, 6, 7, 1]])

print(colored('arr:\n', 'blue'),
      arr)

print(colored('\nTipo de dato:', 'blue'),
      arr.dtype)

# Consultemos sus dimensiones:
print(colored('\nDimensiones:', 'blue'),
      arr.shape)

[34marr:
[0m [[4 3 1 0]
 [8 2 9 4]
 [5 7 6 5]
 [9 3 5 2]
 [4 6 7 1]]
[34m
Tipo de dato:[0m int64
[34m
Dimensiones:[0m (5, 4)


Como vemos, el array anterior tiene dos dimensiones (5, 4), donde la primera dimensión nos muestra el número de filas y la segunda el número de columnas. Sin embargo, las mismas se encuentran indexadas con números a partir del cero como muestra el gráfico a continuación:

![array2D_1.png](attachment:array2D_1.png)


Supongamos que queremos acceder al dato de la segunda fila y tercera columna. En este caso deberíamos buscarlo en las posiciones (1, 2) del array. Vamos a verificarlo:

![array2D_2.png](attachment:25087b0b-9ecf-49f7-9794-6d8d51674973.png)

```python
print(arr[1, 2])
```

In [54]:
print(arr[1, 2])

9


También es posible modificar las dimensiones de nuestras matrices. Esto es especialmente útil cuando aplicamos algunas funciones, como el cálculo de histogramas o regresiones lineales que veremos más adelante. Ejemplo:

```python
# np.random.seed(seed=5)
arr = np.random.random((3, 4))

print(colored('\nArray:\n', 'blue'),
      arr)
print(colored('\nDimensiones de nuestro array:\n', 'blue'),
      arr.shape)

# Ravel
arr = arr.ravel()

print(colored('\nArray modificado con la función ravel():\n', 'blue'),
      arr)
print(colored('\nDimensiones de nuestro array:\n', 'blue'),
      arr.shape)

# Reshape
arr = arr.reshape(3, 4)

print(colored('\nArray modificado con la función reshape():\n', 'blue'),
      arr)
print(colored('\nDimensiones de nuestro array:\n', 'blue'),
      arr.shape)
```

In [55]:
np.random.seed(seed=42)
arr = np.random.random((3, 4))

print(colored('\nArray:\n', 'blue'),
      arr)
print(colored('\nDimensiones de nuestro array:\n', 'blue'),
      arr.shape)

# Ravel
arr = arr.ravel()

print(colored('\nArray modificado con la función ravel():\n', 'blue'),
      arr)
print(colored('\nDimensiones de nuestro array:\n', 'blue'),
      arr.shape)

# Reshape
arr = arr.reshape(3, 4)

print(colored('\nArray modificado con la función reshape():\n', 'blue'),
      arr)
print(colored('\nDimensiones de nuestro array:\n', 'blue'),
      arr.shape)

[34m
Array:
[0m [[0.37454012 0.95071431 0.73199394 0.59865848]
 [0.15601864 0.15599452 0.05808361 0.86617615]
 [0.60111501 0.70807258 0.02058449 0.96990985]]
[34m
Dimensiones de nuestro array:
[0m (3, 4)
[34m
Array modificado con la función ravel():
[0m [0.37454012 0.95071431 0.73199394 0.59865848 0.15601864 0.15599452
 0.05808361 0.86617615 0.60111501 0.70807258 0.02058449 0.96990985]
[34m
Dimensiones de nuestro array:
[0m (12,)
[34m
Array modificado con la función reshape():
[0m [[0.37454012 0.95071431 0.73199394 0.59865848]
 [0.15601864 0.15599452 0.05808361 0.86617615]
 [0.60111501 0.70807258 0.02058449 0.96990985]]
[34m
Dimensiones de nuestro array:
[0m (3, 4)


Otra herramienta útil que podemos utilizar es el _slicing_, que nos permite extraer porciones de nuestro array para ser procesadas independientemente, para esto, debemos tener en cuenta que el último elemento indexado no será incluído. Veamos esto gráficamente:

```python
arr = np.array([4, 5, 8, 6, 1, 2, 6, 9])
print(arr)
```

In [56]:
arr = np.array([4, 5, 8, 6, 1, 2, 6, 9])
print(arr)

[4 5 8 6 1 2 6 9]


En el caso anterior, tenemos un array de 1 dimensión y 8 elementos. Supongamos que queremos extraer las posiciones 3, 4 y 5. Esto corresponde a los índices 2, 3 y 4 pero, dado que el último no se encuentra incluído, es necesario indicar también el índice 5. Para esto, entre corchetes definimos los índices inicial y final separados por dos puntos como se ve en la siguiente imagen:

![array1D_1.png](attachment:977ec5e4-3def-4b02-9015-74039d2f8b84.png)

```python
print(arr[2:5])
```

In [57]:
print(arr[2:5])

[8 6 1]


También es posible realizar una extracción cada x elementos, donde x representará el paso. Esto se realiza definiendo tres posiciones, inicio, fin y paso:

![slicing_1.png](attachment:724e7a5c-bd3d-4bd4-9d45-e6a7e3a87e4a.png)

```python
print(arr[0:7:2])
```

In [58]:
print(arr[0:7:2])

[4 8 1 6]


Vamos a extender esto a dos dimensiones:

```python
arr = np.array([[0, 0, 0, 0, 0, 0, 0, 0],
                [0, 6, 8, 4, 3, 5, 5, 0],
                [0, 1, 7, 4, 2, 7, 9, 0],
                [0, 5, 6, 7, 9, 6, 8, 0],
                [0, 0, 0, 0, 0, 0, 0, 0]])

print(arr)
```

In [59]:
arr = np.array([[0, 0, 0, 0, 0, 0, 0, 0],
                [0, 6, 8, 4, 3, 5, 5, 0],
                [0, 1, 7, 4, 2, 7, 9, 0],
                [0, 5, 6, 7, 9, 6, 8, 0],
                [0, 0, 0, 0, 0, 0, 0, 0]])

print(arr)

[[0 0 0 0 0 0 0 0]
 [0 6 8 4 3 5 5 0]
 [0 1 7 4 2 7 9 0]
 [0 5 6 7 9 6 8 0]
 [0 0 0 0 0 0 0 0]]


Como vemos, el array anterior contiene un borde de ceros. Asumamos que necesitamos realizar algún tipo de operación donde ese borde nos genera conflicto. Podemos extraer únicamente la parte que nos interesa de la siguiente manera:

![array2D_3.png](attachment:837794f6-b939-4cf0-995f-2d8980c8291b.png)

```python
print(arr[1:4, 1:7])
```

In [60]:
print(arr[1:4, 1:7])

[[6 8 4 3 5 5]
 [1 7 4 2 7 9]
 [5 6 7 9 6 8]]


## 2.4. Operaciones básicas con arrays

Los arreglos de numpy, a diferencia de las listas, permiten realizar operaciones directas entre ellos utilizando los operadores básicos de suma, resta, multiplicación, etc., aunque para esto, es necesario tener en cuenta que si la operación incluye dos arrays, estos deben tener las mismas dimensiones. Ejemplos:

```python
# np.random.seed(seed=5)
arr1 = np.arange(12).reshape(3, 4)
arr2 = np.random.random((3, 4))

print(colored('\narr1:\n', 'blue'), arr1)
print(colored('\narr2:\n', 'blue'), arr2)

print(colored('\nDimensiones del arr1:', 'blue'), arr1.shape)
print(colored('\nDimensiones del arr2:', 'blue'), arr2.shape)

print(colored('\narr1 + 5:\n', 'blue'), arr1 + 5)
print(colored('\narr1 + arr2:\n', 'blue'), arr1 + arr2)
print(colored('\narr1 * arr2:\n', 'blue'), arr1 * arr2)
```


In [61]:
np.random.seed(seed=42)
arr1 = np.arange(12).reshape(3, 4)
arr2 = np.random.random((3, 4))


print(colored('\narr1:\n', 'blue'), arr1)
print(colored('\narr2:\n', 'blue'), arr2)

print(colored('\nDimensiones del arr1:', 'blue'), arr1.shape)
print(colored('\nDimensiones del arr2:', 'blue'), arr2.shape)

print(colored('\narr1 + 5:\n', 'blue'), arr1 + 5)
print(colored('\narr1 + arr2:\n', 'blue'), arr1 + arr2)
print(colored('\narr1 * arr2:\n', 'blue'), arr1 * arr2)

[34m
arr1:
[0m [[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[34m
arr2:
[0m [[0.37454012 0.95071431 0.73199394 0.59865848]
 [0.15601864 0.15599452 0.05808361 0.86617615]
 [0.60111501 0.70807258 0.02058449 0.96990985]]
[34m
Dimensiones del arr1:[0m (3, 4)
[34m
Dimensiones del arr2:[0m (3, 4)
[34m
arr1 + 5:
[0m [[ 5  6  7  8]
 [ 9 10 11 12]
 [13 14 15 16]]
[34m
arr1 + arr2:
[0m [[ 0.37454012  1.95071431  2.73199394  3.59865848]
 [ 4.15601864  5.15599452  6.05808361  7.86617615]
 [ 8.60111501  9.70807258 10.02058449 11.96990985]]
[34m
arr1 * arr2:
[0m [[ 0.          0.95071431  1.46398788  1.79597545]
 [ 0.62407456  0.7799726   0.34850167  6.06323302]
 [ 4.80892009  6.3726532   0.20584494 10.66900837]]


Así mismo, numpy ofrece un gran número de funciones matemáticas que podemos aplicar a nuestros arrays. Estos se pueden consultar en el siguiente [enlace](https://numpy.org/doc/stable/reference/routines.math.html).

## 2.5. Máscaras

Las máscaras son elementos útiles cuando queremos trabajar con los elementos que cumplen únicamente el criterio que nos interesa, por ejemplo, valores de altura en un Modelo de Elevación Digital, Temperatura Superficial, etc. 

Veamos cómo podríamos hacer esto desde Numpy. Para esto utilizaremos el mismo array creado en el punto anterior, quedándonos únicamente con los valores mayores a 5:

![mask_1.png](attachment:c3c5be03-bc4d-42ba-a931-505dc70926a4.png)

```python
mascara = arr > 5
print(mascara)
```

In [62]:
mascara = arr > 5
print(mascara)

[[False False False False False False False False]
 [False  True  True False False False False False]
 [False False  True False False  True  True False]
 [False False  True  True  True  True  True False]
 [False False False False False False False False]]


Como vemos, al aplicar la condición arr>5, se genera un nuevo array que me retorna valores True o False, dependiendo si se cumple o no la condición deseada. Ahora, para aplicarla a mi array es solo cuestión de multiplicar ambas matrices:

```python
array_mask = mascara * arr
print(array_mask)
```

In [63]:
array_mask = mascara * arr
print(array_mask)

[[0 0 0 0 0 0 0 0]
 [0 6 8 0 0 0 0 0]
 [0 0 7 0 0 7 9 0]
 [0 0 6 7 9 6 8 0]
 [0 0 0 0 0 0 0 0]]


En lugar de multiplicar, podríamos indicar estos valores como nulos utilizando el elemento _np.nan_ de numpy de esta manera, los ceros no afectarán si queremos calcular algún estadístico sobre el total de nuestro arreglo. Sin embargo, esto aplica únicamente para arreglos de tipo _float_, por lo que tendremos que cambiar primero el tipo de dato:

```python
# Cambiamos el tipo de dato:
arr2 = arr.astype(float)

print(colored('\nValores del arreglo arr2:\n', 'blue'), arr2)
print(colored('\nTipo de dato:', 'blue'), arr2.dtype)

# Enmascarando nuestro arreglo:
arr2[~mascara] = np.nan

print(colored('\nValores del arreglo arr2:', 'blue'), arr2)
print(colored('\nTipo de dato:', 'blue'), arr2.dtype)
print(colored('Promedio de los valores del arreglo arr2:', 'blue'),
      np.nanmean(arr2))

# Comparemos con la multiplicación previa donde nuestros
# elementos enmascarados tomaron valores de cero:
array_mask = mascara*arr
array_mask = array_mask.astype(float)

print(colored('\nValores del arreglo array_mask:', 'blue'))
print(array_mask)
print(colored('\nTipo de dato:', 'blue'), array_mask.dtype)
print(colored('Promedio de los valores del arreglo array_mask:', 'blue'),
      np.nanmean(array_mask))
```

In [64]:
arr2 = arr.astype(float)

print(colored('\nValores del arreglo arr2:\n', 'blue'), arr2)
print(colored('\nTipo de dato:', 'blue'), arr2.dtype)

# Enmascarando nuestro arreglo:
arr2[~mascara] = np.nan

print(colored('\nValores del arreglo arr2:', 'blue'), arr2)
print(colored('\nTipo de dato:', 'blue'), arr2.dtype)
print(colored('Promedio de los valores del arreglo arr2:', 'blue'),
      np.nanmean(arr2))

# Comparemos con la multiplicación previa donde nuestros
# elementos enmascarados tomaron valores de cero:
array_mask = mascara*arr
array_mask = array_mask.astype(float)

print(colored('\nValores del arreglo array_mask:', 'blue'))
print(array_mask)
print(colored('\nTipo de dato:', 'blue'), array_mask.dtype)
print(colored('Promedio de los valores del arreglo array_mask:', 'blue'),
      np.nanmean(array_mask))

[34m
Valores del arreglo arr2:
[0m [[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 6. 8. 4. 3. 5. 5. 0.]
 [0. 1. 7. 4. 2. 7. 9. 0.]
 [0. 5. 6. 7. 9. 6. 8. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]
[34m
Tipo de dato:[0m float64
[34m
Valores del arreglo arr2:[0m [[nan nan nan nan nan nan nan nan]
 [nan  6.  8. nan nan nan nan nan]
 [nan nan  7. nan nan  7.  9. nan]
 [nan nan  6.  7.  9.  6.  8. nan]
 [nan nan nan nan nan nan nan nan]]
[34m
Tipo de dato:[0m float64
[34mPromedio de los valores del arreglo arr2:[0m 7.3
[34m
Valores del arreglo array_mask:[0m
[[0. 0. 0. 0. 0. 0. 0. 0.]
 [0. 6. 8. 0. 0. 0. 0. 0.]
 [0. 0. 7. 0. 0. 7. 9. 0.]
 [0. 0. 6. 7. 9. 6. 8. 0.]
 [0. 0. 0. 0. 0. 0. 0. 0.]]
[34m
Tipo de dato:[0m float64
[34mPromedio de los valores del arreglo array_mask:[0m 1.825


### Ejercicio 2.1: 

Realizar el promedio de la siguiente matriz enmascarando los valores cero:

```
arr = np.array([[0, 0, 0, 0, 0, 0, 0, 0],
                [0, 6, 8, 4, 3, 5, 5, 0],
                [0, 1, 7, 4, 2, 7, 9, 0],
                [0, 5, 6, 7, 9, 6, 8, 0],
                [0, 0, 0, 0, 0, 0, 0, 0]])
```

In [65]:
arr = np.array([[0, 0, 0, 0, 0, 0, 0, 0],
                [0, 6, 8, 4, 3, 5, 5, 0],
                [0, 1, 7, 4, 2, 7, 9, 0],
                [0, 5, 6, 7, 9, 6, 8, 0],
                [0, 0, 0, 0, 0, 0, 0, 0]])

In [66]:
# Solución 1
promedio = np.mean(arr[arr != 0])

print(promedio)

5.666666666666667


In [67]:
#Solución  2
mascara = np.ma.masked_equal(arr, 0)
prom = mascara.mean()
print(prom)

5.666666666666667


# 3. Librería Pandas

[Pandas](https://pandas.pydata.org/docs/user_guide/index.html#user-guide) es un paquete de python construido sobre la librería Numpy que contiene estructuras diseñadas para trabajar con información etiquetada. Esto facilita su análisis, así como el manejo de series temporales. Al igual que con Numpy, la librería se importa mediante el comando _import_. Asimismo, a medida que avancemos y consultemos la documentación existente, veremos que se utiliza el _alias_ _pd_, como se muestra a continuación:

```python
import pandas as pd
```

In [68]:
import pandas as pd

## 3.1. Estructuras que maneja Pandas
Pandas cuenta con dos estructuras principales que son:
### 3.1.1. Series:
Es la estructura principal de la librería Pandas, equivalente a arrays en una sola dimensión, pero con la posibilidad de utilizar etiquetas para su indexación. Esta estructura se puede construir a partir de listas, arrays de Numpy en una sola dimensión, diccionarios o tuplas, ejemplos:

```python
import pandas as pd
import numpy as np

# Recordemos el array creado anteriormente
arr1 = np.array([1, 2, 3, 4])
print(type(arr1))

# Utilicemos estructuras conocidas para crear
# un objeto de tipo Pandas series
# <class 'pandas.core.series.Series'>

series_numpy = pd.Series(arr1)
print(colored('\nA partir de un array de numpy:', 'blue'))
print(series_numpy)

lista3 = [1, 2, 3, 4, 5]
series_lista = pd.Series(lista3)
print(colored('\nA partir de una lista:', 'blue'))
print(series_lista)

diccionario = {'a': 1, 'b': 2, 'c': 3}
series_dic = pd.Series(data=diccionario, index=diccionario.keys())
print(colored('\nA partir de un diccionario:', 'blue'))
print(series_dic)
```

In [69]:
import pandas as pd
import numpy as np

# Recordemos el array creado anteriormente
arr1 = np.array([1, 2, 3, 4])
print(type(arr1))

# Utilicemos estructuras conocidas para crear
# un objeto de tipo Pandas series
# <class 'pandas.core.series.Series'>

series_numpy = pd.Series(arr1)
print(colored('\nA partir de un array de numpy:', 'blue'))
print(series_numpy)

lista3 = [1, 2, 3, 4, 5]
series_lista = pd.Series(lista3)
print(colored('\nA partir de una lista:', 'blue'))
print(series_lista)

diccionario = {'a': 1, 'b': 2, 'c': 3}
series_dic = pd.Series(data=diccionario, index=diccionario.keys())
print(colored('\nA partir de un diccionario:', 'blue'))
print(series_dic)

<class 'numpy.ndarray'>
[34m
A partir de un array de numpy:[0m
0    1
1    2
2    3
3    4
dtype: int64
[34m
A partir de una lista:[0m
0    1
1    2
2    3
3    4
4    5
dtype: int64
[34m
A partir de un diccionario:[0m
a    1
b    2
c    3
dtype: int64


#### Selección de datos:

Para acceder a los datos de la estructura se puede hacer uso de los métodos _loc()_ e _iloc()_. 

Donde _iloc()_ realiza una consulta dada la posición del elemento en el vector (comenzando a contar desde cero), mientras que _loc()_ lo hace teniendo en cuenta el valor de la etiqueta en el índice:

```python
print(colored('\nImprimir por posición en el vector:', 'blue'))
print(series_dic.iloc[1])

print(colored('\nImprimir por etiqueta en el índice:', 'blue'))
print(series_dic.loc['b'])
```

In [70]:
print(colored('\nImprimir por posición en el vector:', 'blue'))
print(series_dic.iloc[1])

print(colored('\nImprimir por etiqueta en el índice:', 'blue'))
print(series_dic.loc['b'])

[34m
Imprimir por posición en el vector:[0m
2
[34m
Imprimir por etiqueta en el índice:[0m
2


De igual manera podríamos filtrar nuestros datos:
```python
series_dic.loc[series_dic == 2]
```

In [71]:
series_dic.loc[series_dic == 2]

b    2
dtype: int64

Para más información acerca de Pandas Series puedes consultar el siguiente [enlace](https://pandas.pydata.org/docs/reference/api/pandas.Series.html#pandas.Series)

### 3.1.2. DataFrame:
Son equivalentes a tablas de datos en dos dimensiones, que permiten almacenar elementos de diferentes tipos. Al igual que la estructura Series, permite indexar las diferentes filas del _dataframe_ y, adicionalmente, manejar títulos para cada columna. 

Esta estructura también es posible crearla a partir de objetos tales como: listas, arrays en dos dimensiones, diccionarios o tuplas. Una muestra de esto se presenta a continuación:

```python
lista = [[1, 2], [3, 4], [5, 6]]
df_from_list = pd.DataFrame(lista, columns=['col1', 'col2'])
print(colored('\nPandas DataFrame a partir de lista:', 'blue'))
print(df_from_list)

arr = np.array(lista)
print(colored('\nValores del array:', 'blue'))
print(arr)

df_from_array = pd.DataFrame(arr, columns=['col1', 'col2'])
print(colored('\nPandas DataFrame a partir de array:', 'blue'))
print(df_from_array)

dic = {'col1': [1, 2], 'col2': [3, 4], 'col3': [5, 6]}
print(colored('\nDiccionario:', 'blue'))
print(dic)

df_from_dic = pd.DataFrame(dic)
print(colored('\nPandas DataFrame a partir de diccionario:', 'blue'))
print(df_from_dic)

tupla = ((1, 2), (3, 4), (5, 6))
print(colored('\nTupla:', 'blue'))
print(tupla)

df_from_tuple = pd.DataFrame(tupla, columns=['col1', 'col2'])
print(colored('\nPandas DataFrame a partir de tupla:', 'blue'))
print(df_from_tuple)
```

In [72]:
lista = [[1, 2], [3, 4], [5, 6]]
df_from_list = pd.DataFrame(lista, columns=['col1', 'col2'])
print(colored('\nPandas DataFrame a partir de lista:', 'blue'))
print(df_from_list)

arr = np.array(lista)
print(colored('\nValores del array:', 'blue'))
print(arr)

df_from_array = pd.DataFrame(arr, columns=['col1', 'col2'])
print(colored('\nPandas DataFrame a partir de array:', 'blue'))
print(df_from_array)

dic = {'col1': [1, 2], 'col2': [3, 4], 'col3': [5, 6]}
print(colored('\nDiccionario:', 'blue'))
print(dic)

df_from_dic = pd.DataFrame(dic)
print(colored('\nPandas DataFrame a partir de diccionario:', 'blue'))
print(df_from_dic)

tupla = ((1, 2), (3, 4), (5, 6))
print(colored('\nTupla:', 'blue'))
print(tupla)

df_from_tuple = pd.DataFrame(tupla, columns=['col1', 'col2'])
print(colored('\nPandas DataFrame a partir de tupla:', 'blue'))
print(df_from_tuple)

[34m
Pandas DataFrame a partir de lista:[0m
   col1  col2
0     1     2
1     3     4
2     5     6
[34m
Valores del array:[0m
[[1 2]
 [3 4]
 [5 6]]
[34m
Pandas DataFrame a partir de array:[0m
   col1  col2
0     1     2
1     3     4
2     5     6
[34m
Diccionario:[0m
{'col1': [1, 2], 'col2': [3, 4], 'col3': [5, 6]}
[34m
Pandas DataFrame a partir de diccionario:[0m
   col1  col2  col3
0     1     3     5
1     2     4     6
[34m
Tupla:[0m
((1, 2), (3, 4), (5, 6))
[34m
Pandas DataFrame a partir de tupla:[0m
   col1  col2
0     1     2
1     3     4
2     5     6


La estructura _dataframe_ permite manipular los índices, al igual que los nombres de las columnas. A continuación veremos un ejemplo de esto:

```python
lista = [[1, 2], [3, 4], [5, 6]]
df_from_list = pd.DataFrame(lista)

print(colored('\nDataFrame original:', 'blue'))
print(df_from_list)

# Modificando los índices:
df_from_list.index = ['A', 'B', 'C']

# Modificando los títulos de las columnas:
df_from_list.columns = ['col1', 'col2']

print(colored('\nDataFrame modificado:', 'blue'))
print(df_from_list)

# Modificando el nombre de una sola columna:
df_from_list.rename(columns={"col1": "new_col1"})

# Modificando el índice de mi dataframe:
print(colored('\nUtilizando una columna como índice:', 'blue'))

df_from_list = df_from_list.set_index('col1')

print(df_from_list)
```

In [73]:
lista = [[1, 2], [3, 4], [5, 6]]
df_from_list = pd.DataFrame(lista)

print(colored('\nDataFrame original:', 'blue'))
print(df_from_list)

# Modificando los índices:
df_from_list.index = ['A', 'B', 'C']

# Modificando los títulos de las columnas:
df_from_list.columns = ['col1', 'col2']

print(colored('\nDataFrame modificado:', 'blue'))
print(df_from_list)

# Modificando el nombre de una sola columna:
df_from_list.rename(columns={"col1": "new_col1"})

# Modificando el índice de mi dataframe:
print(colored('\nUtilizando una columna como índice:', 'blue'))

df_from_list = df_from_list.set_index('col1')

print(df_from_list)

[34m
DataFrame original:[0m
   0  1
0  1  2
1  3  4
2  5  6
[34m
DataFrame modificado:[0m
   col1  col2
A     1     2
B     3     4
C     5     6
[34m
Utilizando una columna como índice:[0m
      col2
col1      
1        2
3        4
5        6


#### Selección de datos:
Los métodos _loc()_ e _iloc()_ son extensivos para la selección de filas dentro de un _dataframe_. En el caso de las columnas, es posible seleccionarlas por medio de su nombre o índice. Ejemplos:

```python
dic = {'col1': [1, 2, 3], 'col2': [3, 4, 5], 'col3': [5, 6, 7]}
df_from_list = pd.DataFrame(dic)
df_from_list.index = ['A', 'B', 'C']

print(colored('Tenemos nuestro dataframe:\n', 'blue'), df_from_list)

# Veamos como funcionan los métodos.
# Ubiquemos las filas 1 y 2 de la columna 0:

print(colored('\nMétodo iloc():\n', 'blue'))
print(df_from_list.iloc[1:3, 0])

print(colored('\nMétodo loc():\n', 'blue'))
print(df_from_list.loc['B':'C', 'col1'])
```

In [74]:
dic = {'col1': [1, 2, 3], 'col2': [3, 4, 5], 'col3': [5, 6, 7]}
df_from_list = pd.DataFrame(dic)
df_from_list.index = ['A', 'B', 'C']

print(colored('Tenemos nuestro dataframe:\n', 'blue'), df_from_list)

# Veamos como funcionan los métodos.
# Ubiquemos las filas 1 y 2 de la columna 0:

print(colored('\nMétodo iloc():\n', 'blue'))
print(df_from_list.iloc[1:3, 0])

print(colored('\nMétodo loc():\n', 'blue'))
print(df_from_list.loc['B':'C', 'col1'])

[34mTenemos nuestro dataframe:
[0m    col1  col2  col3
A     1     3     5
B     2     4     6
C     3     5     7
[34m
Método iloc():
[0m
B    2
C    3
Name: col1, dtype: int64
[34m
Método loc():
[0m
B    2
C    3
Name: col1, dtype: int64


También es posible modificar los valores, así como agregar filas o columnas a nuestro _dataframe_, incluso es posible unir mas de un _dataframe_. Esto lo veremos en clases posteriores. Por ahora vamos a utilizar una función de la librería pandas que nos permitirá leer un archivo csv: 

```python
df = pd.read_csv('../data/raw_data/personas.csv')
print(df)
```

In [75]:
df = pd.read_csv(os.path.join(os.path.join(), "raw_data", "personas.csv"))

Explora los siguientes comandos para obtener la información del _dataframe_ anterior:

df.columns, df.index, df.shape, df.head(), df.tail(), type(df), df.info() y df.describe().


In [76]:
print(f"Columnas {df.columns}")
print("-------------------------")
print(f"Indices {df.index}")
print("-------------------------")
print(f"Dimension {df.shape}")
print("-------------------------")
print(f"Primeros registros {df.head}")
print("-------------------------")
print(f"Ultimos registros {df.tail}")
print("-------------------------")
print(f"Tipo df {type(df)}")
print("-------------------------")
print(f"Informacion: {df.info() }")
print("-------------------------")
print(f"Estadisticas {df.describe()}")

Columnas Index(['codigo', 'prov', 'dpto', 'frac', 'rad', 'varon', 'mujer', 'total'], dtype='object')
-------------------------
Indices RangeIndex(start=0, stop=4752, step=1)
-------------------------
Dimension (4752, 8)
-------------------------
Primeros registros <bound method NDFrame.head of          codigo  prov  dpto  frac  rad  varon  mujer  total
0     140070101    14     7     1    1     40     28     68
1     140070102    14     7     1    2    261    233    494
2     140070103    14     7     1    3    123     96    219
3     140070104    14     7     1    4     45     32     77
4     140070105    14     7     1    5    137    131    268
...         ...   ...   ...   ...  ...    ...    ...    ...
4747  141821308    14   182    13    8    229    225    454
4748  141821309    14   182    13    9    222    240    462
4749  141821310    14   182    13   10    242    249    491
4750  141821311    14   182    13   11    417    417    834
4751  141821312    14   182    13   12    420

## 3.2. Filtros

Podemos realizar diferentes tipos de filtros que nos permitan obtener únicamente los registros de interés. Esta tarea se puede llevar a cabo mediante el uso de condicionales simples como: igual a (==), diferente (!=), mayor que (>), menor que (<), entre otros. A continuación veremos algunos ejemplos:

```python
# Seleccionemos la columna dpto y consultemos los
# valores únicos de la misma:

print(df['dpto'].unique())
```

In [77]:
print(df['dpto'].unique())

[  7  14  21  28  35  42  49  56  63  70  77  84  91  98 105 112 119 126
 133 140 147 154 161 168 175 182]


```python
# Seleccionemos todos los registros cuyo
# dpto sea igual a 14:

dpto14 = df[df['dpto'] == 14]

print(dpto14)
```

In [79]:
dpto14 = df[df['dpto'] == 14]

print(dpto14)

         codigo  prov  dpto  frac  rad  varon  mujer  total
138   140140101    14    14     1    1    306    276    582
139   140140102    14    14     1    2    639    599   1238
140   140140103    14    14     1    3    641    642   1283
141   140140104    14    14     1    4    403    408    811
142   140140105    14    14     1    5    458    487    945
...         ...   ...   ...   ...  ...    ...    ...    ...
1626  140149909    14    14    99    9    546    601   1147
1627  140149910    14    14    99   10    608    619   1227
1628  140149911    14    14    99   11    350    419    769
1629  140149912    14    14    99   12    469    453    922
1630  140149913    14    14    99   13    821    832   1653

[1493 rows x 8 columns]


```python
# Sumemos el total de personas del dpto 14:

print(dpto14['total'].sum())
```

In [80]:
print(dpto14['total'].sum())

1329604


```python
# Filtremos los registros del departamento 14
# cuya fracción sea igual a 1:

print(df[(df['dpto'] == 14) & (df['frac'] == 1)])
```

In [81]:
print(df[(df['dpto'] == 14) & (df['frac'] == 1)])

        codigo  prov  dpto  frac  rad  varon  mujer  total
138  140140101    14    14     1    1    306    276    582
139  140140102    14    14     1    2    639    599   1238
140  140140103    14    14     1    3    641    642   1283
141  140140104    14    14     1    4    403    408    811
142  140140105    14    14     1    5    458    487    945
143  140140106    14    14     1    6    565    614   1179
144  140140107    14    14     1    7    362    397    759
145  140140108    14    14     1    8    379    393    772
146  140140109    14    14     1    9    725    744   1469
147  140140110    14    14     1   10    421    454    875
148  140140111    14    14     1   11    302    377    679
149  140140112    14    14     1   12    434    516    950
150  140140113    14    14     1   13    592    606   1198


```python
# Filtremos los registros del departamento 14
# cuya fracción no sea igual a 1:

print(df[(df['dpto'] == 14) & ~(df['frac'] == 1)])
# print(df[(df['dpto'] == 14) & (df['frac'] != 1)])
```

In [82]:
print(df[(df['dpto'] == 14) & ~(df['frac'] == 1)])

         codigo  prov  dpto  frac  rad  varon  mujer  total
151   140140201    14    14     2    1    499    475    974
152   140140202    14    14     2    2    670    684   1354
153   140140203    14    14     2    3    527    571   1098
154   140140204    14    14     2    4    459    503    962
155   140140205    14    14     2    5    321    402    723
...         ...   ...   ...   ...  ...    ...    ...    ...
1626  140149909    14    14    99    9    546    601   1147
1627  140149910    14    14    99   10    608    619   1227
1628  140149911    14    14    99   11    350    419    769
1629  140149912    14    14    99   12    469    453    922
1630  140149913    14    14    99   13    821    832   1653

[1480 rows x 8 columns]


También es posible adicionar o eliminar columnas de nuestro _dataframe_, veamos a continuación como es esto:

```python

# Eliminemos la columna código de nuestro dataframe:

df = df.drop(columns=['codigo'])
print(df)
```

In [83]:
df = df.drop(columns=['codigo'])
print(df)

      prov  dpto  frac  rad  varon  mujer  total
0       14     7     1    1     40     28     68
1       14     7     1    2    261    233    494
2       14     7     1    3    123     96    219
3       14     7     1    4     45     32     77
4       14     7     1    5    137    131    268
...    ...   ...   ...  ...    ...    ...    ...
4747    14   182    13    8    229    225    454
4748    14   182    13    9    222    240    462
4749    14   182    13   10    242    249    491
4750    14   182    13   11    417    417    834
4751    14   182    13   12    420    434    854

[4752 rows x 7 columns]


Reconstruyamos nuestra columna, para esto vamos a ver un método utilizado por la librería pandas llamado _.map_. Este método permite iterar sobre una columna y aplicar una función determinada a una serie de datos. Antes de realizar este proceso, sobre nuestro _dataframe_, ejecutemos un ejemplo básico de este funcionamiento sobre una lista: 

```python
# Tenemos nuestra lista:

lista = [4, 5, 10, 20, 1]
print(lista)
```

In [84]:
lista = [4, 5, 10, 20, 1]
print(lista)

[4, 5, 10, 20, 1]


Una vez tenemos nuestra lista, vamos a convertirla de valores enteros a datos de tipo _string_ buscando que conserven dos dígitos. Es decir, que nuestro número 4 pasará a ser '04', el 10 será '10', etc.
Para esto, una manera simple es iterar con un _for_ sobre nuestra lista:

```python
nueva_lista = ['{:02d}'.format(i) for i in lista]
print(nueva_lista)
```

In [85]:
nueva_lista = ['{:02d}'.format(i) for i in lista]
print(nueva_lista)

['04', '05', '10', '20', '01']


Esto mismo se puede hacer utilizando _map()_, que devuelve un iterable que efectúa operaciones únicamente cuando se quiere acceder al elemento, es decir:

```python
map('{:02d}'.format, lista)
```

In [86]:
map('{:02d}'.format, lista)

<map at 0x23e49955880>

En el caso anterior tenemos un objeto que es un iterador, donde el resultado no se guarda en memoria, sino que se genera a medida que se requiere. Por ejemplo si hacemos:

```python
list(map('{:02d}'.format, lista))
```

In [87]:
list(map('{:02d}'.format, lista))

['04', '05', '10', '20', '01']

Lo anterior es sumamente útil cuando se manejan grandes volúmenes de datos, permitiendo ejecuciones mucho mas eficientes de nuestros programas. 

Veamos ahora cómo lo implementaríamos para generar nuevamente nuestra columna _codigo_:

```python
# crear columna

df['codigo_nuevo'] = df['prov'].map(str) \
                     + df['dpto'].map(str) \
                     + df['frac'].map(str) \
                     + df['rad'].map(str)
print(df)
```

In [88]:
df['codigo_nuevo'] = df['prov'].map(str) \
                     + df['dpto'].map(str) \
                     + df['frac'].map(str) \
                     + df['rad'].map(str)
print(df)

      prov  dpto  frac  rad  varon  mujer  total codigo_nuevo
0       14     7     1    1     40     28     68        14711
1       14     7     1    2    261    233    494        14712
2       14     7     1    3    123     96    219        14713
3       14     7     1    4     45     32     77        14714
4       14     7     1    5    137    131    268        14715
...    ...   ...   ...  ...    ...    ...    ...          ...
4747    14   182    13    8    229    225    454     14182138
4748    14   182    13    9    222    240    462     14182139
4749    14   182    13   10    242    249    491    141821310
4750    14   182    13   11    417    417    834    141821311
4751    14   182    13   12    420    434    854    141821312

[4752 rows x 8 columns]


¿Se parece al código inicial? 

No, ¿verdad?

En el código inicial, la provincia tiene asignados dos dígitos, el departamento 3, la fracción y radios 2 cada uno. Esto es posible manejarlo si definimos el formato de la columna cuando aplicamos el método _map()_ de la misma manera que lo vimos en el ejemplo que ejecutamos previamente, así que vamos a recalcularlo:

```python
df['codigo_nuevo'] = df['prov'].map('{:02}'.format) \
                     + df['dpto'].map('{:03}'.format) \
                     + df['frac'].map('{:02}'.format) \
                     + df['rad'].map('{:02}'.format)
print(df)
```

In [89]:
df['codigo_nuevo'] = df['prov'].map('{:02}'.format) \
                     + df['dpto'].map('{:03}'.format) \
                     + df['frac'].map('{:02}'.format) \
                     + df['rad'].map('{:02}'.format)
print(df)

      prov  dpto  frac  rad  varon  mujer  total codigo_nuevo
0       14     7     1    1     40     28     68    140070101
1       14     7     1    2    261    233    494    140070102
2       14     7     1    3    123     96    219    140070103
3       14     7     1    4     45     32     77    140070104
4       14     7     1    5    137    131    268    140070105
...    ...   ...   ...  ...    ...    ...    ...          ...
4747    14   182    13    8    229    225    454    141821308
4748    14   182    13    9    222    240    462    141821309
4749    14   182    13   10    242    249    491    141821310
4750    14   182    13   11    417    417    834    141821311
4751    14   182    13   12    420    434    854    141821312

[4752 rows x 8 columns]


De la misma manera que tomamos valores de diferentes columnas para formar una nueva, es posible extraer parte de una cadena string de una columna haciendo uso del método _map()_. Supongamos que nuestro dataframe solo cuenta con las columnas 'varon', 'mujer' y 'codigo_nuevo'. Esto se ve de la siguiente manera:

```python
df2 = df.loc[:, ['varon', 'mujer', 'codigo_nuevo']]
df2
```

In [90]:
df2 = df.loc[:, ['varon', 'mujer', 'codigo_nuevo']]
df2

Unnamed: 0,varon,mujer,codigo_nuevo
0,40,28,140070101
1,261,233,140070102
2,123,96,140070103
3,45,32,140070104
4,137,131,140070105
...,...,...,...
4747,229,225,141821308
4748,222,240,141821309
4749,242,249,141821310
4750,417,417,141821311


Ahora necesitamos crear a partir de nuestro código las columnas faltantes ('prov', 'dpto', 'frac', 'radio'). Esto sería fácil si tenemos un solo string, por ejemplo:

```python
s = '140070101'
print(colored('\nProvincia: ', 'blue'), s[:2])
print(colored('\nDepartamento: ', 'blue'), s[2:5])
print(colored('\nFracción: ', 'blue'), s[5:7])
print(colored('\nRadio: ', 'blue'), s[7:])
```

In [91]:
s = '140070101'
print(colored('\nProvincia: ', 'blue'), s[:2])
print(colored('\nDepartamento: ', 'blue'), s[2:5])
print(colored('\nFracción: ', 'blue'), s[5:7])
print(colored('\nRadio: ', 'blue'), s[7:])

[34m
Provincia: [0m 14
[34m
Departamento: [0m 007
[34m
Fracción: [0m 01
[34m
Radio: [0m 01


Aquí nuevamente nos puede ser de utilidad el método _map()_ visto anteriormente. Sin embargo, vamos a introducir un nuevo tipo de funciones llamadas funciones lambda. Estas funciones son también llamadas funciones anónimas, esto es porque no tienen un nombre que permita llamarlas. En lugar de eso, se pueden definir al momento de utilizarlas, simplificando el código y evitando guardar elementos innecesarios en memoria. Veamos como es esto paso a paso:

```python
lista = [4, 2, 5]
list(map(lambda x: x**2, lista))
```

In [92]:
lista = [4, 2, 5]
list(map(lambda x: x**2, lista))

[16, 4, 25]

Veamos ahora qué pasa con elementos de tipo string. Supongamos que tenemos una lista de nombres que queremos ordenar alfabéticamente. Esto es fácil utilizando la el método _sort()_ de los objetos tipo lista:

```python
nombres = ['Pedro Sanchez', 'Marcela Arias', 'Marcos Cardona', 'Martha Bravo']

nombres.sort()
print(nombres)

nombres.sort(reverse=True)
print(nombres)
```

In [93]:
nombres = ['Pedro Sanchez', 'Marcela Arias', 'Marcos Cardona', 'Martha Bravo']

nombres.sort()
print(nombres)

nombres.sort(reverse=True)
print(nombres)

['Marcela Arias', 'Marcos Cardona', 'Martha Bravo', 'Pedro Sanchez']
['Pedro Sanchez', 'Martha Bravo', 'Marcos Cardona', 'Marcela Arias']


Sin embargo, ¿qué pasaría si queremos ordenar nuestra lista dados los apellidos de las personas?
En este caso resultan de gran utilidad las funciones lambda. Veamos como funcionan:

```python
nombres.sort(key=lambda x: x.split(' ')[1])
print(nombres)
```

In [94]:
nombres.sort(key=lambda x: x.split(' ')[1])
print(nombres)

['Marcela Arias', 'Martha Bravo', 'Marcos Cardona', 'Pedro Sanchez']


Volvamos al caso de nuestro _dataframe_ y a modo de ejemplo vamos a obtener únicamente la columna 'dpto' a partir de nuestro código:

```python
print(df2)

# Vamos a crear nuestra columna departamento (dpto)
df2['dpto'] = df2['codigo_nuevo'].map(lambda x: x[2:5])
df2
```

In [95]:
print(df2)

# Vamos a crear nuestra columna departamento (dpto)
df2['dpto'] = df2['codigo_nuevo'].map(lambda x: x[2:5])
df2

      varon  mujer codigo_nuevo
0        40     28    140070101
1       261    233    140070102
2       123     96    140070103
3        45     32    140070104
4       137    131    140070105
...     ...    ...          ...
4747    229    225    141821308
4748    222    240    141821309
4749    242    249    141821310
4750    417    417    141821311
4751    420    434    141821312

[4752 rows x 3 columns]


Unnamed: 0,varon,mujer,codigo_nuevo,dpto
0,40,28,140070101,007
1,261,233,140070102,007
2,123,96,140070103,007
3,45,32,140070104,007
4,137,131,140070105,007
...,...,...,...,...
4747,229,225,141821308,182
4748,222,240,141821309,182
4749,242,249,141821310,182
4750,417,417,141821311,182


### Ejercicio 3.2: 

1. Carga el archivo "personas.csv" que se encuentra en la carpeta _../data/raw_data/_. Realiza la suma de las columnas _varon_ y _mujer_, almacénalas en una nueva llamada _total2_ y compáralas con la columna _total_. Deberían ser iguales.


2. Dado el siguiente diccionario, crea una columna en el _dataframe_ llamada _nombredpto_ donde se asigne el nombre del departamento correspondiente (según la columna _dpto_). Para el desarrollo de este ejercicio, recuerda los métodos de filtrado loc() e iloc().

```python
# Diccionario:
nombres = {154: 'SOBREMONTE',
           175: 'TULUMBA',
           112: 'RIO SECO',
           28: 'CRUZ DEL EJE',
           49: 'ISCHILIN',
           140: 'SAN JUSTO',
           168: 'TOTORAL',
           105: 'RIO PRIMERO',
           70: 'MINAS',
           91: 'PUNILLA',
           21: 'COLON',
           77: 'POCHO',
           14: 'CAPITAL',
           119: 'RIO SEGUNDO',
           147: 'SANTA MARIA',
           126: 'SAN ALBERTO',
           7: 'CALAMUCHITA',
           133: 'SAN JAVIER',
           161: 'TERCERO ARRIBA',
           182: 'UNION',
           42: 'GENERAL SAN MARTIN',
           63: 'MARCOS JUAREZ',
           98: 'RIO CUARTO',
           56: 'JUAREZ CELMAN',
           84: 'PTE ROQUE SAENZ PEÑA',
           35: 'GENERAL ROCA'}
```


In [96]:
df_final = pd.read_csv(os.path.join(os.getcwd(), "raw_data", "personas.csv"))
df_final

Unnamed: 0,codigo,prov,dpto,frac,rad,varon,mujer,total
0,140070101,14,7,1,1,40,28,68
1,140070102,14,7,1,2,261,233,494
2,140070103,14,7,1,3,123,96,219
3,140070104,14,7,1,4,45,32,77
4,140070105,14,7,1,5,137,131,268
...,...,...,...,...,...,...,...,...
4747,141821308,14,182,13,8,229,225,454
4748,141821309,14,182,13,9,222,240,462
4749,141821310,14,182,13,10,242,249,491
4750,141821311,14,182,13,11,417,417,834


In [99]:
# Sumamos columna varon y mujer, se crea columna total2
df_final["total2"] = df_final["varon"] + df_final["mujer"]
df_final

Unnamed: 0,codigo,prov,dpto,frac,rad,varon,mujer,total,total2
0,140070101,14,7,1,1,40,28,68,68
1,140070102,14,7,1,2,261,233,494,494
2,140070103,14,7,1,3,123,96,219,219
3,140070104,14,7,1,4,45,32,77,77
4,140070105,14,7,1,5,137,131,268,268
...,...,...,...,...,...,...,...,...,...
4747,141821308,14,182,13,8,229,225,454,454
4748,141821309,14,182,13,9,222,240,462,462
4749,141821310,14,182,13,10,242,249,491,491
4750,141821311,14,182,13,11,417,417,834,834


In [101]:
# Para verificar que total es igual a total2, 
#creamos una nueva columna que sea True en el caso que los registros sean iguales y False en caso contrario
df_final["total_iguales"] = df_final["total"] == df_final["total2"]

In [102]:
df_final

Unnamed: 0,codigo,prov,dpto,frac,rad,varon,mujer,total,total2,total_iguales
0,140070101,14,7,1,1,40,28,68,68,True
1,140070102,14,7,1,2,261,233,494,494,True
2,140070103,14,7,1,3,123,96,219,219,True
3,140070104,14,7,1,4,45,32,77,77,True
4,140070105,14,7,1,5,137,131,268,268,True
...,...,...,...,...,...,...,...,...,...,...
4747,141821308,14,182,13,8,229,225,454,454,True
4748,141821309,14,182,13,9,222,240,462,462,True
4749,141821310,14,182,13,10,242,249,491,491,True
4750,141821311,14,182,13,11,417,417,834,834,True


In [103]:
# Ahora verificamos cuantos valores "unicos" hay en total_iguales
df_final["total_iguales"].unique()

array([ True])

In [105]:
# Vemos que solo hay un valor, y es True, quiere decir que no hay ningún valor que sea distinto
# Ahora asignaremos nombre de depto
nombres = {154: 'SOBREMONTE',
           175: 'TULUMBA',
           112: 'RIO SECO',
           28: 'CRUZ DEL EJE',
           49: 'ISCHILIN',
           140: 'SAN JUSTO',
           168: 'TOTORAL',
           105: 'RIO PRIMERO',
           70: 'MINAS',
           91: 'PUNILLA',
           21: 'COLON',
           77: 'POCHO',
           14: 'CAPITAL',
           119: 'RIO SEGUNDO',
           147: 'SANTA MARIA',
           126: 'SAN ALBERTO',
           7: 'CALAMUCHITA',
           133: 'SAN JAVIER',
           161: 'TERCERO ARRIBA',
           182: 'UNION',
           42: 'GENERAL SAN MARTIN',
           63: 'MARCOS JUAREZ',
           98: 'RIO CUARTO',
           56: 'JUAREZ CELMAN',
           84: 'PTE ROQUE SAENZ PEÑA',
           35: 'GENERAL ROCA'}

In [106]:
# Recorremos el diccionario con el propósito de hacer un "match" entre la columna "dpto" y la key
# En caso de ser iguales, le asignamos el nombre de depto correspondiente
for key, value in nombres.items():
    
    df_final.loc[df_final["dpto"] == key, "nombredpto"] = value

In [107]:
df_final

Unnamed: 0,codigo,prov,dpto,frac,rad,varon,mujer,total,total2,total_iguales,nombredpto
0,140070101,14,7,1,1,40,28,68,68,True,CALAMUCHITA
1,140070102,14,7,1,2,261,233,494,494,True,CALAMUCHITA
2,140070103,14,7,1,3,123,96,219,219,True,CALAMUCHITA
3,140070104,14,7,1,4,45,32,77,77,True,CALAMUCHITA
4,140070105,14,7,1,5,137,131,268,268,True,CALAMUCHITA
...,...,...,...,...,...,...,...,...,...,...,...
4747,141821308,14,182,13,8,229,225,454,454,True,UNION
4748,141821309,14,182,13,9,222,240,462,462,True,UNION
4749,141821310,14,182,13,10,242,249,491,491,True,UNION
4750,141821311,14,182,13,11,417,417,834,834,True,UNION


In [108]:
# Ahora verificamos cuantos valores "unicos" hay en nombredepto
df_final["nombredpto"].unique()

array(['CALAMUCHITA', 'CAPITAL', 'COLON', 'CRUZ DEL EJE', 'GENERAL ROCA',
       'GENERAL SAN MARTIN', 'ISCHILIN', 'JUAREZ CELMAN', 'MARCOS JUAREZ',
       'MINAS', 'POCHO', 'PTE ROQUE SAENZ PEÑA', 'PUNILLA', 'RIO CUARTO',
       'RIO PRIMERO', 'RIO SECO', 'RIO SEGUNDO', 'SAN ALBERTO',
       'SAN JAVIER', 'SAN JUSTO', 'SANTA MARIA', 'SOBREMONTE',
       'TERCERO ARRIBA', 'TOTORAL', 'TULUMBA', 'UNION'], dtype=object)

Para más información acerca de Pandas DataFrame consulta el siguiente [enlace](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html#pandas.DataFrame)