---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque (robinson.duque@correounivalle.edu.co)  
Última modificación: Julio de 2020  

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

# Procesamiento de datos con Colecciones
Es común enfrentarse a situaciones donde se tendrá que procesar un conjunto de datos existente utilizando los tipos y coleccines básicas vistas hasta el momento. No obstante, el uso de colecciontes como (listas, tuplas, diccionarios y conjuntos) tienen diversas limitaciones que trataremos de solventar utilizando librerias especializadas como NumPy, Pandas y Matplotlib.

> ## Archivos CSV
> Los archivos **CSV** (Comma Separated Values) son quizá el formato de datos más popular para importar y exportar bases de datos entre varios sistemas. Debido a que CSV no tiene un formato estandarizado, siempre hay diferencias sutiles entre los archivos CSV de diferentes proveedores, como el separador de campo puede ser `TAB`, `:`, `;` en lugar de una `,`. 
>
> Un archivo CSV se ve así por dentro:
> ``` csv
ID,Name,CountryCode,District,Population
3793,New York,USA,New York,8008278
3794,Los Angeles,USA,California,3694820
3795,Chicago,USA,Illinois,2896016
3796,Houston,USA,Texas,1953631
3797,Philadelphia,USA,Pennsylvania,1517550
3798,Phoenix,USA,Arizona,1321045
3799,San Diego,USA,California,1223400
3800,Dallas,USA,Texas,1188580
> ```
>Observe cómo cada pieza de datos está separada por una coma. Normalmente, la primera línea identifica cada pieza de datos; en otras palabras, el nombre de una columna de datos. Cada línea posterior después de eso son datos y están limitados solo por restricciones de tamaño de archivo.
>
> ## Lectura de archivos CSV
> En Python es común cargar éstos archivos CSV de dos maneras:
> * Lista de diccionarios
>``` ipython
[
      {clave1-diccionario1: valor1-diccionario1...},
      {clave1-diccionario2: valor1-diccionario2...},
      ...
      {clave1-diccionario_n: valor1-diccionario_n...},
]
>```
> * Lista de listas
>``` ipython
[
      [valor1-lista_1, valor2-lista_1, ...],
      [valor1-lista_2, valor2-lista_2, ...],
      ...
      [valor1-lista_n, valor2-lista_n, ...]
]
>``` 


In [None]:
lista_dic =[
    {'Name': 'New York', 'CountryCode': 'USA', 'Population': '8008278', 'ID': '3793', 'District': 'New York'},
    {'Name': 'Los Angeles', 'CountryCode': 'USA', 'Population': '3694820', 'ID': '3794', 'District': 'California'},
    {'Name': 'Chicago', 'CountryCode': 'USA', 'Population': '2896016', 'ID': '3795', 'District': 'Illinois'},
    {'Name': 'Houston', 'CountryCode': 'USA', 'Population': '1953631', 'ID': '3796', 'District': 'Texas'},
    {'Name': 'Philadelphia', 'CountryCode': 'USA', 'Population': '1517550', 'ID': '3797', 'District': 'Pennsylvania'},
    {'Name': 'Phoenix', 'CountryCode': 'USA', 'Population': '1321045', 'ID': '3798', 'District': 'Arizona'},
    {'Name': 'San Diego', 'CountryCode': 'USA', 'Population': '1223400', 'ID': '3799', 'District': 'California'},
    {'Name': 'Dallas', 'CountryCode': 'USA', 'Population': '1188580', 'ID': '3800', 'District': 'Texas'}
]

print("Primer diccionario:\n",lista_dic[0])
print("\n\nCuarto diccionario:\n",lista_dic[3])
print("\n\nsublista de diccionarios:\n",lista_dic[2:6])

In [None]:
# Acceso al tercer diccionario utilizando una variable auxiliar 'd':
d = lista_dic[2] #Se escoge el diccionario "2"
print(d["Name"])    #Se accede a la clave "Name" del diccionario "2" representado por 'd'
print(d["Population"])
print(d["ID"])

In [None]:
# Acceso al quinto diccionario sin utilizar variable auxiliar:
print(lista_dic[4]["Name"]) #Se escoge el diccionario "4" y se accede a la clave "Name"
print(lista_dic[4]["Population"])
print(lista_dic[4]["ID"])
print(lista_dic[4]["District"])

In [None]:
#Para cada diccionario 'i', haga una lista con los nombres:
nombres = [ i["Name"] for i in lista_dic] 
print(nombres)

#Para cada diccionario 'i', haga una lista con los nombres si inicia con la letra "P".
#Recuerda que el nombre es en si mismo es un String y también se pueden acceder a sus elementos utilizando índices y slicing
nombres_a  = [ i["Name"] for i in lista_dic if i["Name"][0]=="P"]
print(nombres_a)

In [None]:
#Para cada diccionario 'i', haga una lista con la población:
pass

#Se puede hacer una conversión de tipo utilizando 'int()' para realizar operaciones matemáticas (ejemplo:promedio)
pass


#Hacer ejemplos generando listas de tuplas
pass


#Hacer ejemplos generando conjutos de datos
pass

#Hacer ejemplos generando listas que requieran de filtros (condiciones)
pass


In [None]:
#Modificar datos utilizando una variable auxiliar. Recuerda que las copias se hacen por referencia por defecto:
aux = lista_dic[0]
aux["Name"] = "Santiago de Cali"
aux["CountryCode"] = "Colombia"
#Modificar datos sin utilizar variables auxiliares
lista_dic[1]["Name"] = "Bogotá"
lista_dic[1]["CountryCode"] = "Colombia"

In [None]:
#Agregar una nueva columna: se necesitan 8 colores, 1 para cada diccionario
color = ["Azul","Rojo","Verde","Verde","Naranja","Amarillo","Blanco","Rojo"]
for c in range(8): #Utilizaremos un for, puesto que no pretendemos generar una nueva lista (Simplemente modificar la actual)
    lista_dic[c]["Color"] = color[c] #Se asigna un color a la nueva clave "Color"

print("\n\n",lista_dic)

In [None]:
lista_lista =[
    ['ID', 'Name', 'CountryCode', 'District', 'Population'],
    ['3793', 'New York', 'USA', 'New York', '8008278'],
    ['3794', 'Los Angeles', 'USA', 'California', '3694820'],
    ['3795', 'Chicago', 'USA', 'Illinois', '2896016'],
    ['3796', 'Houston', 'USA', 'Texas', '1953631'],
    ['3797', 'Philadelphia', 'USA', 'Pennsylvania', '1517550'],
    ['3798', 'Phoenix', 'USA', 'Arizona', '1321045'],
    ['3799', 'San Diego', 'USA', 'California', '1223400'],
    ['3800', 'Dallas', 'USA', 'Texas', '1188580'],
]

# Observa que a diferencia de los diccionarios, la primer lista contiene los nombres
# de las columnas
print("Primer lista:\n",lista_lista[0])
print("\n\nCuarta Lista:\n",lista_lista[3])
print("\n\nsublista de listas:\n",lista_lista[2:6])

In [None]:
#índice 0 corresponde al 'ID'
#índice 1 corresponde a 'Name'
#índice 2 corresponde a 'CountryCode'
#índice 3 corresponde a 'District'
#índice 4 corresponde a 'Population'


# Acceso a la tercer lista utilizando una variable auxiliar 'd':
d = lista_lista[2] #Se escoge la lista "2"
print(d[1])    #Se accede al nombre de la lista "2" representada por 'd'
print(d[4])    #Se accede a la población
print(d[0])    #Se accede al ID


# Acceso a la quinta lista sin utilizar variable auxiliar:
print(lista_lista[4][1]) #Se escoge la lista "4" y se accede al nombre "1"
print(lista_lista[4][4]) #Población
print(lista_lista[4][0]) #ID
print(lista_lista[4][3]) #Distrito

In [None]:
#Para cada lista 'i', haga una lista con los nombres:
nombres = [ i[1] for i in lista_lista[1:]] 
print(nombres)

#Para cada lista 'i', haga una lista con los nombres si inicia con la letra "P".
#Recuerda que el nombre es en si mismo es un String y también se pueden acceder a sus elementos utilizando índices y slicing
nombres_a  = [ i[1] for i in lista_lista[1:] if i[1][0]=="P"]
print(nombres_a)


#Se puede hacer una conversión de tipo utilizando 'int()':
poblaciones2 = [ int(i[4]) for i in lista_lista[1:] ] 
print("\nObserva esta lista de poblaciones:\n",poblaciones2,"\nTodos los datos son int y podremos sumarlos...")

suma_poblaciones = sum(poblaciones2)
promedio_poblacion = sum(poblaciones2) / len(poblaciones2)
print("Suma de poblaciones: ", suma_poblaciones)
print("Promedio de población:", promedio_poblacion)

> ## Cargando archivos CSV
> Existen diferentes maneras de cargar archivos CSV. Una de las formas más comúnes es utilizando la librería CSV que provee funcionalidad para leer y escribir archivos CSV. Sólo basta con cargar el archivo a una variable 1 sola vez y estará disponible dentro de todo el cuaderno de Jupyter. En los ejemplos de arriba, se incluyó la lista de forma manual en cada ejemplo simplemente para tenerla como referencia.
>
>En general utilizaremos las siguientes líneas para importar archivos:


In [None]:
# Código para importar listas de diccionarios. Sólo asegurate que el archivo 
# "population.csv" o el que estés intentando cargar se encuentre en el mismo 
# directorio que este cuaderno. Sino, asegurate de tener una ruta válida
import csv
with open("population.csv","r") as csv_file:
    lista_dic = list(csv.DictReader(csv_file))

print(lista_dic)
print("\n")

#Ya puedes empezar a trabajar con tu 'lista_dic', aunque puedes darle cualquier otro nombre
nombres = [ i["Name"] for i in lista_dic] 
print(nombres)


In [None]:
# Código para importar listas de listas. Sólo asegurate que el archivo 
# "population.csv" o el que estés intentando cargar se encuentre en el mismo 
# directorio que este cuaderno. Sino, asegurate de tener una ruta válida
import csv
with open("population.csv","r") as csv_file:
    lista_lista = list(csv.reader(csv_file))

print(lista_lista)
print("\n")

#Ya puedes empezar a trabajar con tu 'lista_lista', aunque puedes darle cualquier otro nombre
nombres = [ i[1] for i in lista_lista[1:]] 
print(nombres)


>  ## Limitaciones de Procesar Datos con Colecciones
> * En la lista de listas hay que recordar los índices para poder aceder a los datos correctos y esto puede causar errores al momento de programar (no es natural programar así, es un poco difícil)...
>* En la lista de listas puede haber confusión respecto a cuál es el primer registro de datos al momento de hacer operaciones. ¿Será la primer lista? la cual contiene los nombres de las columnas o ¿debería ser la segundalista?, que contiene el primer registro de datos...
>* Las listas ocupan menos espacio en memoria respecto a los diccionarios que  repiten los índices una y otra vez, ¿son las listas de diccionarios la mejor opción?...
>* Tanto para diccionarios como para listas, sería genial tener un tratamiento automático de datos que permita operar sobre ellos:
>    * cambio de tipos de toda una columna
>    * buscar y filtrar datos que cumplan con ciertos criterios
>    * operaciones aritméticas y aplicación de funciones a filas
>    * operaciones aritméticas y aplicación de funciones a  columnas (por ejemplo, multiplicar todos los elementos de una columna por un número y almacenar los resultados en una nueva columna)


# NumPy: arreglos y computación vectorizada
NumPy es una abreviatura de 'Numerical Python', es el paquete fundamental requerido para la computación científica de alto rendimiento y el análisis de datos. Es la base sobre la cual se construyen casi todas las herramientas de nivel superior como Pandas. Algunas de las características que ofrece:

*  **ndarray**, una matriz multidimensional rápida y eficiente que proporciona operaciones aritméticas vectorizadas y capacidades de transmisión sofisticadas (para datos homogeneos)
*  Funciones matemáticas estándar para operaciones rápidas en conjuntos completos de datos sin tener que escribir bucles (o comprensiones)
* Herramientas para leer / escribir datos desde disco y trabajar con archivos mapeados en memoria
* Operaciones de Álgebra lineal y generación de números aleatorios
* Herramientas para integrar código escrito en C, C ++ y Fortran

Para utilizar NumPy se debe importar la librería así:
``` ipython
import numpy as np
```
Es muy común encontrarse con el álias `np` aunque puede ser cualquier otra palabra no reservada.


In [None]:
import numpy as np # Es necesario imprtar la librería numpy 
                   # una vez se ejecute esta instrucción, 'np' quedará habilitado 
                   # en todo el cuaderno y no será necesario realizar la importación cada vez

