---
Escuela de Ingeniería de Sistemas y Computación  
Universidad del Valle  
INTRODUCCIÓN A LA PROGRAMACIÓN PARA ANALÍTICA  
Profesor: Ph.D, Robinson Duque (robinson.duque@correounivalle.edu.co)  
Última modificación: Julio de 2020  

---

# Consideraciones:

Este material presenta textos y ejemplos orientados al propósito del curso de _Introducción a la Programación para Analítica_ de la Universidad del Valle.

# Uso de NumPy (Procesamiento de datos)
Ahora empezaremos a utilizar los conceptos aprendidos sobre NumPy: 
* Primero estudiaremos un dataset que contiene valores de estaturas y pesos de 10.000 hombres y mujeres
* Por ahora realizaremos una revisión y análisis indepemendiente de cada columna de datos
* Nos daremos cuenta que analizar columnas de manera independiente no es lo más apropiado
* Pronto aprenderemos a utilizar Pandas que nos permitirá analizar heterogéneos en una sola estructura de datos

Por ahora lo que haremos será cargar las librerías de `Pandas` y `NumPy`, luego cargaremos los datos utilizando la función `read_csv` que ofrece `Pandas`:

In [None]:
import pandas as pd # Librería que nos permitirá cargar los datos fácilmente
import numpy as np

data = pd.read_csv('weight-height.csv') # Se leen los datos incluidos en el dataset
print(data.head()) # Con Pandas puedo revisar la cabecera de los datos

# Procesamiento de estaturas con NumPy
> Lo primero que haremos será tomar la columna de estaturas y cargarla a un arreglo de NumPy. Luego vamos a revisar la cantidad y el tipo de datos que estamos tratando:

In [None]:
#Tomo las estaturas y las convierto a array
heights = np.array(data['Height']) 
print(heights)

In [None]:
print(heights.size)
print(heights.dtype)

> Observe que tenemos en total 10.000 datos y adicionalmente todos los datos fueron cargados como `float64`, lo cual son buenas noticias puesto que en la carga de datos no se identificaron valores que no pudieran ser convertidos a números flotantes. 
>
>Por ejemplo, en el caso de haber encontrado valores que no fuesen numéricos, quizá el array sería de tipo `object`. No obstante, `float64` **no indica que todos los datos estén bien...**
>
> Observa:

In [None]:
np.sum(heights) #Esto genera un NaN, ¿porqué?

> **NaN: Not a Number**  
> * Como los datos vienen en muchas formas, la librería `Pandas` tiene como objetivo ser flexible respecto al manejo de los datos faltantes (al momento de cargarlos) 
> *  NaN es el marcador de valor faltante
> * Este valor se utiliza con datos faltantes de diferentes tipos: punto flotante, entero, booleano y objeto general
> * En muchos casos, sin embargo, aparecerá el `None` de Python y también lo consideraremos como un dato que "falta" o `NA` "no disponible" 
>
>La suma arroja `NaN` y esto nos indica que tenemos valores faltantes.
>
> Hay que tener en cuenta que en Python (y NumPy), los `nan` no se comparan con `==`, pero los `None` si. Tenga en cuenta que Pandas y NumPy usan el hecho de que `np.nan! = np.nan`, y tratan a `None` como `np.nan`.
>
> Si deseas saber más al respecto, te sugiero [esta lectura](https://towardsdatascience.com/navigating-the-hell-of-nans-in-python-71b12558895b)

In [None]:
print(type(np.nan))
print(type(float('nan')))
#int(np.nan) #No se puede

In [None]:
print(None == None)
print(np.nan == np.nan)

In [None]:
print(None is None)
print(np.nan is np.nan)

In [None]:
# Formas de identificar valores faltantes en NumPy y en Pandas
import numpy as np
import pandas as pd

var = float('nan')

var is np.nan #results in False
#or
np.isnan(var) #results in True
#or
pd.isna(var) #results in True
#or
pd.isnull(var)#results in True


> Muy bien, ahora busquemos cúantos valores faltantes hay en nuestros datos de estaturas:

In [None]:
#Búsqueda de nan
mascara1 = np.isnan(heights)
print(mascara1.sum())

#Búsqueda de None
mascara2 =   heights[heights is None]
print(mascara2)

> Observa que tenemos 4 valores que son `nan` y no aparece ningún valor `None`(Estos último valores usualmente aparecen en arreglos de objetos):

In [None]:
print("Los NaN equivalen tan solo al {}% de los datos.".format((4/10000)*100))

> Más adelante en el curso estudiaremos otras técnicas para tratar datos faltantes cuya eliminación podrían impactar negativamente el conjunto de datos.
>
> Como son pocos datos (para este caso), entonces procederemos a usar todos los datos que no son NaN, para esto usamos la negación de la máscara `~mascara1` como filtro:

In [None]:
heights = heights[~mascara1]

In [None]:
heights.size

In [None]:
heights.sum()

> Nota que ahora la suma ha funcionado, por consiguiente podemos pensar que todos nuestros datos faltantes han sido eliminados...
>
>¿Será esto suficiente para pensar que los datos están limpios?
>
> Observa:

In [None]:
print("Promedio:           ", heights.mean())
print("Std:                ", heights.std())
print("Valor mínimo        ", heights.min())
print("Valor máximo.       ", heights.max())

> Observa que el valor mínimo es un número negativo, ¿porqué?¿cuántos valores habrán así?
>
> Observa el valor máximo...
> 
> Una forma fácil de revisar esto puede ser utilizando la función `np.unique`, que adicionalmente entrega los valores ordenados. 

In [None]:
np.unique(heights) 
#np.unique(heights, return_counts=True)

> Observa que aparecen algunos valores con -1 y 0, quizá fueron valores que no se ingresaron al registro original. Depués de estos valores, el valor de la estatura mínima es 54.26313333.
>
> Averiguemos el número de estos valores:

In [None]:
mascara3 = (heights<=0)
mascara3.sum()

> Al igual que con nuestros valores faltantes, estos 3 registros corresponden tan solo al 0.03% de los datos iniciales y los podremos eliminar: 

In [None]:
heights = heights[~mascara3]
print(heights.size)

In [None]:
# Ahora revisemos nuestros datos de nuevo
np.unique(heights) 

> Ahora observa que para el valor máximo hay uno o varios valores que contienen el valor de '710.79017576', esto pudo haber sido un error en la entrada de datos, pareciera el el punto está movido una unidad hacia la derecha (Podemos arreglarlo o eliminarlo), vamos a arreglarlo:

In [None]:
mascara4 = heights>=79
mascara4.sum()

> Observa que sólo es un valor y para arreglarlo sólo tendríamos que dividirlo por 10.

In [None]:
heights[mascara4] = heights[mascara4]/10
np.unique(heights) 

In [None]:
print("Promedio:           ", heights.mean())
print("Std:                ", heights.std())
print("Valor mínimo:       ", heights.min())
print("Valor máximo:       ", heights.max())
print("Mediana:            ", np.median(heights))
print("Percentil  25%:     ", np.percentile(heights, 25))
print("Percentil  50%:     ", np.percentile(heights, 50))
print("Percentil  75%:     ", np.percentile(heights, 75))
print("Percentil  90%:     ", np.percentile(heights, 90))

> Ahora los datos están listos para ser graficados. Más adelante en el curso entraremos en los detalles de la librería `matplotlib`:

In [None]:
%matplotlib inline  
import matplotlib.pyplot as plt  # Importación de la librería

In [None]:
plt.hist(heights, bins=50)
plt.title('Distribuciones de estaturas')
plt.xlabel('Estatura (cm)')
plt.ylabel('Número');

# Guardar datos limpios en disco...

> Ahora que sabemos que nuestros datos están limpios, puedo proceder a guardarlos en un nuevo archivo:

In [None]:
import pandas as pd

# Se crea un dataframe utilizando un diccionario asociado con el arreglo de Numpy
df = pd.DataFrame({'Height': heights})

In [None]:
#Opción para guardar conservando los índices
df.to_csv("Height-limpio.csv") 



In [None]:
#Opción para guardar sin índices
df.to_csv("Height-limpio-noindex.csv", index=False)


> También podemos guardar múltiples columnas

In [None]:
#También se pueden guardar múltiples columnas, en caso que se hayan procesado más 
# de una columna. Por ejemplo, asuma que se desean clasificar las personas como altas o bajas
# asumiendo que una estatura mayor de 1.7 mts es considerada como alta:

EsAlto=np.empty(heights.size,dtype="U4")
m = ((heights*0.0254)>1.7) #Las estaturas están en pulgadas y se convierten a metros
EsAlto[m] = "ALTO"
EsAlto[~m] = "BAJO"
EsAlto

In [None]:
#Creo un dataframe con un diccionario asociado con las alturas y la nueva clasificación
df = pd.DataFrame({'Height': heights,
                  'Alto-Bajo':EsAlto})

In [None]:
#Opción para guardar sin índices
df.to_csv("Height-alto-bajo-noindex.csv", index=False)

> ## Ventajas y desventajas de lo visto
> * Uso de funciones vectorizadas (ufunctions) 
> * Facilidad para filtrar y operar sobre los datos de un mismo tipo
> * Facilidad para operar valores faltantes/erroneos
> * Si quisieramos procesar: género, estatura y peso del conjunto  de datos inicial estaríamos restringidos por los tipos de datos de los arreglos y se tendrían que manejar de forma independiente
> * Eliminar un registro o valor de un arreglo, implicaría un trabajo adicional (eliminación en otros arreglos para mantener la consistencia)
> * Limitaciones para la creación de nuevas columnas
