# Investigación Corta 1 


## Tutorial de Pandas de las operaciones mas comunes en **Pre-Procesado**

### Importancia del Preprocesado
* Permite mejorar los resultados de los modelos aplicados en Proyectos de Machine Learning especialmente cuando estos datos deben de estar en una manera especifica. *Ejemplo:* Cuando algunos algoritmos no soportan algun estado especifico como *"null values"*
* Se busca que el preprocesado aplicado pueda ser util de una forma mas generalizada para otros algoritmos de Machine Learning.

### Iniciando con Pandas

Antes de Inciar con las operaciones mas comunes utilizadas en preprocesado es importante saber como cargar un *'Dataset'*

1. Es necesario buscar alguna fuente de informacion que desee utilizar, en este caso se utilizo se uso como referencia: 
https://github.com/MateLabs/Public-Datasets/blob/master/Datasets/iris.csv. El archivo .CSV se encuentra en el mismo directorio del ambiente de trabajo. En caso de utilizar otro path tener esto en consideracion para escribir la ruta en **pd.read_csv('path')**

2. Para verificar que esta cargando el archivo con extension CSV se utilizo **pf.head('Se especifica los datos que se desean mostrar')**

*Referencia:* 
https://chrisalbon.com/python/data_wrangling/pandas_dataframe_importing_csv/ 


In [51]:
import pandas as pd
import numpy as np

df = pd.read_csv('DataSet3.csv')
df.head(10)


Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


**NOTA:** Los *'DataSet'* tambien se pueden generar en forma de un Arreglo como lo muestra el ejemplo a continuacion:

In [52]:
raw_data = {'first_name': ['Jason', 'Molly', 'Tina', 'Jake', 'Amy'], 
        'last_name': ['Miller', 'Jacobson', ".", 'Milner', 'Cooze'], 
        'age': [42, 52, 36, 24, 73], 
        'preTestScore': [4, 24, 31, ".", "."],
        'postTestScore': ["25,000", "94,000", 57, 62, 70]}
df = pd.DataFrame(raw_data, columns = ['first_name', 'last_name', 'age', 'preTestScore', 'postTestScore'])
df

Unnamed: 0,first_name,last_name,age,preTestScore,postTestScore
0,Jason,Miller,42,4,25000
1,Molly,Jacobson,52,24,94000
2,Tina,.,36,31,57
3,Jake,Milner,24,.,62
4,Amy,Cooze,73,.,70


El DataSet que se creo anteriormente fue tomado del link a continuacion con el fin de mostrar la organizacion de los datos para mostrar los datos en modo de una tabla tal y como se cargo de un CSV.
Ref. https://chrisalbon.com/python/data_wrangling/pandas_dataframe_importing_csv/

### Operaciones más comunes en Pre-Procesado

Dura la investigacion fue comun encontrar las siguientes operaciones para realizar algun tipo de preparacion de los datos.

1. Añadir Valores por Defecto (Add default values)
2. Eliminar Columnas Incompletas (Remove incomplete rows)
3. Desviacion Estandar
4. Reescalar los Datos (Rescale Data)
5. Binarizar Datos (Binarize Data)






#### 1. Añadir Valores por Defecto (Add default values)
En muchas ocasiones es necesario clasificar los datos de tal forma que permita al algoritmo graficar u organizar los datos de forma correcta. Los valores NaN pueden ser tomados en consideracion dentro de alguna categoria y es por esto que se deben reemplazar los valore NaN con algun valor conocido (este podria estar dentro de un rango (thershold)) 

Ejemplo:
Con fines practicos se ha create un DataSet simple para mostrar la operacion de *Add*

In [53]:
DataSim = {'Nombre': ['David', 'Carlos', 'Juan', 'Ana', 'María'], 
        'Apellido': ['Rodriguez', 'Cambronero', 'Arroyo', 'Ramirez', 'Jimenez'], 
        'Edad': [28, 30, 21, 5, 58], 
        'Universidad': ['UCR', 'UNED','TEC', np.nan, np.nan],
        'Mod Celular': ["Huawei", "Iphone", "LG",np.nan, "Samsung"]}
df = pd.DataFrame(DataSim, columns = ['Nombre', 'Apellido', 'Edad', 'Universidad', 'Mod Celular'])
df


Unnamed: 0,Nombre,Apellido,Edad,Universidad,Mod Celular
0,David,Rodriguez,28,UCR,Huawei
1,Carlos,Cambronero,30,UNED,Iphone
2,Juan,Arroyo,21,TEC,LG
3,Ana,Ramirez,5,,
4,María,Jimenez,58,,Samsung


**Nota.** Es importante notar que los Valores NaN son introducidos utilizando *numpy* como: **import numpy as np** al inicio. Es esperado ver errores si no es incluido o instalada dicha libreria.

Para realizar el reemplazo de los Datos NaN se utiliza **fillna** y a este se le indico por el valor que se sustituirá.

Ver Documentacion al respecto en: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.fillna.html 


In [54]:
av = df.fillna('No Inscrito')
av

Unnamed: 0,Nombre,Apellido,Edad,Universidad,Mod Celular
0,David,Rodriguez,28,UCR,Huawei
1,Carlos,Cambronero,30,UNED,Iphone
2,Juan,Arroyo,21,TEC,LG
3,Ana,Ramirez,5,No Inscrito,No Inscrito
4,María,Jimenez,58,No Inscrito,Samsung


El Valor de *NaN* se sustituyo por *"No Inscrito"*.

#### 2. Eliminar Columnas Incompletas (Remove incomplete rows)

Eliminar Columnas incompletas puede ser un proceso un extremo sin embargo dependiendo del criterio puede ser un procedimiento util en fases de Pre-Procesado.

Para este ejemplo se utilizó el DataSet *DataSet3.csv* cargado previamente con la diferencia que se usó una fracción de 15 filas.

Inicialmente se tiene los datos como se muestra a continuación 

In [55]:
df = pd.read_csv('DataSet3.csv')
ex_data = df.head(11)
ex_data

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa


**data.dropna()** elimina filas que contengan valores *NaN* 

In [56]:
rows_drop = ex_data.dropna()
rows_drop

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa
10,5.4,3.7,1.5,0.2,Iris-setosa


**data.dropna(axis=1, how='any')** Elimina las columnas valores *NaN* como se puede observar en el ejemplo a continuación.

In [57]:
colm_drop = ex_data.dropna(axis=1, how='any')
colm_drop

Unnamed: 0,sepal length,petal length,petal width,species
0,5.1,1.4,0.2,Iris-setosa
1,4.9,1.4,0.2,Iris-setosa
2,4.7,1.3,0.2,Iris-setosa
3,4.6,1.5,0.2,Iris-setosa
4,5.0,1.4,0.2,Iris-setosa
5,5.4,1.7,0.4,Iris-setosa
6,4.6,1.4,0.3,Iris-setosa
7,5.0,1.5,0.2,Iris-setosa
8,4.4,1.4,0.2,Iris-setosa
9,4.9,1.5,0.1,Iris-setosa


En otros casos es necesario agregar a los valores *NaN* algun valor conocido.

**data.fillna(data.mean())** En este caso los valores NaN seran reemplazados por la media de cada columna   

In [58]:
colm_fill = ex_data.fillna(ex_data.mean())
colm_fill

Unnamed: 0,sepal length,sepal width,petal length,petal width,species
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.475,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.475,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa
5,5.4,3.9,1.7,0.4,Iris-setosa
6,4.6,3.4,1.4,0.3,Iris-setosa
7,5.0,3.4,1.5,0.2,Iris-setosa
8,4.4,3.475,1.4,0.2,Iris-setosa
9,4.9,3.1,1.5,0.1,Iris-setosa



#### 3. Desviación Estandar (Outliers)

En muchas ocasiones es necesario sacar valores que estan fuera de los 3 Sigma que se salen de los rangos "esperados" ya sea por mediciones de varaibles a nivel práctico por variabilidad de condiciones.

Se creo un arreglo que emula multiples mediciones que tienen cierto rango esperado sin embargo se desea detectar esos datos "Anomalos"

In [147]:
import pandas as pd
import numpy as np

data_array = [1000,1026,1055,1074,1031,1077,1085,1063,1042,1067,1089,1081,1056,2,1]


In [145]:
elements = np.array(data_array)
print (elements)

[1000 1026 1055 1074 1031 1077 1085 1063 1042 1067 1089 1081 1056    2
    1]


De esta forma se eliminaron los datos *"1 y 2"*

In [146]:
mean = np.mean(elements, axis=0)
sd = np.std(elements, axis=0)

final_list = [x for x in data_array if (x > mean - 2 * sd)]
final_list = [x for x in final_list if (x < mean + 2 * sd)]
print (final_list)


[1000, 1026, 1055, 1074, 1031, 1077, 1085, 1063, 1042, 1067, 1089, 1081, 1056]


#### 4. Reescalar los Datos (Rescale Data)




In [172]:
from sklearn.preprocessing import MinMaxScaler

#Resc_data = [62,-47,-55,74,31,77,85,63,42,67,89,81,56]
Resc_data = {
       'Score':[62,-47,-55,74,31,77,85,63,42,67,89,81,56]}
 
df = pd.DataFrame(Resc_data,columns=['Score'])
#print df


scaler = MinMaxScaler(feature_range=(80, 100)) 

rescaledX = scaler.fit_transform(df)

np.set_printoptions(precision=3) 
print(rescaledX) 

[[ 96.25 ]
 [ 81.111]
 [ 80.   ]
 [ 97.917]
 [ 91.944]
 [ 98.333]
 [ 99.444]
 [ 96.389]
 [ 93.472]
 [ 96.944]
 [100.   ]
 [ 98.889]
 [ 95.417]]


#### 5. Binarizar Datos (Binarize Data)

In [184]:
from sklearn.preprocessing import Binarizer

Norm_data = {
       'Score':[62,-47,-55,74,31,77,85,63,42,67,89,81,56]}
 
Norm_data_fRAME = pd.DataFrame(Norm_data,columns=['Score'])

#X2 = Norm_data_fRAME[:,0:12]

#Y = array[:,8]
#print (Norm_data_fRAME)

binarizer = Binarizer(threshold=88).fit(Norm_data_fRAME) 
binaryX = binarizer.transform(Norm_data_fRAME)

np.set_printoptions(precision=3) 
print(binaryX)

[[0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [0]
 [1]
 [0]
 [0]]
