# <FONT color ="blue">PREPROCESAMIENTO DE DATOS </FONT>

![Preprocesamientoimagen.jpeg](attachment:c59780a8-b876-4d7c-bdcf-89d0e011f981.jpeg)

### <FONT COLOR="blue"> AUTOR </FONT>
#### Kevin Andrés Rubiano Moreno
#### Pregrado en Estadística 
#### Universidad Nacional de Colombia 
#### Bogotá, 2023

### <FONT COLOR="blue"> PRESENTACIÓN DEL AUTOR </FONT>


Kevin Andrés Rubiano Moreno es un estudiante de noveno semestre de pregrado en estadística, quien pretende con sus estudios enrriquecerse de herramientas estadísticas e informáticas útiles para la investigación sobre las causas y consecuencias del crimen y la delincuencia, y sobre las políticas de seguridad ciudadana. Además tiene interés en conocer posibles técnicas de inteligencia artificial para descubrir y prevenir el actuar de los criminales.

![FotoKevin2.jpeg](attachment:4fa2115f-c424-425f-897c-64328286a4da.jpeg)

## <FONT color="blue"> Introducción al preprocesamiento de datos </FONT>

La creciente cantidad de datos que actualmente se generan en diversos ámbitos ha despertado el interés de los investigadores en mejorar las técnicas para recolectarlos y almacenarlos de manera organizada, con el fin de obtener a partir de ellos conocimiento genuino. Sin embargo, algunos procesos de recolección son realizados con poco cuidado y varios fenómenos que generan datos son desorganizados por naturaleza. Al conjunto de datos recién obtenidos se le conoce como "datos crudos" (_raw data_ en inglés), que se carcateriza por estar desorganizado y ser difícilmente una fuente apropiada de información.  

Uno de los pricipales problemas que representan los datos crudos para los científicos de datos es que no son precisos para entrenar modelos supervisados, ya que tienen muchos errores, inconsistencias y en algunos casos están incompletos. Estas condiciones los hacen poco viables o incluso inservibles para entrenar un modelo, pues por óptimo que sea el mismo, los datos con los que "aprende" no representan de manera correcta el fenómeno o la realidad a modelar.

Con el fin de poder aumentar la efectividad de los modelos y sobre todo obtener información útil a partir de los datos recolectados, se deben llevar a cabo una serie de operaciones que sirven para arreglar, limpiar, traducir  y transformar el conjunto de datos; logrando con esto simplificar su análisis, prevenir conclusiones engañosas y sacar el mejor provecho de la información que contienen.  

A esta serie de operaciones y técnicas previas al procesamiento de los datos se le conoce como preprocesamiento de datos o ingeniería de características, una disciplina que considera diferentes alternativas para mejorar el insumo de datos.

## <FONT color="blue"> Ejemplo: Técnicas de Normalización </FONT>

Los atributos están diseñados para funcionar en el ámbito que son usados aunque así tengan difícil interpretación estadística. Sin embargo, a veces se requiere que tengan un rango, media, dispersión, etc; distintos para que sean útiles y apropiados dentro de un modelo. Por esta razón, se utilizan operaciones de normalización sobre los atributos, que consisten en escalar los mismos.  
  
#### <font color= "blue">  Normalización mín-máx </font>

Re-escalar las característizas bajo el mismo rango tiene particular importancia cuando se quieren calcular distancias, de este modo las variables con un gran rango no influyen de forma incorrecta en las predicciones del modelo. 

La normalización mín-máx consiste en asignar un nuevo rango de valores al atributo en cuestión, un nuevo mínimo y un nuevo máximo a partir del mínimo y el máximo originales conservando las relaciones entre los datos originales. \[\]

Se usa la siguiente ecuación para normalizar los datos:

$$ v'=\frac{v-min_A}{max_A-min_A}(nuevo\_max_A-nuevo\_min_A)+nuevo\_min_A$$

Donde $A$ es el atributo en cuestión, $v$ es cada registro del atributo, y $v'$ es el nuevo valor del registro.

Sin embargo, la presencia de datos atípicos puede ocasionar que la normalización mín-máx tenga un efecto contradictorio para el objetivo del estudio. Por ejemplo, en caso de que hayan datos atípicos los datos quedarían muy agrupados y esto limitaría la presición de la predicción del atributo.\[\] Por esto, se presenta la siguiente operación de normalización.    
  
#### <font color= "blue">  Normalización $z$-score  </font>
Consiste en usar la distribución de los datos para simplificar su estructura. Esto se realiza restando la media de los datos a cada registro del atributo y dividiendolo entre la desviación estándar de los datos.
$$v'=\frac{v-media_A}{des\_est_A}$$

De este modo el nuevo atributo tiene media cero y varianza uno. 

Una alternativa robusta a datos atípicos para esta normalización, es usar la siguiente definición de la desviación estándar en vez de la original:

$$s_A= \frac{1}{n}\sum_{i=1}^n |v_i-media_A|$$ 

#### <font color= "blue" >  Normalización de escala decimal </font>


Este método de normalización consiste en dividir los registris del atributo entre una potencia de diez tal que el máximo valor absoluto del atributo sea menor o igual que 1. Esta es una forma de reducir el valor absoluto de un atributo $A$.

## <FONT color="blue"> Ejercicio en Python </FONT>

In [7]:
# Importación de algunas librerías necesarias
import pandas as pd
import numpy as np

In [5]:
#Importación de datos
NESTLE = pd.read_table("NSRGY.csv",delimiter=",",header=0)
NESTLE.info()
NESTLE.head(10)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 502 entries, 0 to 501
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       502 non-null    object 
 1   Open       502 non-null    float64
 2   High       502 non-null    float64
 3   Low        502 non-null    float64
 4   Close      502 non-null    float64
 5   Adj Close  502 non-null    float64
 6   Volume     502 non-null    int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 27.6+ KB


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2018-01-02,86.050003,86.260002,85.349998,85.629997,78.766335,1197000
1,2018-01-03,84.849998,85.489998,84.809998,85.279999,78.444397,884800
2,2018-01-04,85.519997,85.68,85.220001,85.330002,78.490387,438100
3,2018-01-05,85.599998,85.790001,85.330002,85.720001,78.849136,231300
4,2018-01-08,85.790001,85.800003,85.370003,85.480003,78.628372,382300
5,2018-01-09,85.900002,86.0,85.510002,85.889999,79.005508,765200
6,2018-01-10,85.239998,85.269997,84.760002,85.07,78.251228,522000
7,2018-01-11,84.730003,84.860001,84.290001,84.519997,77.745308,627400
8,2018-01-12,84.849998,85.239998,84.629997,85.099998,78.278831,339600
9,2018-01-16,86.080002,86.269997,85.699997,86.199997,79.290649,603200


In [6]:
# Normalización MIN- MAX
from sklearn.preprocessing import MinMaxScaler
min_max_scaler = MinMaxScaler()
NESTLE.iloc[:,1:5] = min_max_scaler.fit_transform(NESTLE.iloc[:,1:5])
NESTLE.head(10)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2018-01-02,0.300741,0.299633,0.295033,0.288551,78.766335,1197000
1,2018-01-03,0.271111,0.280783,0.281485,0.279971,78.444397,884800
2,2018-01-04,0.287654,0.285435,0.291771,0.281196,78.490387,438100
3,2018-01-05,0.28963,0.288127,0.294531,0.290758,78.849136,231300
4,2018-01-08,0.294321,0.288372,0.295535,0.284874,78.628372,382300
5,2018-01-09,0.297037,0.293268,0.299047,0.294925,79.005508,765200
6,2018-01-10,0.280741,0.275398,0.280231,0.274822,78.251228,522000
7,2018-01-11,0.268148,0.265361,0.26844,0.261338,77.745308,627400
8,2018-01-12,0.271111,0.274663,0.276969,0.275558,78.278831,339600
9,2018-01-16,0.301481,0.299878,0.303813,0.302525,79.290649,603200


## <FONT color="blue"> REFERENCIAS </FONT>

* [scikit-learn: Preprocessing data](https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing)
* [Pre-procesamiento de datos con Python](https://www.jacobsoft.com.mx/es_mx/pre-procesamiento-de-datos-con-python/)
* [Should I normalize/standardize/rescale the data?](http://www.faqs.org/faqs/ai-faq/neural-nets/part2/section-16.html)