<h2><center>Viaje a la ciencia de datos - Minería</center></h2>

---

<img src="https://lh3.googleusercontent.com/proxy/unyiAlWkrtIY0P6xaDNq4g-pMMNujaZkuwx8mUpDzPwkd1N6DvzkNabDBCyXu7pwnIOB7GoKCZQa7WrpqkceqEtCGiOtVQdxODHWvB2XRQNIiCTOfg53mTuJhMi-rg"/>

Dada la cantidad de datos que aumentan cada segundo que pasa, las personas gravitan cada vez más hacia la ciencia de datos y el aprendizaje automático. Para ser bueno en ellos, es necesario contar con sólidos fundamentos en el dominio de la minería de datos.

---


La comprensión de la ciencia de datos proviene de comprender qué son los datos conceptualmente, cómo manejar los datos que recibimos (los datos siempre serán diferentes para cada problema) y cómo preprocesar de manera eficiente los datos antes de entregarlos a los algoritmos de aprendizaje automático.

### ¿Qué son los datos?

En términos más simples, los datos son una colección de objetos y sus atributos. Otros nombres para un objeto de datos son registro, punto, vector, patrón, evento, caso, muestra, observación o entidad.

---

Ahora, debemos saber qué son los atributos.

Es una propiedad o característica de un objeto. Ejemplo: color de ojos de una persona. Esto también se conoce con otros nombres como variable, campo, característica, dimensión, etc.

Sin embargo, para discutir y analizar con mayor precisión las características de los objetos, les asignamos números o símbolos. Para hacer esto de una manera bien definida, necesitamos una escala de medición. Ahora bien, ¿qué diablos es una escala de medición?

Bueno, es una regla (función) que asocia un valor numérico o simbólico (valores de atributo) con un atributo de un objeto. Por ejemplo, clasificamos a alguien como hombre o mujer.

![img](https://miro.medium.com/max/1776/1*HKOwwQC_VRb7hCuLKUXwJA.png)

---

![img](https://miro.medium.com/max/2156/1*tZhUHO2Y0qdcQEoxoHjVnA.png)

Los atributos **nominales** y **ordinales** se denominan colectivamente atributos categóricos o cualitativos. 

Como sugiere el nombre, los atributos cualitativos carecen de la mayoría de las propiedades de los números. Incluso si están representados por números, es decir, enteros, deberían tratarse más como símbolos.

Los dos tipos restantes de atributos, **intervalo** y **razón**, se denominan colectivamente atributos cuantitativos o numéricos. Los atributos cuantitativos están representados por números y tienen la mayoría de las propiedades de los números. Tenga en cuenta que los atributos cuantitativos pueden tener valores enteros o ser continuos.

Los diferentes tipos de atributos se adhieren a las diferentes propiedades mencionadas anteriormente. Nominal se adhiere a la distinción. Ordinal se adhiere a la distinción y al orden. Interval se adhiere a la distinción, el orden y la diferencia significativa. La proporción se adhiere a las cuatro propiedades (distinción, orden, suma y multiplicación).

---

![img](https://miro.medium.com/max/688/1*D4CnEgf0NBBU5euOnGWgNg.png)

Hay tres características generales de los conjuntos de datos: dimensionalidad, dispersión y resolución.

---

<h3><center>¿Qué es la dimensionalidad?</center></h3>
La dimensionalidad de un conjunto de datos es el número de atributos que tienen los objetos.
En un conjunto de datos en particular, si hay un gran número de atributos (también llamado alta dimensionalidad), puede resultar difícil analizar dicho conjunto de datos. Cuando se enfrenta este problema, se le llama Maldición de dimensionalidad.
Para entender qué diablos es esta Maldición de la dimensionalidad, primero debemos comprender las otras dos características de los datos.

---

<h3><center>¿Qué es la escasez?</center></h3>

Para algunos conjuntos de datos, como aquellos con características asimétricas, la mayoría de los atributos de un objeto tienen valores de 0; en muchos casos, menos del 1% de las entradas son distintas de cero. Estos datos se denominan datos dispersos o se puede decir que el conjunto de datos tiene dispersión.

---

<h3><center>¿Qué es la resolución?</center></h3>
Los patrones en los datos dependen del nivel de resolución. Si la resolución es demasiado fina, es posible que un patrón no sea visible o que esté oculto por el ruido; si la resolución es demasiado gruesa, el patrón puede desaparecer. Por ejemplo, las variaciones de la presión atmosférica en una escala de horas reflejan el movimiento de las tormentas y otros sistemas meteorológicos. En una escala de meses, tales fenómenos no son detectables.

Ahora, volviendo a la **maldición de la dimensionalidad**, significa que muchos tipos de análisis de datos se vuelven difíciles a medida que aumenta la dimensionalidad (número de atributos en el conjunto de datos) del conjunto de datos. 

Específicamente, a medida que aumenta la dimensionalidad, los datos se vuelven cada vez más escasos en el espacio que ocupa. 

Para la **clasificación**, esto puede significar que no hay suficientes objetos de datos para permitir la creación de un modelo que asigne de manera confiable una clase a todos los objetos posibles. Para la **agrupación**, las definiciones de densidad y la distancia entre puntos, que son fundamentales para la agrupación, se vuelven menos significativas.

Finalmente, en cuanto a los tipos de conjuntos de datos, los definimos en tres categorías, a saber, datos de registro, datos basados en gráficos y datos ordenados. Echemos un vistazo a ellos uno a la vez.

![img](https://miro.medium.com/max/1000/1*yYV016vKIBM_R2iSNaLufQ.png)

![img](https://miro.medium.com/max/1000/1*7bFifqQEKKLCfbJFVmEYgQ.png)

![img](https://miro.medium.com/max/1000/1*yVFaD-VveR8n2FmkKP7i0A.png)

-----------
-----------

<h2><center>Pre procesamiento de Datos</center></h2>

---

<img src="https://thumbs.dreamstime.com/z/craftsman-carving-wood-thai-art-69708534.jpg"/>

El preprocesamiento de datos se refiere a los pasos aplicados para hacer que los datos sean más adecuados para la minería de datos. Los pasos utilizados para el preprocesamiento de datos generalmente se dividen en dos categorías:

* seleccionar objetos de datos y atributos para el análisis.
* creando / cambiando los atributos.

In [2]:
# libraries
import numpy as np # used for handling numbers
import pandas as pd # used for handling the dataset
from sklearn.impute import SimpleImputer # used for handling missing data

from sklearn.preprocessing import LabelEncoder, OneHotEncoder # used for encoding categorical data
from sklearn.model_selection import train_test_split # used for splitting training and testing data
from sklearn.preprocessing import StandardScaler # used for feature scaling

In [4]:
dataset = pd.read_csv('https://raw.githubusercontent.com/tarunlnmiit/machine_learning/master/DataPreprocessing.csv') # to import the dataset into a variable
# Splitting the attributes into independent and dependent attributes
X = dataset.iloc[:, :-1].values # attributes to determine dependent variable / Class
Y = dataset.iloc[:, -1].values # dependent variable / Class

In [5]:
dataset

Unnamed: 0,Region,Age,Income,Online Shopper
0,India,49.0,86400.0,No
1,Brazil,32.0,57600.0,Yes
2,USA,35.0,64800.0,No
3,Brazil,43.0,73200.0,No
4,USA,45.0,,Yes
5,India,40.0,69600.0,Yes
6,Brazil,,62400.0,No
7,India,53.0,94800.0,Yes
8,USA,55.0,99600.0,No
9,India,42.0,80400.0,Yes


In [6]:
X

array([['India', 49.0, 86400.0],
       ['Brazil', 32.0, 57600.0],
       ['USA', 35.0, 64800.0],
       ['Brazil', 43.0, 73200.0],
       ['USA', 45.0, nan],
       ['India', 40.0, 69600.0],
       ['Brazil', nan, 62400.0],
       ['India', 53.0, 94800.0],
       ['USA', 55.0, 99600.0],
       ['India', 42.0, 80400.0]], dtype=object)

In [7]:
Y

array(['No', 'Yes', 'No', 'No', 'Yes', 'Yes', 'No', 'Yes', 'No', 'Yes'],
      dtype=object)

In [8]:
# handling the missing data and replace missing values with nan from numpy and replace with mean of all the other values
imputer = SimpleImputer(missing_values=np.nan, strategy='mean') 
imputer = imputer.fit(X[:, 1:])
X[:, 1:] = imputer.transform(X[:, 1:])

In [9]:
X

array([['India', 49.0, 86400.0],
       ['Brazil', 32.0, 57600.0],
       ['USA', 35.0, 64800.0],
       ['Brazil', 43.0, 73200.0],
       ['USA', 45.0, 76533.33333333333],
       ['India', 40.0, 69600.0],
       ['Brazil', 43.77777777777778, 62400.0],
       ['India', 53.0, 94800.0],
       ['USA', 55.0, 99600.0],
       ['India', 42.0, 80400.0]], dtype=object)

In [27]:
# encode categorical data
from sklearn.preprocessing import LabelEncoder, OneHotEncoder

labelencoder_X = LabelEncoder()
X[:, 0] = labelencoder_X.fit_transform(X[:, 0])

onehotencoder = OneHotEncoder()

X = onehotencoder.fit_transform(X).toarray()

labelencoder_Y = LabelEncoder()
Y = labelencoder_Y.fit_transform(Y)

In [19]:
X

array([[0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0.,
        0., 0., 0., 0., 1., 0., 0.],
       [1., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1.,
        0., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0.,
        0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0.,
        0., 0., 1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.,
        1., 0., 0., 0., 0., 0., 0.],
       [1., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0., 0., 1., 0.,
        0., 0., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0., 0.,
        0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 1., 0., 0., 0., 0., 0., 0., 0., 0., 0., 1., 0., 0., 0.,
        0., 0., 0., 0., 0., 0., 1.],
       [0., 1., 0.,

In [18]:
Y

array([0, 1, 0, 0, 1, 1, 0, 1, 0, 1])

In [28]:
# splitting the dataset into training set and test set
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size=0.2, random_state=0)

In [29]:
# feature scaling

sc_X = StandardScaler()
X_train = sc_X.fit_transform(X_train)
X_test = sc_X.transform(X_test)