<h2><font color="#004D7F" size=6>Cargar datos en Python</font></h2>



---

<h2><font color="#004D7F" size=5>Índice</font></h2>
<a id="indice"></a>

* [1. Introducción](#section1)
* [2. Cargar CSV](#section2)
    * [2.1. Desde la librería standard](#section21)
    * [2.2. Desde NumPy](#section22)
    * [2.3. Desde Pandas](#section23)



<a id="section2"></a>
# <font color="#004D7F"> 2. Cargar un CSV</font>

Debe poder cargar sus datos antes de comenzar su proyecto de aprendizaje automático. El formato más común para los datos de aprendizaje automático son los archivos CSV. Hay varias formas de cargar un archivo CSV en Python:
* Cargue archivos CSV con la biblioteca estándar de Python.
* Cargue archivos CSV con NumPy.
* Cargue archivos CSV con Pandas.

<a id="section21"></a>
## <font color="#004D7F">2.1. Desde la librería estándar</font>

La API de Python proporciona el módulo CSV y funciones `reader()` que se pueden usar para cargar archivos CSV. Una vez cargado, puede convertir los datos CSV a un array NumPy y usarlos para el aprendizaje automático. Por ejemplo, puede descargar el conjunto de datos de los indios Pima en su directorio local con el nombre de archivo `pima-indians-diabetes.data.csv`. Todos los campos en este conjunto de datos son numéricos y no hay una línea de encabezado. El ejemplo carga un objeto que puede iterar sobre cada fila de datos y puede convertirse fácilmente en un array NumPy. Ejecutar el ejemplo imprime la forma del array

In [None]:
# Primary 
from google.colab import drive
drive.mount('/content/gdrive/', force_remount=True)

# Load CSV Using Python Standard Library

import csv
import numpy as np


filename = "/content/gdrive/MyDrive/ClaseProcesamiento/data/pima-indians-diabetes.csv"
raw_data = open(filename, "r")
reader = csv.reader(raw_data, delimiter = ",",quoting = csv.QUOTE_NONE)
x = list(reader)
data = np.array(x).astype("float")
print(data.shape)

Mounted at /content/gdrive/
(768, 9)


<a id="section22"></a>
## <font color="#004D7F">2.2. Desde NumPy</font>

Puede cargar sus datos CSV usando NumPy y la función `numpy.loadtxt()}`. Esta función no supone una fila de encabezado y todos los datos tienen el mismo formato. El siguiente ejemplo supone que el archivo `pima-indians-diabetes.data.csv` está en su directorio de trabajo actual. Ejecutar el ejemplo cargará el archivo como `numpy.ndarray` e imprimirá la forma de los datos.

In [None]:
# Load CSV using NumPy
import numpy as np

filename = "/content/gdrive/MyDrive/ClaseProcesamiento/data/pima-indians-diabetes.csv"
raw_data = open(filename, "rb")
data = np.loadtxt(raw_data, delimiter = ",")
print(data)

[[  6. 148.  72. ... 627.  50.   1.]
 [  1.  85.  66. ... 351.  31.   0.]
 [  8. 183.  64. ... 672.  32.   1.]
 ...
 [  5. 121.  72. ... 245.  30.   0.]
 [  1. 126.  60. ... 349.  47.   1.]
 [  1.  93.  70. ... 315.  23.   0.]]


<a id="section23"></a>
## <font color="#004D7F">2.3. Desde Pandas</font>

Puede cargar sus datos CSV usando Pandas y la función `pandas.read_csv()`. Esta función es muy flexible y es quizás mi enfoque recomendado para cargar sus datos de aprendizaje automático. La función devuelve un pandas. [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) que puede comenzar a resumir y trazar de inmediato. El siguiente ejemplo supone que el archivo `pima-indians-diabetes.csv` está en el directorio de trabajo actual. Tenga en cuenta que en este ejemplo especificamos explícitamente los nombres de cada atributo al DataFrame

In [None]:
# Load CSV using Pandas
import pandas as pd
filename = "/content/gdrive/MyDrive/ClaseProcesamiento/data/synchronous_machine.csv"
nombres = ["ly","plas","pres","skin","test","mass","pedi","age","class"]
df = pd.read_csv(filename, names= nombres)
print(df)


     preg  plas  pres  skin  test  mass     pedi  age  class
0       6   148    72    35     0  33.6   627.00   50      1
1       1    85    66    29     0  26.6   351.00   31      0
2       8   183    64     0     0  23.3   672.00   32      1
3       1    89    66    23    94  28.1   167.00   21      0
4       0   137    40    35   168  43.1  2288.00   33      1
..    ...   ...   ...   ...   ...   ...      ...  ...    ...
763    10   101    76    48   180  32.9   171.00   63      0
764     2   122    70    27     0  36.8     0.34   27      0
765     5   121    72    23   112  26.2   245.00   30      0
766     1   126    60     0     0  30.1   349.00   47      1
767     1    93    70    31     0  30.4   315.00   23      0

[768 rows x 9 columns]


<a id="section3"></a>
# <font color="#004D7F"> 3. Regresiones</font>

Vamos a declarar algunas librerías generales que ya hemos estado trabajando y que usaremos a lo largo de la sección.

In [None]:
#importing libraries
import numpy as np
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import seaborn as sns
import statsmodels.api as sm
%matplotlib inline
from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

En esta lección, se muestran varias métricas de evaluación de algoritmos diferentes para problemas de Machine Learning de clasificación y regresión. En cada código, el conjunto de datos se descarga directamente del repositorio de UCI Machine Learning.
* **Clasificación**: Se utilizará el conjunto de datos de Pima Indians Diabetes con una validación cruzada 10-folds para demostrar cómo verificar cada algoritmo de ML y se utilizan medidas de precisión promedio para indicar el rendimiento del algoritmo.

In [None]:
# Clasification problem
import pandas as pd
filename = '/content/gdrive/MyDrive/ClaseProcesamiento/data/pima-indians-diabetes.data.csv'
names = ['preg', 'plas', 'pres', 'skin', 'test', 'mass', 'pedi', 'age', 'class'] 
df_cla = pd.read_csv(filename, names=names)
array = df_cla.values
X_cla = array[:,0:8]
Y_cla = array[:,8]

* **Regresión**: Para ello utilizaremos el dataset Boston House Price. Este es un problema de regresión donde todos los atributos son numéricos. Se utiliza un arnés de prueba con validación cruzada 10 veces para demostrar cómo verificar cada algoritmo de aprendizaje automático y las medidas de error cuadrático medio se utilizan para indicar el rendimiento del algoritmo.

In [None]:
import pandas as pd
filename = '/content/gdrive/MyDrive/ClaseProcesamiento/data/housing.csv'
names = ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']
df_reg = pd.read_csv(filename, delim_whitespace=True, names=names) 
array = df_reg.values
X_reg = array[:,0:13]
Y_reg = array[:,13]

Comenzamos con cuatro algoritmos lineales:
* Linear Regression (LiR).
* Ridge Regression (RiR).
* LASSO Linear Regression (LASSO). 
* Elastic Net Regression (ENR).

<a id="section311"></a>
### <font color="#004D7F"> 3.1 Linear Regression</font>

LiR supone que las variables de entrada tienen una distribución gaussiana. También se supone que las variables de entrada son relevantes para la variable de salida y que no están altamente correlacionadas entre sí (un problema llamado colinealidad). Puede construir un modelo de LiR utilizando la clase `LinearRegression`.

In [None]:
# Linear Regression
from sklearn.linear_model import LinearRegression

kfold = KFold(n_splits = 10)
model = LinearRegression()
scoring = "neg_mean_squared_error"
results = cross_val_score(model, X_reg, Y_reg, cv = kfold, scoring = scoring)
print("El MSE para LiR es "+str(results.mean()))
print("-----------------------------------------------------")
model.fit(X_reg, Y_reg)
y_predict = model.predict(X_reg)
from sklearn.metrics import r2_score

print('R2_Score: ', r2_score(Y_reg, y_predict))

El MSE para LiR es -34.70525594452492
-----------------------------------------------------
R2_Score:  0.7406426641094095


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`LinearRegression`](http://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html).
</div> 

<a id="section312"></a>
### <font color="#004D7F"> 3.2 Ridge Regression</font>

RiR es una extensión de LiR donde la función de pérdida se modifica para minimizar la complejidad del modelo medido como el valor de la suma cuadrática de los valores del coeficiente (también llamada norma __L2__). Puede construir un modelo RiR utilizando la clase `Ridge`.

In [None]:
# Ridge 
from sklearn.linear_model import Ridge

kfold = KFold(n_splits = 10)
model = Ridge()
scoring = "neg_mean_squared_error"
results = cross_val_score(model, X_reg, Y_reg, cv = kfold, scoring = scoring)
print("El MSE para LiR es "+str(results.mean()))
print("-----------------------------------------------------")
model.fit(X_reg, Y_reg)
y_predict = model.predict(X_reg)
from sklearn.metrics import r2_score

print('R2_Score: ', r2_score(Y_reg, y_predict))

El MSE para LiR es -34.07824620925938
-----------------------------------------------------
R2_Score:  0.7388703133867616


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`Ridge`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Ridge.html).
</div> 

<a id="section313"></a>
### <font color="#004D7F"> 3.3 LASSO Regression</font>

LASSO es una modificación de LiR, como RiR, donde la función de pérdida se modifica para minimizar la complejidad del modelo medido como el valor absoluto de los valores del coeficiente (también llamada la norma __L1__). Puede construir un modelo LASSO utilizando la clase `Lasso`.

In [None]:
# LASSO Regression
# Ridge 
from sklearn.linear_model import Lasso

kfold = KFold(n_splits = 10)
model = Lasso()
scoring = "neg_mean_squared_error"
results = cross_val_score(model, X_reg, Y_reg, cv = kfold, scoring = scoring)
print("El MSE para LiR es "+str(results.mean()))
print("-----------------------------------------------------")
model.fit(X_reg, Y_reg)
y_predict = model.predict(X_reg)
from sklearn.metrics import r2_score

print('R2_Score: ', r2_score(Y_reg, y_predict))

El MSE para LiR es -34.46408458830232
-----------------------------------------------------
R2_Score:  0.6825842212709925


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`Lasso`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.Lasso.html).
</div> 

<a id="section314"></a>
### <font color="#004D7F"> 3.4. ElasticNet Regression</font>

ENR es una forma de regresión de regularización que combina las propiedades de RIR y LASSO. Busca minimizar la complejidad del modelo de regresión (magnitud y número de coeficientes de regresión) penalizando el modelo utilizando tanto la norma L2 (valores de coeficiente de suma cuadrática) como la norma L1 (valores de coeficiente absoluto de suma). Puede construir un modelo ENR utilizando la clase `ElasticNet`.

In [None]:
# ElasticNet Regression

from sklearn.linear_model import ElasticNet


kfold = KFold(n_splits = 10, random_state = 4565, shuffle = True)
model = ElasticNet()
scoring = "neg_mean_squared_error"
results = cross_val_score(model, X_reg, Y_reg, cv = kfold, scoring = scoring)
print(results)
print("El MSE para LiR es "+str(results.mean()))
print("-----------------------------------------------------")
model.fit(X_reg, Y_reg)
y_predict = model.predict(X_reg)
from sklearn.metrics import r2_score

print('R2_Score: ', r2_score(Y_reg, y_predict))


[-26.49301452 -20.7460392  -23.23066747 -27.25996314 -32.8489891
 -28.92418498 -35.54597947 -21.95900514 -28.95212342 -38.29968574]
El MSE para LiR es -28.425965217580103
-----------------------------------------------------
R2_Score:  0.6861018474345025


<div class="alert alert-block alert-info">
    
<i class="fa fa-exclamation-circle" aria-hidden="true"></i>
Documentación oficial de la clase [`ElasticNet`](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.ElasticNet.html).
</div> 