<h2><font color="#004D7F" size=6>Módulo 2. Análisis de datos</font></h2>



<h1><font color="#004D7F" size=5>1. Cargar un conjunto de datos</font></h1>

<br><br>
<div style="text-align: right">
<font color="#004D7F" size=3>Manuel Castillo-Cara</font><br>
<font color="#004D7F" size=3>Machine Learning con Python</font><br>
    
    
    

---

<h2><font color="#004D7F" size=5>Índice</font></h2>
<a id="indice"></a>

* [1. Introducción](#section1)
* [2. Cargar CSV](#section2)
    * [2.1. Desde la librería standard](#section21)
    * [2.2. Desde NumPy](#section22)
    * [2.3. Desde Pandas](#section23)
* [3. Descripción del conjunto de datos](#section3)
    * [3.1. Clasificación multiclase: IRIS](#section31)
    * [3.2. Clasifciación Binaria: Sonar, Mines vs. Rocks](#section32)
    * [3.3. Regresión: Boston House Price](#section33)
* [4. Conclusiones](#section4)

In [1]:
# Permite ajustar la anchura de la parte útil de la libreta (reduce los márgenes)
from IPython.core.display import display, HTML
display(HTML("<style>.container{ width:98% }</style>"))

---

<a id="section1"></a>
# <font color="#004D7F"> 1. Introducción</font>

En esta primera parte de este tema veremos como cargar un conjunto de datos que esté en formato Tidy y, además, veremos como cargar los conjuntos de datos principales que vamos a trabajar a lo largo del curso

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section2"></a>
# <font color="#004D7F"> 2. Cargar un CSV</font>

Debe poder cargar sus datos antes de comenzar su proyecto de aprendizaje automático. El formato más común para los datos de aprendizaje automático son los archivos CSV. Hay varias formas de cargar un archivo CSV en Python:
* Cargue archivos CSV con la biblioteca estándar de Python.
* Cargue archivos CSV con NumPy.
* Cargue archivos CSV con Pandas.

<a id="section21"></a>
## <font color="#004D7F">2.1. Desde la librería estándar</font>

La API de Python proporciona el módulo CSV y funciones `reader()` que se pueden usar para cargar archivos CSV. Una vez cargado, puede convertir los datos CSV a un array NumPy y usarlos para el aprendizaje automático. Por ejemplo, puede descargar el conjunto de datos de los indios Pima en su directorio local con el nombre de archivo `pima-indians-diabetes.data.csv`. Todos los campos en este conjunto de datos son numéricos y no hay una línea de encabezado. El ejemplo carga un objeto que puede iterar sobre cada fila de datos y puede convertirse fácilmente en un array NumPy. Ejecutar el ejemplo imprime la forma del array

In [3]:
# Load CSV Using Python Standard Library
import csv
import numpy as np

filename='data/pima-indians-diabetes.csv'
raw_data= open(filename, 'r')
reader = csv.reader(raw_data, delimiter =',', quoting = csv. QUOTE_NONE)
x = list(reader)
data = np.array(x).astype('float')
print(data.shape)

(768, 9)


In [7]:

# Load CSV Using Python Standard Library

[[  6. 148.  72. ... 627.  50.   1.]
 [  1.  85.  66. ... 351.  31.   0.]
 [  8. 183.  64. ... 672.  32.   1.]
 ...
 [  5. 121.  72. ... 245.  30.   0.]
 [  1. 126.  60. ... 349.  47.   1.]
 [  1.  93.  70. ... 315.  23.   0.]]


<a id="section22"></a>
## <font color="#004D7F">2.2. Desde NumPy</font>

Puede cargar sus datos CSV usando NumPy y la función `numpy.loadtxt()}`. Esta función no supone una fila de encabezado y todos los datos tienen el mismo formato. El siguiente ejemplo supone que el archivo `pima-indians-diabetes.data.csv` está en su directorio de trabajo actual. Ejecutar el ejemplo cargará el archivo como `numpy.ndarray` e imprimirá la forma de los datos.

In [None]:
# Load CSV using NumPy
import csv
import numpy as np

filename = 'data/pima-indians-diabetes.csv'
raw_data = open(filename, 'rb')
data = np.loadtxt(raw_data, delimiter=',')
print(data)

    preg  plas  pres  skin  test     pedi  age  class
6    148    72    35     0  33.6   627.00   50      1
1     85    66    29     0  26.6   351.00   31      0
8    183    64     0     0  23.3   672.00   32      1
1     89    66    23    94  28.1   167.00   21      0
0    137    40    35   168  43.1  2288.00   33      1
..   ...   ...   ...   ...   ...      ...  ...    ...
10   101    76    48   180  32.9   171.00   63      0
2    122    70    27     0  36.8     0.34   27      0
5    121    72    23   112  26.2   245.00   30      0
1    126    60     0     0  30.1   349.00   47      1
1     93    70    31     0  30.4   315.00   23      0

[768 rows x 8 columns]


<a id="section23"></a>
## <font color="#004D7F">2.3. Desde Pandas</font>

Puede cargar sus datos CSV usando Pandas y la función `pandas.read_csv()`. Esta función es muy flexible y es quizás mi enfoque recomendado para cargar sus datos de aprendizaje automático. La función devuelve un pandas. [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html) que puede comenzar a resumir y trazar de inmediato. El siguiente ejemplo supone que el archivo `pima-indians-diabetes.csv` está en el directorio de trabajo actual. Tenga en cuenta que en este ejemplo especificamos explícitamente los nombres de cada atributo al DataFrame

In [10]:
# Load CSV using Pandas
import pandas as pd 
filename = 'data/pima-indians-diabetes.csv'
nombres = ['preg','plas','pres','skin','test','mass','pedi','age','class']
data = pd.read_csv(filename, names = nombres)
data

Unnamed: 0,preg,plas,pres,skin,test,mass,pedi,age,class
0,6,148,72,35,0,33.6,627.00,50,1
1,1,85,66,29,0,26.6,351.00,31,0
2,8,183,64,0,0,23.3,672.00,32,1
3,1,89,66,23,94,28.1,167.00,21,0
4,0,137,40,35,168,43.1,2288.00,33,1
...,...,...,...,...,...,...,...,...,...
763,10,101,76,48,180,32.9,171.00,63,0
764,2,122,70,27,0,36.8,0.34,27,0
765,5,121,72,23,112,26.2,245.00,30,0
766,1,126,60,0,0,30.1,349.00,47,1


También podemos modificar este ejemplo para cargar datos CSV directamente desde una URL

In [11]:
# load dataset
import pandas as pd 
url = 'https://archive.ics.uci.edu/ml/machine-learning-databases/abalone/abalone.data'
dataframe = pd.read_csv(url, header=None)
dataframe

Unnamed: 0,0,1,2,3,4,5,6,7,8
0,M,0.455,0.365,0.095,0.5140,0.2245,0.1010,0.1500,15
1,M,0.350,0.265,0.090,0.2255,0.0995,0.0485,0.0700,7
2,F,0.530,0.420,0.135,0.6770,0.2565,0.1415,0.2100,9
3,M,0.440,0.365,0.125,0.5160,0.2155,0.1140,0.1550,10
4,I,0.330,0.255,0.080,0.2050,0.0895,0.0395,0.0550,7
...,...,...,...,...,...,...,...,...,...
4172,F,0.565,0.450,0.165,0.8870,0.3700,0.2390,0.2490,11
4173,M,0.590,0.440,0.135,0.9660,0.4390,0.2145,0.2605,10
4174,M,0.600,0.475,0.205,1.1760,0.5255,0.2875,0.3080,9
4175,F,0.625,0.485,0.150,1.0945,0.5310,0.2610,0.2960,10


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section3"></a>
# <font color="#004D7F"> 3. Descripción de conjuntos de datos</font>

Muchos conjuntos de datos ya vienen ya por defecto en Python a través de la librería [scikit-learn](https://scikit-learn.org/stable/datasets/index.html), lo que significa que no necesita cargar el paquete explícitamente. Estos conjunto de datos se encuentran dentro del módulo `datasets` y de ahí podrán cargarse de manera muy sencillo cargarlo

In [11]:
import sklearn as sk
dat = sk.datasets('data/iris.data.csv')


AttributeError: module 'sklearn' has no attribute 'datasets'

Ahora bien, estos conjuntos de datos nos interesa poder convertirlos a un Dataframe de Pandas para poder trabajar con ellos de manera correcta.

In [14]:
???

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT
count,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0,506.0
mean,3.613524,11.363636,11.136779,0.06917,0.554695,6.284634,68.574901,3.795043,9.549407,408.237154,18.455534,356.674032,12.653063
std,8.601545,23.322453,6.860353,0.253994,0.115878,0.702617,28.148861,2.10571,8.707259,168.537116,2.164946,91.294864,7.141062
min,0.00632,0.0,0.46,0.0,0.385,3.561,2.9,1.1296,1.0,187.0,12.6,0.32,1.73
25%,0.082045,0.0,5.19,0.0,0.449,5.8855,45.025,2.100175,4.0,279.0,17.4,375.3775,6.95
50%,0.25651,0.0,9.69,0.0,0.538,6.2085,77.5,3.20745,5.0,330.0,19.05,391.44,11.36
75%,3.677083,12.5,18.1,0.0,0.624,6.6235,94.075,5.188425,24.0,666.0,20.2,396.225,16.955
max,88.9762,100.0,27.74,1.0,0.871,8.78,100.0,12.1265,24.0,711.0,22.0,396.9,37.97


<a id="section31"></a>
## <font color="#004D7F">3.1. Clasificación multiclase: Iris</font>

El mejor proyecto, de tamaño pequeño, para comenzar con machine learning es el conjunto de datos de [Iris](https://archive.ics.uci.edu/ml/datasets/iris). Este es un buen conjunto de datos para un primer proyecto porque se entiende muy bien. 

Recordemos algunas características principales:
   * Los atributos son numéricos, por lo que debemos averiguar cómo cargar y manejar los datos.
   * Es un problema de clasificación, que nos permite practicar con quizás un tipo más fácil de algoritmo de aprendizaje supervisado.
   * Es un problema de clasificación multiclase (multi-nominal) que puede requerir un manejo especializado.
   * Solo tiene 4 atributos y 150 filas, lo que significa que es pequeño y cabe fácilmente en la memoria principal.
   * Todos los atributos numéricos están en las mismas unidades y la misma escala no requiere ningún escalado especial o transformaciones para comenzar.

In [6]:
???

['Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-setosa',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',
 'Iris-versicolor',


<a id="section32"></a>
## <font color="#004D7F">3.2. Clasificación Binaria: Sonar, Mines vs. Rocks</font>

El enfoque de este proyecto será el conjunto de datos [Sonar Mines vs Rocks](https://archive.ics.uci.edu/ml/datasets/Connectionist+Bench+(Sonar,+Mines+vs.+Rocks)). El problema es predecir objetos de metal o roca a partir de los datos de retorno de la sonda. Cada patrón es un conjunto de 60 números en el rango de 0.0 a 1.0. Cada número representa la energía dentro de una banda de frecuencia particular, integrada durante un cierto período de tiempo. La etiqueta asociada con cada registro contiene la letra "R" si el objeto es una roca y "M" si es una mina (cilindro de metal). Los números en las etiquetas están en orden creciente de ángulo de aspecto, pero no codifican el ángulo directamente.

In [12]:
???

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,51,52,53,54,55,56,57,58,59,60
0,0.0200,0.0371,0.0428,0.0207,0.0954,0.0986,0.1539,0.1601,0.3109,0.2111,...,0.0027,0.0065,0.0159,0.0072,0.0167,0.0180,0.0084,0.0090,0.0032,R
1,0.0453,0.0523,0.0843,0.0689,0.1183,0.2583,0.2156,0.3481,0.3337,0.2872,...,0.0084,0.0089,0.0048,0.0094,0.0191,0.0140,0.0049,0.0052,0.0044,R
2,0.0262,0.0582,0.1099,0.1083,0.0974,0.2280,0.2431,0.3771,0.5598,0.6194,...,0.0232,0.0166,0.0095,0.0180,0.0244,0.0316,0.0164,0.0095,0.0078,R
3,0.0100,0.0171,0.0623,0.0205,0.0205,0.0368,0.1098,0.1276,0.0598,0.1264,...,0.0121,0.0036,0.0150,0.0085,0.0073,0.0050,0.0044,0.0040,0.0117,R
4,0.0762,0.0666,0.0481,0.0394,0.0590,0.0649,0.1209,0.2467,0.3564,0.4459,...,0.0031,0.0054,0.0105,0.0110,0.0015,0.0072,0.0048,0.0107,0.0094,R
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
203,0.0187,0.0346,0.0168,0.0177,0.0393,0.1630,0.2028,0.1694,0.2328,0.2684,...,0.0116,0.0098,0.0199,0.0033,0.0101,0.0065,0.0115,0.0193,0.0157,M
204,0.0323,0.0101,0.0298,0.0564,0.0760,0.0958,0.0990,0.1018,0.1030,0.2154,...,0.0061,0.0093,0.0135,0.0063,0.0063,0.0034,0.0032,0.0062,0.0067,M
205,0.0522,0.0437,0.0180,0.0292,0.0351,0.1171,0.1257,0.1178,0.1258,0.2529,...,0.0160,0.0029,0.0051,0.0062,0.0089,0.0140,0.0138,0.0077,0.0031,M
206,0.0303,0.0353,0.0490,0.0608,0.0167,0.1354,0.1465,0.1123,0.1945,0.2354,...,0.0086,0.0046,0.0126,0.0036,0.0035,0.0034,0.0079,0.0036,0.0048,M


<a id="section33"></a>
## <font color="#004D7F">3.3. Regresión: Boston House Price</font>

Para este proyecto, trabajaremos el conjunto de datos _Boston House Price._ Cada registro en la base de datos describe un suburbio de la ciudad de Boston. Los datos se extrajeron del área estadística metropolitana estándar de Boston (SMSA) en 1970. Los atributos se definen de la siguiente manera:
* CRIM: tasa de criminalidad per cápita por ciudad.
* ZN: proporción de tierra residencial zonificada para lotes de más de 25000 pies cuadrados.
* INDUS: proporción de acres de negocios no minoristas por ciudad.
* CHAS: variable ficticia del río Charles (=1 si el trecho delimita el río; 0 de lo contrario).
* NOX: concentración de óxidos nítricos (partes por 10 millones).
* RM: número medio de habitaciones por vivienda.
* AGE: proporción de unidades ocupadas por el propietario construidas antes de 1940.
* DIS: distancias ponderadas a cinco centros de empleo de Boston.
* RAD: índice de accesibilidad a autopistas radiales.
* TAX: tasa de impuesto a la propiedad de valor total por USD10000. 
* PTRATIO: proporción alumno-profesor por ciudad.
* B: $1000(Bk - 0.63)^2$ donde Bk es la proporción de personas de color por ciudad
* LSTAT: % menor estado de la población.
* MEDV: valor medio de las viviendas ocupadas por sus propietarios en USD1000.

In [13]:
???

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.0900,1,296.0,15.3,396.90,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.90,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.90,5.33,36.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
501,0.06263,0.0,11.93,0,0.573,6.593,69.1,2.4786,1,273.0,21.0,391.99,9.67,22.4
502,0.04527,0.0,11.93,0,0.573,6.120,76.7,2.2875,1,273.0,21.0,396.90,9.08,20.6
503,0.06076,0.0,11.93,0,0.573,6.976,91.0,2.1675,1,273.0,21.0,396.90,5.64,23.9
504,0.10959,0.0,11.93,0,0.573,6.794,89.3,2.3889,1,273.0,21.0,393.45,6.48,22.0


<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<a id="section4"></a>
# <font color="#004D7F"> 4. Conclusiones</font>

Llegados a este punto podemos observar la importancia de cómo tengamos nuestro conjunto de datos. Este aspecto es esencial para poder realizar un buen proyecto de Machine Learning y no tener problemas a la hora de la Fase de Modelado. 

Para este curso usted deberá trabajar un conjunto de datos que esté en formato Tidy Data. Para ello, nos podemos nutrir de varias páginas web para poder elegir un buen conjunto de datos y empezar a prácticar en el Análisis de Datos que empezaremos en la siguiente sección; también para trabajar a lo largo del curso con el mismo conjunto de datos. Para ello, puede escoger de la plataforma [UCI Machine Learning](https://archive.ics.uci.edu/ml/index.php) que, como hemos visto, es un gran repositorio con una gran cantidad de datasets. También podrá escoger de otras páginas existentes, las cuales el enlace se pondrá en el aula virtual.

En este sentido, se le pide indagar por las diferentes páginas y escoger un conjunto de datos que crea adecuado para seguir el curso.

<div style="text-align: right"> <font size=5>
    <a href="#indice"><i class="fa fa-arrow-circle-up" aria-hidden="true" style="color:#004D7F"></i></a>
</font></div>

---

<div style="text-align: right"> <font size=6><i class="fa fa-coffee" aria-hidden="true" style="color:#004D7F"></i> </font></div>