# Una breve introducción al análisis de datos con Jupyter

>"Un programador es la persona considerada experta en ser capaz de sacar, después de innumerables tecleos, una serie infinita de respuestas incomprensibles calculadas con precisión micrométrica a partir de vagas asunciones basadas en discutibles cifras tomadas de documentos inconcluyentes y llevados a cabo con instrumentos de escasa precisión, por personas de fiabilidad dudosa y cuestionable mentalidad con el propósito declarado de molestar y confundiar al desesperado e indefenso departamento que tuvo la mala fortuna de pedir la información en primer lugar."  

_IEEE Grid newsmagazine_

## ¿Qué es o qué se entiende por análisis de datos? 

1. Álgebra lineal-álgebra lineal numérica 
1. Modelado estadístico
1. Visualización
1. Lingüística computacional
1. Análisis de gráficos
1. Machine learning
1. Inteligencia comercial
1. almacenamiento y recuperación de datos
1. Otras...

## ¿Qué es o qué son los _datos_?

Será que esto es un dato? 

 ![title](img/hubble.jpg.jpg)
 
 O esto?
 
 ![title](img/figure-65.png)

Qué tal esto? 

 ![title](img/queen-i-want-to-break-free-works.jpg)
 
 Mmm... y esto?
 
 ![title](img/fisic3.jpg)

Finalmente, 
>...las cantidades, caracteres o símbolos en los que las operaciones son realizadas por una computadora, que pueden almacenarse y transmitirse en forma de señales eléctricas y grabadas en medios de grabación magnéticos, ópticos o mecánicos.

## Pasos para el análisis de datos

Cómo se realiza el análisis de datos?

### 1. Interacción con el mundo exterior 

### 2. Preparación 

   Limpiar, cortar, combinar, normalizar, remodelar, todas las transformaciones que implican el pre-procesamiento de datos para el análisis.

### 3. Transformación 

   Aplicación de las operaciones matemáticas y estadísticas a un grupo de datos para la derivación de nuevos conjuntos. Ejemplo, organizar una serie de datos de cualquier cosa en forma matricial.

### 4. Modelado y cálculo 

   Conectar estos datos a modelos matemáticos, estadísticos, algoritmos de aprendizaje automático, u otras  *herramientas computacionales*. 
    
#### _Herramientas que Python ofrece para el procesamiento de datos_ 

1. Numpy

1. Scipy

1. Pandas

1.  Scikit-learn

1. Matplotlib

1. IPython - Jupyter notebook 

_Scikit-learn_ es el núcleo de la ciencia de datos  en Python. Ofrece todo lo que puede necesitar en términos de pre-procesamiento de datos,
aprendizaje supervisado y no supervisado, selección del modelo, validación y errormétrica. Espere que hablemos extensamente sobre este paquete a lo largo de este libro. _Scikit-learn_ comenzó en 2007 como un proyecto Google Summer of Code por David Cournapeau. Desde 2013, ha sido asumido por los investigadores del INRA (Instituto Francés de Investigación en Ciencias de la Computación y Automatización). [@boschetti2015python]

## Ahora veamos unos ejemplos...



### Ejemplo 1: Manipulación de un conjunto de datos 

In [66]:
import pandas as pd
iris_filename = 'iris.csv'

iris_dataset = pd.read_csv(iris_filename, sep =',', decimal ='.',header=None,
names= ['sepal_length', 'sepal_width', 'petal_length', 'petal_width',
'target'])

#iris_dataset


#iris_dataset.head()
#iris_dataset.tail()
#iris_dataset.columns

Y = iris_dataset['target']

X = iris_dataset[['sepal_length', 'sepal_width']]




### Ejemplo 2:  Tratamiento para grandes cantidades de datos

In [80]:
iris_chunks = pd.read_csv(iris_filename, header=None,
names=['C1', 'C2', 'C3', 'C4', 'C5'], chunksize=10)
#for chunk in iris_chunks:
#    print(chunk.shape)
#    print(chunk)

In [76]:
iris_iterator = pd.read_csv(iris_filename, header=None,
names=['C1', 'C2', 'C3', 'C4', 'C5'], iterator=True)
print(iris_iterator.get_chunk(10).shape)
print(iris_iterator.get_chunk(20).shape)
piece = iris_iterator.get_chunk(2)

(10, 5)
(20, 5)


### Ejemplo 3: *Un poco* de pre-procesamiento...

In [136]:
#mask_feature = iris_dataset['sepal_length'] > 6.0
mask_target = iris_dataset['target'] == 'Iris-virginica'
iris_dataset.loc[mask_target, 'target'] = 'newlabel'
iris_dataset['target'].unique()
#mask_feature
#mask_target


array(['setosa', 'versicolor', 'virginica'], dtype=object)

### Ejemplo 4: Determinación de una propiedad física apartir de un conjunto de datos experimentales

 ![title](img/dens.png)
 
 Bien! sea $\rho$ la densidad del etilenglicol, entonces se define una función $\rho(T)$ la cual es linealmente dependiente de la temperatura, es decir:
 
 $$\rho(T) = \pmb{A*T} $$
 
 En la cual $A$ es una constante, que se pretende determinar  con el fin de establecer la relación funcional entre la densidad y la temperatura del compuesto. Además, nótese que se consideran mezclas de distinta composición por lo cual se deben calcular distintos valores de la misma de acuerdo a la composición considerada, finalmente; las expresiones para  
 
 $$ \rho(T) = 
 \left [
\begin{matrix}
\rho_{11} & \rho_{12} & \rho_{13} & \dots  & \rho_{1n} \\
    \rho_{21} & \rho_{22} & \rho_{23} & \dots  & \rho_{2n} \\
    \vdots & \vdots & \vdots & \ddots & \vdots \\
    \rho_{d1} & \rho_{d2} & \rho_{d3} & \dots  & \rho_{dn}
\end{matrix}
\right ]
$$

 $$ T = 
 \left [
\begin{matrix}
T_{11} \\
T_{21} \\
\vdots \\
T_{d1} 
\end{matrix}
\right ]
$$


In [137]:
import numpy as np
import pandas as pd
import numpy.linalg as lin 

experimental_data = pd.read_csv("density.csv").values
#experimental_data.head(2)

rho = experimental_data[: , 1:]
T   = experimental_data[:,0]
t   = np.array(T)[np.newaxis]
T1  = t.T
p   = lin.lstsq(T1,rho)[0]

#T1  = T.transpose()
#rho1= rho.transpose()
#T_t = T.T
#sol = (T1//rho)


#print(p)
#print(rho)
#print(T1.shape)

#print(T1)

#print(experimental_data)
#print(sol)
#print(T)





  if sys.path[0] == '':


In [12]:
#T = 2
d = 0;

def density(T):
    d = 30.35567708*T + 788.3432292000001 
    print(d) 
    return d

density(15)

#1091.9 - density(10)


1243.6783854


1243.6783854

### HAGAMOS MÁS CÁLCULOS!
  

In [133]:
from sklearn.datasets import load_boston 
from sklearn.cross_validation import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error
import numpy as np
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt

boston = load_boston() 
bos = pd.DataFrame(boston.data)
#bos.head()
boston.target[:5]

bos['PRICE'] = boston.target

X = bos.drop('PRICE', axis = 1)

#print(boston.DESCR)


#print('Estimated intercept coefficient:', lm.intercept_)

X_train, X_test, y_train, y_test = train_test_split(boston.data,
boston.target, test_size=0.2, random_state=0)

regr = LinearRegression()
regr

regr.fit(X_train, y_train)

y_pred = regr.predict(X_test)

print("MAE", mean_absolute_error(y_test, y_pred))  

%timeit regr.fit(X_train, y_train)

MAE 3.842810589450494
466 µs ± 5.88 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
