# Cuarta Lección 

Apache Spark está escrito en el lenguaje de programación Scala que compila el código del programa en un código de bytes para la Máquina Virtual de Java para el procesamiento de big data de spark. La comunidad de código abierto ha desarrollado una maravillosa utilidad para el procesamiento de big data de spark python conocido como PySpark.

PySpark ayuda a los científicos de datos a interactuar con los Datos Resilientes Distribuidos (Resilient Distributed Datasets) en apache spark y python. Py4J es una biblioteca popular integrada en PySpark que permite a Python interactuar dinámicamente con objetos JVM (RDD).

La mayoría de las operaciones de RDD son perezosas. Un RDD es como una descripción de una serie de operaciones. Un RDD no son datos. Las operaciones RDD que requieren la observación del contenido de los datos no pueden ser perezosas. (Estas son llamadas acciones.) Por ejemplo, la funcion count() que enumera el numero de elementos.

Para el procesamiento paralelo, Apache Spark utiliza variables compartidas. Una copia de la variable compartida va a cada nodo del clúster cuando el controlador envía una tarea al ejecutor en el clúster, de modo que pueda usarse para realizar tareas.

Apache Spark admite dos tipos de variables compartidas:

 __Emisión__

__Acumulación__

Vamos a entenderlos en detalle.

### Emisión
Las variables de difusión se utilizan para guardar la copia de datos en todos los nodos. Esta variable se almacena en caché en todas las máquinas y no se envía en máquinas con tareas. El siguiente bloque de código tiene los detalles de una clase de transmisión para PySpark.

In [None]:
sc.stop()
from pyspark import SparkContext 
sc = SparkContext("local", "Broadcast app") 
words_new = sc.broadcast(["scala", "java", "hadoop", "spark", "akka"]) 
data = words_new.value 
print("Stored data -> %s" % (data) )
elem = words_new.value[2] 
print("Printing a particular element in RDD -> %s" % (elem))

Consideremos el siguiente ejemplo de uso de SparkConf en un programa PySpark. En este ejemplo, estamos configurando el nombre de la aplicación de la chispa como aplicación PySpark y estableciendo la URL maestra para una aplicación de la chispa en → spark: // master: 7077.

El siguiente bloque de código tiene las líneas, cuando se agregan en el archivo Python, establece las configuraciones básicas para ejecutar una aplicación PySpark.

In [None]:
from pyspark import SparkConf, SparkContext
conf = SparkConf().setAppName("PySpark App").setMaster("spark://master:7077")
sc = SparkContext(conf=conf)

In [None]:
from pyspark import SparkContext
from pyspark import SparkFiles
finddistance = "/home/hadoop/examples_pyspark/finddistance.R"
finddistancename = "finddistance.R"
sc = SparkContext("local", "SparkFile App")
sc.addFile(finddistance)
print "Absolute Path -> %s" % SparkFiles.get(finddistancename)


<font color=blue>
    _Objetivo del curso_: Aprender las diferentes fases del Aprendizaje de Datos (ML) a traves de  ejemplos reales. Esto con el fin de obtener una idea clara de lo que significa la ciencia de datos.
</font>

<h2 align="center">El flujo de trabajo en un proyecto de ciencia de datos </h2>

El conjunto de  lineamientos específicos ('ducto') en un proyecto de  ciencia de datos varía dependiendo de la naturaleza del mismo. Aquí presentamos un ducto estandar:


### Analisis exploratorio de los datos

 - Extracción: Cargar el conjunto de datos y echarles una mirada
 - Limpieza: Encontrar los valores que faltan
 - Visualización: Crear algunas gráficas interesantes que nos permitan idendificar correlaciones y 
 - Suposiciones: Formular hipótesis sobre los gráficos
 

### Ingeniería de Características

 - Datos Categóricos
 - Extraer
 - Procesar
 
### Modelado de datos
 - Selección de Características.  Reducir el número de caracterísiticas trae los siguientes beneficios:
     - Reduce el número de redundancias en los datos
     - Acelera los procesos de entrenamiento 
     - Reduce el 'overfitting'
     - Muestreo de modelos base
 - Muestreo de los modelos base   
 ***

_Ajustamos un poco el estilo de este libro trabajo para tener graficas centradas_ 

In [24]:
import pandas as pd
from matplotlib import pyplot as plt
import seaborn as sns

In [25]:
from IPython.core.display import HTML
HTML("""
<style>
.output_png {
    display: table-cell;
    text-align: center;
    vertical-align: middle;
}
</style>
""");

### Caracteristicas

In [26]:
caracteristicas =  ['a:radio','b:textura','c:perimetro', \
             'd:area', 'e:suavidad','f:compactes', \
             'g:concavidad', 'h:puntos_concavos','i:simetria',\
             'j:dimension_fractal']

columnas = ['ID', 'Diagnostico'] + \
              list(map(lambda x: x[2:] + '_promedio', caracteristicas)) + \
              list(map(lambda x: x[2:] + '_error', caracteristicas)) +  \
              list(map(lambda x: x[2:] + '_peor', caracteristicas))      

### Analisis exploratorio de los datos
Resumen de la lección pasada

In [27]:
data = pd.read_csv('./data/wisconsin.csv', names = columnas);
data = data.reset_index().drop(columns =['index'])
data = data.drop(columns='ID')

data['Benigno'] = (data['Diagnostico']=='B')*1
data['Maligno'] = 1 - data['Benigno']


## Ingeniería de Características

**Datos Categóricos** 

Los datos categóricos son variables que contienen valores de etiqueta en lugar de valores numéricos. El número de valores posibles a menudo se limita a un conjunto fijo.

Por ejemplo, los usuarios normalmente se describen por país, género, grupo de edad, etc.

De hecho ya hemos  convertido los atributos del _Diagnóstico_ a valores numéricos:

In [28]:
data[['Maligno','Benigno']].sample(2)

Unnamed: 0,Maligno,Benigno
101,0,1
445,0,1


Las columnas _Maligno_ y _Benigno_ son redundates. El conocimiento de una, automaticamente nos define la otra. Eliminamos una:

In [29]:
data = data.drop(columns = 'Maligno')

En este punto la columna _Diagnostico_ tambien se vuelve redundante, por lo que también la eliminamos:

In [30]:
data = data.drop(columns = 'Diagnostico')


**División el conjunto de datos** 

Los datos que utilizamos generalmente se dividen en datos de entrenamiento y datos de prueba. 
El conjunto de entrenamiento contiene _un_ resultado conocido y 
el modelo aprende sobre estos datos para generalizarse a otros datos más adelante. 
Tenemos el conjunto de datos de prueba (o subconjunto) para probar la predicción de nuestro modelo 
en este subconjunto.
***
Primero, separamos el conjunto total de diagnósticos (presentado por la letra _Y_) del resto de los atributos (representados por la letra _X_)


In [31]:
X = data.iloc[:, 0:29].values
Y = data.iloc[:, 30].values

Separamos el conjunto de entrenamiento y el conjunto prueba usando la biblioteca **SciKit-Learn**. Más en especifico, el método 'train_test_split':

In [32]:
from sklearn import datasets, linear_model
from sklearn.model_selection import train_test_split
from matplotlib import pyplot as plt

X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, random_state = 0)

In [33]:
from sklearn.model_selection import train_test_split
X_train, X_test, Y_train, Y_test = train_test_split(X, Y, test_size = 0.25, random_state = 0)

El parametro _test_\__size_ representa el porcentaje de los datos _(X,Y)_  que serán usados como datos de prueba. En nuestro caso hemos usado el veinticinco porciento. El parámetro _random_\__state_ sirve para establecer la semilla del algoritmo aleatorio que selecciona los conjuntos de datos 
***
### Escalamiento de los atributos 

La mayoría de las veces, un conjunto de datos contendrá características altamente variables en su magnitudes, unidades y rango. Por ejemplo notemos la gran disparidad que existe entre las columnas 'dimension_fractal' y 'radio_promedio':

In [34]:
data[['area_promedio','dimension_fractal_promedio']].describe() 

Unnamed: 0,area_promedio,dimension_fractal_promedio
count,569.0,569.0
mean,654.889104,0.062798
std,351.914129,0.00706
min,143.5,0.04996
25%,420.3,0.0577
50%,551.1,0.06154
75%,782.7,0.06612
max,2501.0,0.09744


 Asi como la cercania o lejania entre dos ciudades distintas se establece con la distancia que los separa, en estadística también tenemos el concepto de distancia entre los datos _medidos_ con los datos del _modelo teórico_. De hecho, la noción de distancia en estadística es la misma que la que hay para dos ciudades: la medida Euclideana.
 Con ella, podemos decir si nuestras predicciones del modelo están cerca o lejos de las predicciones de los datos medidos. Es un poco descabellado comparar distancias de ciudades con las distancias entre dos hormigas en un mismo hormiguero, pero los ejemplos del 'area_promedio' y 'dimension_fractal_promedio' arriba expuestos  nos  están demostrando que semejantemente nos encontramos en esta situacion.
 ***
 <div style="text-align: center">  _Es deseable llevar todas las características al mismo nivel de magnitudes. Esto se puede lograr mediante la escala. Esto significa transformar todos los datos a una misma  escala específica, 
como  de 0 a 100 o de  0 a 1._  </div>
 ***


Para ello, usamos el metodo _StandardScaler_ de la bilbioteca **sklearn**

In [35]:
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
X_train = sc.fit_transform(X_train)
X_test = sc.transform(X_test)


### Modelado de datos
 - Seleccion de Caracteristicas.  Reducir el numero de caracterisiticas trae los siguientes beneficios:
     - Reduce el numero de redundancias en los datos
     - Acelera los procesos de entrenamiento 
     - Reduce el 'overfitting'
     - Muestreo de modelos base
 - Muestreo de los modelos base   
 ***

En el area del aprendizaje de maquinas se diferencian las predicciones en dos tipos. Por un lado, las predicciones que toman valores en el  continuo (en la recta real), se les llama _Regresiones_. Por ejemplo, el tiempo que tarda un avion en cruzar el continente. Mientras que las predicciones que invulcran solo un numero finito de predicciones (discreto o categórico), se les conoce como _clasificaciones_. Por ejemplo un conjunto de tres colores, el día o la noche, etc.
***
En nuestro caso queremos predicir si el cancer es maligno o benigno, entonces usaremos _algoritmos de clasificacion para el aprendizaje supervisado_ 
***
La palabra supervisado, aqui significa que sabemos que etiqueta final queremos predecir: _Benigno_ o _Maligno_. Las etiquetas _Benigno_  y _Maligno_ que usamos para entrenar a la maquina, no deben ser llamadas  _predicciones_ sino _datos de salida_: toda prediccion es un dato de salida pero no al reves.


EN SUMA:
En aprendizaje automático y estadísticas, la clasificación consiste identificar a cuál de un conjunto de categorías (subpoblaciones) pertenece una nueva observación, sobre la base de un conjunto de entrenamiento de datos que contienen observaciones (o instancias) cuya categoría de miembro es conocida.

Los siguientes nombres de algoritmos de clasificación en Aprendizaje Automático, son de los más populares en el mundo de la ciencia de datos:

1. Regresión logística

2. Vecino más cercano

3. Soporte de máquinas de vectores

4. Kernel SVM

5. Naïve Bayes

6. Árbol de decisión

7. Bosques al azar

La biblioteca **sklearn** tiene en incluído todos estos casos. A continuación describimos cada uno de los métodos e importamos las correspondendientes sub-librerias .

Ejemplificamos con la regresion _regresión logística_ el como se realizamos el analisis para despues analizar todos los casos juntos 

### REGRESIÓN LOGÍSTICA.

En su forma mas sencilla (la cual es la que necesitamos aqui), la regresion logistica modela las variables de salida 'Benigno y 'Maligno, en este caso hablamos de una _regresión logística binaria_

__Ensayo de Bernoulli:__
Ensayos repetidos independientes de un experimento con exactamente dos resultados posibles se llaman _ensayos de Bernoulli_ (el resultado de un paciente no influyen en los demás)


La regresión logística difiere de la regresión ordinaria en que la segunda regresa valores continuos. En la regresión logísitica, la simplicidad de la regresión lineal es usada, pero tiene que ser adicionada con  una forma de convertir una variable binaria en una continua que pueda tomar cualquier valor real (negativo o positivo). 

Para ello se definen  la _frontera de decisión_ (_boundary decision_). 

Esta predicción categórica se puede basar en las probabilidades calculadas de éxito, y las probabilidades pronosticadas por encima de un valor de corte elegido se traducen en una predicción de éxito. 

### Funciones de Activación

Computacionalmente a veces es mejor aproximar probabilidades de valores categóricos con funciones continuas conocidas como funciones de activación.

Por ejemplo las funciones _sigmoid_ y _tanh_:

In [36]:
def sigmoid(x):  
    return  np.array([1 / (1 + np.exp(-y)) for y in x])

def tanh(x):
    return np.array([np.tanh(y) for y in x])

t = np.linspace(-4,4,400)

a = 4*sigmoid(t) - 2
b = 1*tanh(t) + 0

plt.plot(t,a,t,b)

plt.show()

NameError: name 'np' is not defined

A continuación cargamos el método de regresión logística de **skit-learn**, para despues hacer el ajuste:

In [37]:
#Using Logistic Regression Algorithm to the Training Set
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression(random_state = 0)

#Una vez cargado el clasificador, hacemos el ajuste
classifier.fit(X_train, Y_train)

LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=0, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False)

In [38]:
Y_pred = classifier.predict(X_test)

Para verificar la precisión de la predicción necesitamos importar el método de confusión de matriz de métricas. La matríz de confusión es una forma de tabular el número de clasificaciones erróneas, es decir, el número de clases predichas que terminaron en un contenedor de clasificación incorrecto basado en las clases verdaderas.

### Matríz de Error o Matríz de Confusión 

En el análisis predictivo, una tabla de confusión (a veces también llamada matriz de confusión), es una tabla con dos filas y dos columnas que informa el número de _falsos positivos_, _falsos negativos_, _verdaderos positivos_ y _verdaderos negativos_.

Cada fila de la matriz representa las instancias en una clase predicha, mientras que cada columna representa las instancias en una clase real (o viceversa). En nuesro caso, tenemos algo como:


| Prediccion/Real | Maligno | Benigno |
| --- | --- | --- |
| Maligno | $VP$ | $FP$|
| Benigno | $FN$ | $VN$ |

$VP$ = Numero de  Verdadero Positivo

$FP$ = Numero de Falso Positivo

$VN$ = Numero de Verdadero Negativo

$FN$ = Numero de Falso Negativo


**condición positiva (P):**
El número de casos positivos reales en los datos.

**condición negativa (N):**
El número de casos negativos reales en los datos.

Importamos el método de métrica que contiene la matriz de confusión:

In [39]:
from sklearn import metrics
#La matriz de confusión
cm = metrics.confusion_matrix(Y_test, Y_pred)

print('Los', len(Y_test), 'casos probados', \
      'nos arrojan la siguiente matriz de confusión: \n', cm 
     )

Los 143 casos probados nos arrojan la siguiente matriz de confusión: 
 [[49  4]
 [ 4 86]]


### Exactitud 

Para el caso de errores categoricos (como en nuestro caso), esta simple clasificacion puede ser engañosa, por que las muestras pueden estar cargadas hacia un solo caso. Es recomendable apoyarnos en la _Exactitud Matematica_, la cual viene dada simplemente por la relacion:
***
$\textit{Exactitud} = \frac{\text{Número de Predicciones Verdaderas}}{\text{Número Total de Predicciones}}$


Para nuestro caso de predicciones categóricas binarias:


$\textit{Exactitud} = \frac{\text{VP+VN}}{\text{VP+VN+FP+FN}}$
***
El método _metrics.accuracy_score_ lo calcula por nosotros

In [40]:
metrics.accuracy_score(Y_test, Y_pred, normalize=True, sample_weight=None)

0.9440559440559441

Toca el turno de repetir el mismo ejercicio sobre las diferentes rutinas de Machine Learning que **sklearn** nos provee. Prim

In [45]:
clasificadores = {}

#Para el conjunto de entrenamiento usamos:

#Usando el Algoritmo de Regresion Logistica 
from sklearn.linear_model import LogisticRegression
clasificadores['Regresion Logistica'] = LogisticRegression(random_state = 0)
clasificadores['Regresion Logistica'].fit(X_train, Y_train)

#Usando el Algoritmo de K Vecinos Próximos 
from sklearn.neighbors import KNeighborsClassifier
clasificadores['K Vecinos Próximos'] = KNeighborsClassifier(n_neighbors = 5, metric = 'minkowski', p = 2)
clasificadores['K Vecinos Próximos'].fit(X_train, Y_train)

#Usando el Algoritmo de Máquinas de Soporte Vectorial 
from sklearn.svm import SVC
clasificadores['Máquinas de Soporte Vectorial'] = SVC(kernel = 'linear', random_state = 0)
clasificadores['Máquinas de Soporte Vectorial'].fit(X_train, Y_train)

#Usando el Algoritmo de Núcleo SVM 
from sklearn.svm import SVC
clasificadores['Núcleo SVM '] = SVC(kernel = 'rbf', random_state = 0)
clasificadores['Núcleo SVM '].fit(X_train, Y_train)

#Usando el Algoritmo Bayessiano Ingenuo
from sklearn.naive_bayes import GaussianNB
clasificadores['Bayes Ingenuo'] = GaussianNB()
clasificadores['Bayes Ingenuo'].fit(X_train, Y_train)

#Usando el Arbol de Decisión 
from sklearn.tree import DecisionTreeClassifier
clasificadores['Arbol de Decisión'] = DecisionTreeClassifier(criterion = 'entropy', random_state = 0)
clasificadores['Arbol de Decisión'].fit(X_train, Y_train)

#Usando el Bosque Aleatorio 
from sklearn.ensemble import RandomForestClassifier
clasificadores['Bosque Aleatorio'] = RandomForestClassifier(n_estimators = 10, criterion = 'entropy', random_state = 0)
clasificadores['Bosque Aleatorio'].fit(X_train, Y_train);


In [46]:
exactitudes = {}
for clasificador in clasificadores:
    
    Y_pred = clasificadores[clasificador].predict(X_test) 
    
    exactitudes[clasificador] = metrics.accuracy_score(Y_test, Y_pred, normalize=True, sample_weight=None)

In [47]:
for clasificador in exactitudes:
    print('El clasificador', clasificador, 'es exacto hasta un',  '%.2f' % (100*exactitudes[clasificador]),'%')

El clasificador Regresion Logistica es exacto hasta un 94.41 %
El clasificador K Vecinos Próximos es exacto hasta un 95.80 %
El clasificador Máquinas de Soporte Vectorial es exacto hasta un 96.50 %
El clasificador Núcleo SVM  es exacto hasta un 96.50 %
El clasificador Bayes Ingenuo es exacto hasta un 92.31 %
El clasificador Arbol de Decisión es exacto hasta un 95.10 %
El clasificador Bosque Aleatorio es exacto hasta un 95.80 %


### Validación cruzada

Mucha veces en vez de dividir inicialmente el conjunto de datos en dos subconjuntos, lo hacemos en tres subconjuntos: _entrenamiento_, _validación_ y _prueba_

dejan de lado el conjunto de pruebas y eligen aleatoriamente el X% 
de su conjunto de datos de tren para que sea el conjunto de trenes real y el restante (100-X)% 
para ser el conjunto de validación, donde X es un número fijo (por ejemplo, 80%). ), 
el modelo se entrena y valida iterativamente en estos diferentes conjuntos.
Hay varias formas de hacer esto, y se conoce comúnmente como validación cruzada. 
Básicamente, utiliza su conjunto de entrenamiento para generar múltiples divisiones 
de los conjuntos de Entrenamiento y Validación. La validación cruzada evita el ajuste 
excesivo y se está volviendo cada vez más popular, siendo la Validación Cruzada K-fold 
el método más popular de validación cruzada.
Mira esto para más.

En el enfoque que estamos siguiendo (también muy común entre los practicantes del aprendizaje de datos) 


Nosotros estamos usando una forma especifica de _validacio

Nota sobre la validación cruzada: muchas veces,
las personas primero dividen su conjunto de datos en 2 - Train and Test.
Después de esto, dejan de lado el conjunto de pruebas y eligen aleatoriamente el X% 
de su conjunto de datos de tren para que sea el conjunto de trenes real y el restante (100-X)% 
para ser el conjunto de validación, donde X es un número fijo (por ejemplo, 80%). ), 
el modelo se entrena y valida iterativamente en estos diferentes conjuntos.
Hay varias formas de hacer esto, y se conoce comúnmente como validación cruzada. 
Básicamente, utiliza su conjunto de entrenamiento para generar múltiples divisiones 
de los conjuntos de Entrenamiento y Validación. La validación cruzada evita el ajuste 
excesivo y se está volviendo cada vez más popular, siendo la Validación Cruzada K-fold 
el método más popular de validación cruzada.
Mira esto para más.

Las columnas _Maligno_ y _Benigno_ son redundates. El conocimiento de una, automaticamente nos define la otra. Eliminamos una: