# Introducción al aprendizaje de máquinas: clasificación de la asignación de fuentes de basalto

## Importar librerías científicas de Python

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)
pd.options.mode.chained_assignment = None

import numpy as np
import matplotlib.pyplot as plt
from matplotlib.colors import ListedColormap

import copy

## Importar datos

In [2]:
basalt_data = pd.read_csv('./data/Vermeesch2006.csv')
basalt_data.tail()

Unnamed: 0,affinity,affinity code,color,SiO2 (wt%),TiO2 (wt%),Al2O3 (wt%),Fe2O3 (wt%),FeO (wt%),CaO (wt%),MgO (wt%),MnO (wt%),K2O (wt%),Na2O (wt%),P2O5(wt%),La (ppm),Ce (ppm),Pr (ppm),Nd (ppm),Sm (ppm),Eu (ppm),Gd (ppm),Tb (ppm),Dy (ppm),Ho (ppm),Er (ppm),Tm (ppm),Yb (ppm),Lu (ppm),Sc (ppm),V (ppm),Cr (ppm),Co (ppm),Ni (ppm),Cu (ppm),Zn (ppm),Ga (ppm),Rb (ppm),Sr (ppm),Y (ppm),Zr (ppm),Nb (ppm),Sn (ppm),Cs (ppm),Ba (ppm),Hf (ppm),Ta (ppm),Pb (ppm),Th (ppm),U (ppm),143Nd/144Nd,87Sr/86Sr,206Pb/204Pb,207Pb/204Pb,208Pb/204Pb
751,IAB,2,C2,50.97,0.78,18.86,,,10.85,4.71,0.16,0.6,2.38,0.13,,,,,,,,,,,,,,,,,,36.0,34.0,152.0,,,7.5,371.0,19.3,56.0,,,,130.0,,,,,,,,18.82,15.556,38.389
752,IAB,2,C2,51.0,1.41,17.06,3.8,7.04,9.97,4.96,0.17,0.73,2.56,0.28,,,,,,,,,,,,,,,,,,,,,,,13.0,395.0,,,,,,,,,,,,,0.70348,,,
753,IAB,2,C2,52.56,1.21,17.74,2.28,7.53,10.48,5.57,0.24,0.29,2.27,0.13,,,,,,,,,,,,,,,,,,,,,,,,163.0,,,,,,,,,,,,,0.70362,,,
754,IAB,2,C2,52.59,1.5,16.88,2.41,7.9,10.83,4.91,0.26,0.54,1.63,0.08,,,,,,,,,,,,,,,,,,,,,,,,151.0,,,,,,,,,,,,,0.70363,,,
755,IAB,2,C2,52.96,1.27,15.65,2.91,9.32,9.78,4.24,0.23,0.46,2.54,0.15,,,,,,,,,,,,,,,,,,,,,,,,254.0,,,,,,,,,,,,,0.70352,,,


In [3]:
MORB_data = basalt_data[basalt_data['affinity']=='MORB']
OIB_data = basalt_data[basalt_data['affinity']=='OIB']
IAB_data = basalt_data[basalt_data['affinity']=='IAB']

## Implementando un clasificador lineal

En lugar de usar la técnica del vecino más cercano como hicimos en clase, podríamos implementar una clasificación más rígida usando un clasificador lineal. Una ventaja de utilizar un clasificador de este tipo es que no es necesario normalizar los datos entre 0 y 1. En su lugar, se pueden utilizar los valores reales.

In [12]:
basalt_data_Ti_V = basalt_data[(~basalt_data['TiO2\xa0(wt%)'].isna()) & (~basalt_data['V (ppm)'].isna())]
basalt_data_Ti_V_array = basalt_data_Ti_V[['TiO2\xa0(wt%)','V (ppm)']].values 
basalt_affinity = basalt_data_Ti_V['affinity'].tolist()
basalt_affinity_code = basalt_data_Ti_V['affinity code'].tolist()

In [11]:
basalt_data.columns[4]

'TiO2\xa0(wt%)'

In [None]:
from sklearn.svm import SVC
classifier_svc = SVC(kernel="poly",degree=1)

**Código para que lo escribas: implemente ``classifier_svc``y determine su precisión usando un conjunto de entrenamiento y un conjunto de prueba**

**Código para que usted escriba: cree una cuadrícula al clasificadora y grafique  los datos**

Querremos usar una cuadrícula que esté espaciada de acuerdo con los datos no normalizados.

## Explore otros parámetros geoquímicos de los datos y cree clasificadores adicionales

**Tareas**

- Use la librería seaborn y use la función ``sns.pairplot`` para hacer gráficos cruzados de otros parámetros (https://seaborn.pydata.org/generated/seaborn.pairplot.html)
- *¿Hay otros parámetros geoquímicos que pueda usar como clasificador que sean tan buenos o mejores que el clasificador Ti / V?* Implemente otro clasificador usando el tipo de clasificador de su elección (existe ese bloque de código en la clase muestra muchos de ellos) y determinar su precisión utilizando un conjunto de entrenamiento y un conjunto de prueba para abordar esta pregunta. ***scikit-learn no estará contento con los valores incompletos, así que filtrelos de antemano***. ***Recuerde que si está utilizando la técnica del vecino más cercano, debe normalizar los datos.***
- Recuerde que puede construir un clasificador que use más de 2 dimensiones. Construya un clasificador que use 3 o más parámetros en lugar de 2. Cuando ajuste el clasificador, proporcione una matriz que tenga:

    `[[data_a_point1, data_b_point1, data_c_point1], [data_a_point2, data_b_point2, data_c_point2]]`

    y luego una matriz de tipo:

    `[point1_type, point2_type]`
    
     Si bien teníamos Ti y V en la primera matriz, podría tener estos datos geoquímicos y más, de modo que en lugar de ser 2 x n, podría ser 3 x n o 4 x n (donde n es el número de valores de puntos de datos).

In [None]:
import seaborn as sns

**¿Qué clasificador crees que funciona mejor para distinguir entre OIB, MORB e IAB usando estos datos geoquímicos?**

*Escriba aquí su respuesta*