# Machine Learning: Clasificación co SKLearn
En este notebook estaremos desarrollando varios ejercicios para entender cómo funcionan algunos algoritmos de clasificación.

## Aula 1: Introdicción a la clasificación

In [53]:
# features 1 = si y 0 = no
# tiene pelo largo?
# tiene las uñas afiladas?
# hace miau?

perro1 = [0, 1, 1]
perro2 = [1, 0, 1]
perro3 = [1, 1, 1]

gato1 = [0,1 ,0]
gato2 = [0,1 ,1]
gato3 = [1,1 ,0]

x_train = [perro1, perro2, perro3, gato1, gato2 , gato3]
y_train = [1, 1, 1, 0, 0, 0]

In [54]:
!pip install -U scikit-learn

Defaulting to user installation because normal site-packages is not writeable


In [55]:
from sklearn.svm import LinearSVC

model = LinearSVC()
model.fit(x_train, y_train)



In [56]:
animal_misterioso = [1, 1, 1]
model.predict([animal_misterioso])

array([1])

In [57]:
misterio1 = [1, 1, 1]
misterio2 = [1, 1, 0]
misterio3 = [0, 1, 1]

x_test = [misterio1, misterio2, misterio3]
y_test = [0, 1, 1]


In [58]:
previsiones = model.predict(x_test)

In [59]:
correctos = (previsiones == y_test).sum()
total = len(x_test)
tasa_de_acierto = correctos/total
print(f"La tasa de acierto fue de: {round(tasa_de_acierto* 100, 2)}%")

La tasa de acierto fue de: 33.33%


In [60]:
from sklearn.metrics import accuracy_score

tasa_de_acierto = accuracy_score(y_test, previsiones)
print(f"La tasa de acierto fue de: {round(tasa_de_acierto* 100, 2)}%")

La tasa de acierto fue de: 33.33%


## Aula 2: Pruebas replicables, estratificación, lectura de datos de internet

In [61]:
import pandas as pd
uri = "https://gist.githubusercontent.com/ahcamachod/38673f75b54ec62ffc290eff8e7c716e/raw/6eaa07e199d9f668bf94a034cb84dac58c82fa4f/tracking.csv"
datos = pd.read_csv(uri)
datos.sample(5)

Unnamed: 0,home,how_it_works,contact,bought
63,0,1,0,0
35,1,0,1,1
91,1,1,0,0
15,0,0,1,0
65,0,1,1,1


In [62]:
mapa = {
    "home":"principal",
    "how_it_works":"como_funciona",
    "contact":"contacto",
    "bought":"compro"
    }


datos = datos.rename(columns=mapa)
datos.sample(3)

Unnamed: 0,principal,como_funciona,contacto,compro
91,1,1,0,0
69,1,1,0,0
62,0,0,1,0


In [63]:
x = datos[["principal", "como_funciona","contacto"]]
x.head()

Unnamed: 0,principal,como_funciona,contacto
0,1,1,0
1,1,1,0
2,1,1,0
3,1,1,0
4,1,1,0


In [64]:
y = datos.compro
y.head()

0    0
1    0
2    0
3    0
4    0
Name: compro, dtype: int64

In [65]:
datos.shape

(99, 4)

In [66]:
x_train = x[:75]
y_train = y[:75]
x_test = x[75:]
y_test = y[75:]

In [70]:
y_train.value_counts()

compro
0    50
1    24
Name: count, dtype: int64

In [73]:
27/75

0.36

In [71]:
y_test.value_counts()

compro
0    16
1     9
Name: count, dtype: int64

In [74]:
9/24

0.375

In [67]:
print(f"Entrenamiento con {len(x_train)} elementos y probaremos con {len(x_test)} elementos")

Entrenamiento con 75 elementos y probaremos con 24 elementos


In [68]:
from sklearn.svm import LinearSVC
from sklearn.metrics import accuracy_score

model = LinearSVC()
model.fit(x_train, y_train)
previsiones = model.predict(x_test)

tasa_de_acierto = accuracy_score(y_test, previsiones)
print(f"La tasa de acierto fue de: {round(tasa_de_acierto* 100, 2)}%")

La tasa de acierto fue de: 95.83%




In [69]:
from sklearn.model_selection import train_test_split

SEED = 42

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.25, random_state=SEED)

model = LinearSVC()
model.fit(x_train, y_train)
previsiones = model.predict(x_test)

tasa_de_acierto = accuracy_score(y_test, previsiones)
print(f"La tasa de acierto fue de: {round(tasa_de_acierto* 100, 2)}%")

La tasa de acierto fue de: 96.0%




In [75]:
y_train.value_counts()

compro
0    50
1    24
Name: count, dtype: int64

In [77]:
24/74

0.32432432432432434

In [76]:
y_test.value_counts()

compro
0    16
1     9
Name: count, dtype: int64

In [78]:
9/25

0.36