# NumPy
_(ejemplos probados en la versión 1.17.2)_

In [1]:
import numpy as np
from numpy import linalg #Biblioteca de algebra lineal

A partir de np podremos crear objetos de tipos ndarray y acceder a sus elementos:

In [2]:
# Ejemplo mínimo de NumPy

v = np.array([1,2,3]) # Matriz (1 x 3)
print(v) #  [1 2 3]
print(v[1]) # 2

m = np.array([[1,2,3],[0,1,4],[5,6,0]]) # Matriz (3 x 3)
print(m)
print(m[2,1])

# Multiplicación vector-matriz
print(v @ m)

# Inversa de una matriz
m_inv = linalg.inv(m)
print(m_inv)

# Multiplicación matriz-matriz
print(m @ m_inv)

[1 2 3]
2
[[1 2 3]
 [0 1 4]
 [5 6 0]]
6
[16 22 11]
[[-24.  18.   5.]
 [ 20. -15.  -4.]
 [ -5.   4.   1.]]
[[ 1.00000000e+00 -2.66453526e-15  0.00000000e+00]
 [ 0.00000000e+00  1.00000000e+00  0.00000000e+00]
 [ 0.00000000e+00 -7.10542736e-15  1.00000000e+00]]


# Pandas
_(ejemplos probados en la versión 0.25.1)_

## Carga desde fichero

In [3]:
import pandas as pd
pd.__version__

'2.2.1'

A lo alrgo de este capitulo vamos a usar el conjunto de datos del titanic, un conjunto de datos muy popular a la hora de praxticar aprendizaje automatico.

### Cargar un DataFrame desde fichero


In [4]:
# Carga el fichero 
df = pd.read_csv('../../data/Cap5/titanic.csv')

In [5]:
# Lectura de todas las hojas de 'data/Cap5/subvenciones_totales.xls', devuelve un diccionario ordenado (str, DataFrame)
subvenciones = pd.read_excel('../../data/Cap5/subvenciones_totales.xls', sheet_name=None)
subvenciones['Totales']

Unnamed: 0,Asociación,Importe total,Importe justificado,Restante
0,AMPA ANTONIO MACHADO,2344.99,0,-2344.99
1,AMPA BACHILLER ALONSO LOPEZ,3200.0,0,-3200.0
2,AMPA CASTILLA,2604.44,0,-2604.44
3,AMPA DAOIZ Y VELARDE,3152.74,0,-3152.74
4,AMPA EMILIO CASADO,3015.67,0,-3015.67
5,AMPA FEDERICO GARCIA LORCA,1919.06,0,-1919.06
6,AMPA GABRIEL Y GALAN,2741.51,0,-2741.51
7,AMPA LUIS BUÑUEL,2081.0,0,-2081.0
8,AMPA MIGUEL HERNANDEZ,2923.35,0,-2923.35
9,AMPA MIRAFLORES,2787.21,0,-2787.21


## Visualizar y extraer información

In [6]:
# Visualizar el principio y final de un DataFrame
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [7]:
# Mostrar el principio y final de un DataFrame, en modo texto
print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [8]:
# Índice pandas con las columnas de un DataFrame
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [9]:
# Tamaño de un DataFrame
df.shape

(891, 12)

In [10]:
# .iloc para seleccionar por posición
print(type(df.iloc))
print("="*100)
display(df.iloc[5])   # Fila en la posición 5
print("="*100)
display(df.iloc[:3])  # Filas en el rango [0,2)
print("="*100)
display(df.iloc[0,0]) # Celda (0,0)
print("="*100)
display(df.iloc[[0,10,12],3:4]) # Filas 0, 10 y 12, columnas 3:4
print("="*100)

<class 'pandas.core.indexing._iLocIndexer'>


PassengerId                   6
Survived                      0
Pclass                        3
Name           Moran, Mr. James
Sex                        male
Age                         NaN
SibSp                         0
Parch                         0
Ticket                   330877
Fare                     8.4583
Cabin                       NaN
Embarked                      Q
Name: 5, dtype: object



Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S




1



Unnamed: 0,Name
0,"Braund, Mr. Owen Harris"
10,"Sandstrom, Miss. Marguerite Rut"
12,"Saundercock, Mr. William Henry"




In [11]:
# .iloc para seleccionar usando los índices
print(type(df.loc))
print("="*100)
display(df.loc[0])                # Fila con índice 0
print("="*100)
display(df.loc[0,'Fare'])         # celda de la fila 0 y columna 'Fare'
print("="*100)
display(df.loc[:3, 'Sex':'Fare']) # Filas 0:3 (incluidas) en las columnas 'Sex':'Fare' (incluidas)
print("="*100)
display(df.loc[:3, ['Sex','Fare','Embarked']]) # Filas 0:3 (incluidas) en las columnas 'Sex','Fare' y 'Embarked'
print("="*100)
display(df.loc[df['Age']> 70])    # Filas con 'Age' > 70
print("="*100)
display(df.loc[df['Age']> 70, ['Age','Sex']])    # Filas con 'Age' > 70, mostrar la columna 'Sex'
print("="*100)

<class 'pandas.core.indexing._LocIndexer'>


PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object



7.25



Unnamed: 0,Sex,Age,SibSp,Parch,Ticket,Fare
0,male,22.0,1,0,A/5 21171,7.25
1,female,38.0,1,0,PC 17599,71.2833
2,female,26.0,0,0,STON/O2. 3101282,7.925
3,female,35.0,1,0,113803,53.1




Unnamed: 0,Sex,Fare,Embarked
0,male,7.25,S
1,female,71.2833,C
2,female,7.925,S
3,female,53.1,S




Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S




Unnamed: 0,Age,Sex
96,71.0,male
116,70.5,male
493,71.0,male
630,80.0,male
851,74.0,male




In [12]:
# Tipos almacenados en cada columna
pd.DataFrame(df.dtypes)

Unnamed: 0,0
PassengerId,int64
Survived,int64
Pclass,int64
Name,object
Sex,object
Age,float64
SibSp,int64
Parch,int64
Ticket,object
Fare,float64


In [13]:
# Descripción de los valores de un DataFrame
df.describe(include='all')

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
count,891.0,891.0,891.0,891,891,714.0,891.0,891.0,891.0,891.0,204,889
unique,,,,891,2,,,,681.0,,147,3
top,,,,"Braund, Mr. Owen Harris",male,,,,347082.0,,B96 B98,S
freq,,,,1,577,,,,7.0,,4,644
mean,446.0,0.383838,2.308642,,,29.699118,0.523008,0.381594,,32.204208,,
std,257.353842,0.486592,0.836071,,,14.526497,1.102743,0.806057,,49.693429,,
min,1.0,0.0,1.0,,,0.42,0.0,0.0,,0.0,,
25%,223.5,0.0,2.0,,,20.125,0.0,0.0,,7.9104,,
50%,446.0,0.0,3.0,,,28.0,0.0,0.0,,14.4542,,
75%,668.5,1.0,3.0,,,38.0,1.0,0.0,,31.0,,


In [14]:
# Código alternativo para calcular valores nulos y únicos

# Valores nulos
for c in df.columns:
    print("Missing values [{0}]:".format(c), df[c].isna().sum())
print()

# Valores únicos    
for c in df.columns:
    print("Unique values [{0}]:".format(c), df[c].unique().size)

Missing values [PassengerId]: 0
Missing values [Survived]: 0
Missing values [Pclass]: 0
Missing values [Name]: 0
Missing values [Sex]: 0
Missing values [Age]: 177
Missing values [SibSp]: 0
Missing values [Parch]: 0
Missing values [Ticket]: 0
Missing values [Fare]: 0
Missing values [Cabin]: 687
Missing values [Embarked]: 2

Unique values [PassengerId]: 891
Unique values [Survived]: 2
Unique values [Pclass]: 3
Unique values [Name]: 891
Unique values [Sex]: 2
Unique values [Age]: 89
Unique values [SibSp]: 7
Unique values [Parch]: 7
Unique values [Ticket]: 681
Unique values [Fare]: 248
Unique values [Cabin]: 148
Unique values [Embarked]: 4


## Transformar DataFrames

In [15]:
# Carga el fichero 
df = pd.read_csv('../../data/Cap5/titanic.csv')

# Elimina columnas no relevantes y filas con valores nulos
df = df.drop(columns=['PassengerId', 'Name', 'Ticket','Cabin']) # vacia por columnas
df = df.dropna() #vacia por vacios
 
# Traduce los valores categóricos de 'Sex' y 'Embarked' a número enteros
#label encodng
df['Sex'] = df['Sex'].astype('category').cat.codes
df['Embarked'] = df['Embarked'].astype('category').cat.codes

# En Python, puedes realizar one-hot encoding utilizando pd.get_dummies() en pandas.
dommies = pd.get_dummies(df, columns=['Embarked'])
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.2500,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.9250,2
3,1,1,0,35.0,1,0,53.1000,2
4,0,3,1,35.0,0,0,8.0500,2
...,...,...,...,...,...,...,...,...
885,0,3,0,39.0,0,5,29.1250,1
886,0,2,1,27.0,0,0,13.0000,2
887,1,1,0,19.0,0,0,30.0000,2
889,1,1,1,26.0,0,0,30.0000,0


## Salvar a ficheros

In [16]:
# A formato CSV
df.to_csv('../../data/Cap5/titanic_ml.csv', index=False)

# A formato Excel (XLS y XLSX)
# La hoja se llamará 'Sheet1'
df.to_excel('../../data/Cap5/titanic_ml.xlsx', index=False)

In [17]:
# Insertar varias hojas en un fichero Excel
writer = pd.ExcelWriter('../../data/Cap5/titanic_2.xlsx')
df.to_excel(writer, sheet_name='Hoja 1', index=False) ########### /
df.to_excel(writer, sheet_name='Hoja 2', index=False) #dos hojas con la misma informacion
writer.close()

# Aprendizaje automático con Scikit-learn
_(ejemplos probados en la versión 0.21.3)_

**IMPORTANTE**: el código de los ejemplos de Scikit-learn que aparecen en el libro está realizado y probado en la versión **0.19.2** de Scikit-learn. Con el paso del tiempo, algunos apartados han dejado de funcionar en versiones superiores. Por ello, hemos actualizado este _notebook_ para que funcione correctamente con Scikit-learn versión 0.21.3.

Los principales cambios han sido:
 * Incorporar el transformador `OneHotEncoder` dentro de un `ColumnTransformer` para codificar únicamente la columna `'Embarked'`. El parámetro `categorical_features` se había quedado obsoleto. 
 * Inclusión de algunos parámetros a los clasificadores en lugar de usar valores por defecto, para evitar avisos de Scikit-learn porque el valor por defecto ha cambiado en la nueva versión. Concretamente, hemos añadido `gamma='scale'` en `SVC` y `cv=3` en `GridSearchCV`.
 * Corrección de la función `calinski_harabasz_score` (el nombre tenía una errata en la versión 0.19.2).
 * Inclusión directa de `joblib` con `import joblib` en lugar de usar `sklearn.externals`.


In [18]:
# Versión de scikit-learn
import sklearn #pip install scikit-learn
sklearn.__version__

'1.4.2'

## Preprocesado

In [19]:
# Función para partir un DataFrame en train+test y separar también la columna clase
from sklearn.model_selection import train_test_split

def split_label(df, test_size, label):
    train, test = train_test_split(df, test_size=test_size)
    features = df.columns.drop(label)
    train_X = train[features]
    train_y = train[label]
    test_X = test[features]
    test_y = test[label]
    
    return train_X, train_y, test_X, test_y   

In [20]:
# División en train (80%) y test (20%) para clasificación, con clase 'Survived'
titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Survived')

# train_X y test_X son DataFrames
# train_y y test_y son Series
train_y #No devuelve los datos de supervivencia (datos que queremos predecir!)

113    0
327    0
663    0
52     0
305    0
      ..
632    1
66     1
599    0
449    1
219    0
Name: Survived, Length: 569, dtype: int64

In [21]:
# One hot encoding de la columna 'Embarked'   
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# Aplica el transformador OneHotEncoder a la columna 'Embarked', dejando el resto sin 
# modificar ('passthrough'). Detecta automáticamente el número de categorías diferentes
ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')
train_X_1 = ohe.fit_transform(train_X)

# train_X_1 es un objeto ndarray de tamaño (569, 9) y tipo float64
print(type(train_X_1)) # detecte los distintos vcalores de la comlumna y despues transforme el conjunto de datos
print(train_X_1.shape)
print(train_X_1.dtype)
print(train_X_1)


# es curioso observar que el elemento ya no es un dataframe sino uin ndarray

<class 'numpy.ndarray'>
(569, 9)
float64
[[ 0.      1.      0.     ...  0.      0.      6.75  ]
 [ 0.      0.      1.     ...  0.      0.      7.75  ]
 [ 0.      0.      1.     ...  0.      0.      7.8542]
 ...
 [ 0.      0.      1.     ...  0.      0.      7.8958]
 [ 0.      0.      1.     ...  0.      0.      7.8542]
 [ 1.      0.      0.     ...  0.      1.     29.7   ]]


### Escalar numeros a [0,1]
recordemos que el aprendizxaje automatico cree que un 1 tiene mucha menos importancia que por ejemplo un 100. Por esta razon vamos a escalar todos los valores entre 0 y 1.

Asi intentamos que el algoritmo logre procesar los datos sin prejuicios de diferencias de valores

In [22]:
# Escalado al rango [0,1] de todos los atributos
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()
train_X_2 = min_max_scaler.fit_transform(train_X_1)

print(type(train_X_2))
print(train_X_2.shape)
print(train_X_2.dtype)

# Muestra las 3 primeras entradas de train_X_2
for i in range(3): 
    print(train_X_2[i])

<class 'numpy.ndarray'>
(569, 9)
float64
[0.         1.         0.         1.         1.         0.23106013
 0.         0.         0.01317512]
[0.         0.         1.         1.         1.         0.63443842
 0.         0.         0.01512699]
[0.         0.         1.         1.         1.         0.28148242
 0.         0.         0.01533038]


## Clasificación
Lo primero que tenemos que hacer es crear un objeto clasificador y entrenarlo.
En este caso usaremos una tecnica conocida como maquinas de vectores de siporte (SVM).
Es una tecnica de clasificacion binaria. y trata de encontrar un hiperplano que separe los elmentos de una y otra clase.

In [23]:
from sklearn.svm import SVC

# Entrenamiento
clf = SVC(gamma='scale')
clf.fit(train_X_2, train_y)

# Transformación del conjunto de test (one hot encoding y escalado)
print(test_X.shape)
test_X_2 = min_max_scaler.transform(ohe.transform(test_X))
print(test_X_2.shape)

# Evaluación del modelo mediante precisión
print("Precisión sobre test:", clf.score(test_X_2, test_y)) 

# Uso del modelo
clf.predict(test_X_2)

(143, 7)
(143, 9)
Precisión sobre test: 0.7692307692307693


array([0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 1,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0,
       1, 1, 0, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0], dtype=int64)

### Tecnica  de los k vecinos mas cercanos:

Como todos los clasificadores tienen la misma interffaz (fit, predict, score), solo tenemos que cambiar la linea en que cambiamos el objeto calsificador...

In [24]:
# Clasificación usando kNN
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier()
clf.fit(train_X_2, train_y)

# Evaluación del modelo mediante precisión
print("Precisión sobre test:", clf.score(test_X_2, test_y)) 

Precisión sobre test: 0.7762237762237763


## Regresión

In [25]:
# Regresión lineal
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error

# separación train-test con clase 'Fare'
titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Fare')

# one hot encoding
index_Embarked = train_X.columns.get_loc('Embarked')
ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')
train_X_1 = ohe.fit_transform(train_X)

# Escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()
train_X_2 = min_max_scaler.fit_transform(train_X_1)

# Entrenamiento
reg = LinearRegression()
reg.fit(train_X_2, train_y)

# Transformación del conjunto de test (one hot encoding y escalado)
test_X_2 = min_max_scaler.transform(ohe.transform(test_X))

# Evaluación del modelo mediante métrica R^2 y MSE
print("R^2:", reg.score(test_X_2, test_y)) 

# Uso y evaluación del modelo con MSE
pred = reg.predict(test_X_2)
print("MSE:", mean_squared_error(test_y, pred))
print("MAE:", mean_absolute_error(test_y, pred))

R^2: 0.4512047190004723
MSE: 833.4308875934965
MAE: 20.00501048951049


In [26]:
# Regresión usando kNN
from sklearn.neighbors import KNeighborsRegressor

reg = LinearRegression()
reg.fit(train_X_2, train_y)

# Evaluación del modelo mediante métrica R^2
print("R^2:", reg.score(test_X_2, test_y)) 

# Uso y evaluación del modelo con MSE y MAE
pred = reg.predict(test_X_2)
print("MSE:", mean_squared_error(test_y, pred))
print("MAE:", mean_absolute_error(test_y, pred))

R^2: 0.4512047190004723
MSE: 833.4308875934965
MAE: 20.00501048951049


## Clustering o Analisis de grupos

In [27]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score

titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')

# one hot encoding
ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')
titanic_1 = ohe.fit_transform(titanic) # entrenamos los datos!


# Escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()
titanic_2 = min_max_scaler.fit_transform(titanic_1)

In [28]:
# Clustering
clu = KMeans(n_clusters=3) #objeto kmeans # con 3 clusters
# los clusters
clu.fit(titanic_2)
print("Centros de los clústeres:\n", clu.cluster_centers_)

Centros de los clústeres:
 [[-1.66533454e-16  3.88888889e-02  9.61111111e-01  9.88888889e-01
   4.08333333e-01  2.11111111e-01  3.53602943e-01  1.05555556e-01
   1.01851852e-01  8.62499736e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]
 [-2.22044605e-16  5.22388060e-02  9.47761194e-01  7.71144279e-02
   7.94776119e-01  8.60696517e-01  3.68528681e-01  1.07462687e-01
   5.97014925e-02  3.77720587e-02]]


El objeto clasificador almacena esa informacion en el atributo labels_.
como el conjunto de datos del titanic_2 tenia 712 instancias, labels_ contendra un ndarray de Numpy con 712 numeros tomando valores 0, 1 o 2 dependiendo del cluster que pertenezca.

In [29]:
print(clu.labels_)

[2 1 0 0 2 2 2 0 1 0 0 2 2 2 0 2 2 2 0 0 0 2 0 2 1 2 1 2 2 2 1 2 2 1 0 2 2
 2 1 0 1 0 1 0 2 1 2 2 0 2 0 2 2 2 2 1 2 2 0 0 2 2 2 0 0 2 0 2 2 2 2 2 2 1
 1 0 2 2 2 2 2 2 0 2 2 1 2 2 1 2 2 2 1 2 2 1 0 2 1 2 2 1 2 2 0 2 1 0 2 2 1
 0 0 2 2 2 2 2 2 2 2 0 2 2 1 0 2 2 0 2 2 2 2 2 2 2 2 0 2 1 2 1 2 2 2 0 0 0
 2 2 0 2 0 0 1 1 2 2 2 2 1 2 2 2 1 0 1 2 0 2 2 1 0 2 1 2 2 2 2 0 2 0 2 2 0
 2 2 0 2 2 0 2 2 2 2 1 2 2 0 0 2 2 2 2 2 1 0 1 0 2 2 2 2 2 2 0 0 2 0 1 0 2
 2 0 2 2 2 2 1 2 2 0 0 0 1 1 2 2 1 0 1 2 0 1 1 1 1 1 2 2 2 0 0 2 0 1 2 2 0
 0 1 2 0 0 1 2 2 2 2 1 2 2 0 0 2 2 2 0 0 2 2 2 1 2 2 0 2 2 1 1 2 2 1 1 1 2
 2 1 2 0 1 1 2 1 1 2 0 2 2 0 1 0 2 2 1 0 2 2 2 2 0 2 2 2 2 2 2 2 0 2 0 2 0
 0 2 2 2 2 2 2 0 0 2 0 0 2 2 0 2 0 2 2 0 2 2 0 0 0 0 1 0 2 1 1 1 2 0 0 2 2
 2 2 2 1 2 0 1 2 2 2 2 0 2 2 0 1 0 1 2 2 2 2 1 2 1 0 2 2 2 2 0 1 0 2 2 2 0
 1 2 2 0 0 2 0 2 1 2 0 2 2 0 1 2 0 2 1 1 0 2 2 0 1 2 0 2 0 1 2 1 0 2 1 0 0
 2 2 2 2 2 2 0 0 0 2 2 0 0 2 0 1 2 1 0 2 1 2 2 1 2 2 2 2 1 0 2 1 2 2 0 1 0
 2 2 0 2 2 0 2 1 0 1 2 2 

Usando este atributo del clasificador prodremos calcular metricas que nos permitan conocer la calidad del agrupamiento generado!

In [30]:
# Evaluación de los clústeres
print('silhouette_score:', silhouette_score(titanic_2, clu.labels_)) # toma valores entre -1 y 1.
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, clu.labels_)) #mide la proporcion entre la dispersion intracluster y la dispersion intra culster

# Debemos comparar estos resultados para tener los resultados esperados!

# Comprobar distancia a cada centroide para las instancias de titanic_2 (podrían ser otro conjunto de datos)
clu.transform(titanic_2)

silhouette_score: 0.39752927745505423
calinski_harabasz: 360.02042405738507


array([[1.40876806, 1.73984874, 0.30836682],
       [1.47405462, 0.77530662, 2.03919625],
       [0.65218547, 1.69060722, 1.28760181],
       ...,
       [0.50116407, 1.6169074 , 1.50446898],
       [1.65462065, 0.73107457, 1.84973905],
       [1.9560748 , 1.73454341, 1.37127603]])

El resultado del entrenamiento seran los centroides de cada uno de los 3 grupos.
Este atributo almacena una lista de 3 centroides, cada uno un punto de 10 dimensiones. El numero de dimensiones es el esperado. ya que el conjunto original tenia 8 columnas, y Embarked la hemos multiplicado por 3 al aplicar one hot encoding.

# OTROS ASPECTOS DE SCIKIT-LEARN
Para finalizar vamos a ver 3 aspectos importantes: la creacion de tuberias, la persistencia de los modelos y la optimizacion de hiperparametros

## Pipelines o TUBERIAS

In [31]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC

## Preprocesado

# División en train (80%) y test (20%) para clasificación, con clase 'Survived'
titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Survived')

In [42]:
# Etapa one hot encoding
ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                        remainder='passthrough')

# Etapa de escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()

# Etapa de clasificación
svm = SVC(gamma='scale')

### Creacion de pipeline.
para contruir la tuberia pasamos uina lista de parejas (nombre,objeto) indicando el orden exacto de las etapas.
El nombre de las etapas nos permitira acceder mas adelante a una etapa concreta mediante su nombre, por ejemplo: `pipe.named_steps['clf']`
que nos devolveria el objeto de la clase SVC.

In [48]:
# Creación del pipeline
pipe = Pipeline([('ohe', ohe), ('sca', min_max_scaler), ('clf', svm)])

Una vez tenemos la tuberia creada, la podemos utilizar directamente como si de un objeto clasificador se tratara:

In [49]:
# Entranamiento del pipeline
pipe.fit(train_X, train_y)

# Evaluación del pipeline
print('precisión:', pipe.score(test_X, test_y))

# Uso del modelo
pipe.predict(test_X)

precisión: 0.7832167832167832


array([0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1,
       1, 0, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1,
       0, 0, 0, 0, 1, 0, 0, 1, 0, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 1, 0, 0, 1, 0, 0], dtype=int64)

### Regresión

In [33]:
# Pipeline para regresión

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression

## Preprocesado

# División en train (80%) y test (20%) para clasificación, con clase 'Fare'
titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Fare')

# Etapa de one hot encoding-- volvemos a preparar los daotos Embarked con el metodo hot encoding
ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')

# Etapa de escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()  #guardamos el metodo para escalar los atributos de 0 a 1

# Etapa de regresión
lin = LinearRegression() # guardamos el metodo para crear el modelo

# Creación del pipeline
pipe = Pipeline([('ohe', ohe), ('sca', min_max_scaler), ('reg', lin)]) #creacion del modelo!
#                   \-> datos binarios  \-> datos escalados  \-> Modelo


# Entrenamiento del pipeline

# Entranamiento del pipeline
pipe.fit(train_X, train_y)

#### margen de error!

In [34]:
from sklearn.metrics import mean_squared_error ### CALCULAR ERRORES
# Evaluación R^2 del pipeline
print('R^2:', pipe.score(test_X, test_y), "con 1 el mejor resultado!")

# Uso del modelo y evaluación MSE
pred = pipe.predict(test_X)

print(pred)
print('MSE:', mean_squared_error(test_y, pred), "entre mas grande peor!") #ERRRO CUADRATICO MEDIO
#es una medida del promedio de los cuadrados de los errores entre los valores predichos y los valores observados reales en un conjunto de datos

print("MAE:", mean_absolute_error(test_y, pred), "entre mas grande peor!") #ERROR ABSOLUTO MEDIO!
#es una medida del promedio de los valores absolutos de los errores entre los valores predichos y los valores observados reales en un conjunto de datos
# Si obtienes un resultado de MAE de 21.57, significa que, en promedio, las predicciones de tu modelo se desvían aproximadamente 21.57 unidades de la verdad fundamental en términos absolutos.

R^2: 0.4832023997737551 con 1 el mejor resultado!
[ 67.    94.75  -3.25  26.5   46.25  43.5   69.75  -4.25  31.75  50.75
  61.5   85.75  60.    -1.5   69.    36.5   49.    -2.    17.    87.
  87.    30.75 102.25  45.    24.75  -5.5   17.    78.25  44.25  51.5
  -6.    81.75  59.25  -1.5   33.    -0.5   -3.    25.25  29.5   55.75
  12.25  86.75  32.     4.    68.    68.75  -6.    33.75  43.25   5.
  -4.    64.5   68.    -2.75  37.75  -2.75  32.5   81.25  -7.5   95.5
  45.5   20.25  -2.    68.75  17.25  -2.75  17.5   53.75  33.    95.75
   1.25  55.75  -1.    -2.5   89.75  24.25  -3.5   79.    88.25  -4.25
 -12.75  19.25  -6.25  47.75  30.5   -1.    42.    33.    -3.    27.5
 102.25  20.75  59.5    3.5   18.5   -3.    31.    20.    34.    32.25
  -1.5   -3.    36.5   80.25  30.5   93.75  32.75  30.75  16.5   94.
  68.25 -10.25  26.5   -4.5   -0.75  85.    33.    20.75   2.75  72.75
  55.25  20.    10.5   -2.75  65.75  40.75  35.75   4.75  72.    95.25
  64.75  -1.5    5.    -3.    -0.75 

### Clustering o Analisis de grups!

In [35]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score, calinski_harabasz_score

titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')

# Etapa de one hot encoding
ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')

# Etapa de escalado en rango [0,1]
sca = MinMaxScaler()

# Etapa de clustering
clu = KMeans(n_clusters=3)

# Creación del pipeline
pipe = Pipeline([('ohe', ohe), ('sca', sca), ('clu',clu)])

# Entrenamiento del pipeline
pipe.fit(titanic)
print("Centros de los clústeres:\n", pipe.named_steps['clu'].cluster_centers_)

# Evaluación de los clústeres
print('silhouette_score:', silhouette_score(titanic_2, pipe.named_steps['clu'].labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, pipe.named_steps['clu'].labels_))

Centros de los clústeres:
 [[-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.403603358828354
calinski_harabasz: 369.21898121397436


## Persistencia de modelos

In [36]:
# Salvar un modelo de clustering k-means
import joblib

titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')

ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')
titanic_1 = ohe.fit_transform(titanic)
min_max_scaler = MinMaxScaler()
titanic_2 = min_max_scaler.fit_transform(titanic_1)

clu = KMeans(n_clusters=3)
clu.fit(titanic_2)

print("Centros de los clústeres:\n", clu.cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, clu.labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, clu.labels_))

joblib.dump(clu, '../../data/Cap5/kmeans.pkl')

Centros de los clústeres:
 [[-1.66533454e-16  3.88888889e-02  9.61111111e-01  9.88888889e-01
   4.08333333e-01  2.11111111e-01  3.53602943e-01  1.05555556e-01
   1.01851852e-01  8.62499736e-02]
 [-2.22044605e-16  5.22388060e-02  9.47761194e-01  7.71144279e-02
   7.94776119e-01  8.60696517e-01  3.68528681e-01  1.07462687e-01
   5.97014925e-02  3.77720587e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.39752927745505423
calinski_harabasz: 360.02042405738507


['../../data/Cap5/kmeans.pkl']

In [37]:
# Cargar y utilizar un modelo de clustering k-means
loaded_clu = joblib.load('../../data/Cap5/kmeans.pkl') 

print("Centros de los clústeres:\n", clu.cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, clu.labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, clu.labels_))
clu.transform(titanic_2)

Centros de los clústeres:
 [[-1.66533454e-16  3.88888889e-02  9.61111111e-01  9.88888889e-01
   4.08333333e-01  2.11111111e-01  3.53602943e-01  1.05555556e-01
   1.01851852e-01  8.62499736e-02]
 [-2.22044605e-16  5.22388060e-02  9.47761194e-01  7.71144279e-02
   7.94776119e-01  8.60696517e-01  3.68528681e-01  1.07462687e-01
   5.97014925e-02  3.77720587e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.39752927745505423
calinski_harabasz: 360.02042405738507


array([[1.40876806, 0.30836682, 1.73984874],
       [1.47405462, 2.03919625, 0.77530662],
       [0.65218547, 1.28760181, 1.69060722],
       ...,
       [0.50116407, 1.50446898, 1.6169074 ],
       [1.65462065, 1.84973905, 0.73107457],
       [1.9560748 , 1.37127603, 1.73454341]])

In [38]:
# Salvar pipeline de clustering k-means
titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')

ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')
sca = MinMaxScaler()
clu = KMeans(n_clusters=3)

pipe = Pipeline([('ohe', ohe), ('sca', sca), ('clu',clu)])
pipe.fit(titanic)

print("Centros de los clústeres:\n", pipe.named_steps['clu'].cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, pipe.named_steps['clu'].labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, pipe.named_steps['clu'].labels_))

joblib.dump(pipe, '../../data/Cap5/kmeans_pipeline.pkl')

Centros de los clústeres:
 [[-1.66533454e-16  3.88888889e-02  9.61111111e-01  9.88888889e-01
   4.08333333e-01  2.11111111e-01  3.53602943e-01  1.05555556e-01
   1.01851852e-01  8.62499736e-02]
 [-2.22044605e-16  5.22388060e-02  9.47761194e-01  7.71144279e-02
   7.94776119e-01  8.60696517e-01  3.68528681e-01  1.07462687e-01
   5.97014925e-02  3.77720587e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.39752927745505423
calinski_harabasz: 360.02042405738507


['../../data/Cap5/kmeans_pipeline.pkl']

In [39]:
# Cargar y utilizar un pipeline de clustering k-means
loaded_pipe = joblib.load('../../data/Cap5/kmeans_pipeline.pkl') 

print("Centros de los clústeres:\n", loaded_pipe.named_steps['clu'].cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, loaded_pipe.named_steps['clu'].labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, loaded_pipe.named_steps['clu'].labels_))

Centros de los clústeres:
 [[-1.66533454e-16  3.88888889e-02  9.61111111e-01  9.88888889e-01
   4.08333333e-01  2.11111111e-01  3.53602943e-01  1.05555556e-01
   1.01851852e-01  8.62499736e-02]
 [-2.22044605e-16  5.22388060e-02  9.47761194e-01  7.71144279e-02
   7.94776119e-01  8.60696517e-01  3.68528681e-01  1.07462687e-01
   5.97014925e-02  3.77720587e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.39752927745505423
calinski_harabasz: 360.02042405738507


## Optimización de hiperparámetros

In [40]:
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn import svm
import pandas as pd

# División en train (80%) y test (20%) para clasificación, con clase 'Survived'
titanic = pd.read_csv('../../data/Cap5/titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Survived')

ohe = ColumnTransformer( [("embarked_ohe", OneHotEncoder(categories='auto'), ['Embarked'])], 
                         remainder='passthrough')
train_X_1 = ohe.fit_transform(train_X)

min_max_scaler = MinMaxScaler()
train_X_2 = min_max_scaler.fit_transform(train_X_1)

svc = svm.SVC(gamma='scale')

parameters = {'kernel': ['linear', 'rbf'], 'C':[1,2] }
clf = GridSearchCV(svc, parameters, n_jobs=4, cv=3)
clf.fit(train_X, train_y)

In [41]:
print(clf.best_params_)
print(clf.best_score_)
print(clf.best_estimator_)

print(clf.score(test_X, test_y))
clf.predict(test_X)

{'C': 1, 'kernel': 'linear'}
0.7838577926297225
SVC(C=1, kernel='linear')
0.7622377622377622


array([0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1,
       0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1,
       1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0, 0, 1, 0, 0, 1,
       0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0,
       0, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0], dtype=int64)