# NumPy

In [None]:
# Cargamos Numpy y la biblioteca de algebra lineal (linalg)
import numpy as np
from numpy import linalg

np.__version__

In [None]:
# Ejemplo mínimo de NumPy

v = np.array([1,2,3])
print(v)
print(v[1])

m = np.array([[1,2,3],[0,1,4],[5,6,0]])
print(m)
print(m[2,1])

# Multiplicación vector-matriz
print(m @ v)

# Inversa de una matriz
m_inv = linalg.inv(m)
print(m_inv)

# Multiplicación matriz-matriz
print(m @ m_inv)

# Debería dar como valor la matriz identidad, alguno de los elementos son muy cercanos a 0.

# Pandas

## Carga desde fichero

In [1]:
# Pandas como hemos visto es una biblioteca utilizada para el análisis de datos, basada en Numpy.
import pandas as pd
pd.__version__

'1.2.4'

In [4]:
# Carga el fichero de datos de pasajeros del Titanic.
df = pd.read_csv("titanic.csv")

In [None]:
# Lectura de todas las hojas de 'data/Cap5/subvenciones_totales.xls', devuelve un diccionario ordenado (str, DataFrame)
# Con sheet_name = None cargamos todas las hojas del fichero. Y seleccionamos luego la hoja Totales.
subvenciones = pd.read_excel('../../data/Cap 5/subvenciones_totales.xls', sheet_name=None)
print(subvenciones['Totales'])

## Visualizar y extraer información

In [5]:
# Visualizar el principio y final de un DataFrame
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


In [6]:
# Mostrar el principio y final de un DataFrame, en modo texto
print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [7]:
# Índice pandas con las columnas de un DataFrame
df.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

In [8]:
# Tamaño de un DataFrame
df.shape

(891, 12)

In [9]:
# .iloc para seleccionar por posición
# con estos atributos se puede acceder a una porción de la tabla.

print(type(df.iloc))

<class 'pandas.core.indexing._iLocIndexer'>


In [10]:
display(df.iloc[4])   # Fila en la posición 4

PassengerId                           5
Survived                              0
Pclass                                3
Name           Allen, Mr. William Henry
Sex                                male
Age                                35.0
SibSp                                 0
Parch                                 0
Ticket                           373450
Fare                               8.05
Cabin                               NaN
Embarked                              S
Name: 4, dtype: object

In [11]:
display(df.iloc[:2])  # Filas en el rango [0,2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


In [12]:
display(df.iloc[0,0]) # Celda (0,0)

1

In [13]:
display(df.iloc[[0,10,12],3:5]) # Filas 0, 10 y 12, columnas 3:5

Unnamed: 0,Name,Sex
0,"Braund, Mr. Owen Harris",male
10,"Sandstrom, Miss. Marguerite Rut",female
12,"Saundercock, Mr. William Henry",male


In [14]:
# .loc para seleccionar fragmentos de la tabla usando los índices, en el índice horizontal tenemos los nombres de las columnas,
# en el vertical, usualmente tendremos posiciones, empezando por 0. Es más cómodo, usamos nombres y no posiciones.

print(type(df.loc))

<class 'pandas.core.indexing._LocIndexer'>


In [15]:
display(df.loc[0])                # Fila con índice 0

PassengerId                          1
Survived                             0
Pclass                               3
Name           Braund, Mr. Owen Harris
Sex                               male
Age                               22.0
SibSp                                1
Parch                                0
Ticket                       A/5 21171
Fare                              7.25
Cabin                              NaN
Embarked                             S
Name: 0, dtype: object

In [16]:
display(df.loc[0,'Fare'])         # celda de la fila 0 y columna 'Fare'

7.25

In [17]:
display(df.loc[:3, 'Sex':'Fare']) # Filas 0:3 (incluidas) en las columnas entre 'Sex':'Fare' (incluidas)

Unnamed: 0,Sex,Age,SibSp,Parch,Ticket,Fare
0,male,22.0,1,0,A/5 21171,7.25
1,female,38.0,1,0,PC 17599,71.2833
2,female,26.0,0,0,STON/O2. 3101282,7.925
3,female,35.0,1,0,113803,53.1


In [18]:
display(df.loc[:3, ['Sex','Fare','Embarked']]) # Filas 0:3 (incluidas), y las columnas 'Sex','Fare' y 'Embarked'

Unnamed: 0,Sex,Fare,Embarked
0,male,7.25,S
1,female,71.2833,C
2,female,7.925,S
3,female,53.1,S


In [19]:
display(df.loc[df['Age']> 70])    # Filas con 'Age' > 70

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
96,97,0,1,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C
116,117,0,3,"Connors, Mr. Patrick",male,70.5,0,0,370369,7.75,,Q
493,494,0,1,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C
630,631,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0,A23,S
851,852,0,3,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.775,,S


In [20]:
display(df.loc[df['Age']> 70, ['Age','Sex', 'Survived']])    # Filas con 'Age' > 70, mostrar la columna 'Age', Sex' y Survived.

Unnamed: 0,Age,Sex,Survived
96,71.0,male,0
116,70.5,male,0
493,71.0,male,0
630,80.0,male,1
851,74.0,male,0


In [21]:
# Tipos almacenados en cada columna
df.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [22]:
# Descripción de los valores de un DataFrame, podemos ver algunas medidas estadísticas como la media, la desviación típica,
# valores mínimos y máximos e incluso cuartiles. Para cadenas de texto no tiene sentido hablar de medias artiméticas...
# Unique nos indica el número de valores diferentes para una columna (Sex tiene dos valores p.e.), otro dato curioso
# es que no hay nombres repetidos 891. También se incluyen las filas Top para el elemento más repetido, y freq que indica
# el número de repeticiones.
print(df.describe())

       PassengerId    Survived      Pclass         Age       SibSp  \
count   891.000000  891.000000  891.000000  714.000000  891.000000   
mean    446.000000    0.383838    2.308642   29.699118    0.523008   
std     257.353842    0.486592    0.836071   14.526497    1.102743   
min       1.000000    0.000000    1.000000    0.420000    0.000000   
25%     223.500000    0.000000    2.000000   20.125000    0.000000   
50%     446.000000    0.000000    3.000000   28.000000    0.000000   
75%     668.500000    1.000000    3.000000   38.000000    1.000000   
max     891.000000    1.000000    3.000000   80.000000    8.000000   

            Parch        Fare  
count  891.000000  891.000000  
mean     0.381594   32.204208  
std      0.806057   49.693429  
min      0.000000    0.000000  
25%      0.000000    7.910400  
50%      0.000000   14.454200  
75%      0.000000   31.000000  
max      6.000000  512.329200  


https://upload.wikimedia.org/wikipedia/commons/thumb/8/8c/Standard_deviation_diagram.svg/450px-Standard_deviation_diagram.svg.png 

Algunos datos de interés para la edad:
   - La columna Age tiene 714 valores no vacíos, siendo 0.42 el valor mínimo y 80 el valor máximo.
   - La edad media de los pasajeros es de 29.7 años, con una desviación típica de 14.52 (nos da idea de la dispersión).
   - La mediana es de 28 años y el rango intercuartílico está entre 20.125 y 38 años.

In [23]:
# Si queremos que describe incluya todas las columnas, incluidas las no numéricas, le pasamos el parámetro include = 'all'
# Es interesante observar en este caso que aparece la variable unique, nos indica el número de pasajeros, sexo = 2, Embarked = 3; 
# top elemento más repetido y freq las repeticiones de este elemento.
print(df.describe(include='all'))

        PassengerId    Survived      Pclass                           Name  \
count    891.000000  891.000000  891.000000                            891   
unique          NaN         NaN         NaN                            891   
top             NaN         NaN         NaN  Ilmakangas, Miss. Pieta Sofia   
freq            NaN         NaN         NaN                              1   
mean     446.000000    0.383838    2.308642                            NaN   
std      257.353842    0.486592    0.836071                            NaN   
min        1.000000    0.000000    1.000000                            NaN   
25%      223.500000    0.000000    2.000000                            NaN   
50%      446.000000    0.000000    3.000000                            NaN   
75%      668.500000    1.000000    3.000000                            NaN   
max      891.000000    1.000000    3.000000                            NaN   

         Sex         Age       SibSp       Parch    Ticket     

In [24]:
# Código alternativo para calcular valores nulos y únicos

# Valores nulos
for c in df.columns:
    print("Missing values [{0}]:".format(c), df[c].isna().sum())
print()

# Valores únicos    
for c in df.columns:
    print("Unique values [{0}]:".format(c), df[c].unique().size)

Missing values [PassengerId]: 0
Missing values [Survived]: 0
Missing values [Pclass]: 0
Missing values [Name]: 0
Missing values [Sex]: 0
Missing values [Age]: 177
Missing values [SibSp]: 0
Missing values [Parch]: 0
Missing values [Ticket]: 0
Missing values [Fare]: 0
Missing values [Cabin]: 687
Missing values [Embarked]: 2

Unique values [PassengerId]: 891
Unique values [Survived]: 2
Unique values [Pclass]: 3
Unique values [Name]: 891
Unique values [Sex]: 2
Unique values [Age]: 89
Unique values [SibSp]: 7
Unique values [Parch]: 7
Unique values [Ticket]: 681
Unique values [Fare]: 248
Unique values [Cabin]: 148
Unique values [Embarked]: 4


## Transformar DataFrames

In [27]:
# Carga el fichero 
df = pd.read_csv("titanic.csv")

# Elimina columnas no relevantes y filas con valores algún valor vacío, invocamos al método drop y dropna
df = df.drop(columns=['PassengerId', 'Name', 'Ticket','Cabin'])
df = df.dropna()
# Recordad que con el parámetro thresh se puede indicar el mínimo de valores vacíos. En este caso elimino 
# todas las filas que tengan valores vacíos.

# Queremos transformar las columnas que almacenan cadenas de texto para que representen esa información como números naturales.
# Esto funciona de la siguiente forma: 
# Para calcular los valores numéricos lo primero que hacemos es seleccionar la columna, la reinterpretamos 
# como una categoría astype('category') y finalmente nos quedamos con la secuencia de su representación numérica (cat.codes).
# Al reinterpretar la columna como una categoría, se recorren los valores detectando los valores únicos y dándoles 
# una representación numérica única.

df['Sex'] = df['Sex'].astype('category').cat.codes
df['Embarked'] = df['Embarked'].astype('category').cat.codes
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,0,3,1,22.0,1,0,7.2500,2
1,1,1,0,38.0,1,0,71.2833,0
2,1,3,0,26.0,0,0,7.9250,2
3,1,1,0,35.0,1,0,53.1000,2
4,0,3,1,35.0,0,0,8.0500,2
...,...,...,...,...,...,...,...,...
885,0,3,0,39.0,0,5,29.1250,1
886,0,2,1,27.0,0,0,13.0000,2
887,1,1,0,19.0,0,0,30.0000,2
889,1,1,1,26.0,0,0,30.0000,0


De esta forma la columna Sex toma valores 0 y 1; la columna Embarqued toma valores 0, 1, 2.

## Salvar a ficheros

In [29]:
# A formato CSV, con index = False indicamos que no incluya una columna inicial con el índice de cada fila.
# Una vez realizadas todas las transformaciones, lo que hacemos es salvar a disco para poder reutilizarlo cuando queramos.
df.to_csv('titanic_ml.csv', index=False)
# Con index = False, no crea una columna inicial por defecto de índices.

# A formato Excel (XLS y XLSX)
# La hoja se llamará 'Sheet1'
df.to_excel('titanic_ml.xls', index=False) 
df.to_excel('titanic_ml.xlsx', index=False)

  df.to_excel('titanic_ml.xls', index=False)


In [30]:
# Insertar varias hojas en un fichero Excel
writer = pd.ExcelWriter('titanic_2.xlsx')
df.to_excel(writer, sheet_name='Hoja 1', index=False)
df.to_excel(writer, sheet_name='Hoja 2', index=False)
writer.close()

# Aprendizaje automático con Scikit-learn

In [31]:
# Versión de scikit-learn
import sklearn
sklearn.__version__

'0.24.1'

El “Machine Learning” o aprendizaje automático es una rama de la informática que utiliza técnicas matemáticas y estadísticas para desarrollar sistemas que aprenden a partir de conjuntos de datos. El aprendizaje consiste en la detección y extracción de patrones que se observan del conjunto de datos objeto de aprendizaje.

Ejemplo. Detectar que es altamente probable sobrevivir al hundimiento del Titanic si se viajó en primera clase, descubrir que la mayoría de los clientes que compran leche, compran también galletas en el mismo día,…

Los datos por sí solos no nos dicen nada, pero al aprender sobre ellos extraemos conocimiento que nos proporciona un entendimiento más preciso de la realidad y nos permite tomar mejores decisiones.

Atributos nominales, los valores no tienen ninguna noción de orden o lejanía entre ellos, p.e. el deporte favorito de una persona.

Atributos ordinales, los valores tienen un orden y noción de lejanía, p.e. en el caso del Titanic, el atributo Pclass indica la clase de billete adquirida.

Atributos continuos, almacenan valores numéricos arbitrarios en un rango dado, p.e. la edad (Age), el precio del billete (Fare) o el número de hermanos y cónyuges (SibSp).

Atributo clase, dentro del conjunto de atributos nos ayuda a catalogar la instancia, determina el tipo de aprendizaje automático que queremos realizar.

Los tipos de aprendizaje, se clasifican en:

A) Aprendizaje supervisado. Se realiza sobre conjuntos de datos que tienen un atributo clase, se persigue predecir la clase en función de los valores del resto de atributos. Dependiendo del tipo que tenga la clase se pueden distinguir dos familias:

- Clasificación, cuando la clase es un atributo categórico, queremos clasificar una instancia en una de las categorías diferentes a las que puede optar. Un ejemplo sería predecir si un pasajero del Titanic sobrevive o no dependiendo del valor del resto de atributos, en este caso la clase sería el atributo Survived.

- Regresión, cuando la clase es un atributo continuo, queremos predecir un valor continuo a partir del resto de atributos. Un ejemplo sería tratar de predecir el precio del billete pagado por cada pasajero del Titanic, donde la clase sería el atributo Fare. 

B) Aprendizaje no supervisado. Este tipo de aprendizaje se da cuando no disponemos de ningún atributo clase que guíe nuestro aprendizaje, queremos encontrar patrones que aparezcan en nuestro conjunto de datos, un ejemplo podría ser el análisis de grupos que persigue dividir las instancias en conjuntos de elementos similares. Otro ejemplo es poder asociar eventos que ocurren a la vez, por ejemplo el carrito de la compra (cross sell).

Centrándonos en el aprendizaje supervisado, a la hora de aplicar aprendizaje automático para obtener un modelo partimos de un conjunto de datos inicial, lo usual es dividir este conjunto en dos fragmentos separados: el conjunto de entrenamiento y el conjunto de test.

El conjunto de entrenamiento nos servirá para entrenar nuestro algoritmo y obtener el modelo, mientras que el conjunto de test nos servirá para medir la calidad predictiva del modelo generado.

Es importante que el conjunto de entrenamiento y el de test no compartan instancias, lo que queremos es medir lo bien que el conocimiento obtenido durante el entrenamiento se aplica a instancias nuevas no observadas anteriormente.

Se suele realizar un muestreo aleatorio 70-80% de instancias para el entrenamiento y el resto de instancias para la evaluación de la calidad (test).

## Preprocesado

En algunas ocasiones no necesitaremos utilizar todas las columnas para realizar el aprendizaje automático, por ello, el primer paso consiste en realizar la selección de los atributos que más nos interese. Por ejemplo, el fichero Titanic contiene 11 atributos más la clase, pero no todos parecen demasiado útiles, el nombre de cada persona podríamos omitirlo, acaso llamarse Eufemio puede aumentar la probabilidad de sobrevivir a un naufragio?

En otras ocasiones nos podemos encontrar con atributos que no parecen muy relevantes, pero de los que quizá se pueda extraer información interesante. El camarote donde viajaba un pasajero es una cadena de texto con un identificador alfanumérico, podemos extraer esa información y analizar en la cubierta en que estaba el camarote, distancia hasta el bote de emergencia, personas alojadas en el camarote. 

Otro paso importante es decidir qué hacer con los valores vacíos, una opción es asignar un valor concreto a estos valores vacíos, usando el valor promedio del atributo, el valor máximo o la moda. Esta transformación se conoce como imputer.


In [32]:
# Función para partir un DataFrame en train+test y separar también la columna clase
from sklearn.model_selection import train_test_split

# Utilizamos el método train_test_split para dividir el conjunto original
# Cada uno de estos conjuntos será un Dataframe de pandas.
# Luego procedemos a separarlos train_y, test_y serán objetos Series
# train_x, text_x serán objetos Dataframe
# split_label acepta como parámetros el dataframe, una proporción que formará parte del conjunto test y el nombre de la clase
# nos devuelve 4 conjunto de datos.

def split_label(df, test_size, label):
# Utilizando el método train_test_split, dividimos el conjunto df en train y test, donde test tendrá una proporción test_size
# sobre el conjunto de datos original.

    train, test = train_test_split(df, test_size=test_size)

# Como df.columns nos devuelve un índice de Pandas con todas las columnas, eliminamos la columna label.
    features = df.columns.drop(label)

# Nos quedamos con train y test, pero a su vez dividmos en X para los atributos e Y para la clase.

    train_X = train[features]
    train_y = train[label]
    test_X = test[features]
    test_y = test[label]
    
    return train_X, train_y, test_X, test_y   

In [34]:
# División en train (80%) y test (20%) para clasificación, con clase 'Survived'
titanic = pd.read_csv('titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Survived')

# train_X y test_X son DataFrames
# train_y y test_y son Series

print(train_X.shape)
print(test_X.shape)

print(train_y.shape)
print(test_y.shape)

(569, 7)
(143, 7)
(569,)
(143,)


In [35]:
# One hot encoding de la columna 'Embarked'
# Realizamos dos pasos de preprocesado, one hot encoding
# En nuestro caso queremos codificar el atributo Embarked, indicamos el índice de dicho atributo.
# Por ejemplo Embarqued = Q, S, C, creamos tres nuevos atributos, de forma que si Embarqued = Q, 
# Embarqued_Q = 1, Embarqued_S = 0, Embarqued_C = 0.
# Con esto conseguimos que no haya diferencias para un algortimo de aprendizaje entre los embarques.
# Y utilizar la información de embarque con otros análisis con datos complementarios.

# from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import LabelEncoder, OneHotEncoder
from sklearn.compose import ColumnTransformer

# get_loc nos sirve para obtener el índice de la columna Embarked de nuestro DataFrame.

index_Embarked = train_X.columns.get_loc('Embarked')
print(index_Embarked)

# Transformamos train_X con el método fit_transform detectando los distintos valores de la columna
# generando el conjunto de datos train_X_1

# Con sparse = False indicamos que el objeto de salida sea un ndarray en lugar de matrices.
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0,  remainder = 'passthrough')

# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)

train_X_1 = ohe.fit_transform(train_X)

# train_X_1 es un objeto ndarray de tamaño (569, 9) y tipo float64
print(type(train_X_1))
print(train_X_1.shape)
print(train_X_1.dtype)


print(type(train_X))
print(train_X.shape)

6
<class 'numpy.ndarray'>
(569, 9)
float64
<class 'pandas.core.frame.DataFrame'>
(569, 7)


In [36]:
# Muestra las 3 primeras entradas de train_X_1
for i in range(3): 
    print(train_X_1[i])

[ 0.    0.    1.    1.    1.   45.    0.    0.   26.55]
[ 0.    0.    1.    3.    1.   19.    0.    0.    7.65]
[ 0.  0.  1.  2.  0. 40.  0.  0. 13.]


In [37]:
# En esta segunda fase de preprocesado, realizamos un escalado al rango [0,1] de todos los atributos
from sklearn.preprocessing import MinMaxScaler

min_max_scaler = MinMaxScaler()
train_X_2 = min_max_scaler.fit_transform(train_X_1)

print(type(train_X_2))
print(train_X_2.shape)
print(train_X_2.dtype)

# Muestra las 3 primeras entradas de train_X_2
for i in range(3): 
    print(train_X_2[i])

<class 'numpy.ndarray'>
(569, 9)
float64
[0.         0.         1.         0.         1.         0.560191
 0.         0.         0.05182215]
[0.         0.         1.         1.         1.         0.23347575
 0.         0.         0.01493181]
[0.         0.         1.         0.5        0.         0.49736115
 0.         0.         0.02537431]


Por ejemplo, para un dataset, podemos analizar el valor mínimo y máximo observable con valores entre 30 y -10. Podemos normalizar cualquier valor, p.e. 18.8 como sigue:

- y = (x – min) / (max – min);
- y = (18.8 – (-10)) / (30 – (-10));
- y = 28.8 / 40;
- y = 0.72

## Clasificación

https://es.wikipedia.org/wiki/M%C3%A1quinas_de_vectores_de_soporte

In [38]:
from sklearn.svm import SVC

# Lo primero que vamos a utilizar es crear un objeto clasificador y entrenarlo.
# Entrenamiento basado en Support Vector Machines, a partir de la ejecución de clf.fit el objeto clf estará entrenado
# y nos servirá para clasificar nuevas instancias; train_y representa la columna Survived, train_X_2 lo hemos normalizado 
# y aplicamos clf.fit sobre ambos conjuntos, cuántos sobrevivieron dependiendo de los atributos train_X_2??

clf = SVC()
clf.fit(train_X_2, train_y)

# Transformación del conjunto de test (one hot encoding y escalado) al número de instancias 9 
# El conjunto de instancias test_X es transformado con ohe, y después con min_max_scaler, generando 9 atributos test_X_2
print(test_X.shape)
test_X_2 = min_max_scaler.transform(ohe.transform(test_X))
print(test_X_2.shape)

# Evaluación del modelo mediante precisión
print("Precisión sobre test:", clf.score(test_X_2, test_y)) 

# Uso del modelo, clf.predict(test_X_2) nos da las predicciones sobre el modelo, test_y los valores reales (si sobrevivió o no)
clf.predict(test_X_2)
clf.score(test_X_2, test_y)

# Esta función nos dará una tasa de aciertos de casi el 80% (ver resultado) en nuestro conjunto de 143 instancias de test.

(143, 7)
(143, 9)
Precisión sobre test: 0.7622377622377622


0.7622377622377622

In [39]:
# Clasificación usando kNN, k-vecinos más cercanos.
from sklearn.neighbors import KNeighborsClassifier

clf = KNeighborsClassifier()
clf.fit(train_X_2, train_y)

# Evaluación del modelo mediante precisión
print("Precisión sobre test:", clf.score(test_X_2, test_y)) 

Precisión sobre test: 0.7482517482517482


## Regresión

En este caso debemos seleccionar un atributo continuo como clase, podría ser Fare (el importe del billete)... Vamos a tratar de predecir en este caso la tarifa pagada en función del resto de atributos.

In [41]:
# Regresión lineal
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, mean_absolute_error


# separación train-test con clase 'Fare'
titanic = pd.read_csv('titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Fare')

# one hot encoding
index_Embarked = train_X.columns.get_loc('Embarked')
# Con sparse = False indicamos que el objeto de salida sea un ndarray en lugar de matrices.
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')

train_X_1 = ohe.fit_transform(train_X)

# Escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()
train_X_2 = min_max_scaler.fit_transform(train_X_1)

# Entrenamiento
# Utilizaremos la regresión lineal sobre el conjunto de datos de entrenamiento.
# Y entrenaremos al conjunto de datos con el método fit y así comprobar la calidad del modelo generado.
reg = LinearRegression()
reg.fit(train_X_2, train_y)

# Transformación del conjunto de test (one hot encoding y escalado)
test_X_2 = min_max_scaler.transform(ohe.transform(test_X))

# Evaluación del modelo mediante métrica R^2 y MSE
# Utilizamos el error cuadrático medio o el error absoluto medio.
print("R^2:", reg.score(test_X_2, test_y)) 

# Uso y evaluación del modelo con MSE (error cuadrático medio) y MAE (error absoluto medio), pasamos como parámetros 
# los valores test_y (reales) y pred (predichos)
pred = reg.predict(test_X_2)
print("MSE:", mean_squared_error(test_y, pred))
print("MAE:", mean_absolute_error(test_y, pred))

# Según el error absoluto medio la regresión lineal obtiene resultados que se alejan unas 20 libras del precio real.
# Considerando que los precios de los billetes están entre 0 y 513 libras, parece un modelo suficientemente preciso.

R^2: 0.5208260328145933
MSE: 720.0385750459442
MAE: 20.252416083916085


In [42]:
# Regresión usando kNN
from sklearn.neighbors import KNeighborsRegressor

    reg = LinearRegression()
    reg.fit(train_X_2, train_y)

# Evaluación del modelo mediante métrica R^2
print("R^2:", reg.score(test_X_2, test_y)) 

# Uso y evaluación del modelo con MSE y MAE
pred = reg.predict(test_X_2)
print("MSE:", mean_squared_error(test_y, pred))
print("MAE:", mean_absolute_error(test_y, pred))

IndentationError: unexpected indent (<ipython-input-42-147818a03940>, line 4)

## Clustering (algoritmo no supervisado)

Vamos a dividir el conjunto de datos de los pasajeros del Titanic en conjuntos de pasajeros similares, con ello realizaremos un análisis de grupos. Uno de los algoritmos más utilizados para este tipo de aprendizaje es KMeans.
Este es un algoritmo iterativo que particiona las instancias en k grupos disjuntos, el valor de k es fijado por el usuario, de forma que se van refinando iterativamente hasta que los grupos no cambian. En cada iteracción se calcula el centroide del grupo, es decir, la instancia promedio que en cada atributo toma como valor la media aritmética de los valores de dicho atributo en todas las instancias del grupo. Una vez calculados los k-centroides, divide las instancias en los k grupos asignando cada una al centroide más cercano.
En el caso de los pasajeros del Titanic, no tenemos un atributo clase que haya que separar, luego aplicar k-means es relativamente sencillo.

In [43]:
from sklearn.cluster import KMeans
# from sklearn.metrics import silhouette_score, calinski_harabaz_score
from sklearn.metrics import silhouette_score, calinski_harabasz_score


titanic = pd.read_csv('titanic_ml.csv')

# one hot encoding
index_Embarked = titanic.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')

titanic_1 = ohe.fit_transform(titanic)

# Escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()
titanic_2 = min_max_scaler.fit_transform(titanic_1)

# Clustering
clu = KMeans(n_clusters=3)
clu.fit(titanic_2)
print("Centros de los clústeres:\n", clu.cluster_centers_)

# Evaluación de los clústeres
print('silhouette_score:', silhouette_score(titanic_2, clu.labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, clu.labels_))

# Comprobar distancia a cada centroide para las instancias de titanic_2 (podrían ser otro conjunto de datos)
clu.transform(titanic_2)

Centros de los clústeres:
 [[-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.40360335882884407
calinski_harabasz: 369.21898121397436


array([[1.31150832, 0.31789029, 1.73984874],
       [1.52274362, 2.0626726 , 0.77530662],
       [0.62284202, 1.33998748, 1.69060722],
       ...,
       [0.62174709, 1.53881024, 1.6169074 ],
       [1.62637004, 1.88275404, 0.73107457],
       [1.88829988, 1.37090166, 1.73454341]])

## Pipelines

### Clasificación

In [45]:
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC

## Preprocesado

# División en train (80%) y test (20%) para clasificación, con clase 'Survived'
titanic = pd.read_csv('titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Survived')

# Etapa one hot encoding
index_Embarked = train_X.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')


# Etapa de escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()

# Etapa de clasificación
svm = SVC()

# Creación del pipeline
pipe = Pipeline([('ohe', ohe), ('sca', min_max_scaler), ('clf', svm)])

# Entranamiento del pipeline
pipe.fit(train_X, train_y)

# Evaluación del pipeline
print('precisión:', pipe.score(test_X, test_y))

# Uso del modelo
pipe.predict(test_X)

precisión: 0.7972027972027972


array([0, 1, 0, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0, 0, 1, 0, 1, 0, 1,
       0, 0, 0, 0, 1, 0, 1, 0, 0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 1, 0, 0, 1,
       0, 1, 0, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 1, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1], dtype=int64)

### Regresión

In [46]:
# Pipeline para regresión

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import MinMaxScaler
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

## Preprocesado

# División en train (80%) y test (20%) para clasificación, con clase 'Fare'
titanic = pd.read_csv('titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Fare')

# Etapa de one hot encoding
index_Embarked = train_X.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')

# Etapa de escalado de atributos al rango [0,1]
min_max_scaler = MinMaxScaler()

# Etapa de regresión
lin = LinearRegression()

# Creación del pipeline
pipe = Pipeline([('ohe', ohe), ('sca', min_max_scaler), ('reg', lin)])

# Entranamiento del pipeline
pipe.fit(train_X, train_y)

# Evaluación R^2 del pipeline
print('R^2:', pipe.score(test_X, test_y))

# Uso del modelo y evaluación MSE
pred = pipe.predict(test_X)
print(pred)
print('MSE:', mean_squared_error(test_y, pred))
print("MAE:", mean_absolute_error(test_y, pred))

R^2: 0.30926073932241327
[ 25.515625  13.578125  66.53125   65.640625  74.671875  85.0625
  46.390625  73.671875  37.796875  -5.109375  -2.453125  72.21875
   4.03125   33.296875  29.328125  82.796875   1.125     40.09375
  11.953125  -3.234375  78.234375  84.59375   83.21875   55.609375
   1.140625  -8.140625  -2.078125  40.5625    11.015625  58.25
  55.984375  12.515625  81.015625  -2.265625  44.328125  72.6875
  -6.265625  -2.265625  26.296875  -5.296875  -3.421875  62.046875
  -2.265625  22.984375  -2.859375   4.984375  61.71875   46.84375
  33.109375  30.140625   9.734375  90.984375  -5.515625  61.84375
  32.171875  28.921875  16.75      79.578125  32.46875   -4.734375
  -2.453125  33.984375   5.5625    26.484375   4.734375  17.5625
  86.1875    80.140625  82.6875    95.234375 -10.234375  24.59375
  53.890625  -5.515625  52.328125  -2.453125  12.109375  21.359375
  46.625     84.28125   32.921875  87.5625    -7.015625  34.234375
  64.703125  -2.859375  -6.640625  27.234375  33.406

### Clustering

In [47]:
from sklearn.pipeline import Pipeline
from sklearn.cluster import KMeans

titanic = pd.read_csv('titanic_ml.csv')

# Etapa de one hot encoding
index_Embarked = titanic.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categories = 'auto', categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')

# Etapa de escalado en rango [0,1]
sca = MinMaxScaler()

# Etapa de clustering
clu = KMeans(n_clusters=3)

# Creación del pipeline
pipe = Pipeline([('ohe', ohe), ('sca', sca), ('clu',clu)])

# Entrenamiento del pipeline
pipe.fit(titanic)
print("Centros de los clústeres:\n", pipe.named_steps['clu'].cluster_centers_)

# Evaluación de los clústeres
print('silhouette_score:', silhouette_score(titanic_2, pipe.named_steps['clu'].labels_))
print('calinski_harabaz:', calinski_harabasz_score(titanic_2, pipe.named_steps['clu'].labels_))

Centros de los clústeres:
 [[ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]
 [-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]]
silhouette_score: 0.40360335882884407
calinski_harabaz: 369.21898121397425


## Persistencia de modelos

In [49]:
# Salvar un modelo de clustering k-means
# from sklearn.externals import joblib

#import sklearn.external.joblib as extjoblib
import joblib

titanic = pd.read_csv('titanic_ml.csv')

index_Embarked = titanic.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')

titanic_1 = ohe.fit_transform(titanic)
min_max_scaler = MinMaxScaler()
titanic_2 = min_max_scaler.fit_transform(titanic_1)

clu = KMeans(n_clusters=3)
clu.fit(titanic_2)

print("Centros de los clústeres:\n", clu.cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, clu.labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, clu.labels_))

joblib.dump(clu, 'kmeans.pkl')

Centros de los clústeres:
 [[-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]
 [-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.40360335882884407
calinski_harabasz: 369.21898121397436


['kmeans.pkl']

In [50]:
# Cargar y utilizar un modelo de clustering k-means
loaded_clu = joblib.load('kmeans.pkl') 

print("Centros de los clústeres:\n", clu.cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, clu.labels_))
print('calinski_harabasz:', calinski_harabasz_score(titanic_2, clu.labels_))
clu.transform(titanic_2)

Centros de los clústeres:
 [[-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]
 [-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.40360335882884407
calinski_harabasz: 369.21898121397436


array([[0.31789029, 1.31150832, 1.73984874],
       [2.0626726 , 1.52274362, 0.77530662],
       [1.33998748, 0.62284202, 1.69060722],
       ...,
       [1.53881024, 0.62174709, 1.6169074 ],
       [1.88275404, 1.62637004, 0.73107457],
       [1.37090166, 1.88829988, 1.73454341]])

In [52]:
# Salvar pipeline de clustering k-means
titanic = pd.read_csv('titanic_ml.csv')

index_Embarked = titanic.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')

sca = MinMaxScaler()
clu = KMeans(n_clusters=3)

pipe = Pipeline([('ohe', ohe), ('sca', sca), ('clu',clu)])
pipe.fit(titanic)

print("Centros de los clústeres:\n", pipe.named_steps['clu'].cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, pipe.named_steps['clu'].labels_))
print('calinski_harabaz:', calinski_harabasz_score(titanic_2, pipe.named_steps['clu'].labels_))

joblib.dump(pipe, 'kmeans_pipeline.pkl')

Centros de los clústeres:
 [[-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.40360335882884407
calinski_harabaz: 369.21898121397436


['kmeans_pipeline.pkl']

In [53]:
# Cargar y utilizar un pipeline de clustering k-means
loaded_pipe = joblib.load('kmeans_pipeline.pkl') 

print("Centros de los clústeres:\n", loaded_pipe.named_steps['clu'].cluster_centers_)
print('silhouette_score:', silhouette_score(titanic_2, loaded_pipe.named_steps['clu'].labels_))
print('calinski_harabaz:', calinski_harabasz_score(titanic_2, loaded_pipe.named_steps['clu'].labels_))

Centros de los clústeres:
 [[-1.94289029e-16  3.79146919e-02  9.62085308e-01  9.90521327e-01
   4.95260664e-01  3.27014218e-01  3.43576883e-01  9.95260664e-02
   9.47867299e-02  7.78150129e-02]
 [-2.49800181e-16  5.39083558e-02  9.46091644e-01  1.05471187e-15
   7.77628032e-01  8.49056604e-01  3.75477998e-01  1.11051213e-01
   6.01976640e-02  3.85185852e-02]
 [ 1.00000000e+00  6.93889390e-18  6.66133815e-16  6.07692308e-01
   3.73076923e-01  5.30769231e-01  3.81939799e-01  8.46153846e-02
   6.92307692e-02  1.33306411e-01]]
silhouette_score: 0.40360335882884407
calinski_harabaz: 369.21898121397436


## Optimización de hiperparámetros

In [54]:
from sklearn.model_selection import GridSearchCV
from sklearn.preprocessing import OneHotEncoder, MinMaxScaler
from sklearn import svm
import pandas as pd

# División en train (80%) y test (20%) para clasificación, con clase 'Survived'
titanic = pd.read_csv('titanic_ml.csv')
train_X, train_y, test_X, test_y = split_label(titanic, 0.2, 'Survived')

index_Embarked = train_X.columns.get_loc('Embarked')
# ohe = OneHotEncoder(categorical_features=[index_Embarked], sparse=False)
ohe = ColumnTransformer([("Embarked", OneHotEncoder(), [index_Embarked])], sparse_threshold = 0, remainder = 'passthrough')
train_X_1 = ohe.fit_transform(train_X)

min_max_scaler = MinMaxScaler()
train_X_2 = min_max_scaler.fit_transform(train_X_1)

svc = svm.SVC()

parameters = {'kernel': ['linear', 'rbf'], 'C':[1,2] }
clf = GridSearchCV(svc, parameters, n_jobs=4)
clf.fit(train_X, train_y)

GridSearchCV(estimator=SVC(), n_jobs=4,
             param_grid={'C': [1, 2], 'kernel': ['linear', 'rbf']})

In [55]:
print(clf.best_params_)
print(clf.best_score_)
print(clf.best_estimator_)

print(clf.score(test_X, test_y))
clf.predict(test_X)

{'C': 1, 'kernel': 'linear'}
0.783822387827977
SVC(C=1, kernel='linear')
0.7622377622377622


array([1, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 0, 0, 1, 0, 1, 0, 1, 1, 1, 0,
       0, 1, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1,
       1, 1, 0, 0, 0, 0, 1, 1, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0,
       0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 1,
       1, 1, 0, 0, 0, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 0,
       0, 1, 0, 0, 1, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 0,
       0, 0, 0, 1, 0, 0, 1, 0, 1, 0, 1], dtype=int64)