<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2024/blob/main/004_machine_learning/%5Bgrupo-b%5DClase10_SIC_AI_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Clase 10: Machine Learning




In [1]:
# Para importar KNeighborsClassifier
# sklearn.<family> import <Algoritmo de machine learning>
from sklearn.neighbors import KNeighborsClassifier

# Instanciar, creo una variable para guardar el algoritmo y posteriormente
# trabajar con él como un objeto o con métodos, etc
# En el ejemplo n_neighbors=5 es un hiperparámetro
knn = KNeighborsClassifier(n_neighbors=3)

# es común que 'n_jobs= -1' para usar todos los procesadores de forma paralela


# Análisis de Datos: Variables Dependientes y Variables Independientes

En el análisis de datos, las variables se suelen clasificar en dos tipos principales: variables dependientes y variables independientes. Aquí tienes una descripción de cada una y su papel en el análisis de datos:

## Variables Independientes

Las variables independientes, también conocidas como variables explicativas o predictoras, son aquellas que se presumen causan o influyen en la variable dependiente. Son las variables que se manipulan o categorizan para observar su efecto en la variable dependiente.

**Ejemplos:**
- En un estudio sobre el rendimiento académico, las variables independientes podrían ser el número de horas de estudio, la asistencia a clases y el uso de recursos adicionales.
- En un análisis de marketing, las variables independientes podrían incluir el presupuesto publicitario, la duración de la campaña y el canal de distribución.

## Variables Dependientes

La variable dependiente es aquella que se presume está siendo afectada o influenciada por las variables independientes. Es la variable de interés que se está intentando predecir o explicar.

**Ejemplos:**
- En el estudio sobre rendimiento académico, la variable dependiente podría ser la calificación obtenida por los estudiantes.
- En el análisis de marketing, la variable dependiente podría ser el número de ventas o la tasa de conversión.

## Relación entre Variables Independientes y Dependientes

El objetivo del análisis de datos es entender cómo las variables independientes afectan a la variable dependiente. Esto se puede lograr mediante diferentes técnicas estadísticas y de modelado, como regresión lineal, análisis de varianza (ANOVA), análisis de regresión logística, entre otros.

**Ejemplo de Regresión Lineal:**
Supongamos que queremos analizar cómo el número de horas de estudio y la asistencia a clases (variables independientes) afectan la calificación de los estudiantes (variable dependiente). Podríamos usar una regresión lineal para modelar esta relación:

Calificación = β0 + β1 * (Horas de Estudio) + β2 * (Asistencia a Clases) + ε


Donde:
- `β0` es la intersección (constante)
- `β1` y `β2` son los coeficientes de las variables independientes
- `ε` es el término de error

## Ejemplo Práctico:

Supongamos que estamos investigando el impacto de la educación y la experiencia laboral en los salarios de los empleados.

- **Variables Independientes:** Nivel de educación (en años), Años de experiencia.
- **Variable Dependiente:** Salario (en dólares).

En este caso, podríamos realizar un análisis de regresión múltiple para determinar cómo cada una de estas variables independientes afecta el salario de los empleados.



# Ejemplo de Regresión Lineal con scikit-learn

Este ejemplo demuestra cómo dividir los datos, ajustar un modelo de regresión lineal, realizar predicciones y calcular la matriz de confusión utilizando la biblioteca scikit-learn en Python.

## Importar las bibliotecas necesarias

```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix, mean_squared_error


In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix, mean_squared_error

## Cargar los datos
Suponiendo que tenemos un DataFrame df con las variables independientes X y la variable dependiente y:

In [3]:
# Ejemplo de datos
df = pd.DataFrame({
    'Horas de Estudio': [1, 2, 3, 4, 5],
    'Asistencia a Clases': [2, 3, 4, 5, 6],
    'Calificación': [3, 4, 5, 6, 7]
})

X = df[['Horas de Estudio', 'Asistencia a Clases']]
y = df['Calificación']


In [4]:
print(X)

   Horas de Estudio  Asistencia a Clases
0                 1                    2
1                 2                    3
2                 3                    4
3                 4                    5
4                 5                    6


In [5]:
print(y)

0    3
1    4
2    5
3    6
4    7
Name: Calificación, dtype: int64


## Dividir los datos en conjuntos de entrenamiento y prueba


In [6]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
# sklearn.model_selection.train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
# Primero son los datos que están en las variables X e y
# Segundo: test_size el % que queda para el test. Por ejemplo si test_size es 0.2 quiere decir que tenemos
# un 80% para entrenamiento y un 20% para testear
 # random_state es una semilla para poder comprar resultados sin perder lo aleatorio
 # shuffle
 # stratify

In [7]:
print(X_train)

   Horas de Estudio  Asistencia a Clases
4                 5                    6
2                 3                    4
0                 1                    2
3                 4                    5


In [8]:
print(X_test)

   Horas de Estudio  Asistencia a Clases
1                 2                    3


In [9]:
print(y_train)

4    7
2    5
0    3
3    6
Name: Calificación, dtype: int64


In [10]:
print(y_test)

1    4
Name: Calificación, dtype: int64


## Ajustar el modelo de regresión lineal


In [11]:
# Instanciar
model = LinearRegression()

In [12]:
# Ajuste del modelo
model.fit(X_train, y_train)

## Realizar predicciones


In [13]:
# Predicción
y_pred = model.predict(X_test)

## Calcular la matriz de confusión
Para calcular la matriz de confusión, primero necesitamos convertir las predicciones continuas a categorías. Supongamos que usamos un umbral para clasificar las predicciones:



In [14]:
# Convertir las predicciones y los valores reales a categorías usando un umbral (por ejemplo, 5)
threshold = 5
y_pred_class = np.where(y_pred >= threshold, 1, 0)
y_test_class = np.where(y_test >= threshold, 1, 0)

# Calcular la matriz de confusión
conf_matrix = confusion_matrix(y_test_class, y_pred_class)
print(conf_matrix)


[[1]]


## Calcular el error cuadrático medio (MSE)
Aunque no es una matriz de confusión, es común evaluar el rendimiento de una regresión lineal con el MSE:



In [15]:
mse = mean_squared_error(y_test, y_pred)
print(f'Error Cuadrático Medio (MSE): {mse}')

Error Cuadrático Medio (MSE): 0.0


# Accuracy

In [16]:
from sklearn.metrics import accuracy_score

In [17]:
# Accuracy
accuracy = accuracy_score(y_test_class, y_pred_class)
print(f'Accuracy: {accuracy}')

Accuracy: 1.0


# Ejemplos de la presentación

In [18]:
# En la presentación nos piden cargar el dataset de https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html#sklearn.datasets.load_breast_cancer
from sklearn.datasets import load_breast_cancer
# Datos importados de la base de juguete

In [19]:
# ver el tipo
type(load_breast_cancer())

In [20]:
# Guardar la base de juguete en la variable data
data = load_breast_cancer()

In [21]:
print(data)

{'data': array([[1.799e+01, 1.038e+01, 1.228e+02, ..., 2.654e-01, 4.601e-01,
        1.189e-01],
       [2.057e+01, 1.777e+01, 1.329e+02, ..., 1.860e-01, 2.750e-01,
        8.902e-02],
       [1.969e+01, 2.125e+01, 1.300e+02, ..., 2.430e-01, 3.613e-01,
        8.758e-02],
       ...,
       [1.660e+01, 2.808e+01, 1.083e+02, ..., 1.418e-01, 2.218e-01,
        7.820e-02],
       [2.060e+01, 2.933e+01, 1.401e+02, ..., 2.650e-01, 4.087e-01,
        1.240e-01],
       [7.760e+00, 2.454e+01, 4.792e+01, ..., 0.000e+00, 2.871e-01,
        7.039e-02]]), 'target': array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 1, 1, 1, 0, 1, 0, 0,
       1, 1, 1, 1, 0, 1, 0, 0, 1, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 0, 0,
       1, 1, 1, 0, 1, 1, 0, 0, 1, 1, 1, 0, 0, 1, 1, 1, 1, 0, 1, 1, 0, 1,
       1, 1, 1, 1, 1, 1, 1, 0, 0, 0, 1, 0, 0, 1, 1, 1, 0, 0, 1, 0, 1, 0,
 

In [22]:
# Convertir en df la variable data
pd.DataFrame(data['data'])
# Esto va a ser nuestra variable independiente::: X

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,20,21,22,23,24,25,26,27,28,29
0,17.99,10.38,122.80,1001.0,0.11840,0.27760,0.30010,0.14710,0.2419,0.07871,...,25.380,17.33,184.60,2019.0,0.16220,0.66560,0.7119,0.2654,0.4601,0.11890
1,20.57,17.77,132.90,1326.0,0.08474,0.07864,0.08690,0.07017,0.1812,0.05667,...,24.990,23.41,158.80,1956.0,0.12380,0.18660,0.2416,0.1860,0.2750,0.08902
2,19.69,21.25,130.00,1203.0,0.10960,0.15990,0.19740,0.12790,0.2069,0.05999,...,23.570,25.53,152.50,1709.0,0.14440,0.42450,0.4504,0.2430,0.3613,0.08758
3,11.42,20.38,77.58,386.1,0.14250,0.28390,0.24140,0.10520,0.2597,0.09744,...,14.910,26.50,98.87,567.7,0.20980,0.86630,0.6869,0.2575,0.6638,0.17300
4,20.29,14.34,135.10,1297.0,0.10030,0.13280,0.19800,0.10430,0.1809,0.05883,...,22.540,16.67,152.20,1575.0,0.13740,0.20500,0.4000,0.1625,0.2364,0.07678
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
564,21.56,22.39,142.00,1479.0,0.11100,0.11590,0.24390,0.13890,0.1726,0.05623,...,25.450,26.40,166.10,2027.0,0.14100,0.21130,0.4107,0.2216,0.2060,0.07115
565,20.13,28.25,131.20,1261.0,0.09780,0.10340,0.14400,0.09791,0.1752,0.05533,...,23.690,38.25,155.00,1731.0,0.11660,0.19220,0.3215,0.1628,0.2572,0.06637
566,16.60,28.08,108.30,858.1,0.08455,0.10230,0.09251,0.05302,0.1590,0.05648,...,18.980,34.12,126.70,1124.0,0.11390,0.30940,0.3403,0.1418,0.2218,0.07820
567,20.60,29.33,140.10,1265.0,0.11780,0.27700,0.35140,0.15200,0.2397,0.07016,...,25.740,39.42,184.60,1821.0,0.16500,0.86810,0.9387,0.2650,0.4087,0.12400


In [30]:
pd.DataFrame(data['target'])
# Esto va a ser nuestra variable dependiente::: y

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0
...,...
564,0
565,0
566,0
567,0


In [31]:
print(data['DESCR'])

.. _breast_cancer_dataset:

Breast cancer wisconsin (diagnostic) dataset
--------------------------------------------

**Data Set Characteristics:**

    :Number of Instances: 569

    :Number of Attributes: 30 numeric, predictive attributes and the class

    :Attribute Information:
        - radius (mean of distances from center to points on the perimeter)
        - texture (standard deviation of gray-scale values)
        - perimeter
        - area
        - smoothness (local variation in radius lengths)
        - compactness (perimeter^2 / area - 1.0)
        - concavity (severity of concave portions of the contour)
        - concave points (number of concave portions of the contour)
        - symmetry
        - fractal dimension ("coastline approximation" - 1)

        The mean, standard error, and "worst" or largest (mean of the three
        worst/largest values) of these features were computed for each image,
        resulting in 30 features.  For instance, field 0 is Mean Radi

In [32]:
# importar slplit de scikitlearn
from sklearn.model_selection import train_test_split

In [33]:
# Entender la función con help
help(train_test_split)

Help on function train_test_split in module sklearn.model_selection._split:

train_test_split(*arrays, test_size=None, train_size=None, random_state=None, shuffle=True, stratify=None)
    Split arrays or matrices into random train and test subsets.
    
    Quick utility that wraps input validation,
    ``next(ShuffleSplit().split(X, y))``, and application to input data
    into a single call for splitting (and optionally subsampling) data into a
    one-liner.
    
    Read more in the :ref:`User Guide <cross_validation>`.
    
    Parameters
    ----------
    *arrays : sequence of indexables with same length / shape[0]
        Allowed inputs are lists, numpy arrays, scipy-sparse
        matrices or pandas dataframes.
    
    test_size : float or int, default=None
        If float, should be between 0.0 and 1.0 and represent the proportion
        of the dataset to include in the test split. If int, represents the
        absolute number of test samples. If None, the value is set to

In [34]:
# contar rows
len(data['data'])

569

In [35]:
len(data.data)

569

In [36]:
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target)
# Split de datos con hiperparámetros con valores por defecto

In [37]:
len(X_train)

426

In [38]:
print(X_train)

[[1.222e+01 2.004e+01 7.947e+01 ... 8.088e-02 2.709e-01 8.839e-02]
 [1.328e+01 2.028e+01 8.732e+01 ... 1.492e-01 3.739e-01 1.027e-01]
 [2.092e+01 2.509e+01 1.430e+02 ... 2.542e-01 2.929e-01 9.873e-02]
 ...
 [9.876e+00 1.727e+01 6.292e+01 ... 5.588e-02 2.989e-01 7.380e-02]
 [1.426e+01 1.817e+01 9.122e+01 ... 7.530e-02 2.636e-01 7.676e-02]
 [1.340e+01 2.052e+01 8.864e+01 ... 2.051e-01 3.585e-01 1.109e-01]]


# Mirando otros datasets

In [23]:
from sklearn.datasets import load_iris

In [24]:
iris = load_iris()

In [26]:
print(iris)

{'data': array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
     

In [27]:
from sklearn.datasets import load_diabetes

In [28]:
diabetes = load_diabetes()

In [29]:
print(diabetes)

{'data': array([[ 0.03807591,  0.05068012,  0.06169621, ..., -0.00259226,
         0.01990749, -0.01764613],
       [-0.00188202, -0.04464164, -0.05147406, ..., -0.03949338,
        -0.06833155, -0.09220405],
       [ 0.08529891,  0.05068012,  0.04445121, ..., -0.00259226,
         0.00286131, -0.02593034],
       ...,
       [ 0.04170844,  0.05068012, -0.01590626, ..., -0.01107952,
        -0.04688253,  0.01549073],
       [-0.04547248, -0.04464164,  0.03906215, ...,  0.02655962,
         0.04452873, -0.02593034],
       [-0.04547248, -0.04464164, -0.0730303 , ..., -0.03949338,
        -0.00422151,  0.00306441]]), 'target': array([151.,  75., 141., 206., 135.,  97., 138.,  63., 110., 310., 101.,
        69., 179., 185., 118., 171., 166., 144.,  97., 168.,  68.,  49.,
        68., 245., 184., 202., 137.,  85., 131., 283., 129.,  59., 341.,
        87.,  65., 102., 265., 276., 252.,  90., 100.,  55.,  61.,  92.,
       259.,  53., 190., 142.,  75., 142., 155., 225.,  59., 104., 182.,
  

# La presentación sigue

In [39]:
# Ejemplo de nla slide 27
# Cragar desde scikit-learn
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier

# Guardar en la variable data el dataset cargado
data = load_breast_cancer()

# Dividir el data en sets de entrenamiento y testeo
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, random_state = 42)

# Instanciar el modelo con el hiperparámetro de criterio de entropía en la variable modelo
model = DecisionTreeClassifier(criterion = 'entropy')

# Ajustar el modelo con el set de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones con el set de testeo
y_pred = model.predict(X_test)

y_pred

array([1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 1,
       0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 0, 1, 1, 0, 1, 1,
       1, 1, 1, 1, 1, 1, 0, 0, 1, 1, 1, 1, 1, 0, 0, 1, 1, 0, 0, 1, 1, 1,
       0, 0, 1, 1, 0, 0, 1, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 0, 0, 0, 0, 0,
       1, 1, 1, 1, 1, 1, 1, 1, 0, 0, 1, 0, 0, 1, 0, 0, 1, 1, 1, 0, 1, 1,
       0, 1, 1, 0, 1, 0, 1, 1, 1, 0, 1, 1, 1, 0, 1, 0, 0, 1, 1, 0, 0, 0,
       1, 1, 1, 0, 0, 1, 1, 0, 1, 0, 1])

In [40]:
# Guardar la predicción en la variable pred
pred = model.predict(X_test)

# imprimer len(pred)
print('len(pred)')
print(len(pred))

# Reshape de pred en 2d
pred_2d = pred.reshape(len(pred),1)
pred_2d

len(pred)
143


array([[1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [0],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
    

In [41]:
# reshape del test y
y_test_2d = y_test.reshape(len(y_test),1)
y_test_2d

array([[1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [0],
       [1],
       [1],
       [0],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [1],
       [0],
    

In [42]:
# Definir dos df uno con las predicciones de y otro con los resultados reales
df1 = pd.DataFrame(pred_2d, columns=['pred'])
df2 = pd.DataFrame(y_test_2d, columns=['real'])

In [43]:
# Concatenar ambos df
pd.concat([df1, df2], axis=1)

Unnamed: 0,pred,real
0,1,1
1,0,0
2,0,0
3,1,1
4,1,1
...,...,...
138,1,1
139,0,0
140,1,1
141,0,0


In [44]:
# df concatenado en una variable pd_concat
pd_concat = pd.concat([df1, df2], axis=1)

# Columnas de pd_concat
pd_concat.columns

Index(['pred', 'real'], dtype='object')

In [45]:
# Comparar ambas columnas
pd_concat['pred'] == pd_concat['real']

0      True
1      True
2      True
3      True
4      True
       ... 
138    True
139    True
140    True
141    True
142    True
Length: 143, dtype: bool

In [None]:
# Quedamos en la slide 35
# Estudiar https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.StandardScaler.html