# Clase 10: Machine Learning 

# Análisis de Datos: Variables Dependientes y Variables Independientes

En el análisis de datos, las variables se suelen clasificar en dos tipos principales: variables dependientes y variables independientes. Aquí tienes una descripción de cada una y su papel en el análisis de datos:

## Variables Independientes

Las variables independientes, también conocidas como variables explicativas o predictoras, son aquellas que se presumen causan o influyen en la variable dependiente. Son las variables que se manipulan o categorizan para observar su efecto en la variable dependiente.

**Ejemplos:**
- En un estudio sobre el rendimiento académico, las variables independientes podrían ser el número de horas de estudio, la asistencia a clases y el uso de recursos adicionales.
- En un análisis de marketing, las variables independientes podrían incluir el presupuesto publicitario, la duración de la campaña y el canal de distribución.

## Variables Dependientes

La variable dependiente es aquella que se presume está siendo afectada o influenciada por las variables independientes. Es la variable de interés que se está intentando predecir o explicar.

**Ejemplos:**
- En el estudio sobre rendimiento académico, la variable dependiente podría ser la calificación obtenida por los estudiantes.
- En el análisis de marketing, la variable dependiente podría ser el número de ventas o la tasa de conversión.

## Relación entre Variables Independientes y Dependientes

El objetivo del análisis de datos es entender cómo las variables independientes afectan a la variable dependiente. Esto se puede lograr mediante diferentes técnicas estadísticas y de modelado, como regresión lineal, análisis de varianza (ANOVA), análisis de regresión logística, entre otros.

**Ejemplo de Regresión Lineal:**
Supongamos que queremos analizar cómo el número de horas de estudio y la asistencia a clases (variables independientes) afectan la calificación de los estudiantes (variable dependiente). Podríamos usar una regresión lineal para modelar esta relación:

Calificación = β0 + β1 * (Horas de Estudio) + β2 * (Asistencia a Clases) + ε


Donde:
- `β0` es la intersección (constante)
- `β1` y `β2` son los coeficientes de las variables independientes
- `ε` es el término de error

## Ejemplo Práctico:

Supongamos que estamos investigando el impacto de la educación y la experiencia laboral en los salarios de los empleados.

- **Variables Independientes:** Nivel de educación (en años), Años de experiencia.
- **Variable Dependiente:** Salario (en dólares).

En este caso, podríamos realizar un análisis de regresión múltiple para determinar cómo cada una de estas variables independientes afecta el salario de los empleados.



# Ejemplo de Regresión Lineal con scikit-learn

Este ejemplo demuestra cómo dividir los datos, ajustar un modelo de regresión lineal, realizar predicciones y calcular la matriz de confusión utilizando la biblioteca scikit-learn en Python.

## Importar las bibliotecas necesarias

```python
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix, mean_squared_error


In [None]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import confusion_matrix, mean_squared_error


## Cargar los datos
Suponiendo que tenemos un DataFrame df con las variables independientes X y la variable dependiente y:

In [None]:
# Ejemplo de datos
df = pd.DataFrame({
    'Horas de Estudio': [1, 2, 3, 4, 5],
    'Asistencia a Clases': [2, 3, 4, 5, 6],
    'Calificación': [3, 4, 5, 6, 7]
})

X = df[['Horas de Estudio', 'Asistencia a Clases']]
y = df['Calificación']


## Dividir los datos en conjuntos de entrenamiento y prueba


In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


## Ajustar el modelo de regresión lineal


In [None]:
model = LinearRegression()
model.fit(X_train, y_train)


## Realizar predicciones


In [None]:
y_pred = model.predict(X_test)


## Calcular la matriz de confusión
Para calcular la matriz de confusión, primero necesitamos convertir las predicciones continuas a categorías. Supongamos que usamos un umbral para clasificar las predicciones:



In [None]:
# Convertir las predicciones y los valores reales a categorías usando un umbral (por ejemplo, 5)
threshold = 5
y_pred_class = np.where(y_pred >= threshold, 1, 0)
y_test_class = np.where(y_test >= threshold, 1, 0)

# Calcular la matriz de confusión
conf_matrix = confusion_matrix(y_test_class, y_pred_class)
print(conf_matrix)


## Calcular el error cuadrático medio (MSE)
Aunque no es una matriz de confusión, es común evaluar el rendimiento de una regresión lineal con el MSE:



In [None]:
mse = mean_squared_error(y_test, y_pred)
print(f'Error Cuadrático Medio (MSE): {mse}')
