# Ejercicio 1: Regresión lineal

Ajustar un modelo de regresión lineal simple. Realizarlos tanto a mano y en python.

Supón que tienes un conjunto de datos que relaciona las horas de estudio con las notas obtenidas en un examen. La tabla de datos es la siguiente:

Unnamed: 0,Horas Estudio,Nota
0,1,50
1,2,53
2,3,58
3,4,60
4,5,63
5,6,65
6,7,70


Queremos ajustar un modelo de regresión lineal simple de la forma:
$$Nota = \beta_0 + \beta_1 \cdot Horas \text{ Estudio} + \epsilon$$
donde:

$\beta_0$ es el término constante.

$\beta_1$ es el coeficiente de Horas Estudio

Además, ya sabemos que:

$$\beta_0 = \bar{y} - \beta_1 \bar{x}, $$
$$ \beta_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2} = \frac{S_{xy}}{S_{xx}}$$


# Ejercicio 2: Regresión Múltiple

Analiza la relación entre varias variables independientes y una variable dependiente utilizando regresión múltiple.

Supongamos que tienes datos sobre el número de horas estudiadas, el número de días asistidos a clase y la calificación obtenida.

| Horas Estudiadas | Días Asistidos | Calificación |
|------------------|----------------|--------------|
| 1                | 5              | 50           |
| 2                | 6              | 55           |
| 3                | 7              | 60           |
| 4                | 8              | 65           |
| 5                | 9              | 70           |


1. **Construye el modelo de regresión múltiple** $y = \beta_0 + \beta_1 x_1 + \beta_2 x_2$ donde $y$ es la calificación, $x_1$ es el número de horas estudiadas y $x_2$ es el número de días asistidos.
   - Calcula la matriz $X$ de variables independientes y la matriz $y$ de variables dependientes.
   - Utiliza la fórmula de los mínimos cuadrados para obtener los coeficientes:

     $$\beta = (X^T X)^{-1} X^T y$$

2. **Predice** la calificación para 4 horas de estudio y 8 días asistidos usando la ecuación obtenida.


In [1]:
# Esta libreria hace uso del metodo OLS(Ordinary Least Squares (Mínimos Cuadrados Ordinarios). 
#Este  método de ajuste se utiliza para estimar los coeficientes de un modelo de regresión lineal.

import pandas as pd
import statsmodels.api as sm

# Datos de ejemplo
data = {
    'Horas Estudio': [1, 2, 3, 4, 5],
    'Dias asistidos': [5, 6, 7, 8, 9],
    'Nota': [50, 55, 60, 65, 70]
}

# Crear DataFrame
df = pd.DataFrame(data)

# Definir variables independientes (X) y dependientes (y)
X = df[['Horas Estudio', 'Dias asistidos']]
y = df['Nota']

# Agregar constante para el término de intersección
X = sm.add_constant(X)

# Ajustar el modelo OLS
model = sm.OLS(y, X).fit()

# Obtener los coeficientes de regresión
coefficients = model.params

# Imprimir los coeficientes
print("Coeficientes de regresión:")
print(coefficients)


# Hacer la predicción
nuevos_datos = pd.DataFrame({
    'const': [1],  # Agregar el término constante
    'Horas Estudio': [4],
    'Dias asistidos': [8]
})

predicciones = model.predict(nuevos_datos)


print("\nPredicciones para los nuevos datos:")
print(predicciones)

# Imprimir el resumen del modelo
print("\nResumen del modelo:")
print(model.summary())

Coeficientes de regresión:
const              3.888889
Horas Estudio     -5.277778
Dias asistidos    10.277778
dtype: float64

Predicciones para los nuevos datos:
0    65.0
dtype: float64

Resumen del modelo:
                            OLS Regression Results                            
Dep. Variable:                   Nota   R-squared:                       1.000
Model:                            OLS   Adj. R-squared:                  1.000
Method:                 Least Squares   F-statistic:                 7.428e+30
Date:                Tue, 27 Aug 2024   Prob (F-statistic):           1.09e-46
Time:                        14:26:37   Log-Likelihood:                 158.09
No. Observations:                   5   AIC:                            -312.2
Df Residuals:                       3   BIC:                            -313.0
Df Model:                           1                                         
Covariance Type:            nonrobust                                         
 

  warn("omni_normtest is not valid with less than 8 observations; %i "


# Ejercicio 3: Clusters

Carga la base de datos USArrests. Obtén los dendrogramas y compara cuales realizan una mejor agrupación. ¿Cuál es el número óptimo de clusters?

- Single linkage agglomerative clustering o método de la liga sencilla o del vecino más cercano.
- Complete linkage agglomerative clustering o método de la liga completa o del vecino más lejano.
- Average linkage agglomerative clustering o métdod de la liga promedio.
- Ward’s minimum variance clustering o método Ward.
- kMeans

In [1]:
pip install statsmodels

Defaulting to user installation because normal site-packages is not writeable
Collecting statsmodels
  Downloading statsmodels-0.14.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (9.2 kB)
Collecting pandas!=2.1.0,>=1.4 (from statsmodels)
  Downloading pandas-2.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (19 kB)
Collecting patsy>=0.5.6 (from statsmodels)
  Using cached patsy-0.5.6-py2.py3-none-any.whl.metadata (3.5 kB)
Collecting pytz>=2020.1 (from pandas!=2.1.0,>=1.4->statsmodels)
  Downloading pytz-2024.1-py2.py3-none-any.whl.metadata (22 kB)
Collecting tzdata>=2022.7 (from pandas!=2.1.0,>=1.4->statsmodels)
  Downloading tzdata-2024.1-py2.py3-none-any.whl.metadata (1.4 kB)
Downloading statsmodels-0.14.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (10.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.8/10.8 MB[0m [31m45.2 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
[?25hDownloading pandas-2.2.2

In [2]:
pip install yellowbrick

Defaulting to user installation because normal site-packages is not writeable
Collecting yellowbrick
  Using cached yellowbrick-1.5-py3-none-any.whl.metadata (7.7 kB)
Collecting matplotlib!=3.0.0,>=2.0.2 (from yellowbrick)
  Downloading matplotlib-3.9.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (11 kB)
Collecting cycler>=0.10.0 (from yellowbrick)
  Downloading cycler-0.12.1-py3-none-any.whl.metadata (3.8 kB)
Collecting contourpy>=1.0.1 (from matplotlib!=3.0.0,>=2.0.2->yellowbrick)
  Downloading contourpy-1.3.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.4 kB)
Collecting fonttools>=4.22.0 (from matplotlib!=3.0.0,>=2.0.2->yellowbrick)
  Downloading fonttools-4.53.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (162 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m162.6/162.6 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hCollecting kiwisolver>=1.3.1 (from matplotlib!=3.0.0,

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn import datasets
from statsmodels.datasets import get_rdataset
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans, AgglomerativeClustering
from sklearn.metrics import silhouette_score, pairwise_distances, ConfusionMatrixDisplay 
from scipy.cluster.hierarchy import dendrogram, linkage, fcluster, cophenet
from scipy.spatial.distance import pdist
from yellowbrick.cluster import KElbowVisualizer

data = get_rdataset('USArrests', package='datasets').data
df = data.dropna()
df.head()

ModuleNotFoundError: No module named 'pandas'

In [4]:
single = linkage(df, method='single')
complete = linkage(df, method='complete')
avg = linkage(df, method='average')
ward = linkage(df, method='ward')

plt.figure(figsize=(10,7))
dendrogram(single,
           orientation='top',
           distance_sort='descending',
           show_leaf_counts=True)
plt.title('Dendrograma del Clustering Jerárquico')
plt.xlabel('Puntos de datos')
plt.ylabel('Distancia')
plt.show()

NameError: name 'linkage' is not defined

In [None]:
plt.figure(figsize=(10,7))
dendrogram(complete,
           orientation='top',
           distance_sort='descending',
           show_leaf_counts=True)
plt.title('Dendrograma del Clustering Jerárquico')
plt.xlabel('Puntos de datos')
plt.ylabel('Distancia')
plt.show()

In [None]:
plt.figure(figsize=(10,7))
dendrogram(avg,
           orientation='top',
           distance_sort='descending',
           show_leaf_counts=True)
plt.title('Dendrograma del Clustering Jerárquico')
plt.xlabel('Puntos de datos')
plt.ylabel('Distancia')
plt.show()

In [None]:
plt.figure(figsize=(10,7))
dendrogram(ward,
           orientation='top',
           distance_sort='descending',
           show_leaf_counts=True)
plt.title('Dendrograma del Clustering Jerárquico')
plt.xlabel('Puntos de datos')
plt.ylabel('Distancia')
plt.show()

In [None]:
x = df.values
scaler = StandardScaler()
x_scaled = scaler.fit_transform(x)

kmeans = KMeans(n_clusters=4, random_state=42)
labels = kmeans.fit_predict(x_scaled)

plt.scatter(x_scaled[:,0], x_scaled[:,1], c = labels, cmap ='viridis')
plt.xlabel(df.columns[0])
plt.ylabel(df.columns[1])
plt.title('K-Means Clustering')
plt.show()

In [None]:
visualizer = KElbowVisualizer(kmeans, k=(2,10))
 
visualizer.fit(x_scaled)  # Fit the data to the visualizer
visualizer.show()        # Finalize and render the figure

# Ejercicio 4: Clusters

Aplicar diferentes técnicas de clusterización jerárquica al conjunto de datos de vino y comparar los resultados.


In [5]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_wine
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA

# Carga de datos
data = load_wine()
X = data.data
feature_names = data.feature_names

# Ejercicio 5: Naive Bayes

Supongamos que eres un investigador que quiere clasificar mensajes de texto como "spam" o "no spam" basándote en la presencia de ciertas palabras clave. Tienes un conjunto pequeño de datos con 6 mensajes de texto etiquetados como "spam" o "no spam". Las palabras clave que estás considerando son: **"oferta"** y **"gratis"**.

| Mensaje                              | Contiene "oferta" | Contiene "gratis" | Etiqueta |
|--------------------------------------|-------------------|-------------------|----------|
| "Ofertas especiales hoy"             | Sí                | No                | Spam     |
| "Llama ahora para obtener tu oferta" | Sí                | No                | Spam     |
| "Descarga gratis"                    | No                | Sí                | Spam     |
| "Agenda tu cita gratis"              | No                | Sí                | No spam  |
| "Ofertas limitadas"                  | Sí                | No                | No spam  |
| "Envía gratis ahora"                 | No                | Sí                | No spam  |

**Pregunta:** Dado un nuevo mensaje que contiene **"oferta"** pero no contiene **"gratis"**, ¿es más probable que sea "spam" o "no spam"? Utiliza Naive Bayes para resolverlo.

In [None]:
import pandas as pd
import numpy as np
data = {
    'Contiene "oferta"': ['Sí','Sí','No','No','Sí','No',],
    'Contiene "gratis"': ['No','No','Sí','Sí','No','Sí',],
    'Etiqueta' : ['Spam','Spam','Spam','No spam','No spam','No spam']
}
df = pd.DataFrame(data)
df[df=='Sí']=1 #Se cambia a variables númericas. 1 es Sí, 2 es No
df[df=='No']=0 #para varibales de respuesta 1 es Spam y 2 es No spam
df[df=='Spam']=1
df[df=='No spam']=0
df

In [None]:
#Se eligen las primeras dos columnas del data frame para las variables de entrada y cambian a tipo entero. P
#La ultima columna corresponde a la variable Y
X_train=df[['Contiene "oferta"','Contiene "gratis"']].values.astype('int32')
y_train=df['Etiqueta'].values.astype('int32')
X_train

In [None]:
from sklearn.naive_bayes import CategoricalNB #Importa Naive bayes
clf = CategoricalNB()
clf.fit(X_train, y_train)


In [None]:
#Predice para 
clf.predict([[1,0]])

In [1]:
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.preprocessing import LabelEncoder

mensajes = [
    "Ofertas especiales hoy",
    "Llama ahora para obtener tu oferta",
    "Descarga gratis",
    "Agenda tu cita gratis",
    "Ofertas limitadas",
    "Envía gratis ahora"
]

etiquetas = ["spam", "spam", "spam", "no spam", "no spam", "no spam"]

vectorizer = CountVectorizer(vocabulary=["oferta", "gratis"])
X = vectorizer.transform(mensajes).toarray()

label_encoder = LabelEncoder()
y = label_encoder.fit_transform(etiquetas)

modelo = MultinomialNB()
modelo.fit(X, y)

nuevo_mensaje = ["oferta"]
X_nuevo = vectorizer.transform(nuevo_mensaje).toarray()

prediccion = modelo.predict(X_nuevo)
etiqueta_predicha = label_encoder.inverse_transform(prediccion)

print(f"El mensaje '{nuevo_mensaje[0]}' es más probable que sea: {etiqueta_predicha[0]}")


El mensaje 'oferta' es más probable que sea: spam


# Ejercicio 6: Clasificación de Correo Spam

_Conjunto de Datos "20 Newsgroups"__

__Tipo de Datos:__ Este conjunto de datos consiste en un conjunto de mensajes de texto tomados de 20 grupos de noticias diferentes en Usenet, que cubren una variedad de temas. Los mensajes están etiquetados con la categoría correspondiente a su grupo de noticias.

__Número de Clases:__ Hay 20 categorías diferentes en el conjunto completo, pero en el ejemplo proporcionado, se limitan a dos categorías relacionadas con deportes: rec.sport.hockey y rec.sport.baseball.

Este conjunto de datos se puede ocupar para tareas de clasificación de texto, como experimentos con algoritmos de machine learning para clasificación de documentos, clasificación de texto y análisis de sentimientos.

newsgroups.data: Contiene los mensajes de texto reales.

newsgroups.target: Contiene los índices numéricos de las categorías a las que pertenecen los mensajes.

newsgroups.target_names: Es una lista de los nombres de las categorías, donde cada nombre corresponde al índice en newsgroups.target.

In [10]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score, classification_report

# Cargar un conjunto de datos de texto
categories = ['rec.sport.hockey', 'rec.sport.baseball']
newsgroups = fetch_20newsgroups(subset='all', categories=categories)

In [None]:
# Ver los primeros 5 mensajes y sus categorías
for i in range(5):
    print(f"Mensaje {i+1}:\n")
    print(newsgroups.data[i])
    print(f"\nCategoría: {newsgroups.target_names[newsgroups.target[i]]}")
    print("-" * 80)

In [None]:
# Convertir texto a matriz de conteo de palabras
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(newsgroups.data)

y = newsgroups.target