# Importar las bibliotecas necesarias
Importar las bibliotecas necesarias, incluyendo seaborn, pandas, numpy, sklearn y matplotlib.

In [None]:
# Importar las bibliotecas necesarias
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import classification_report, confusion_matrix
import matplotlib.pyplot as plt

# Cargar y explorar el conjunto de datos
Cargar el conjunto de datos 'Networks_Components.csv' y explorar su estructura y contenido.

In [None]:
# Cargar el conjunto de datos
df = pd.read_csv('Networks_Components.csv')

# Mostrar las primeras 5 filas del conjunto de datos
print(df.head())

# Mostrar información general sobre el conjunto de datos
print(df.info())

# Mostrar estadísticas descriptivas del conjunto de datos
print(df.describe())

# Mostrar la distribución de los componentes de red según el costo
sns.histplot(data=df, x='costo', kde=True)

# Mostrar la distribución de los componentes de red según la velocidad de red
sns.histplot(data=df, x='velocidad_de_red', kde=True)

# Mostrar la distribución de los componentes de red según el año
sns.histplot(data=df, x='año', kde=True)

# Mostrar la distribución de los componentes de red según la estructura de la red
sns.countplot(data=df, x='estructura_de_la_red')

# Mostrar la distribución de los componentes de red según el número de puertos
sns.countplot(data=df, x='numero_de_puertos')

# Mostrar la matriz de correlación de las características numéricas
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')

plt.show()

# Preprocesamiento de datos
Limpiar y preparar los datos para el análisis, incluyendo la gestión de valores perdidos y la codificación de variables categóricas.

In [None]:
# Preprocesamiento de datos
# Verificar si hay valores perdidos en el conjunto de datos
print(df.isnull().sum())

# Si hay valores perdidos, podemos optar por eliminar las filas con valores perdidos o llenarlas con un valor específico.
# En este caso, vamos a llenar los valores perdidos con la mediana de la columna correspondiente.
df.fillna(df.median(), inplace=True)

# Verificar si se han gestionado correctamente los valores perdidos
print(df.isnull().sum())

# Codificar las variables categóricas
# En este caso, vamos a codificar la variable 'estructura_de_la_red' usando la codificación de etiquetas
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['estructura_de_la_red'] = le.fit_transform(df['estructura_de_la_red'])

# Verificar si se ha realizado correctamente la codificación de las variables categóricas
print(df.head())

# Normalizar las características numéricas para que tengan una media de 0 y una desviación estándar de 1
scaler = StandardScaler()
df[['costo', 'velocidad_de_red', 'año', 'numero_de_puertos']] = scaler.fit_transform(df[['costo', 'velocidad_de_red', 'año', 'numero_de_puertos']])

# Verificar si se ha realizado correctamente la normalización de las características numéricas
print(df.describe())

# Análisis exploratorio de datos
Realizar un análisis exploratorio de los datos para entender las relaciones y patrones en los datos.

In [None]:
# Realizar un análisis exploratorio de los datos
# Mostrar la distribución de los componentes de red según el costo
sns.histplot(data=df, x='costo', kde=True)
plt.title('Distribución de los componentes de red según el costo')
plt.show()

# Mostrar la distribución de los componentes de red según la velocidad de red
sns.histplot(data=df, x='velocidad_de_red', kde=True)
plt.title('Distribución de los componentes de red según la velocidad de red')
plt.show()

# Mostrar la distribución de los componentes de red según el año
sns.histplot(data=df, x='año', kde=True)
plt.title('Distribución de los componentes de red según el año')
plt.show()

# Mostrar la distribución de los componentes de red según la estructura de la red
sns.countplot(data=df, x='estructura_de_la_red')
plt.title('Distribución de los componentes de red según la estructura de la red')
plt.show()

# Mostrar la distribución de los componentes de red según el número de puertos
sns.countplot(data=df, x='numero_de_puertos')
plt.title('Distribución de los componentes de red según el número de puertos')
plt.show()

# Mostrar la matriz de correlación de las características numéricas
plt.figure(figsize=(10, 8))
sns.heatmap(df.corr(), annot=True, cmap='coolwarm')
plt.title('Matriz de correlación de las características numéricas')
plt.show()

# Entrenamiento del modelo de recomendación
Entrenar un modelo de recomendación utilizando los datos preprocesados.

In [None]:
# Dividir el conjunto de datos en conjuntos de entrenamiento y prueba
X = df[['costo', 'velocidad_de_red', 'año', 'estructura_de_la_red', 'numero_de_puertos']]
y = df['recomendacion']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Entrenar el modelo de recomendación
knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train, y_train)

# Evaluar el modelo de recomendación
y_pred = knn.predict(X_test)
print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))

# Evaluación del modelo
Evaluar el rendimiento del modelo de recomendación.

In [None]:
# Evaluación del modelo
# Crear una matriz de confusión para visualizar las predicciones del modelo
cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d')
plt.title('Matriz de confusión')
plt.xlabel('Predicho')
plt.ylabel('Verdadero')
plt.show()

# Calcular la precisión del modelo
accuracy = knn.score(X_test, y_test)
print(f'Precisión del modelo: {accuracy * 100:.2f}%')

# Realizar una validación cruzada para evaluar la eficacia del modelo
from sklearn.model_selection import cross_val_score
scores = cross_val_score(knn, X, y, cv=5)
print(f'Puntuaciones de la validación cruzada: {scores}')
print(f'Promedio de las puntuaciones de la validación cruzada: {scores.mean()}')

# Realizar una búsqueda en cuadrícula para optimizar los parámetros del modelo
from sklearn.model_selection import GridSearchCV
param_grid = {'n_neighbors': np.arange(1, 50)}
knn_gscv = GridSearchCV(knn, param_grid, cv=5)
knn_gscv.fit(X, y)

# Mostrar el mejor parámetro y la mejor puntuación después de la optimización
print(f'Mejor parámetro: {knn_gscv.best_params_}')
print(f'Mejor puntuación: {knn_gscv.best_score_}')

# Generar recomendaciones
Utilizar el modelo entrenado para generar recomendaciones de componentes de red basadas en ciertos patrones, como el costo, la velocidad de red, el año, la estructura de la red y el número de puertos.

In [None]:
# Generar recomendaciones
# Definir los patrones para los que queremos generar recomendaciones
patrones = {
    'costo': 0.5,  # Normalizado
    'velocidad_de_red': 0.7,  # Normalizado
    'año': 0.6,  # Normalizado
    'estructura_de_la_red': 1,  # Codificado
    'numero_de_puertos': 0.8  # Normalizado
}

# Convertir los patrones en un DataFrame para poder usarlos en el modelo
patrones_df = pd.DataFrame([patrones])

# Usar el modelo para generar una recomendación basada en los patrones
recomendacion = knn.predict(patrones_df)

# Imprimir la recomendación
print(f'Recomendación: {recomendacion[0]}')