In [None]:
import numpy as np
import pandas as pd

In [None]:
def leer_csv_a_dataframe(file_path):
    """
    Reads a CSV file from the given file path and returns a DataFrame.
    
    Parameters:
    - file_path (str): Path to the CSV file.
    
    Returns:
    - pd.DataFrame: DataFrame containing the CSV data.
    """
    try:
        # Read the CSV file into a DataFrame
        df = pd.read_csv(file_path)
        print("DataFrame created successfully!")
        return df
    except FileNotFoundError:
        print(f"Error: The file at {file_path} was not found.")
    except pd.errors.EmptyDataError:
        print("Error: The CSV file is empty.")
    except pd.errors.ParserError:
        print("Error: The CSV file could not be parsed.")
    except Exception as e:
        print(f"An error occurred: {e}")

In [None]:
# definicion del ETL
# cargando datos en el DataFrame de pandas
df = leer_csv_a_dataframe('data/scrap_price.csv')
print(df.head())

In [None]:
# paso de perfilado de datos
df.describe()

In [None]:
df.dtypes

In [None]:
print(
    "Columnas numericas: ", df.select_dtypes(include=['number']).shape[1],
    "Columnas de texto: ", df.select_dtypes(include=['object']).shape[1]
)

In [None]:
# Identifica la cuenta de NaN por columna
nan_conteo = df.isna().sum()

# Imprime las cuentas de NaN por columna
for columna, cuenta in nan_conteo.items():
    if cuenta > 0:
        print(f"Columna '{columna}' tiene {cuenta} NaN(s).")
    else:
        print(f"No hay NaN(s) en {columna}")

In [None]:
import matplotlib.pyplot as plt

def graficar_valores_unicos_por_columna(df, columnas=None, graficos_por_linea=3):
    """
    Genera gráficos de barras para los valores únicos de cada columna de un DataFrame.
    
    Args:
        df (pd.DataFrame): DataFrame a analizar.
        columnas (list): Lista de columnas a procesar (opcional, por defecto se procesan todas las columnas).
        graficos_por_linea (int): Número de gráficos por línea (default: 3).
    """
    # Usar todas las columnas si no se especifican
    if columnas is None:
        columnas = df.columns
    
    num_columnas = len(columnas)
    filas = (num_columnas + graficos_por_linea - 1) // graficos_por_linea  # Número total de filas necesarias
    
    # Crear los subplots
    fig, axes = plt.subplots(filas, graficos_por_linea, figsize=(15, 5 * filas))
    axes = axes.flatten()  # Aplanar para acceder a cada subplot de forma sencilla
    
    for i, columna in enumerate(columnas):
        # Contar valores únicos
        conteo = df[columna].value_counts()
        
        # Crear gráfico de barras
        axes[i].bar(conteo.index, conteo.values, color='skyblue')
        axes[i].set_title(f"Columna: {columna}")
        axes[i].set_xlabel("Valor")
        axes[i].set_ylabel("Frecuencia")
        axes[i].tick_params(axis='x', rotation=45)  # Rotar etiquetas del eje X para claridad
    
    # Desactivar los gráficos vacíos (si hay menos columnas que subplots)
    for j in range(i + 1, len(axes)):
        axes[j].axis("off")
    
    plt.tight_layout()
    plt.show()
        
graficar_valores_unicos_por_columna(df)

# data is OK, is useful for analysis

Estas variables son del tipo cualitativo
name                 object
fueltypes            object
aspiration           object
doornumbers          object
carbody              object
drivewheels          object
enginelocation       object
enginetype           object
cylindernumber       object
fuelsystem           object

***Estas son cuantitativas:
ID                    int64
symboling             int64
wheelbase           float64
carlength           float64
carwidth            float64
carheight           float64
curbweight            int64
enginesize            int64
boreratio           float64
stroke              float64
compressionratio    float64
horsepower            int64
peakrpm               int64
citympg               int64
highwaympg            int64
price               float64

Hay que analizar si pasamos estas variables a cuantitativas por medio de un mapeo, para ello hay que analizar los valores para ver si son una escala o tipos sintacticos
Fama4576


In [None]:
def listar_valores_unicos(df, columnas=None):
    """
    Lista los valores únicos de un grupo de columnas en un DataFrame.
    
    Args:
        df (pd.DataFrame): DataFrame a analizar.
        columnas (list): Lista de columnas a procesar (opcional, por defecto analiza todas las columnas).
    
    Returns:
        dict: Un diccionario donde las claves son los nombres de las columnas y los valores son las listas de valores únicos.
    """
    if columnas is None:
        columnas = df.columns  # Si no se especifican columnas, usa todas las columnas del DataFrame
    
    valores_unicos = {}
    
    for columna in columnas:
        valores_unicos[columna] = df[columna].unique().tolist()  # Obtiene los valores únicos y los convierte a lista
    
    return valores_unicos

# Imprime columnas cualitativas
columnas_a_analizar = []
for columna in df.select_dtypes(include=['object']):
    columnas_a_analizar.append(columna)

#columnas_a_analizar
valores_unicos = listar_valores_unicos(df, columnas_a_analizar)
valores_unicos

# Imprimir los valores únicos
for columna, valores in valores_unicos.items():
    print(f"Valores únicos en '{columna}': {valores}")

Name no es un buen candidato a variable cualitativa
Las demas si se puede mapear a una escala de numeros

In [None]:
from sklearn.preprocessing import LabelEncoder

def convertir_columnas_cadenas_a_numeros(df, columnas, metodo='ordinal', mapeos_existentes=None):
    """
    Convierte columnas de cadenas de caracteres en un DataFrame a valores numéricos.
    
    Args:
        df (pd.DataFrame): DataFrame original.
        columnas (list): Lista de nombres de las columnas a convertir.
        metodo (str): Método de conversión ('ordinal' o 'manual').
        mapeos_existentes (dict): Diccionario de mapeos existentes (opcional para el método manual).
    
    Returns:
        pd.DataFrame: DataFrame con las columnas convertidas a valores numéricos.
        dict: Diccionario con los mapeos usados para cada columna.
    """
    nuevo_df = df.copy()
    mapeos = {}

    for columna in columnas:
        if metodo == 'manual':
            if mapeos_existentes is None or columna not in mapeos_existentes:
                raise ValueError(f"Debe proporcionar un mapeo para la columna '{columna}'.")
            mapeo = mapeos_existentes[columna]
            nuevo_df[columna] = nuevo_df[columna].map(mapeo)
            mapeos[columna] = mapeo
        
        elif metodo == 'ordinal':
            le = LabelEncoder()
            nuevo_df[columna] = le.fit_transform(nuevo_df[columna])
            mapeos[columna] = {categoria: indice for indice, categoria in enumerate(le.classes_)}
        
        else:
            raise ValueError("Método no soportado. Use 'ordinal' o 'manual'.")
    
    return nuevo_df, mapeos

columnas_a_convertir = ['fueltypes','aspiration','doornumbers','carbody', 'drivewheels','enginelocation','enginetype','cylindernumber','fuelsystem']
# Convertir las columnas a números
df_convertido, mapeos_usados = convertir_columnas_cadenas_a_numeros(df, columnas_a_convertir, metodo='ordinal')

print("\nDataFrame convertido:")
print(df_convertido, df_convertido.shape)
print("\nMapeos usados:")
print(mapeos_usados)

### Podemos desarrollar la regresion lineal multivariada
### Conceptos Clave
1. **Ecuación de la regresión lineal multivariada**:
   \[
   y = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_n x_n + \epsilon
   \]
   - \(y\): Variable dependiente.
   - \(x_1, x_2, \dots, x_n\): Variables independientes.
   - \(\beta_0, \beta_1, \dots, \beta_n\): Coeficientes que se ajustan en el modelo.
   - \(\epsilon\): Error residual.

2. **Pasos básicos**:
   - Preparar los datos. (listo)
   - Dividirlos en conjuntos de entrenamiento y prueba.
   - Ajustar el modelo.
   - Evaluar el rendimiento.

In [None]:
# Separar variables independientes (X) y dependiente (y)
# price es la dependiente (y)
# las demas son independientes para este modelo (X)
# queremos decir entonces que el preciodepende de los valores de todas las anteriores
# quitar ID
X = df_convertido[[
    'symboling', #X[0]
    'fueltypes', #X[1]
    'aspiration', #X[2]
    'doornumbers', #X[3]
    'carbody', #X[4]
    'drivewheels', #X[5]
    'enginelocation', #X[6]
    'wheelbase', #X[7]
    'carlength', #X[8]
    'carwidth', #X[9]
    'carheight', #X[10]
    'curbweight', #X[11]
    'enginetype', #X[12]
    'cylindernumber', #X[13]
    'enginesize', #X[14]
    'fuelsystem', #X[15]
    'boreratio', #X[16]
    'stroke', #X[17]
    'compressionratio', #X[18]
    'horsepower', #X[19]
    'peakrpm', #X[20]
    'citympg', #X[21]
    'highwaympg' #X[22]
]]
y = df_convertido[['price']]
print("X ", X.shape, "y ", y.shape)

In [None]:
# Dividir los datos en conjuntos de entrenamiento y prueba
# https://scikit-learn.org/1.5/modules/generated/sklearn.model_selection.train_test_split.html#sklearn.model_selection.train_test_split
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
# el 20% es dato de prueba y 80% de entrenamiento
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [None]:
# https://scikit-learn.org/1.5/modules/generated/sklearn.linear_model.LinearRegression.html
# Crear el modelo de regresión lineal
modelo = LinearRegression()
# Ajustar el modelo a los datos de entrenamiento (80%) ajutando a esta cantidad de datos
modelo.fit(X_train, y_train)

# los betas entrenados
print(f"Coeficientes beta:\n{modelo.coef_}, dim: {(modelo.coef_).shape}")
coef_train = modelo.coef_
# el intercepto entrenado
print(f"Intercepto: {modelo.intercept_}")

In [None]:
# Predecir con el modelo, los datos de prueba
y_pred = modelo.predict(X_test)
# Evaluar el modelo
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [None]:
# mostrar los resultados ya ajustados
coef_adj = modelo.coef_
print("Coeficientes:", modelo.coef_)
print("Intercepto:", modelo.intercept_)
print("Score:", modelo.score(X, y)) # el 87.21 % del modelo se explica con las variables elegidas
print("Error cuadrático medio (MSE):", mse)
print("Coeficiente de determinación (R2):", r2)

In [None]:
for column in X.columns:
    #print(column)
    plt.scatter(X[column], y, label=column, marker='o')

plt.title("Reg Lin por variable")
plt.xlabel("Xs")
plt.ylabel("Ys")
# poner la leyenda fuera del grafico
plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left')
plt.tight_layout()
# mostrar la gradilla
plt.grid(True)
plt.show()

In [None]:
# Comparar con tolerancia
comparacion_cercana = np.allclose(coef_adj, coef_train, atol=0.001)
print("\n¿Son cercanos los arreglos (con tolerancia)?")
print(comparacion_cercana)
# Verificar si tienen la misma forma
misma_forma = coef_adj.shape == coef_train.shape
print("\n¿Tienen la misma forma?")
print(misma_forma)
# Diferencia absoluta
diferencia = np.abs(coef_adj - coef_train)
print("\nDiferencia absoluta entre arreglos:")
print(diferencia)

In [None]:
import matplotlib.pyplot as plt

plt.scatter(y_test, y_pred)
plt.plot([y.min(), y.max()], [y.min(), y.max()], color='red', linestyle='--', label="Línea ideal")
plt.xlabel("Valores reales")
plt.ylabel("Predicciones")
plt.legend()
plt.title("Predicciones vs Valores reales")
plt.show()

### Desarrollo del analisis con Matrices

In [None]:
def convertir_dataframe_a_matriz(df, incluir_columnas=None):
    """
    Convierte un DataFrame a una matriz (array de NumPy).
    
    Args:
        df (pd.DataFrame): El DataFrame a convertir.
        incluir_columnas (list): Lista de nombres de columnas a incluir en la matriz (opcional).
    
    Returns:
        np.ndarray: Matriz resultante.
    """
    if incluir_columnas is not None:
        matriz = df[incluir_columnas].to_numpy()
    else:
        matriz = df.to_numpy()
    
    return matriz

import numpy as np

def guardar_matriz_a_csv(matriz, nombre_archivo, encabezados=None, delimitador=","):
    """
    Guarda una matriz NumPy en un archivo CSV.
    
    Args:
        matriz (np.ndarray): La matriz a guardar en el archivo CSV.
        nombre_archivo (str): Nombre del archivo CSV donde se guardará la matriz.
        encabezados (list, optional): Lista de encabezados para las columnas (opcional).
        delimitador (str): Delimitador para separar los valores (por defecto: ",").
    
    Returns:
        None
    """
    with open(nombre_archivo, 'w', encoding='utf-8') as archivo:
        # Escribir encabezados si se proporcionan
        if encabezados is not None:
            archivo.write(delimitador.join(encabezados) + '\n')
        
        # Guardar la matriz fila por fila
        np.savetxt(archivo, matriz, delimiter=delimitador, fmt='%s')

    print(f"Matriz guardada exitosamente en el archivo: {nombre_archivo}")

encabezados_matriz = [
    'symboling', #X[1]
    'fueltypes', #X[2]
    'aspiration', #X[3]
    'doornumbers', #X[4]
    'carbody', #X[5]
    'drivewheels', #X[6]
    'enginelocation', #X[7]
    'wheelbase', #X[8]
    'carlength', #X[9]
    'carwidth', #X[10]
    'carheight', #X[11]
    'curbweight', #X[12]
    'enginetype', #X[13]
    'cylindernumber', #X[14]
    'enginesize', #X[15]
    'fuelsystem', #X[16]
    'boreratio', #X[17]
    'stroke', #X[18]
    'compressionratio', #X[19]
    'horsepower', #X[20]
    'peakrpm', #X[21]
    'citympg', #X[22]
    'highwaympg', #X[23]
    'price'#X[24]
]
# matriz sin la columna 'name'
matriz_modelo = convertir_dataframe_a_matriz(df_convertido[encabezados_matriz])
print("\nMatriz modelo:")
print(matriz_modelo)
guardar_matriz_a_csv(matriz_modelo, "matriz_ejemplo.csv", encabezados=encabezados_matriz)

In [None]:
def seleccionar_columnas_y_agregar_unos(df, columnas):
    """
    Selecciona columnas específicas de un DataFrame, las convierte en una matriz NumPy
    y agrega una columna inicial de 1s.
    
    Args:
        df (pd.DataFrame): DataFrame de entrada.
        columnas (list): Lista de nombres de columnas a seleccionar.
    
    Returns:
        np.ndarray: Matriz con una columna inicial de 1s seguida de las columnas seleccionadas.
    """
    # Seleccionar las columnas específicas
    matriz = df[columnas].to_numpy()
    
    # Crear una columna de 1s
    columna_unos = np.ones((matriz.shape[0], 1))
    
    # Concatenar la columna de 1s con la matriz seleccionada
    matriz_final = np.hstack((columna_unos, matriz))
    
    return matriz_final

# todas las X, la ultima entrada es y en la matriz
matriz_modelo = seleccionar_columnas_y_agregar_unos(df_convertido, encabezados_matriz[:-1])

print("DataFrame original:")
print(df_convertido)
print("\nMatriz resultante con columna de 1s:")
print(matriz_modelo)

In [None]:
def imprimir_atributos_matriz(matriz):
    """
    Imprime las dimensiones y otros atributos de una matriz de NumPy.
    
    Args:
        matriz (np.ndarray): Matriz de NumPy cuyos atributos se van a imprimir.
    """
    print("Atributos de la matriz:")
    print(f"- Dimensiones (shape): {matriz.shape}")  # Número de filas y columnas
    print(f"- Número de dimensiones (ndim): {matriz.ndim}")  # Número de ejes (2D, 3D, etc.)
    print(f"- Número total de elementos (size): {matriz.size}")  # Total de elementos
    print(f"- Tipo de datos (dtype): {matriz.dtype}")  # Tipo de los elementos (int, float, etc.)
    print(f"- Bytes por elemento (itemsize): {matriz.itemsize} bytes")  # Tamaño en memoria de cada elemento
    print(f"- Total de memoria usada (nbytes): {matriz.nbytes} bytes")  # Memoria total usada

imprimir_atributos_matriz(matriz_modelo)
Xs = matriz_modelo
ys = df_convertido[['price']].to_numpy()

In [None]:
# generar transpuesta
Xs_T = Xs.T
imprimir_atributos_matriz(Xs_T)
print(Xs_T)

In [None]:
# para capturar errores
def multiplicar_matrices(A, B):
    """
    Multiplica dos matrices usando NumPy.
    
    Args:
        A (np.ndarray): Primera matriz.
        B (np.ndarray): Segunda matriz.
    
    Returns:
        np.ndarray: Matriz resultante de la multiplicación.
    """
    if A.shape[1] != B.shape[0]:
        raise ValueError("El número de columnas de A debe coincidir con el número de filas de B.")
    return np.dot(A, B)  # O usar A @ B

Xs_TXs = multiplicar_matrices(Xs_T, Xs)
imprimir_atributos_matriz(Xs_TXs)
print(Xs_TXs)

In [None]:
# desarrollamos esta funcion para capturar errores en dimensiones y por lo tanto no calculamos inversa de matrices
# que no sean cuadradas
def calcular_inversa(matriz):
    """
    Calcula la inversa de una matriz usando NumPy.
    
    Args:
        matriz (np.ndarray): Matriz cuadrada de entrada.
    
    Returns:
        np.ndarray: Matriz inversa.
    """
    # Verificar si la matriz es cuadrada
    if matriz.shape[0] != matriz.shape[1]:
        raise ValueError("La matriz debe ser cuadrada.")
    
    # Verificar si el determinante es distinto de cero
    determinante = np.linalg.det(matriz)
    if determinante == 0:
        raise ValueError("La matriz no tiene inversa (determinante = 0).")
    
    # Calcular la inversa
    inversa = np.linalg.inv(matriz)
    return inversa

try:
    # Calcular la inversa de la matriz
    Xs_TXs_1 = calcular_inversa(Xs_TXs)

    print("Matriz original:")
    print(Xs_TXs)

    print("\nMatriz inversa:")
    print(Xs_TXs_1)
    imprimir_atributos_matriz(Xs_TXs_1)

except ValueError as e:
    print(f"Error: {e}")

In [None]:
# obtener los coeficientes lineales
betas = multiplicar_matrices(Xs_T, ys)
imprimir_atributos_matriz(betas)
# sacar el intercepto
b0 = betas[0]
tmp = betas[1:]
betas = tmp
print("Intercepto ", b0)
print(betas)
print((modelo.coef_).T)

In [None]:
# Comparar con tolerancia
comparacion_cercana = np.allclose((modelo.coef_).T, betas, atol=0.001)
print("\n¿Son cercanos los arreglos (con tolerancia)?")
print(comparacion_cercana)
# Verificar si tienen la misma forma
misma_forma = (modelo.coef_).T.shape == betas.shape
print("\n¿Tienen la misma forma?")
print(misma_forma)
# Diferencia absoluta
diferencia = np.abs((modelo.coef_).T - betas)
print("\nDiferencia absoluta entre arreglos:")
print(diferencia)

In [None]:
def promedio_columnas_seleccionadas(matriz, columnas):
    """
    Calcula el promedio de una selección de columnas en una matriz.
    
    Args:
        matriz (np.ndarray): Matriz NumPy de entrada.
        columnas (list): Lista de índices de las columnas a incluir.
    
    Returns:
        list: Lista con los promedios de las columnas seleccionadas.
    """
    # Seleccionar las columnas especificadas
    matriz_seleccionada = matriz[:, columnas]
    
    # Calcular el promedio de cada columna seleccionada
    promedios = matriz_seleccionada.mean(axis=0)
    
    # Convertir a lista y retornar
    return promedios.tolist()

# matriz con la columna 'name'
matriz_completa = convertir_dataframe_a_matriz(df_convertido[encabezados_matriz])
print("\nMatriz modelo:")
print(matriz_completa)
# creamos una lista de numeros consecutivos y luego lo pasamos a la funcion, y esta al ultimo
lista_columnas_promedio = promedio_columnas_seleccionadas(matriz_completa, np.arange(0, 23, 1))
print(lista_columnas_promedio)
# vector de medias
y_mean = lista_columnas_promedio.pop(-1)
print(f"y media = {y_mean}")

In [None]:
# generamos la ecuacion para calcular y_pred
def multiplicar_filas_por_lista(matriz, lista):
    """
    Multiplica las entradas de cada renglón de una matriz por una lista de números.
    
    Args:
        matriz (np.ndarray): Matriz NumPy de entrada.
        lista (list): Lista de números para multiplicar las entradas de cada renglón.
    
    Returns:
        list: Lista con los resultados (sumas de productos) de cada renglón.
    """
    # Verificar que la longitud de la lista coincida con el número de columnas de la matriz
    if matriz.shape[1] != len(lista):
        raise ValueError("La longitud de la lista debe coincidir con el número de columnas de la matriz.")
    
    # Multiplicar cada renglón por la lista (broadcasting)
    matriz_multiplicada = matriz * lista
    
    # Sumar las entradas de cada renglón y convertir a lista
    resultados = matriz_multiplicada.sum(axis=1).tolist()
    
    return resultados

# encabezados
encabezados_matriz = [
    'symboling', #X[1]
    'fueltypes', #X[2]
    'aspiration', #X[3]
    'doornumbers', #X[4]
    'carbody', #X[5]
    'drivewheels', #X[6]
    'enginelocation', #X[7]
    'wheelbase', #X[8]
    'carlength', #X[9]
    'carwidth', #X[10]
    'carheight', #X[11]
    'curbweight', #X[12]
    'enginetype', #X[13]
    'cylindernumber', #X[14]
    'enginesize', #X[15]
    'fuelsystem', #X[16]
    'boreratio', #X[17]
    'stroke', #X[18]
    'compressionratio', #X[19]
    'horsepower', #X[20]
    'peakrpm', #X[21]
    'citympg', #X[22]
    'highwaympg' #X[23]
]
# otros encabezados
otros_encabezados = ['Yis', 'Yi^', '(Yi-Yi^)^2', '(Yi-Yi_mean)^2', '(Yi^-Yi_mean)^2']

Xss = convertir_dataframe_a_matriz(df_convertido, encabezados_matriz)
# rows, cols
n, k = Xss.shape
print("Xa ", (Xss).shape, type(Xss))
print("betas ", betas.shape, type(betas))
guardar_matriz_a_csv(Xss, "Xss.csv", encabezados=encabezados_matriz)

#y_pred = multiplicar_filas_por_lista(Xs, betas)
print("yis ",ys.shape, type(ys))
guardar_matriz_a_csv(Xss, "ys.csv", encabezados=otros_encabezados[0])

y_pred = np.dot(Xss, betas)
print("yis^ ", y_pred.shape, type(y_pred))
guardar_matriz_a_csv(Xss, "ys_pred.csv", encabezados=otros_encabezados[1])

y_y_pred_2 = np.square(ys - y_pred)
print("(yi-yi^)^2 ", y_y_pred_2.shape, type(y_y_pred_2))
guardar_matriz_a_csv(Xss, "ys_ys_pred_2.csv", encabezados=otros_encabezados[2])

y_y_mean_2 = np.square(ys - y_mean)
print("(Yi-Yi_mean)^2 ", y_y_mean_2.shape, type(y_y_mean_2))
guardar_matriz_a_csv(Xss, "ys_y_mean_2.csv", encabezados=otros_encabezados[3])

y_pred_y_mean_2 = np.square(y_pred - y_mean)
print("(Yi^-Yi_mean)^2 ", y_pred_y_mean_2.shape, type(y_pred_y_mean_2))
guardar_matriz_a_csv(Xss, "ys_pred_y_mean_2.csv", encabezados=otros_encabezados[4])

# SSs
SSE = np.sum(y_y_pred_2)
SST = np.sum(y_y_mean_2)
SSR = np.sum(y_pred_y_mean_2)
print("SSE ", SSE)
print("SST ", SST)
print("SSR ", SSR)
R_2 = SSR/SST
R_2adj = 1-((n-1)/(n-(k+1)))*(SSE/SST)
print("R_2 vs r2", R_2, r2)
print("R_2", R_2)
print("R_2adj", R_2adj)

# varianza y covarianza
var_Xss = np.cov(Xss, rowvar=False)
print("Mat VarCov Xs ", var_Xss.shape, type(var_Xss))
guardar_matriz_a_csv(Xss, "matriz_var_cov.csv", encabezados=encabezados_matriz)
corr_Xss = np.corrcoef(Xss, rowvar=False)
print("Mat correl Xs ", corr_Xss.shape, type(corr_Xss))
guardar_matriz_a_csv(Xss, "matriz_corr.csv", encabezados=encabezados_matriz)

#print(datos)

In [None]:
# Comparar con tolerancia
comparacion_cercana = np.allclose(ys, y_pred, atol=0.001)
print("\n¿Son cercanos los arreglos (con tolerancia)?")
print(comparacion_cercana)
# Verificar si tienen la misma forma
misma_forma = ys.shape == y_pred.shape
print("\n¿Tienen la misma forma?")
print(misma_forma)
# Diferencia absoluta
diferencia = np.abs(ys - y_pred)
print("\nDiferencia absoluta entre arreglos:")
print(diferencia)

In [None]:
print(var_Xss)

In [None]:
print(corr_Xss)

In [None]:
import seaborn as sns

# Dibujar el mapa de calor Matriz de correlacion
plt.figure(figsize=(10, 8))
sns.heatmap(corr_Xss, annot=True, fmt=".2f", cmap="coolwarm", cbar=True, xticklabels=encabezados_matriz, yticklabels=encabezados_matriz)

plt.title("Mapa de Calor de la Matriz de Correlación")
plt.xlabel("Variables")
plt.ylabel("Variables")
plt.show()

In [None]:
# Dibujar el mapa de calor Magtriz varianza-covarianza
plt.figure(figsize=(10, 8))
sns.heatmap(var_Xss, annot=True, fmt=".2f", cmap="coolwarm", cbar=True, xticklabels=encabezados_matriz, yticklabels=encabezados_matriz)

plt.title("Mapa de Calor de la Matriz Varianza-Covarianza")
plt.xlabel("Variables")
plt.ylabel("Variables")
plt.show()

### Metodo de componentes principales PCA

In [None]:
# https://scikit-learn.org/1.5/modules/generated/sklearn.decomposition.PCA.html
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler

In [None]:
# encabezados
encabezados_matriz = [
    'symboling', #X[1]
    'fueltypes', #X[2]
    'aspiration', #X[3]
    'doornumbers', #X[4]
    'carbody', #X[5]
    'drivewheels', #X[6]
    'enginelocation', #X[7]
    'wheelbase', #X[8]
    'carlength', #X[9]
    'carwidth', #X[10]
    'carheight', #X[11]
    'curbweight', #X[12]
    'enginetype', #X[13]
    'cylindernumber', #X[14]
    'enginesize', #X[15]
    'fuelsystem', #X[16]
    'boreratio', #X[17]
    'stroke', #X[18]
    'compressionratio', #X[19]
    'horsepower', #X[20]
    'peakrpm', #X[21]
    'citympg', #X[22]
    'highwaympg' #X[23]
]
# Estandarizar los datos
scaler = StandardScaler()
#datos_estandarizados = scaler.fit_transform(df_convertido[encabezados_matriz])
datos_estandarizados = scaler.fit_transform(Xs)

In [None]:
# Aplicar PCA
pca = PCA(n_components=2)  # Reducir a 2 componentes principales para ver como responde
datos_pca = pca.fit_transform(datos_estandarizados)
# Crear un DataFrame con los datos transformados
df_pca = pd.DataFrame(datos_pca, columns=['Componente1', 'Componente2'])

# Varianza explicada por cada componente
varianza_explicada = pca.explained_variance_ratio_

# Imprimir resultados
print("Varianza explicada por cada componente:")
print(varianza_explicada)

print("\nDatos transformados:")
print(df_pca)

In [None]:
# Visualizar los componentes principales
plt.figure(figsize=(8, 6))
plt.plot(np.cumsum(varianza_explicada), marker='o', linestyle='--')
plt.title("Varianza explicada acumulada")
plt.xlabel("Número de Componentes")
plt.ylabel("Varianza Explicada Acumulada")
plt.grid(True)
plt.show()

In [None]:
for column in df_pca.columns:
    #print(column)
    plt.scatter(df_pca[column], ys, label=column, marker='o')

plt.title("PCA por componente")
plt.xlabel("Xs-componentes")
plt.ylabel("Ys")
# poner la leyenda fuera del grafico
plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left')
plt.tight_layout()
# mostrar la gradilla
plt.grid(True)
plt.show()

notamos que explican poco, un poco mas de 50%, asi es que utilizamos otra variante de PCA, ahora con el porcentaje

In [None]:
# podemos pedirle a la biblioteca que calcule el numero de componentes principales con el fin de mantener la
# varianza al 95%
# Aplicar PCA
pca = PCA(n_components=0.95)  # Reducir a 2 componentes principales para ver como responde
datos_pca = pca.fit_transform(datos_estandarizados)
# Crear un DataFrame con los datos transformados
df_pca = pd.DataFrame(datos_pca)
renglones, columnas = df_pca.shape
encabezados_componentes = [f"Componente{i}" for i in range(1, columnas + 1)]
df_pca.columns = encabezados_componentes

# Varianza explicada por cada componente
varianza_explicada = pca.explained_variance_ratio_

# Imprimir resultados
print("Varianza explicada por cada componente:")
print(varianza_explicada)

print("\nDatos transformados:")
print(df_pca)

plt.figure(figsize=(8, 6))
plt.plot(np.cumsum(varianza_explicada), marker='o', linestyle='--')
plt.title("Varianza explicada acumulada")
plt.xlabel("Número de Componentes")
plt.ylabel("Varianza Explicada Acumulada")
plt.grid(True)
plt.show()

estos componenentes explican mas que el anterior de 2, por lo que 14 es un numero razonable sobre 25 que tiene la tabla

In [None]:
for column in df_pca.columns:
    #print(column)
    plt.scatter(df_pca[column], ys, label=column, marker='o')

plt.title("PCA por componente")
plt.xlabel("Xs-componentes")
plt.ylabel("Ys")
# poner la leyenda fuera del grafico
plt.legend(bbox_to_anchor=(1.05, 1.0), loc='upper left')
plt.tight_layout()
# mostrar la gradilla
plt.grid(True)
plt.show()