# Máquinas Vectoriales de Soporte (SVM)

In [9]:
import pandas as pd
import seaborn as sns
import numpy as np
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import StandardScaler

#### Lectura de datos

In [2]:
# Leer los datos
df = pd.read_csv("train.csv")

# Selección de variables
variables_numericas = [
    'OverallQual', 'GrLivArea', 'GarageCars', 'TotalBsmtSF',
    '1stFlrSF', 'FullBath', 'YearBuilt', 'KitchenAbvGr',
    'TotRmsAbvGrd', 'Fireplaces', 'SalePrice'
]
df = df[variables_numericas]

#### Exploración de datos

In [None]:
df.shape

(1460, 11)

In [None]:
df.head()

Unnamed: 0,OverallQual,GrLivArea,GarageCars,TotalBsmtSF,1stFlrSF,FullBath,YearBuilt,KitchenAbvGr,TotRmsAbvGrd,Fireplaces,SalePrice
0,7,1710,2,856,856,2,2003,1,8,0,208500
1,6,1262,2,1262,1262,2,1976,1,6,1,181500
2,7,1786,2,920,920,2,2001,1,6,1,223500
3,7,1717,3,756,961,1,1915,1,7,1,140000
4,8,2198,3,1145,1145,2,2000,1,9,1,250000


In [None]:
df.isnull().sum()

OverallQual     0
GrLivArea       0
GarageCars      0
TotalBsmtSF     0
1stFlrSF        0
FullBath        0
YearBuilt       0
KitchenAbvGr    0
TotRmsAbvGrd    0
Fireplaces      0
SalePrice       0
dtype: int64

In [None]:
df.describe()

Unnamed: 0,OverallQual,GrLivArea,GarageCars,TotalBsmtSF,1stFlrSF,FullBath,YearBuilt,KitchenAbvGr,TotRmsAbvGrd,Fireplaces,SalePrice
count,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,6.099315,1515.463699,1.767123,1057.429452,1162.626712,1.565068,1971.267808,1.046575,6.517808,0.613014,180921.19589
std,1.382997,525.480383,0.747315,438.705324,386.587738,0.550916,30.202904,0.220338,1.625393,0.644666,79442.502883
min,1.0,334.0,0.0,0.0,334.0,0.0,1872.0,0.0,2.0,0.0,34900.0
25%,5.0,1129.5,1.0,795.75,882.0,1.0,1954.0,1.0,5.0,0.0,129975.0
50%,6.0,1464.0,2.0,991.5,1087.0,2.0,1973.0,1.0,6.0,1.0,163000.0
75%,7.0,1776.75,2.0,1298.25,1391.25,2.0,2000.0,1.0,7.0,1.0,214000.0
max,10.0,5642.0,4.0,6110.0,4692.0,3.0,2010.0,3.0,14.0,3.0,755000.0


### Transformaciones realizadas

#### Clasificación de precios (Variable categórica)

In [10]:
# Clasificación de precios
p40 = df['SalePrice'].quantile(0.40)
p90 = df['SalePrice'].quantile(0.90)

def clasificar_precio(precio):
    if precio <= p40:
        return "Económica"
    elif precio <= p90:
        return "Intermedia"
    else:
        return "Cara"

In [12]:
df['CategoriaPrecio'] = df['SalePrice'].apply(clasificar_precio)

#### Codificar variable categórica como números

In [13]:
le = LabelEncoder()
df['Clase'] = le.fit_transform(df['CategoriaPrecio'])  # Económica → 0, Intermedia → 1, Cara → 2

#### Estandarización de variables

In [14]:
X = df.drop(columns=['SalePrice', 'CategoriaPrecio', 'Clase'])  # Variables predictoras
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

y = df['Clase']  # Variable objetivo codificada


<small>

#### **Diagnóstico del dataset**

| Aspecto                                     | Observación                                                                 |
|--------------------------------------------|------------------------------------------------------------------------------|
| Variables categóricas                      | No hay, todas las columnas son numéricas                                    |
| Valores faltantes                          | Ninguno, todos los campos tienen 0 valores nulos                            |
| Distribución de `SalePrice`                | Es una variable **continua**, no apta directamente para clasificación        |
| Escalas distintas entre variables          | Hay muchas escalas diferentes: `GrLivArea`, `1stFlrSF` y `YearBuilt` varían mucho |
| Variables enteras con bajo rango (binarias)| Variables como `KitchenAbvGr` y `Fireplaces` tienen pocos valores posibles  |


#### **Transformaciones realizadas para entrenar un modelo SVM**

Para aplicar una Máquina de Vectores de Soporte (SVM) al problema de predicción de precios de vivienda, se realizaron las siguientes transformaciones:

1. La variable SalePrice fue transformada en una variable categórica con tres clases: Económica, Intermedia y Cara, usando los percentiles 40 y 90 como umbrales.

2. Luego, esta variable categórica se codificó como variable numérica usando LabelEncoder, asignando un valor entero a cada clase.

3. Todas las variables predictoras numéricas fueron estandarizadas usando StandardScaler, ya que SVM es muy sensible a la escala de los datos. Esto asegura que cada variable tenga media 0 y desviación estándar 1.

El dataset resultante está listo para entrenar modelos SVM con kernels lineales o no lineales según el caso.

</small>