# Predicción de precio de ordenadores

* Importamos librerías

In [109]:
# Paquetes numéricos
import numpy as np

# DataFrames/Procesamiento
import pandas as pd

# Gráficas
import matplotlib.pyplot as plt

* Cargamos los datos

In [110]:
muestra = pd.read_csv("../data/muestra.csv")
test = pd.read_csv("../data/test.csv")
train = pd.read_csv("../data/train.csv")

## Preparación de datos

* Entender los datos: tipos

In [111]:
train.head(3)

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,Screen,CPU,RAM,Storage,GPU,Operating System,Operating System Version,Weight,Price
0,Apple,MacBook Pro,Ultrabook,"13.3""",IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,,1.37kg,11912523.48
1,Apple,Macbook Air,Ultrabook,"13.3""",1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,,1.34kg,7993374.48
2,HP,250 G6,Notebook,"15.6""",Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,,1.86kg,5112900.0


In [112]:
train.head(3)

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,Screen,CPU,RAM,Storage,GPU,Operating System,Operating System Version,Weight,Price
0,Apple,MacBook Pro,Ultrabook,"13.3""",IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,,1.37kg,11912523.48
1,Apple,Macbook Air,Ultrabook,"13.3""",1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,,1.34kg,7993374.48
2,HP,250 G6,Notebook,"15.6""",Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,,1.86kg,5112900.0


In [113]:
train.dtypes

Manufacturer                 object
Model Name                   object
Category                     object
Screen Size                  object
Screen                       object
CPU                          object
RAM                          object
 Storage                     object
GPU                          object
Operating System             object
Operating System Version     object
Weight                       object
Price                       float64
dtype: object

In [114]:
test.dtypes

Manufacturer                object
Model Name                  object
Category                    object
Screen Size                 object
Screen                      object
CPU                         object
RAM                         object
 Storage                    object
GPU                         object
Operating System            object
Operating System Version    object
Weight                      object
dtype: object

In [115]:
train.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 977 entries, 0 to 976
Data columns (total 13 columns):
 #   Column                    Non-Null Count  Dtype  
---  ------                    --------------  -----  
 0   Manufacturer              977 non-null    object 
 1   Model Name                977 non-null    object 
 2   Category                  977 non-null    object 
 3   Screen Size               977 non-null    object 
 4   Screen                    977 non-null    object 
 5   CPU                       977 non-null    object 
 6   RAM                       977 non-null    object 
 7    Storage                  977 non-null    object 
 8   GPU                       977 non-null    object 
 9   Operating System          977 non-null    object 
 10  Operating System Version  841 non-null    object 
 11  Weight                    977 non-null    object 
 12  Price                     977 non-null    float64
dtypes: float64(1), object(12)
memory usage: 780.0 KB


In [116]:
test.info(memory_usage="deep")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 325 entries, 0 to 324
Data columns (total 12 columns):
 #   Column                    Non-Null Count  Dtype 
---  ------                    --------------  ----- 
 0   Manufacturer              325 non-null    object
 1   Model Name                325 non-null    object
 2   Category                  325 non-null    object
 3   Screen Size               325 non-null    object
 4   Screen                    325 non-null    object
 5   CPU                       325 non-null    object
 6   RAM                       325 non-null    object
 7    Storage                  325 non-null    object
 8   GPU                       325 non-null    object
 9   Operating System          325 non-null    object
 10  Operating System Version  291 non-null    object
 11  Weight                    325 non-null    object
dtypes: object(12)
memory usage: 257.1 KB


In [117]:
# Eliminar las comillas de los valores en la columna
train['Screen Size'] = train['Screen Size'].str.replace('"', '')
# Convertir los valores en la columna en números (tipo de dato float)
train['Screen Size'] = train['Screen Size'].astype(float)


In [118]:
# Eliminar las comillas de los valores en la columna
test['Screen Size'] = test['Screen Size'].str.replace('"', '')
# Convertir los valores en la columna en números (tipo de dato float)
test['Screen Size'] = test['Screen Size'].astype(float)

In [119]:

# Eliminar los kg de los valores en la columna
train['Weight'] = train['Weight'].str.replace('kg', '')
# Convertir los valores en la columna en números (tipo de dato float)
train['Weight'] = train['Weight'].astype(float)

In [120]:

# Eliminar los kg de los valores en la columna
test['Weight'] = test['Weight'].str.replace('kg', '')
# Reemplazar el valor '4s' en la columna 'Weight' con un valor numérico válido
test['Weight'] = test['Weight'].replace('4s', '4.0')
# Convertir los valores en la columna en números (tipo de dato float)
test['Weight'] = test['Weight'].astype(float)

In [121]:
# Eliminar los kg de los valores en la columna
train['RAM'] = train['RAM'].str.replace('GB', '')
# Convertir los valores en la columna en números (tipo de dato float)
train['RAM'] = train['RAM'].astype(int)


In [122]:
# Eliminar los kg de los valores en la columna
test['RAM'] = test['RAM'].str.replace('GB', '')
# Convertir los valores en la columna en números (tipo de dato float)
test['RAM'] = test['RAM'].astype(int)

In [123]:
# Renombrar la columna ' Storage'
train = train.rename(columns={' Storage': 'Storage'})

# Generar one-hot encoding de la columna 'Storage'
storage_encoded = pd.get_dummies(train['Storage'], prefix='Storage')

# Concatenar las columnas codificadas con el DataFrame original utilizando la función pd.concat()
train = pd.concat([train, storage_encoded], axis=1)

# Eliminar la columna original 'Storage'
train.drop('Storage', axis=1, inplace=True)


In [124]:
# Renombrar la columna ' Storage'
test = test.rename(columns={' Storage': 'Storage'})

# Generar one-hot encoding de la columna 'Storage'
storage_encoded = pd.get_dummies(test['Storage'], prefix='Storage')

# Concatenar las columnas codificadas con el DataFrame original utilizando la función pd.concat()
test = pd.concat([test, storage_encoded], axis=1)

# Eliminar la columna original 'Storage'
test.drop('Storage', axis=1, inplace=True)


In [125]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna GPU."""

gpu_encoded = pd.get_dummies(train['GPU'], prefix='GPU')


In [126]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna GPU."""

gpu_encoded = pd.get_dummies(test['GPU'], prefix='GPU')


In [127]:
#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
train = pd.concat([train, gpu_encoded], axis=1)



In [128]:
#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
test = pd.concat([test, gpu_encoded], axis=1)


In [129]:
train.drop('GPU', axis=1, inplace=True)

In [130]:
test.drop('GPU', axis=1, inplace=True)

In [131]:
train["Screen"]

0      IPS Panel Retina Display 2560x1600
1                                1440x900
2                       Full HD 1920x1080
3      IPS Panel Retina Display 2880x1800
4      IPS Panel Retina Display 2560x1600
                      ...                
972                     Full HD 1920x1080
973                     Full HD 1920x1080
974                     Full HD 1920x1080
975           IPS Panel Full HD 1920x1080
976                              1366x768
Name: Screen, Length: 977, dtype: object

In [132]:
test["Screen"]

0                                        1366x768
1                               Full HD 1920x1080
2       IPS Panel Full HD / Touchscreen 1920x1080
3                               Full HD 1920x1080
4                               Full HD 1920x1080
                          ...                    
320     IPS Panel Full HD / Touchscreen 1920x1080
321    IPS Panel Quad HD+ / Touchscreen 3200x1800
322                                      1366x768
323                                      1366x768
324                                      1366x768
Name: Screen, Length: 325, dtype: object

In [133]:

# Paso 1: Extraer la resolución de pantalla numérica
resolution = train['Screen'].str.extract('(\d+.\d+)x(\d+.\d+)')
train['Resolution_Width'] = pd.to_numeric(resolution[0])
train['Resolution_Height'] = pd.to_numeric(resolution[1])

# Paso 2: Convertir los valores de resolución en formato numérico
train['Resolution_Width'] = pd.to_numeric(train['Resolution_Width'])
train['Resolution_Height'] = pd.to_numeric(train['Resolution_Height'])

# Paso 3: Eliminar la columna original "Screen"
train = train.drop('Screen', axis=1)

In [134]:

# Paso 1: Extraer la resolución de pantalla numérica
resolution = test['Screen'].str.extract('(\d+.\d+)x(\d+.\d+)')
test['Resolution_Width'] = pd.to_numeric(resolution[0])
test['Resolution_Height'] = pd.to_numeric(resolution[1])

# Paso 2: Convertir los valores de resolución en formato numérico
test['Resolution_Width'] = pd.to_numeric(test['Resolution_Width'])
test['Resolution_Height'] = pd.to_numeric(test['Resolution_Height'])

# Paso 3: Eliminar la columna original "Screen"
test = test.drop('Screen', axis=1)

In [135]:
import re

# Función para extraer la marca del procesador
def extract_brand(cpu):
    brand = re.search(r'([A-Za-z]+)', cpu)
    if brand:
        return brand.group()
    else:
        return None

# Función para extraer la velocidad del procesador
def extract_speed(cpu):
    speed = re.search(r'(\d+\.*\d*)GHz', cpu)
    if speed:
        return float(speed.group(1))
    else:
        return None

# Aplicar las funciones a la columna de CPU
train['CPU_Brand'] = train['CPU'].apply(extract_brand)
train['CPU_Speed'] = train['CPU'].apply(extract_speed)

# Eliminar la columna original "CPU"
train = train.drop('CPU', axis=1)


In [136]:
# Función para extraer la marca del procesador
def extract_brand(cpu):
    brand = re.search(r'([A-Za-z]+)', cpu)
    if brand:
        return brand.group()
    else:
        return None

# Función para extraer la velocidad del procesador
def extract_speed(cpu):
    speed = re.search(r'(\d+\.*\d*)GHz', cpu)
    if speed:
        return float(speed.group(1))
    else:
        return None

# Aplicar las funciones a la columna de CPU
test['CPU_Brand'] = test['CPU'].apply(extract_brand)
test['CPU_Speed'] = test['CPU'].apply(extract_speed)

# Eliminar la columna original "CPU"
test = test.drop('CPU', axis=1)

In [137]:
# Verificar el resultado
train.head(3)

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,RAM,Operating System,Operating System Version,Weight,Price,Storage_128GB Flash Storage,...,GPU_Nvidia GeForce GTX 980,GPU_Nvidia GeForce GTX 980M,GPU_Nvidia Quadro 3000M,GPU_Nvidia Quadro M1000M,GPU_Nvidia Quadro M3000M,GPU_Nvidia Quadro M500M,Resolution_Width,Resolution_Height,CPU_Brand,CPU_Speed
0,Apple,MacBook Pro,Ultrabook,13.3,8,macOS,,1.37,11912523.48,0,...,0.0,0.0,0.0,0.0,0.0,0.0,2560,1600,Intel,2.3
1,Apple,Macbook Air,Ultrabook,13.3,8,macOS,,1.34,7993374.48,1,...,0.0,0.0,0.0,0.0,0.0,0.0,1440,900,Intel,1.8
2,HP,250 G6,Notebook,15.6,8,No OS,,1.86,5112900.0,0,...,0.0,0.0,0.0,0.0,0.0,0.0,1920,1080,Intel,2.5


In [138]:
# Verificar el resultado
test.head(3)

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,RAM,Operating System,Operating System Version,Weight,Storage_128GB SSD,Storage_128GB SSD + 1TB HDD,...,GPU_Nvidia GeForce GTX 980,GPU_Nvidia GeForce GTX 980M,GPU_Nvidia Quadro 3000M,GPU_Nvidia Quadro M1000M,GPU_Nvidia Quadro M3000M,GPU_Nvidia Quadro M500M,Resolution_Width,Resolution_Height,CPU_Brand,CPU_Speed
0,HP,15-bs053od (i7-7500U/6GB/1TB/W10),Notebook,15.6,6,Windows,10,2.04,0,0,...,0,0,0,0,0,0,1366,768,Intel,2.7
1,Asus,Rog GL753VE-DS74,Gaming,17.3,16,Windows,10,2.99,0,0,...,0,0,0,0,0,0,1920,1080,Intel,2.8
2,Dell,Inspiron 7579,2 in 1 Convertible,15.6,12,Windows,10,2.19,0,0,...,0,0,0,0,0,0,1920,1080,Intel,2.7


In [139]:
train["Operating System"].value_counts()

Windows      837
No OS         52
Linux         48
Chrome OS     22
macOS         13
Mac OS         4
Android        1
Name: Operating System, dtype: int64

In [140]:
test["Operating System"].value_counts()

Windows      287
No OS         14
Linux         14
Chrome OS      5
Mac OS         4
Android        1
Name: Operating System, dtype: int64

In [141]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Operating System."""

gpu_encoded = pd.get_dummies(train['Operating System'], prefix='Operating System')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
train = pd.concat([train, gpu_encoded], axis=1)

#borramos la columna
train.drop('Operating System', axis=1, inplace=True)

In [142]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Operating System."""

gpu_encoded = pd.get_dummies(test['Operating System'], prefix='Operating System')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
test = pd.concat([test, gpu_encoded], axis=1)

#borramos la columna
test.drop('Operating System', axis=1, inplace=True)

In [143]:
train["Model Name"].value_counts()

XPS 13                22
Inspiron 3567         20
250 G6                18
Inspiron 5570         18
Vostro 3568           15
                      ..
Rog GL753VE-GC070T     1
Rog GL753VD-GC042T     1
Precision 5520         1
Precision 3510         1
ThinkPad T460          1
Name: Model Name, Length: 488, dtype: int64

In [144]:
test["Model Name"].value_counts()

Inspiron 3567         9
XPS 13                8
EliteBook 840         7
ProBook 450           6
Inspiron 5567         6
                     ..
Rog GL702VM-GC354T    1
Inspiron 5370         1
Aspire F5-573G        1
GS70 Stealth          1
EliteBook 1030        1
Name: Model Name, Length: 197, dtype: int64

In [145]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Model Name."""

gpu_encoded = pd.get_dummies(train['Model Name'], prefix='Model Name')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
train = pd.concat([train, gpu_encoded], axis=1)

#borramos la columna
train.drop('Model Name', axis=1, inplace=True)

In [146]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Model Name."""

gpu_encoded = pd.get_dummies(test['Model Name'], prefix='Model Name')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
test = pd.concat([test, gpu_encoded], axis=1)

#borramos la columna
test.drop('Model Name', axis=1, inplace=True)

In [147]:
train["Category"].value_counts()

Notebook              549
Ultrabook             152
Gaming                150
2 in 1 Convertible     85
Workstation            24
Netbook                17
Name: Category, dtype: int64

In [148]:
test["Category"].value_counts()

Notebook              178
Gaming                 55
Ultrabook              44
2 in 1 Convertible     35
Netbook                 8
Workstation             5
Name: Category, dtype: int64

In [149]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Category."""

gpu_encoded = pd.get_dummies(train['Category'], prefix='Category')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
train = pd.concat([train, gpu_encoded], axis=1)

#borramos la columna
train.drop('Category', axis=1, inplace=True)

In [150]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Category."""

gpu_encoded = pd.get_dummies(test['Category'], prefix='Category')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
test = pd.concat([test, gpu_encoded], axis=1)

#borramos la columna
test.drop('Category', axis=1, inplace=True)

In [151]:
train.head(3)

Unnamed: 0,Manufacturer,Screen Size,RAM,Operating System Version,Weight,Price,Storage_128GB Flash Storage,Storage_128GB HDD,Storage_128GB SSD,Storage_128GB SSD + 1TB HDD,...,Model Name_Zenbook UX390UA,Model Name_Zenbook UX410UA-GV027T,Model Name_Zenbook UX430UA,Model Name_Zenbook UX510UW-FI095T,Category_2 in 1 Convertible,Category_Gaming,Category_Netbook,Category_Notebook,Category_Ultrabook,Category_Workstation
0,Apple,13.3,8,,1.37,11912523.48,0,0,1,0,...,0,0,0,0,0,0,0,0,1,0
1,Apple,13.3,8,,1.34,7993374.48,1,0,0,0,...,0,0,0,0,0,0,0,0,1,0
2,HP,15.6,8,,1.86,5112900.0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0


In [152]:
test.head(3)

Unnamed: 0,Manufacturer,Screen Size,RAM,Operating System Version,Weight,Storage_128GB SSD,Storage_128GB SSD + 1TB HDD,Storage_16GB Flash Storage,Storage_16GB SSD,Storage_1GB SSD,...,Model Name_ZBook Studio,Model Name_ZenBook UX305CA-UBM1,Model Name_ZenBook UX310UA-FB485T,Model Name_ZenBook UX310UA-WB71,Category_2 in 1 Convertible,Category_Gaming,Category_Netbook,Category_Notebook,Category_Ultrabook,Category_Workstation
0,HP,15.6,6,10,2.04,0,0,0,0,0,...,0,0,0,0,0,0,0,1,0,0
1,Asus,17.3,16,10,2.99,0,0,0,0,0,...,0,0,0,0,0,1,0,0,0,0
2,Dell,15.6,12,10,2.19,0,0,0,0,0,...,0,0,0,0,1,0,0,0,0,0


In [153]:
train["Manufacturer"].value_counts()

Dell         232
Lenovo       226
HP           179
Asus         122
Acer          83
Toshiba       39
MSI           34
Apple         17
Samsung        8
Mediacom       7
Microsoft      6
Razer          5
Xiaomi         4
Chuwi          3
Google         3
LG             3
Huawei         2
Vero           2
Fujitsu        2
Name: Manufacturer, dtype: int64

In [154]:
test["Manufacturer"].value_counts()

HP         95
Lenovo     71
Dell       65
Asus       35
Acer       20
MSI        20
Toshiba     9
Apple       4
Vero        2
Razer       2
Fujitsu     1
Samsung     1
Name: Manufacturer, dtype: int64

In [155]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Manufacturer."""

gpu_encoded = pd.get_dummies(train['Manufacturer'], prefix='Manufacturer')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
train = pd.concat([train, gpu_encoded], axis=1)

#borramos la columna
train.drop('Manufacturer', axis=1, inplace=True)

In [156]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna Manufacturer."""

gpu_encoded = pd.get_dummies(test['Manufacturer'], prefix='Manufacturer')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
test = pd.concat([test, gpu_encoded], axis=1)

#borramos la columna
test.drop('Manufacturer', axis=1, inplace=True)

In [157]:
train["CPU_Brand"].value_counts()

Intel    929
AMD       48
Name: CPU_Brand, dtype: int64

In [158]:
test["CPU_Brand"].value_counts()

Intel      310
AMD         14
Samsung      1
Name: CPU_Brand, dtype: int64

In [159]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna CPU_Brand."""

gpu_encoded = pd.get_dummies(train['CPU_Brand'], prefix='CPU_Brand')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
train = pd.concat([train, gpu_encoded], axis=1)

#borramos la columna
train.drop('CPU_Brand', axis=1, inplace=True)

In [160]:
"""Utiliza la función pd.get_dummies() de Pandas para aplicar la codificación one-hot.  
Esta función creará nuevas columnas binarias para cada categoría única en la columna CPU_Brand."""

gpu_encoded = pd.get_dummies(test['CPU_Brand'], prefix='CPU_Brand')

#concatenar las columnas codificadas con tu DataFrame original utilizando la función pd.concat()
test = pd.concat([test, gpu_encoded], axis=1)

#borramos la columna
test.drop('CPU_Brand', axis=1, inplace=True)

In [161]:
train["Operating System Version"]

0      NaN
1      NaN
2      NaN
3      NaN
4      NaN
      ... 
972     10
973     10
974     10
975     10
976      7
Name: Operating System Version, Length: 977, dtype: object

In [162]:
test["Operating System Version"]

0      10
1      10
2      10
3       7
4      10
       ..
320    10
321    10
322    10
323    10
324    10
Name: Operating System Version, Length: 325, dtype: object

In [163]:
train.drop("Operating System Version", axis=1, inplace=True)


In [164]:
test.drop("Operating System Version", axis=1, inplace=True)

* Entender los datos: valores faltantes o valores nulos

Decidir cómo manejar los valores nulos: Hay dos opciones comunes:
* Eliminar filas con valores nulos: Si solo hay algunas filas con valores nulos y no representan una cantidad significativa de los datos, puedes eliminar esas filas utilizando el método dropna()
* Reemplazar los valores nulos: Si los valores nulos representan una cantidad considerable de los datos o eliminar filas no es una opción, puedes reemplazar los valores nulos con valores apropiados. Puedes utilizar la media, mediana o algún otro valor relevante para reemplazar los valores nulos en cada columna. La función fillna() se puede usar para realizar esta tarea.

En este caso, borraremos las filas con valores nulos, puesto que no suponen un muestra tan grande y no considero que sea óptimo en este caso sustituirlos por la media, la mediana o la moda. No se descarta en otro experimento, sustituirlos, dependiendo del resultado de la predicción.

In [165]:
# Verificar nuevamente la presencia de valores nulos
train.isnull().sum()


Screen Size                    0
RAM                            0
Weight                         0
Price                          0
Storage_128GB Flash Storage    0
                              ..
Manufacturer_Toshiba           0
Manufacturer_Vero              0
Manufacturer_Xiaomi            0
CPU_Brand_AMD                  0
CPU_Brand_Intel                0
Length: 619, dtype: int64

In [166]:
train.shape

(977, 619)

In [167]:
# Verificar nuevamente la presencia de valores nulos
test.isnull().sum()

Screen Size                     0
RAM                             0
Weight                          0
Storage_128GB SSD               0
Storage_128GB SSD +  1TB HDD    0
                               ..
Manufacturer_Toshiba            0
Manufacturer_Vero               0
CPU_Brand_AMD                   0
CPU_Brand_Intel                 0
CPU_Brand_Samsung               0
Length: 306, dtype: int64

# Concat de los df y división para resolver el tema de las columnas

In [168]:
test.shape

(325, 306)

In [169]:
train.shape

(977, 619)

In [170]:
#unimos los df para que tengan el mismo número de columnas
df_concat = pd.concat([train, test], axis=0)


In [171]:
df_concat.shape

(1302, 751)

In [172]:
df_concat.head()

Unnamed: 0,Screen Size,RAM,Weight,Price,Storage_128GB Flash Storage,Storage_128GB HDD,Storage_128GB SSD,Storage_128GB SSD + 1TB HDD,Storage_128GB SSD + 2TB HDD,Storage_16GB Flash Storage,...,Model Name_X553SA-XX031T (N3050/4GB/500GB/W10),Model Name_X556UJ-XO044T (i7-6500U/4GB/500GB/GeForce,Model Name_Yoga 500-14IBD,Model Name_Yoga 500-14ISK,Model Name_Yoga 500-15ISK,Model Name_Yoga 900S-12ISK,Model Name_ZenBook UX305CA-UBM1,Model Name_ZenBook UX310UA-FB485T,Model Name_ZenBook UX310UA-WB71,CPU_Brand_Samsung
0,13.3,8,1.37,11912523.48,0.0,0.0,1,0,0.0,0,...,,,,,,,,,,
1,13.3,8,1.34,7993374.48,1.0,0.0,0,0,0.0,0,...,,,,,,,,,,
2,15.6,8,1.86,5112900.0,0.0,0.0,0,0,0.0,0,...,,,,,,,,,,
3,15.4,16,1.83,22563005.4,0.0,0.0,0,0,0.0,0,...,,,,,,,,,,
4,13.3,8,1.37,16037611.2,0.0,0.0,0,0,0.0,0,...,,,,,,,,,,


In [173]:
#volvemos a separar los df para poder predecir
train = df_concat.iloc[:977]
test = df_concat.iloc[977:]

In [180]:
#rellenamos los NaN con 0
train.fillna(0, inplace=True)
test.fillna(0, inplace=True)


In [174]:
test.shape

(325, 751)

In [175]:
train.shape

(977, 751)

# Hipótesis y modelado

Trataremos de **predecir el precio de los ordenadores**, según sus características. Al ser un objetivo concreto a predecir y ser numérico, usaremos machine learning de **aprendizaje supervizado**, y cómo el objetivo es predecir un número el **modelo será de regresión**, usando la técnica o herramienta de **regresión lineal**.

* aprendizaje supervisado

# Prueba

In [182]:
X = train.drop('Price', axis=1)

y = train.Price

In [183]:
X.shape, y.shape

((977, 750), (977,))

In [184]:
# train_test_split

from sklearn.model_selection import train_test_split as tts  # el alias es cosa mia

# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

((781, 750), (196, 750), (781,), (196,))

In [185]:

from sklearn.linear_model import LinearRegression

# Crear el modelo de regresión lineal
model = LinearRegression()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)



In [186]:
from sklearn.metrics import r2_score as r2
r2(y_test, y_pred)

-1518727162927514.2

# Testeo del modelo: Modelos: regresión lineal

In [None]:
#lazy
#pip install lazypredict

In [187]:
#importamos librerías 

from sklearn.linear_model import LinearRegression as LinReg   # alias es mio
from sklearn.linear_model import Lasso        # regularizacion L1
from sklearn.linear_model import Ridge        # regularizacion L2
from sklearn.linear_model import ElasticNet   # regularizacion L1+L2
from lazypredict.Supervised import LazyRegressor 
from xgboost import XGBRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor


# Modelo LinReg()

In [188]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model = LinReg()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

r2(y_test, y_pred)

-1518727162927514.2

# Modelo Lasso()

In [189]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model = Lasso()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

r2(y_test, y_pred)

0.6622567419703518

# Modelo Ridge()

In [190]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model = Ridge()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

r2(y_test, y_pred)

0.818529927766988

# Modelo ElasticNet()

In [191]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model = ElasticNet()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model.predict(X_test)

r2(y_test, y_pred)

0.6388965404271025

# Modelo RandomForestRegressor()

In [192]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model_random = RandomForestRegressor()

# Entrenar el modelo con los datos de entrenamiento
model_random.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model_random.predict(X_test)

r2(y_test, y_pred)

0.8139970233267757

# Modelo GradientBoostingRegressor()

In [217]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model_gradient = GradientBoostingRegressor()

# Entrenar el modelo con los datos de entrenamiento
model_gradient.fit(X_train, y_train)

# Realizar predicciones sobre el conjunto de prueba
y_pred = model_gradient.predict(X_test)

r2(y_test, y_pred)

0.8189784094032291

# Modelo LazyRegressor()

In [195]:
# Dividir los datos en conjunto de entrenamiento y prueba

X_train, X_test, y_train, y_test = tts(X, y, 
                                       train_size=0.8, 
                                       test_size=0.2,
                                       random_state=42
                                      )


X_train.shape, X_test.shape, y_train.shape, y_test.shape

# Crear el modelo de regresión lineal
model = LazyRegressor()

# Entrenar el modelo con los datos de entrenamiento
model.fit(X_train, X_test, y_train, y_test)


100%|██████████| 42/42 [00:50<00:00,  1.20s/it]


(                                          Adjusted R-Squared  \
 Model                                                          
 TransformedTargetRegressor    868141529305994161578573824.00   
 LinearRegression              868141529305994161578573824.00   
 RANSACRegressor               344952556707436279147528192.00   
 Lars                                          62335691023.65   
 SGDRegressor                                            8.00   
 LinearSVR                                               2.26   
 MLPRegressor                                            2.26   
 PassiveAggressiveRegressor                              2.12   
 GaussianProcessRegressor                                1.99   
 KernelRidge                                             1.93   
 QuantileRegressor                                       1.36   
 SVR                                                     1.36   
 DummyRegressor                                          1.35   
 BayesianRidge           

 Se observa que los modelos como, RandomForestRegressor y GradientBoostingRegressor tienen valores más altos para el coeficiente de determinación ajustado y MSE más bajos, lo que indica un mejor ajuste y menor error. Estos modelos podrían considerarse como buenas opciones para predecir el precio de un ordenador.

# Predicción

In [208]:
test.shape

(325, 751)

In [209]:
train.shape

(977, 751)

In [196]:
# Realizar predicciones en el conjunto de prueba con GradientBoostingRegressor
model_gradient.predict(X_test)[:1]

array([8121033.76162486])

In [197]:
# Realizar predicciones en el conjunto de prueba con RandomForestRegressor
model_random.predict(X_test)[:1]

array([8959571.1972])

In [218]:
test.drop('Price', axis=1, inplace=True)




In [219]:
test['Price'] = None

In [215]:
test.fillna(0, inplace=True)


In [220]:
X = test.drop('Price', axis=1)

y = test.Price

In [222]:
y.shape

(325,)

In [224]:


# Utilizar el modelo entrenado para hacer predicciones sobre el DataFrame test
predictions = model_gradient.predict(X)



In [225]:
# Predecir el precio del DataFrame de prueba utilizando el modelo GradientBoostingRegressor
predictions_gradient = model_gradient.predict(X)

# Predecir el precio del DataFrame de prueba utilizando el modelo RandomForestRegressor
predictions_random = model_random.predict(X)


In [226]:
predictions_random[:1]

array([6080540.778])

# Resultados

In [245]:
muestra.head()

Unnamed: 0,id,Price
0,0,2759145
1,1,10926785
2,2,20212944
3,3,46541311
4,4,46335226


In [252]:
#creamos una copia y añadimos la predicción de Id y precios del modelo gradiente

test_pred = test.copy()

test_pred.reset_index(drop=True, inplace=True)

test_pred['Id'] = range(0, len(test))

test_pred['Price'] = predictions_gradient

result_model_gradient = test_pred[['Id', 'Price']]


In [251]:
#creamos una copia y añadimos la predicción de precios de Id y del modelo gradiente

test_pred = test.copy()

test_pred.reset_index(drop=True, inplace=True)

test_pred['Id'] = range(0, len(test))

test_pred['Price'] = predictions_random

result_model_random = test_pred[['Id', 'Price']]

In [254]:
result_model_random.head()

Unnamed: 0,Id,Price
0,0,6080540.78
1,1,14350430.67
2,2,11272473.76
3,3,10728998.28
4,4,4161053.19


In [253]:
result_model_gradient.head()

Unnamed: 0,Id,Price
0,0,6072625.83
1,1,16234940.69
2,2,12012011.14
3,3,8411600.51
4,4,5235825.23


In [255]:
result_model_gradient.to_csv('../data/predictions/result_model_gradient.csv', index=False)
result_model_random.to_csv('../data/predictions/result_model_random.csv', index=False)