# Limpieza de datos

En este jupiter nos centraremos en la limpieza de los datos y abordaremos el tratamiento de datos faltantes y nulos en caso de existir

In [2]:
import pandas as pd
import numpy as np

df_laptops = pd.read_csv("dataset/laptop_prices.csv", encoding='latin-1')

Vamos a tratar los valores nulos en caso de que existan los mismos y tambien las filas duplicadas

In [3]:
# Verificar valores nulos por columna
print("Valores nulos antes de la limpieza:")
print(df_laptops.isnull().sum())

Valores nulos antes de la limpieza:
Company                 0
Product                 0
TypeName                0
Inches                  0
Ram                     0
OS                      0
Weight                  0
Price_euros             0
Screen                  0
ScreenW                 0
ScreenH                 0
Touchscreen             0
IPSpanel                0
RetinaDisplay           0
CPU_company             0
CPU_freq                0
CPU_model               0
PrimaryStorage          0
SecondaryStorage        0
PrimaryStorageType      0
SecondaryStorageType    0
GPU_company             0
GPU_model               0
dtype: int64


In [5]:
print("\nNúmero de filas duplicadas antes de la limpieza: {}".format(df_laptops.duplicated().sum()))


Número de filas duplicadas antes de la limpieza: 0


Gracias a los codigos anterios vemos que no hay datos faltantes y tampoco filas duplicadas

Una vez hecho lo anterior pasemos a darle un tratamiento propio a las columnas del dataset para ellos contemos los valores unicos de las columnas object para tener una mejor base a la hora de decidir que haremos con las mismas

In [6]:
# Lista de columnas categóricas (tipo 'object')
categorical_columns = [
    'Company',
    'Product',
    'TypeName',
    'OS',
    'Screen',
    'Touchscreen',
    'IPSpanel',
    'RetinaDisplay',
    'CPU_company',
    'CPU_model',
    'PrimaryStorageType',
    'SecondaryStorageType',
    'GPU_company',
    'GPU_model'
]

print("--- Valores únicos y su conteo para cada columna categórica ---")
print("-" * 60)

for col in categorical_columns:
    if col in df_laptops.columns: # Asegurarse de que la columna exista en el DataFrame actual
        print(f"\nColumna: '{col}'")
        print(df_laptops[col].value_counts())
        print(f"Número de valores únicos: {df_laptops[col].nunique()}")
        print("-" * 60)
    else:
        print(f"\nLa columna '{col}' no se encuentra en el DataFrame actual (puede que haya sido eliminada en un paso anterior).")
        print("-" * 60)

--- Valores únicos y su conteo para cada columna categórica ---
------------------------------------------------------------

Columna: 'Company'
Company
Dell         291
Lenovo       289
HP           268
Asus         152
Acer         101
MSI           54
Toshiba       48
Apple         21
Samsung        9
Razer          7
Mediacom       7
Microsoft      6
Xiaomi         4
Vero           4
Chuwi          3
Google         3
Fujitsu        3
LG             3
Huawei         2
Name: count, dtype: int64
Número de valores únicos: 19
------------------------------------------------------------

Columna: 'Product'
Product
XPS 13                                 30
Inspiron 3567                          25
250 G6                                 21
Vostro 3568                            19
Legion Y520-15IKBN                     19
                                       ..
VivoBook E201NA                         1
Ideapad 520-15IKBR                      1
Thinkpad X260                           1
Ro

Vamos a descartar del dataset las siguientes variables (columnas) que no concideramos que cumplen los requisitos que buscamos para la creacion de un modelo lineal

In [7]:
# Descartamos 'Product' por su alta cardinalidad y poca utilidad directa
df_laptops.drop(columns=['Product'], inplace=True)
print("Columna 'Product' eliminada.")

Columna 'Product' eliminada.


In [None]:
# Descartamos 'Screen' ya que ScreenW y ScreenH son más específicas y numéricas
df_laptops.drop(columns=['Screen'], inplace=True)
print("Columna 'Screen' eliminada.")

Columna 'Screen' eliminada.


In [None]:
# Descartamos 'CPU_model' y 'GPU_model' por alta cardinalidad
df_laptops.drop(columns=['CPU_model', 'GPU_model'], inplace=True)
print("Columnas 'CPU_model' y 'GPU_model' eliminadas.")

Columnas 'CPU_model' y 'GPU_model' eliminadas.


Ahora convertiremos las columnas binarias que contengan 'Yes' o 'No' a: 0 para 'No' y 1 para 'Yes' 

In [None]:
# Convertimos 'Yes'/'No' a 1/0
df_laptops['Touchscreen'] = df_laptops['Touchscreen'].apply(lambda x: 1 if x == 'Yes' else 0)
df_laptops['IPSpanel'] = df_laptops['IPSpanel'].apply(lambda x: 1 if x == 'Yes' else 0)
df_laptops['RetinaDisplay'] = df_laptops['RetinaDisplay'].apply(lambda x: 1 if x == 'Yes' else 0)

print("Columnas 'Touchscreen', 'IPSpanel', 'RetinaDisplay' convertidas a binario.")
print(df_laptops[['Touchscreen', 'IPSpanel', 'RetinaDisplay']].head())

Columnas 'Touchscreen', 'IPSpanel', 'RetinaDisplay' convertidas a binario.
   Touchscreen  IPSpanel  RetinaDisplay
0            0         1              1
1            0         0              0
2            0         0              0
3            0         1              1
4            0         1              1


Ahora para finalizar guardaremos en un archivo csv los datos pero con todos los cambios antes realizados

In [11]:
# Guardamos el DataFrame preprocesado en un nuevo archivo CSV
output_path = "dataset/p_laptops.csv" 
df_laptops.to_csv(output_path, index=False, encoding='latin-1')