# 1 - Listado de variables y selección

## Entrada
* Manufacturer: Marca / fabricante del equipo
* Model Name: Nombre / número de modelo del equipo
* Category: Tipo de notebook
* Screen Size: Tamaño diagonal de la pantalla en pulgadas
* Screen Type: Resolución y tipo de panel
* CPU: Modelo de procesador
* RAM: Capacidad de memoria
* Storage: Tipo y tamaño de almacenamiento interno
* GPU: Tipo y modelo de procesador de gráficos
* OS: Sistema operativo
* Weight: Peso

## Salida
* Price: Será reducida con rangos a valores "bajo", "medio" o "alto"

## No utilizadas
* OS Version: No usada debido a su gran cantidad de nulos y presunta poca importancia

# 2 - Análisis detallado de un conjunto de variables


In [None]:
import pandas as pd

In [None]:
laptops_train = pd.read_csv('laptops_train.csv')
laptops_test = pd.read_csv('laptops_test.csv')

In [None]:
print("Entries de train: "+str(len(laptops_train)))
print("Entries de test: "+str(len(laptops_test)))

In [None]:
laptops_train.isnull().sum()

In [None]:
laptops_test.isnull().sum()

In [None]:
laptops_train

In [None]:
# Renombre de las series
new_col_names = {
    "Manufacturer":"manufacturer",
    "Model Name":"model",
    "Category":"category",
    "Screen Size":"screen_size",
    "Screen":"resolution",
    "CPU":"cpu",
    "RAM":"ram",
    " Storage":"storage", # la string original tiene el espacio, sin eso no lo cambia
    "GPU":"gpu",
    "Operating System":"os",
    #"Operating System Version":"os_version",
    "Weight":"weight",
    "Price":"price"
}

laptops_train = laptops_train.rename(columns=new_col_names).drop(columns="Operating System Version")
laptops_test = laptops_test.rename(columns=new_col_names).drop(columns="Operating System Version")

In [None]:
laptops_train

In [None]:
# Conversión de la variable de salida de rupias a dólares, tomando como base la cotización del 28/03/2023, según la última actualización del dataset
# Se dividió por 100 el valor obtenido debido a que los precios convertidos con la cotización de referencia se encontraban fuera del rango esperado
# Cotización: 1 INR = 0.0001217 USD


cotizacion = 0.0001217

def convertir_precio(precio):
    return int(precio * cotizacion)

laptops_train["price"] = laptops_train["price"].apply(convertir_precio)

In [None]:
laptops_train

In [None]:
import matplotlib as plt
import plotly.express as px

## Variable de salida

In [None]:
px.histogram(laptops_train, x="price")

In [None]:
px.histogram(laptops_train, x="price", range_x=[0, 3800])

In [None]:
px.box(laptops_train, x="price")

In [None]:
laptops_train["price"].describe()

Se puede apreciar como la variable de salida tiene una forma de campana gaussiana (buscar forma estadísticamente correcta de decir que está tirada para la izquierda). A su vez se puede ver como existen valores anómalos y aberrantes en los rangos superiores del dataset.

## Variables de entrada

### Manufacturer

In [None]:
px.box(laptops_train,x="manufacturer", y="price")

### Model

In [None]:
px.box(laptops_train,x="model",y="price", height=800)

### Category

In [None]:
px.box(laptops_train, x="category", y="price")

### Screen size

In [None]:
px.box(laptops_train, x="screen_size", y="price")

### Resolution

In [None]:
px.box(laptops_train, x="resolution", y="price", height=600)

### CPU

In [None]:
px.box(laptops_train, x="cpu", y="price", height=700)

### RAM

In [None]:
px.box(laptops_train, x="ram", y="price", height=600)

### Storage

In [None]:
px.scatter(laptops_train, x="storage", y="price", height=600)

### GPU

In [None]:
px.scatter(laptops_train, x="gpu", y="price", height=600)

### OS

In [None]:
px.box(laptops_train, x="os", y="price", height=600)

### Weight

In [None]:
px.scatter(laptops_train, x="weight", y="price")

## Listado de dudas/preguntas para el proveedor del dataset

* De que fuentes provienen estos precios? y que metodos fueron utilizados para recolectarlos?
* Porque la columna de SO Type tiene tantos valores nulos?
* Pensas que el tipo de SO afecta al precio?
* Pensas que existen otros factores que afecten el precio de una laptop? como serían el material de chasis, distribución de teclado, etc.
* Cual crees que es la variable que mas afecta al precio de una laptop?
* Omitiste alguna variable al creear el dataset?