# Preparación de Datos - Ejercicio - Precio de Celulares

**Contexto**  
Este conjunto de datos contiene el precio de celulares, de acuerdo diversos factores.

**Contenido**  
El conjunto de datos proviene de kaggle: [Mobile Price Prediction](https://www.kaggle.com/datasets/mohannapd/mobile-price-prediction).  
Contiene 161 renglones, con las siguientes columnas:

| Variable     | Definición                     | Valor           |
| ------------ | ------------------------------ | --------------- |
| Product_id   | Identificador del celular      | Id numérico     |
| Price        | Precio **(variable objetivo)** | USD             |
| Sale         | Número de ticket               | Id numérico     |
| weight       | Peso                           | Libras          |
| resolution   | Resolución                     | Pulgadas        |
| ppi          | Densidad                       | Pixeles         |
| cpu core     | Núcleos de cpu                 | Numérico entero |
| cpu freq     | Frecuencia del cpu             | GHz             |
| internal mem | Memoria interna                | GB              |
| ram          | Memoria RAM                    | GB              |
| RearCam      | Cámaras traseras               | Numérico entero |
| Front_Cam    | Cámaras delanteras             | Numérico entero |
| battery      | Batería                        | mAh             |
| thickness    | Ancho                          | Milímetros      |

**Planteamiento del problema**  
Se busca encontrar que factores tienen mayor influencia en el precio de los celulares.

In [1]:
# Importar librerias
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

from sklearn.preprocessing import StandardScaler

## Cargar Datos

In [2]:
# Importar los datos
df = pd.read_csv('Cellphone.csv')
df.head()

Unnamed: 0,Product_id,Price,Sale,weight,resoloution,ppi,cpu core,cpu freq,internal mem,ram,RearCam,Front_Cam,battery,thickness
0,203,2357,10,135.0,5.2,424,8,1.35,16.0,3.0,13.0,8.0,2610,7.4
1,880,1749,10,125.0,4.0,233,2,1.3,4.0,1.0,3.15,0.0,1700,9.9
2,40,1916,10,110.0,4.7,312,4,1.2,8.0,1.5,13.0,5.0,2000,7.6
3,99,1315,11,118.5,4.0,233,2,1.3,4.0,0.512,3.15,0.0,1400,11.0
4,880,1749,11,125.0,4.0,233,2,1.3,4.0,1.0,3.15,0.0,1700,9.9


In [3]:
# Renombrar columnas
df.columns = ['id_producto', 'precio', 'ticket', 'peso', 'resolución', 'densidad_pixel', 'nucleos_cpu',
              'frec_cpu', 'mem_interna', 'ram', 'camara_tras', 'camara_frontal', 'bateria', 'ancho']
df.head()

Unnamed: 0,id_producto,precio,ticket,peso,resolución,densidad_pixel,nucleos_cpu,frec_cpu,mem_interna,ram,camara_tras,camara_frontal,bateria,ancho
0,203,2357,10,135.0,5.2,424,8,1.35,16.0,3.0,13.0,8.0,2610,7.4
1,880,1749,10,125.0,4.0,233,2,1.3,4.0,1.0,3.15,0.0,1700,9.9
2,40,1916,10,110.0,4.7,312,4,1.2,8.0,1.5,13.0,5.0,2000,7.6
3,99,1315,11,118.5,4.0,233,2,1.3,4.0,0.512,3.15,0.0,1400,11.0
4,880,1749,11,125.0,4.0,233,2,1.3,4.0,1.0,3.15,0.0,1700,9.9


## Normalización

In [None]:
# Variables independientes
## Escribe tu código aqui

Unnamed: 0,id_producto,ticket,peso,resolución,densidad_pixel,nucleos_cpu,frec_cpu,mem_interna,ram,camara_tras,camara_frontal,bateria,ancho
0,203,10,135.0,5.2,424,8,1.35,16.0,3.0,13.0,8.0,2610,7.4
1,880,10,125.0,4.0,233,2,1.3,4.0,1.0,3.15,0.0,1700,9.9
2,40,10,110.0,4.7,312,4,1.2,8.0,1.5,13.0,5.0,2000,7.6
3,99,11,118.5,4.0,233,2,1.3,4.0,0.512,3.15,0.0,1400,11.0
4,880,11,125.0,4.0,233,2,1.3,4.0,1.0,3.15,0.0,1700,9.9


In [None]:
# Normalizar
## Escribe tu código aqui

[[-1.15378271e+00 -3.96590165e-01 -3.82572418e-01 ...  8.07867811e-01
  -1.70327419e-01 -6.96210988e-01]
 [ 4.99155621e-01 -3.96590165e-01 -4.90564141e-01 ... -1.04032711e+00
  -8.38100234e-01  4.47564206e-01]
 [-1.55175752e+00 -3.96590165e-01 -6.52551726e-01 ...  1.14794716e-01
  -6.17955350e-01 -6.04708972e-01]
 ...
 [ 4.40558102e-01  5.31034658e+00 -2.20584833e-01 ...  3.58016019e+00
   1.15860931e-01 -9.70717034e-01]
 [ 1.51484594e+00  5.39920331e+00 -4.60138647e-03 ...  8.07867811e-01
   4.09387443e-01 -4.67455949e-01]
 [ 1.11198800e+00  5.95763864e+00  3.40972128e-01 ...  2.65606273e+00
  -1.04283953e-01 -2.38700910e-01]]


In [None]:
# Variable dependiente
## Escribe tu código aqui

0    2357
1    1749
2    1916
3    1315
4    1749
Name: precio, dtype: int64

In [7]:
print('X:', len(X_adj), 'y:', len(y))

X: 161 y: 161
