# üñ•Ô∏è Cuaderno para la creaci√≥n del dataset del modelo

El objetivo principal de este cuaderno es crear el dataset que utilizar√° nuestro modelo, de forma que, al recibir la imagen de un componente, pueda identificar correctamente qu√© tipo de componente es.

**Tercera parte: dataset final**

## Importaciones

In [22]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

## Obtenci√≥n de datos

Cogemos el dataset resultante del cuaderno anterior.

In [23]:
df_data = pd.read_csv('./data/processed/components_01_with_local_paths.csv')

## Descripci√≥n de los datos

Este dataset contiene **9982 registros**. Disponemos del **tipo de componente** (`label`), que ser√° el *target* de nuestro modelo inicial, as√≠ como la URL de la imagen y la ruta local, aunque mantiene fallos por temas de barras, que ahora arreglaremos.

| #  | Columnas           | Non-Null Count | Tipos |
|----|-----------------|----------------|-------|
| 0  | image_url        | 9982           | str   |
| 1  | label            | 9982           | str   |
| 2  | local_image_path | 9971           | str   |



In [24]:
df_data

Unnamed: 0,image_url,label,local_image_path
0,https://thumb.pccomponentes.com/w-530-530/arti...,motherboard,../data/images\motherboard_0.jpg
1,https://thumb.pccomponentes.com/w-530-530/arti...,motherboard,../data/images\motherboard_1.jpg
2,https://thumb.pccomponentes.com/w-530-530/arti...,motherboard,../data/images\motherboard_2.jpg
3,https://thumb.pccomponentes.com/w-530-530/arti...,motherboard,../data/images\motherboard_3.jpg
4,https://thumb.pccomponentes.com/w-530-530/arti...,motherboard,../data/images\motherboard_4.jpg
...,...,...,...
9977,https://cdna.pcpartpicker.com/static/forever/i...,hard_drive,../data/images\hard_drive_9977.jpg
9978,https://cdna.pcpartpicker.com/static/forever/i...,hard_drive,../data/images\hard_drive_9978.jpg
9979,https://cdna.pcpartpicker.com/static/forever/i...,hard_drive,../data/images\hard_drive_9979.jpg
9980,https://m.media-amazon.com/images/I/31s-wKnYDv...,hard_drive,../data/images\hard_drive_9980.jpg


In [25]:
df_data.info()

<class 'pandas.DataFrame'>
RangeIndex: 9982 entries, 0 to 9981
Data columns (total 3 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   image_url         9982 non-null   str  
 1   label             9982 non-null   str  
 2   local_image_path  9971 non-null   str  
dtypes: str(3)
memory usage: 234.1 KB


## Preparaci√≥n de los datos para los algoritmos

En este apartado vamos a limpiar el dataset para dejarlo listo para el modelo que elijamos.

### Valores nulos

Podemos observar que hay valores nulos, por lo que vamos a identificarlos y borrar estos valores.

In [26]:
df_data.isnull().sum()

image_url            0
label                0
local_image_path    11
dtype: int64

Podemos observar que hay muy pocos valores nulos, probablemente debido a fallos en la obtenci√≥n, por lo que eliminaremos estas filas.

In [27]:
df_data = df_data.dropna()

In [28]:
print(df_data.isnull().sum())

image_url           0
label               0
local_image_path    0
dtype: int64


### Solucionar problemas de rutas

Hay problemas con las barras de las rutas, por lo que vamos a solucionarlos en este apartado.


In [29]:
df_data["local_image_path"]

0         ../data/images\motherboard_0.jpg
1         ../data/images\motherboard_1.jpg
2         ../data/images\motherboard_2.jpg
3         ../data/images\motherboard_3.jpg
4         ../data/images\motherboard_4.jpg
                       ...                
9977    ../data/images\hard_drive_9977.jpg
9978    ../data/images\hard_drive_9978.jpg
9979    ../data/images\hard_drive_9979.jpg
9980    ../data/images\hard_drive_9980.jpg
9981    ../data/images\hard_drive_9981.jpg
Name: local_image_path, Length: 9971, dtype: str

In [30]:
df_data["local_image_path"] = df_data["local_image_path"].str.replace(r'\\', '/', regex=True)

In [31]:
df_data["local_image_path"]

0         ../data/images/motherboard_0.jpg
1         ../data/images/motherboard_1.jpg
2         ../data/images/motherboard_2.jpg
3         ../data/images/motherboard_3.jpg
4         ../data/images/motherboard_4.jpg
                       ...                
9977    ../data/images/hard_drive_9977.jpg
9978    ../data/images/hard_drive_9978.jpg
9979    ../data/images/hard_drive_9979.jpg
9980    ../data/images/hard_drive_9980.jpg
9981    ../data/images/hard_drive_9981.jpg
Name: local_image_path, Length: 9971, dtype: str

### Eliminar la columna de URL

No necesitamos esta columna, por lo que la eliminaremos.


In [32]:
df_data = df_data.drop(columns=["image_url"])
df_data.info()

<class 'pandas.DataFrame'>
Index: 9971 entries, 0 to 9981
Data columns (total 2 columns):
 #   Column            Non-Null Count  Dtype
---  ------            --------------  -----
 0   label             9971 non-null   str  
 1   local_image_path  9971 non-null   str  
dtypes: str(2)
memory usage: 233.7 KB
