# **PREPROCESAMIENTO Y LIMPIEZA DE LOS DATOS**

<p align=justify> Este notebook tiene como propósito entender cada uno de los archivos <i>.csv </i> suministrados por la competencia de kaggle <b>"Predict Future Sales"</b>, y de igual manera realizar algún tipo de preprocesamiento en los datos que a consideración del autor así lo requiera.

Los archivos *.csv* simunistrados son:

1. item_categories.csv
2. items.csv
3. shops.csv
4. sample_submission.csv
5. sales_train.csv
6. test.csv

<p align=justify> A continuación se procede a explicar cada uno de los archivos y  el correspondiente ajuste a realizado para cada uno de ellos, así como los paquetes necesarios para dichas modificaciones.

## **CARGAR LOS DATOS E IMPORTAR LOS PAQUETES NECESARIOS**

<p align=justify> Para tener acceso a los archivos mencionados anteriormente, se procede a clonar el repositorio de GitHub  <i>monografía</i> utilizando el comando <b>git clone.</b> </p>

<p align=justify>Para acceder al repositorio lo puede hacer a través del siguiente enlace "<a>https://github.com/Alberto7526/MonografiaGithub.git</a>" una vez ahí podrá encontrar todos los archivos, datasets y notebooks necesarios para la ejecución de este proyecto.</p>

In [1]:
!git clone https://github.com/Alberto7526/MonografiaGithub.git

Cloning into 'MonografiaGithub'...
remote: Enumerating objects: 28, done.[K
remote: Counting objects: 100% (28/28), done.[K
remote: Compressing objects: 100% (24/24), done.[K
remote: Total 28 (delta 3), reused 26 (delta 2), pack-reused 0[K
Unpacking objects: 100% (28/28), done.


Importando los paquetes necesarios 

In [2]:
import os
import numpy as np 
import pandas as pd
from textblob import TextBlob

## **1. item_categories.csv**

<p aling = justify> Este archivo presenta una relación entre los nombres de cada una de las categorias a la cual pertenecen los diferentes productos que se ofrecen y su correspondiente ID (número entero), como se puede ver al momento de crear el dataframe denominado <b>item_categories</b> con el archivo .csv, Se observa que el idioma se encuentra en  <i>RUSO</i> por facilidad se procede a realizar su traducción al idioma español, haciendo uso de la libreria <b><i>textblob,</i></b> la cual permite realizar procesamiento de texto, análisis de sentimiento y en este caso traducción del ruso al español basado en la API de google traductor. Empleando la función <b><i>trans_es</i></b>, la cual recibe un <i>String</i> y devuelve el mismo <i>String</i> pero traducido al idioma español.<p>

Data frame original

In [3]:
# Creación del data frame item_categories
item_categories = pd.read_csv('MonografiaGithub/Datasets/item_categories.csv')
item_categories.head(5)

Unnamed: 0,item_category_name,item_category_id
0,PC - Гарнитуры/Наушники,0
1,Аксессуары - PS2,1
2,Аксессуары - PS3,2
3,Аксессуары - PS4,3
4,Аксессуары - PSP,4


Se define la función **trans_es** y traduce de la serie **.item_category_name** con ayuda de la función map de pandas

In [4]:
def trans_es(x):
  eb = TextBlob(x)
  trad = eb.translate(to='es')
  return  str(trad)

In [5]:
item_categories['item_category_name'] = item_categories['item_category_name'].map(trans_es)
item_categories.head(5)

Unnamed: 0,item_category_name,item_category_id
0,PC - Auriculares / Auriculares,0
1,Accesorios - PS2,1
2,Accesorios - PS3,2
3,Accesorios - PS4,3
4,Accesorios - PSP,4


###**NOTA**

La API de google para traducir los datos tiene un limite de palabras, por lo que para traducir todos los archivos es necesario realizarlo en diferentes momentos y con diferentes cuentas de google

Una vez se ha realizado la traducción de los datos, se procede a verificar la integridad de los mismos.

Para este caso solo se verifica si posee valores nulos, y el número de registros existentes.  

In [6]:
item_categories.isnull().values.sum()

0

In [7]:
numero_registros = len(item_categories)
numero_valores_distintos = len(item_categories['item_category_name'].unique())
print ('Número de registros para item_categories es: {}'
        '\nNúmero de valores unicos es: {}'.format(numero_registros,numero_valores_distintos))

Número de registros para item_categories es: 84
Número de valores unicos es: 84


Como se puede observar no se encuentran valores nulos o repetidos dentro de item_categories, por tanto no es necesario realizar ninguna otra acción sobre el dataframe y se procede a guardar el mismo en la carpeta New_Datasets

In [8]:
try:
    os.mkdir('New_Datasets')
except OSError:
    pass
item_categories.to_csv('New_Datasets/item_categories.csv',index=False)

## **2.items.csv**

<p aling = justify>  El archivo <b>items.csv</b> presenta el listado de productos disponibles con su respectivo <b>ID</b> y el <b>ID_category</b> el cual indica la categoría a la cual pertenece, definido anteriormente.<p>

<p aling = justify> La traducción de este archivo no se realizó debido al número de registros que este posee (22.170), ya que para este proceso sería necesario diseñar un sistema de Inteligencia artificial, el cual podría llegar a ser complejo y no es el enfoque de este proyecto, realizar una partición de los datos o utilizar la versión paga de la API de google mencionada anteriormente.<p> 

In [9]:
items = pd.read_csv('MonografiaGithub/Datasets/items.csv')
items.head()

Unnamed: 0,item_name,item_id,item_category_id
0,! ВО ВЛАСТИ НАВАЖДЕНИЯ (ПЛАСТ.) D,0,40
1,!ABBYY FineReader 12 Professional Edition Full...,1,76
2,***В ЛУЧАХ СЛАВЫ (UNV) D,2,40
3,***ГОЛУБАЯ ВОЛНА (Univ) D,3,40
4,***КОРОБКА (СТЕКЛО) D,4,40


In [10]:
items.isnull().values.sum()

0

In [11]:
total_productos = len(items.item_id.unique())
print ('El número total de productos a predecir es: ',total_productos)

El número total de productos a predecir es:  22170


Como se puede evidenciar el archivo <b>items.csv</b> no presenta valores nulos o repetidos, ya que este archivo se utilizado solo para brindar información, no se realiza ningun cambio en el mismo. 

In [12]:
items.to_csv('New_Datasets/items.csv',index=False)

## **3.shops.csv**

<p aling = justify>El archivo presenta una relación entre los nombre para cada una de las tiendas disponibles con su correspondiente <b>ID</b> (número entero), inicalmente se procede a realizar su traducción al idioma español utilizando la misma función descrita en el inciso <i>1.item_categories</i><p> 

In [13]:
shops = pd.read_csv('MonografiaGithub/Datasets/shops.csv')
shops.head(5)

Unnamed: 0,shop_name,shop_id
0,"!Якутск Орджоникидзе, 56 фран",0
1,"!Якутск ТЦ ""Центральный"" фран",1
2,"Адыгея ТЦ ""Мега""",2
3,"Балашиха ТРК ""Октябрь-Киномир""",3
4,"Волжский ТЦ ""Волга Молл""",4


In [14]:
shops['shop_name'] = shops['shop_name'].map(trans_es)
shops.head()

Unnamed: 0,shop_name,shop_id
0,"! Yakutsk Ordzhonikidze, 56 francos",0
1,"! Yakutsk TC ""Central"" fran",1
2,"Centro comercial Adygea ""Mega""",2
3,"Balashikha TRK ""Octubre-Kinomir""",3
4,"Centro comercial Volzhsky ""Volga Mall""",4


In [15]:
shops.isnull().values.sum()

0

In [16]:
total_tiendas = len(shops.shop_id.unique())
print ('El número total de tiendas es: ',total_tiendas)

El número total de tiendas es:  60


Como se puede evidenciar el archivo <b>shops.csv</b> no presenta valores nulos o repetidos, ya que este archivo se utilizado solo para brindar información, no se realiza ningun cambio adicional en el mismo y se procede a guardar el archivo.

In [17]:
shops.to_csv('New_Datasets/shops.csv',index=False)

##**4.sample_submission.csv**

El archivo presenta el formato correcto en el que se debe enviar la información en la competencia de kaggle al momento de subir los resultados o las predicciones obtenidas, donde <b>ID</b> corresponde al id del producto <i>id_item</i> e <b>item_cnt_month</b> son la cantidad de ventas durante un mes (datos predecidos).

> Bloque con sangría



In [18]:
sample_submission = pd.read_csv('MonografiaGithub/Datasets/sample_submission.csv')
sample_submission

Unnamed: 0,ID,item_cnt_month
0,0,0.5
1,1,0.5
2,2,0.5
3,3,0.5
4,4,0.5
...,...,...
214195,214195,0.5
214196,214196,0.5
214197,214197,0.5
214198,214198,0.5


In [19]:
len(sample_submission.ID.unique())

214200

In [20]:
sample_submission.to_csv('New_Datasets/sample_submission.csv',index=False)

##**5.sales_train.csv**

In [21]:
sales_train = pd.read_csv('MonografiaGithub/Datasets/sales_train.csv')
sales_train

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,02.01.2013,0,59,22154,999.00,1.0
1,03.01.2013,0,25,2552,899.00,1.0
2,05.01.2013,0,25,2552,899.00,-1.0
3,06.01.2013,0,25,2554,1709.05,1.0
4,15.01.2013,0,25,2555,1099.00,1.0
...,...,...,...,...,...,...
2935844,10.10.2015,33,25,7409,299.00,1.0
2935845,09.10.2015,33,25,7460,299.00,1.0
2935846,14.10.2015,33,25,7459,349.00,1.0
2935847,22.10.2015,33,25,7440,299.00,1.0


In [29]:
sales_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2935849 entries, 0 to 2935848
Data columns (total 6 columns):
 #   Column          Dtype  
---  ------          -----  
 0   date            object 
 1   date_block_num  int64  
 2   shop_id         int64  
 3   item_id         int64  
 4   item_price      float64
 5   item_cnt_day    float64
dtypes: float64(2), int64(3), object(1)
memory usage: 134.4+ MB


In [31]:
sales_train['date'] = pd.to_datetime(sales_train['date'],errors='coerce')

In [32]:
sales_train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2935849 entries, 0 to 2935848
Data columns (total 6 columns):
 #   Column          Dtype         
---  ------          -----         
 0   date            datetime64[ns]
 1   date_block_num  int64         
 2   shop_id         int64         
 3   item_id         int64         
 4   item_price      float64       
 5   item_cnt_day    float64       
dtypes: datetime64[ns](1), float64(2), int64(3)
memory usage: 134.4 MB


In [33]:
sales_train.head(10)

Unnamed: 0,date,date_block_num,shop_id,item_id,item_price,item_cnt_day
0,2013-02-01,0,59,22154,999.0,1.0
1,2013-03-01,0,25,2552,899.0,1.0
2,2013-05-01,0,25,2552,899.0,-1.0
3,2013-06-01,0,25,2554,1709.05,1.0
4,2013-01-15,0,25,2555,1099.0,1.0
5,2013-10-01,0,25,2564,349.0,1.0
6,2013-02-01,0,25,2565,549.0,1.0
7,2013-04-01,0,25,2572,239.0,1.0
8,2013-11-01,0,25,2572,299.0,1.0
9,2013-03-01,0,25,2573,299.0,3.0


In [35]:
sales_train.isnull().values.sum()

0

In [36]:
sales_train.to_csv('New_Datasets/sales_train.csv',index=False)

##**6.test.csv**

In [37]:
test = pd.read_csv('MonografiaGithub/Datasets/test.csv')
test.head(10)

Unnamed: 0,ID,shop_id,item_id
0,0,5,5037
1,1,5,5320
2,2,5,5233
3,3,5,5232
4,4,5,5268
5,5,5,5039
6,6,5,5041
7,7,5,5046
8,8,5,5319
9,9,5,5003


In [38]:
test.isnull().values.sum()

0

In [39]:
test.to_csv('New_Datasets/test.csv',index=False)