# Limpieza Auctions

En este notebook se busca realizar una limpieza de información del archivo auctions.csv, buscamos que los tipos de las columnas sean correctos y ocupen el menor espacio posible, y se analiza que datos son o no relevantes.

In [2]:
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

A la hora de leer los datos del csv, especificamos el tipo de dato de las columnas con el parámetro dtype y parseamos las columnas cuya información son fechas con el parámetro parse (habiendo visto previamente el csv para identificar los datos de cada columna). Así, se reduce el tiempo de lectura del csv y el espacio de memoria que ocupan los datos. 

In [4]:
auctions = pd.read_csv('../Data/auctions.csv.gzip', compression = 'gzip', 
                       dtype={'country': 'category', 'device_id': np.int64, 'platform': 'category', 'ref_type_id': np.int8,
                              'source_id': np.int8}, parse_dates=['date'])

In [5]:
auctions.head()

Unnamed: 0,auction_type_id,country,date,device_id,platform,ref_type_id,source_id
0,,6333597102633388268,2019-03-11 14:18:33.290763,6059599345986491085,1,1,0
1,,6333597102633388268,2019-03-11 14:18:34.440157,1115994996230693426,1,1,0
2,,6333597102633388268,2019-03-11 14:18:35.862360,7463856250762200923,1,1,0
3,,6333597102633388268,2019-03-11 14:18:36.167163,7829815350267792040,1,1,0
4,,6333597102633388268,2019-03-11 14:18:37.728590,1448534231953777480,1,1,0


In [6]:
auctions.describe(include='all')

Unnamed: 0,auction_type_id,country,date,device_id,platform,ref_type_id,source_id
count,0.0,19571319.0,19571319,19571320.0,19571319.0,19571320.0,19571320.0
unique,,1.0,19570963,,2.0,,
top,,6.333597102633388e+18,2019-03-13 18:19:02.095780,,1.0,,
freq,,19571319.0,2,,15541825.0,,
first,,,2019-03-05 00:52:33.352526,,,,
last,,,2019-03-13 23:59:59.997032,,,,
mean,,,,4.599151e+18,,2.235326,0.6857898
std,,,,2.667138e+18,,2.426093,1.416215
min,,,,113858800000000.0,,1.0,0.0
25%,,,,2.258716e+18,,1.0,0.0


In [7]:
auctions['auction_type_id'].count()

0

Descartamos la columna "auction_type_id" ya que vemos que todos sus valores son nulos y por lo tanto no nos aporta información.

In [8]:
auctions.drop(columns='auction_type_id',inplace=True)

In [9]:
auctions.head()

Unnamed: 0,country,date,device_id,platform,ref_type_id,source_id
0,6333597102633388268,2019-03-11 14:18:33.290763,6059599345986491085,1,1,0
1,6333597102633388268,2019-03-11 14:18:34.440157,1115994996230693426,1,1,0
2,6333597102633388268,2019-03-11 14:18:35.862360,7463856250762200923,1,1,0
3,6333597102633388268,2019-03-11 14:18:36.167163,7829815350267792040,1,1,0
4,6333597102633388268,2019-03-11 14:18:37.728590,1448534231953777480,1,1,0
