# Limpieza Auctions

En este notebook se busca realizar una limpieza de información del archivo auctions.csv, buscamos que los tipos de las columnas sean correctos y ocupen el menor espacio posible, y se analiza que datos son o no relevantes.

In [9]:
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

A la hora de leer los datos del csv, especificamos el tipo de dato de las columnas con el parámetro dtype y parseamos las columnas cuya información son fechas con el parámetro parse (habiendo visto previamente el csv para identificar los datos de cada columna). Así, se reduce el tiempo de lectura del csv y el espacio de memoria que ocupan los datos. 

In [10]:
auctions = pd.read_csv('../Data/auctions.csv.gzip', compression = 'gzip', 
                       dtype={'device_id': np.int64, 'ref_type_id': 'category','source_id': np.int8}, parse_dates=['date'])

In [11]:
auctions.head()

Unnamed: 0,date,device_id,ref_type_id,source_id
0,2019-04-23 18:58:00.842116,2564673204772915246,1,0
1,2019-04-23 18:58:01.530771,4441121667607578179,7,0
2,2019-04-23 18:58:01.767562,7721769811471055264,1,0
3,2019-04-23 18:58:02.363468,6416039086842158968,1,0
4,2019-04-23 18:58:02.397559,1258642015983312729,1,0


In [12]:
auctions.describe(include='all')

Unnamed: 0,date,device_id,ref_type_id,source_id
count,47409528,47409530.0,47409528.0,47409530.0
unique,47407803,,2.0,
top,2019-04-23 21:46:17.200578,,1.0,
freq,2,,40330743.0,
first,2019-04-18 00:00:00.015050,,,
last,2019-04-26 23:59:59.969518,,,
mean,,4.614897e+18,,1.564526
std,,2.663068e+18,,1.823315
min,,40621410000000.0,,0.0
25%,,2.296914e+18,,1.0


In [14]:
auctions['ref_type_id'].value_counts()

1    40330743
7     7078785
Name: ref_type_id, dtype: int64

Con los datos obtenidos de la limpieza de installs y haciendo un join con cualquiera de los otros dataframe notamos que los registros con ref_type_id 1 son de Google y los de ref_type_id 7 son de Apple. Reemplazamos los valores de ref_type_id por Google o Apple.

In [15]:
auctions['ref_type_id'].replace({'1':'Google','7':'Apple'}, inplace=True)

In [16]:
auctions['ref_type_id'] = auctions['ref_type_id'].astype('category')

In [17]:
auctions['ref_type_id'].value_counts()

Google    40330743
Apple      7078785
Name: ref_type_id, dtype: int64

In [18]:
auctions.head()

Unnamed: 0,date,device_id,ref_type_id,source_id
0,2019-04-23 18:58:00.842116,2564673204772915246,Google,0
1,2019-04-23 18:58:01.530771,4441121667607578179,Apple,0
2,2019-04-23 18:58:01.767562,7721769811471055264,Google,0
3,2019-04-23 18:58:02.363468,6416039086842158968,Google,0
4,2019-04-23 18:58:02.397559,1258642015983312729,Google,0


In [19]:
auctions.dtypes

date           datetime64[ns]
device_id               int64
ref_type_id          category
source_id                int8
dtype: object