# Importación de librerías

In [1]:
import json
import pandas as pd
from datetime import date, time, datetime

# Carga de datos

In [2]:
data1 = []
with open('Records.json') as data_file:    
    data = json.load(data_file)
    for location in data['locations']:
        data1.append(location)

In [3]:
df = pd.DataFrame(data=data1)
print(df)

        latitudeE7  longitudeE7  accuracy  \
0       -346437832   -584045990        29   
1       -346437627   -584046859        24   
2       -346437556   -584046358        24   
3       -346436580   -584046147        43   
4       -346437130   -584046736        42   
...            ...          ...       ...   
515565  -346505747   -584368145        13   
515566  -346507068   -584393932        12   
515567  -346507456   -584400332        12   
515568  -346508048   -584414245        13   
515569  -346508124   -584415708        13   

                                                 activity source   deviceTag  \
0       [{'activity': [{'type': 'IN_VEHICLE', 'confide...   WIFI    36907970   
1                                                     NaN   WIFI    36907970   
2       [{'activity': [{'type': 'IN_VEHICLE', 'confide...   WIFI    36907970   
3       [{'activity': [{'type': 'TILTING', 'confidence...   WIFI    36907970   
4       [{'activity': [{'type': 'STILL', 'confidence':...  

# Exploración y transformación de datos

Sabemos con .shape que tenemos 515.570 datos en nuestro dataframe con 8 variables, además con .dtypes conocemos los nombres de cada variable  y el tipo de datos.

In [4]:
print(df.shape)
print(df.dtypes)

(515570, 8)
latitudeE7            int64
longitudeE7           int64
accuracy              int64
activity             object
source               object
deviceTag             int64
timestamp            object
deviceDesignation    object
dtype: object


## A continuación explicaremos cada atributo del dataset e información relevante para transformar los datos según nuestra conveniencia:

1. LatitudeE7: Latitud con formato E7.

2. LongitudeE7: Longitud con formato E7.

3. Accuracy: Es el nivel de precisión de la geolocalización.

4. Activity:

5. Source: Indica la fuente que se utilizó para generar el registro de geolocalización.

6. DeviceTag: Identificador entero (específico del historial de ubicaciones) asociado con el dispositivo que cargó la ubicación. 

7. Timestamp: Da como dato la fecha y hora exacta en que empieza la acción que activa la aplicación en hora UTC+0.

8. DeviceDesignation: campo con función desconocida.

### 1. LatitudeE7
### 2. LongitudeE7:

EL formato de Longitud y Latitud es de E7, quiere decir que está eliminando los valores decimales. Para volver a tenerlos, debemos multiplicarlo por 0.0000001.

In [5]:
df['latitudeE7'] = df['latitudeE7']*0.0000001
df['longitudeE7'] = df['longitudeE7']*0.0000001
df[['latitudeE7', 'longitudeE7']].head()

Unnamed: 0,latitudeE7,longitudeE7
0,-34.643783,-58.404599
1,-34.643763,-58.404686
2,-34.643756,-58.404636
3,-34.643658,-58.404615
4,-34.643713,-58.404674


### 3. Accuracy:

In [6]:
mx_acur = max(df['accuracy'])
mn_acur = min(df['accuracy'])
print(f'el máximo valor es {mx_acur} y el mínimo es {mn_acur}')

el máximo valor es 58619 y el mínimo es 0


### 5. Source:

In [7]:
pd.value_counts(df.source)

WIFI       365692
GPS        109055
CELL        40818
UNKNOWN         5
Name: source, dtype: int64

### 6. DeviceTamp:

Se sabe que es un identificador de dispositivo, pero desconocemos a ciencia cierta el significado de su valor entero y su signo. Sin embargo, podemos saber que se trata únicamente de 9 valores que se van repitiendo en los registros.

In [15]:
df['deviceTag'].nunique()

9

In [12]:
pd.value_counts(df['deviceTag'])

-1615259547    233018
 299628238     138139
 1814650302     69870
-1013692988     38856
 36907970       17808
-523263708      10903
 1040228492      5842
-263022313       1124
 1749122152        10
Name: deviceTag, dtype: int64

### 7. Timestamp:

Está en formato "object" y debemos cambiarlo a formato "YYYY-mm-ddTHH:mm:ssZ", en el cual T sirve como separador de la fecha y la hora y Z indica que está en la hora UTC.

In [8]:
df['timestamp']= pd.to_datetime(df['timestamp'], format=('%Y-%m-%dT%H:%M:%S.%f'))
df['timestamp']

0        2016-05-04 04:16:45.310000+00:00
1        2016-05-04 04:17:30.697000+00:00
2        2016-05-04 04:19:04.274000+00:00
3        2016-05-04 04:19:44.676000+00:00
4        2016-05-04 04:21:29.709000+00:00
                       ...               
515565          2020-07-31 15:38:12+00:00
515566          2020-07-31 15:38:28+00:00
515567          2020-07-31 15:38:32+00:00
515568          2020-07-31 15:38:41+00:00
515569          2020-07-31 15:38:42+00:00
Name: timestamp, Length: 515570, dtype: datetime64[ns, UTC]

En nuestro análisis podríamos usar los datos de año, mes, día y hora. No consideramos necesario los minutos y segundos. Además nos percatamos que originalmente el formato incluía Z, es decir estaba en hora UTC, debemos incluir el cambio horario según nuestra ubicación geográfica. Sabemos que durante el lapso del tiempo de análisis, no hubo salidas al exterior por lo que siempre se mantuvo en UTC-3 que pertenece a Argentina, cambiamos la hora y le restamos 3 para conocer la hora local.

In [9]:
df['year'] = pd.DatetimeIndex(df['timestamp']).year
df['month'] = pd.DatetimeIndex(df['timestamp']).month
df['day'] = pd.DatetimeIndex(df['timestamp']).day
df['hour'] = pd.DatetimeIndex(df['timestamp']).hour - 3

df[['year', 'month', 'day', 'hour']]


Unnamed: 0,year,month,day,hour
0,2016,5,4,1
1,2016,5,4,1
2,2016,5,4,1
3,2016,5,4,1
4,2016,5,4,1
...,...,...,...,...
515565,2020,7,31,12
515566,2020,7,31,12
515567,2020,7,31,12
515568,2020,7,31,12


### 8. DeviceDesignation:

Desconocemos su utilidad, pero podemos saber que los valores únicos obtenidos en este campo son PRIMARY y UNKNOWN.

In [10]:
pd.value_counts(df['deviceDesignation'])

PRIMARY    56783
UNKNOWN      338
Name: deviceDesignation, dtype: int64