Esta notebook tiene como objetivo hacer un análisis general del dataset, de las variables que contiene y del tipo de datos. Se elige separar la columna FECHA en dos columnas distintas (día y hora) que puedan servir posteriormente como inputs distintos para el modelo de predicción. Por último, se exporta un csv que se utilizará como input en el notebook siguiente

In [1]:
import pandas as pd
import numpy as np

In [2]:
#pip install --upgrade --force-reinstall jupyter

In [4]:
df = pd.read_csv("base_mayo22_habil.csv")

In [5]:
df.head()

Unnamed: 0,LINEA,SENTIDO,FECHA,TARJETA,CONTRATO
0,L42 E,Ida,02/05/2022 04:36:14 PM,1000001,Usuario comun
1,L35 T,Ida,02/05/2022 10:22:27 PM,1000002,Usuario comun
2,C,Ida,02/05/2022 03:20:12 PM,1000003,Usuario comun
3,C,Vuelta,02/05/2022 09:18:06 AM,1000003,Usuario comun
4,C,Ida,02/05/2022 06:56:40 AM,1000004,Usuario comun


In [6]:
df.dtypes

LINEA       object
SENTIDO     object
FECHA       object
TARJETA      int64
CONTRATO    object
dtype: object

In [7]:
df.shape

(8430650, 5)

In [8]:
df.CONTRATO.value_counts()

Usuario comun      5622907
BEG                1576139
Adultos Mayores     334131
Discapacidad        312023
BOS                 273809
Resto               212869
BSC                  98772
Name: CONTRATO, dtype: int64

In [9]:
df.isna().sum()

LINEA       0
SENTIDO     0
FECHA       0
TARJETA     0
CONTRATO    0
dtype: int64

In [10]:
df.TARJETA.value_counts()

1091193    221
1131682    132
1151710    126
1156903    125
1131563    124
          ... 
1527433      1
1366655      1
1527439      1
1108428      1
1081291      1
Name: TARJETA, Length: 698084, dtype: int64

Dividimos la columna FECHA en una que sea solo días ('Dates') y otra que sea solo la hora ('Time')

In [11]:
df['Dates'] = pd.to_datetime(df['FECHA']).dt.date

In [12]:
df['Time'] = pd.to_datetime(df['FECHA']).dt.time

In [13]:
df.head()

Unnamed: 0,LINEA,SENTIDO,FECHA,TARJETA,CONTRATO,Dates,Time
0,L42 E,Ida,02/05/2022 04:36:14 PM,1000001,Usuario comun,2022-02-05,16:36:14
1,L35 T,Ida,02/05/2022 10:22:27 PM,1000002,Usuario comun,2022-02-05,22:22:27
2,C,Ida,02/05/2022 03:20:12 PM,1000003,Usuario comun,2022-02-05,15:20:12
3,C,Vuelta,02/05/2022 09:18:06 AM,1000003,Usuario comun,2022-02-05,09:18:06
4,C,Ida,02/05/2022 06:56:40 AM,1000004,Usuario comun,2022-02-05,06:56:40


Observamos que la columna Dates no está tomando los días correctamente, ya que confunde en algunos casos el día y el mes

In [None]:
df.Dates.value_counts()

2022-04-05    455802
2022-12-05    454585
2022-06-05    454366
2022-03-05    453346
2022-05-05    451424
2022-10-05    448905
2022-05-13    448231
2022-05-23    447513
2022-05-24    446953
2022-09-05    445510
2022-05-20    442949
2022-05-16    437444
2022-02-05    434103
2022-05-27    433996
2022-05-31    431913
2022-05-19    425781
2022-11-05    425759
2022-05-26    424968
2022-05-30    424639
2022-05-18     37000
2022-07-05      1066
2022-05-21      1052
2022-05-14       969
2022-05-28       874
2022-05-25       730
2022-01-06       697
2022-05-17        43
2022-05-29        32
Name: Dates, dtype: int64

Probamos otro método

In [None]:
df[['DIA', 'HORA', 'M']] = df['FECHA'].str.split(' ', expand=True)

In [None]:
df.head()

Unnamed: 0,LINEA,SENTIDO,FECHA,TARJETA,CONTRATO,Dates,Time,DÍA,HORA,M,DIA
0,L42 E,Ida,02/05/2022 04:36:14 PM,1000001,Usuario comun,2022-02-05,16:36:14,02/05/2022,04:36:14,PM,02/05/2022
1,L35 T,Ida,02/05/2022 10:22:27 PM,1000002,Usuario comun,2022-02-05,22:22:27,02/05/2022,10:22:27,PM,02/05/2022
2,C,Ida,02/05/2022 03:20:12 PM,1000003,Usuario comun,2022-02-05,15:20:12,02/05/2022,03:20:12,PM,02/05/2022
3,C,Vuelta,02/05/2022 09:18:06 AM,1000003,Usuario comun,2022-02-05,09:18:06,02/05/2022,09:18:06,AM,02/05/2022
4,C,Ida,02/05/2022 06:56:40 AM,1000004,Usuario comun,2022-02-05,06:56:40,02/05/2022,06:56:40,AM,02/05/2022


In [None]:
# Eliminamos las columnas que no nos hacen falta
df = df.drop(['Dates', 'DÍA', 'HORA', 'M', 'TIME' ], axis=1)

In [None]:
df = df.rename(columns={"Time":"TIME"})

In [None]:
# Nuevo dataset con el que vamos a trabajar
df.head()

Unnamed: 0,LINEA,SENTIDO,FECHA,TARJETA,CONTRATO,TIME,DIA
0,L42 E,Ida,02/05/2022 04:36:14 PM,1000001,Usuario comun,16:36:14,02/05/2022
1,L35 T,Ida,02/05/2022 10:22:27 PM,1000002,Usuario comun,22:22:27,02/05/2022
2,C,Ida,02/05/2022 03:20:12 PM,1000003,Usuario comun,15:20:12,02/05/2022
3,C,Vuelta,02/05/2022 09:18:06 AM,1000003,Usuario comun,09:18:06,02/05/2022
4,C,Ida,02/05/2022 06:56:40 AM,1000004,Usuario comun,06:56:40,02/05/2022


In [None]:
df.shape

(8430650, 7)

In [None]:
#exportamos el csv
df.to_csv("../Mentoria_diplomatura/base_mayo22_habil_v2.csv", index=False)