# Complemento conformación de la base de datos

Acorde a los artículos consultados, para realizar un modelo de estimación de concentraciones de contaminantes, es necesario utilizar datos referentes a los días julianos y a los días de la semana, así como integrar información respecto a la zona de la estación según su ubicación geográfica.

Es por esto, que se realiza este notebook como un complemento a la conformación de la bases de datos.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
data = pd.read_csv('C:/Users/jtoba/Documents/BEDU/ProyectoModulo5/DatosMeteorologicos/Datos_2016_2020_no_outlier.csv')
#Lectura del archivo del proceso anterior

In [3]:
data.iloc[60:90]

Unnamed: 0.1,Unnamed: 0,date,id_station,PM2_5,RH,TMP,WDR,WSP
60,213,01/01/2016 20:00,MER,5,52,19.3,306,3.0
61,214,01/01/2016 20:00,MGH,30,62,17.5,323,3.4
62,215,01/01/2016 20:00,NEZ,22,46,20.3,14,3.3
63,216,01/01/2016 20:00,SAG,40,60,18.3,338,3.0
64,217,01/01/2016 20:00,TLA,26,61,15.6,325,4.2
65,218,01/01/2016 20:00,UAX,20,47,19.1,130,1.8
66,219,01/01/2016 20:00,XAL,21,53,17.7,360,4.6
67,220,01/01/2016 21:00,AJM,43,67,15.5,335,3.0
68,221,01/01/2016 21:00,AJU,12,82,8.0,201,1.3
69,222,01/01/2016 21:00,BJU,26,66,16.3,333,2.3


In [6]:
data= data.drop('Unnamed: 0', axis= 1)

In [7]:
data.dtypes

date           object
id_station     object
PM2_5           int64
RH              int64
TMP           float64
WDR             int64
WSP           float64
dtype: object

In [8]:
data.id_station.unique()

array(['AJM', 'AJU', 'MER', 'SAG', 'UAX', 'XAL', 'HGM', 'NEZ', 'BJU',
       'MGH', 'TLA', 'MPA', 'SFE', 'GAM', 'INN', 'MON', 'PED', 'UIZ'],
      dtype=object)

## Determinación de la zona de activación

Se utilizó un dataset con la información correspondiente a la zona a la que pertenece cada estación de monitoreo atmosférico, para poder anexar la columna de zona (zone) a la base de datos.

In [9]:
zonas= pd.read_csv('C:/Users/jtoba/Documents/BEDU/ProyectoModulo5/DatosMeteorologicos/cat_estacion.csv')

In [10]:
zonas.head()

Unnamed: 0,cve_estac,nom_estac,longitud,latitud,alt,obs_estac,id_station,Zona
0,ACO,Acolman,-98.912003,19.635501,2198.0,,484000000000.0,NE
1,AJU,Ajusco,-99.162611,19.154286,2942.0,,484000000000.0,SO
2,AJM,Ajusco Medio,-99.207744,19.272161,2548.0,,484000000000.0,SO
3,ARA,Aragón,-99.074549,19.470218,2200.0,Finalizó operación en 2010,484000000000.0,-
4,ATI,Atizapan,-99.254133,19.576963,2341.0,,484000000000.0,NO


In [11]:
zonas.columns #Para observar que el nombre de la variable sea la misma

Index(['cve_estac', 'nom_estac', 'longitud', 'latitud', 'alt', 'obs_estac',
       'id_station', 'Zona'],
      dtype='object')

In [12]:
zonas_merge= zonas[['cve_estac', 'Zona']] #Seleccionar las filas que vamos a utilizar

In [13]:
zonas_merge.columns = ['id_station', 'zone'] #Renombrar las columnas

In [14]:
data= pd.merge(data, zonas_merge) #Unir la zona

Unnamed: 0,date,id_station,PM2_5,RH,TMP,WDR,WSP,zone
0,01/01/2016 01:00,AJM,45,61,15.1,185,1.9,SO
1,01/01/2016 17:00,AJM,34,38,21.1,119,3.4,SO
2,01/01/2016 18:00,AJM,7,39,20.3,178,4.6,SO
3,01/01/2016 20:00,AJM,30,56,16.9,298,4.2,SO
4,01/01/2016 21:00,AJM,43,67,15.5,335,3.0,SO
...,...,...,...,...,...,...,...,...
401649,31/12/2020 19:00,UIZ,6,36,16.5,165,4.0,SE
401650,31/12/2020 20:00,UIZ,3,39,15.2,156,3.1,SE
401651,31/12/2020 21:00,UIZ,11,42,14.5,157,3.8,SE
401652,31/12/2020 22:00,UIZ,8,42,13.8,157,3.0,SE


In [15]:
data[['date','hour']] = data.date.str.split(" ",expand=True) #Dividir la hora

In [16]:
data.head()

Unnamed: 0,date,id_station,PM2_5,RH,TMP,WDR,WSP,hour
0,01/01/2016,AJM,45,61,15.1,185,1.9,01:00
1,01/01/2016,AJU,20,88,5.6,197,1.3,01:00
2,01/01/2016,MER,61,58,17.0,97,0.8,01:00
3,01/01/2016,AJU,15,86,6.1,208,2.7,02:00
4,01/01/2016,AJU,12,89,5.6,206,1.8,03:00


## Variables de tiempo

Como último paso, se realizó la descomposición de la columna "date" para obtener información como el día juliano, el día de la semana, y el date index. 

In [17]:
import datetime

In [18]:
pa_julianos = data.date.map(lambda x: datetime.datetime.strptime(x, '%d/%m/%Y'))

In [19]:
pa_julianos= pa_julianos.map(lambda x: x.timetuple())

In [20]:
pa_julianos[1] #tomar de aquí el weekday

time.struct_time(tm_year=2016, tm_mon=1, tm_mday=1, tm_hour=0, tm_min=0, tm_sec=0, tm_wday=4, tm_yday=1, tm_isdst=-1)

In [21]:
juliano_dia= pa_julianos.map(lambda x: x.tm_yday) #Día juliano

In [22]:
dia_semana= pa_julianos.map(lambda x: x.tm_wday) #Día de la semana

In [23]:
data.head()

Unnamed: 0,date,id_station,PM2_5,RH,TMP,WDR,WSP,hour
0,01/01/2016,AJM,45,61,15.1,185,1.9,01:00
1,01/01/2016,AJU,20,88,5.6,197,1.3,01:00
2,01/01/2016,MER,61,58,17.0,97,0.8,01:00
3,01/01/2016,AJU,15,86,6.1,208,2.7,02:00
4,01/01/2016,AJU,12,89,5.6,206,1.8,03:00


In [24]:
data['juliano']= juliano_dia
data['dia_semana']= dia_semana #Unir al dataset original

In [25]:
data.head()

Unnamed: 0,date,id_station,PM2_5,RH,TMP,WDR,WSP,hour,juliano,dia_semana
0,01/01/2016,AJM,45,61,15.1,185,1.9,01:00,1,4
1,01/01/2016,AJU,20,88,5.6,197,1.3,01:00,1,4
2,01/01/2016,MER,61,58,17.0,97,0.8,01:00,1,4
3,01/01/2016,AJU,15,86,6.1,208,2.7,02:00,1,4
4,01/01/2016,AJU,12,89,5.6,206,1.8,03:00,1,4


In [29]:
#Realizar el date index según los datos que tenemos 
idx = pd.date_range(start= "2016-01-01", end= "2021-01-01" , freq="d")

idx

DatetimeIndex(['2016-01-01', '2016-01-02', '2016-01-03', '2016-01-04',
               '2016-01-05', '2016-01-06', '2016-01-07', '2016-01-08',
               '2016-01-09', '2016-01-10',
               ...
               '2020-12-23', '2020-12-24', '2020-12-25', '2020-12-26',
               '2020-12-27', '2020-12-28', '2020-12-29', '2020-12-30',
               '2020-12-31', '2021-01-01'],
              dtype='datetime64[ns]', length=1828, freq='D')

In [30]:
ts = pd.Series(range(len(idx)), index=idx)


In [38]:
ts=ts.to_frame() #Hacerlo un dataframe

In [41]:
ts.reset_index(inplace= True)


In [44]:
ts.head()

Unnamed: 0,date,date_index
0,2016-01-01,0
1,2016-01-02,1
2,2016-01-03,2
3,2016-01-04,3
4,2016-01-05,4


In [43]:
ts.columns = ['date', 'date_index']

In [46]:
data['date'] =  pd.to_datetime(data['date'], format='%d/%m/%Y') #transformarlo en formato de fecha

In [47]:
data.dtypes

date          datetime64[ns]
id_station            object
PM2_5                  int64
RH                     int64
TMP                  float64
WDR                    int64
WSP                  float64
hour                  object
juliano                int64
dia_semana             int64
dtype: object

In [50]:
data=pd.merge(data, ts) #hacer el join

In [51]:
data.head()

Unnamed: 0,date,id_station,PM2_5,RH,TMP,WDR,WSP,hour,juliano,dia_semana,date_index
0,2016-01-01,AJM,45,61,15.1,185,1.9,01:00,1,4,0
1,2016-01-01,AJU,20,88,5.6,197,1.3,01:00,1,4,0
2,2016-01-01,MER,61,58,17.0,97,0.8,01:00,1,4,0
3,2016-01-01,AJU,15,86,6.1,208,2.7,02:00,1,4,0
4,2016-01-01,AJU,12,89,5.6,206,1.8,03:00,1,4,0


In [101]:
data.to_csv('BaseDatos_2016_2020.csv') #guardar la base de datos actualizada