In [1]:
#!pip install numpy

In [2]:
#!pip install matplotlib

In [5]:
#!pip install pandas

In [7]:
#!pip install tensorflow

In [8]:
#!pip install -U scikit-learn

In [3]:
#Manejo de Datos
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt


#Machine learning
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import datasets, layers, models
from sklearn.model_selection import train_test_split
from sklearn.utils import shuffle

#Librerias estandar (Extras)
import re
import os
import time
import random

In [4]:
print("Num GPUs Available: ", len(tf.config.list_physical_devices('GPU')))

Num GPUs Available:  1


In [5]:
!python --version

Python 3.9.7


In [None]:
"""
Metodos para realizar el entrenamient - evaluacion del modelo
"""

In [4]:
#Se crea un modelo con dimensiones input (dimTime,W,H,dimCanal) y output(output)
def crearModelo(dimTime,W,H,dimCanal, output):
    
    print(f"Se creo un modelo con input ({dimTime}, {W},{H}, {dimCanal}) y output({output})")
    model = models.Sequential()
    model.add(layers.Conv3D(32, (3, 3,3), activation='relu', input_shape=(dimTime, W, H, dimCanal)))
    model.add(layers.MaxPooling3D((2, 2,2)))
    #model.add(layers.Conv3D(128, (3, 3,3), activation='relu'))
    #model.add(layers.MaxPooling3D((2, 2,2)))

    model.add(layers.Flatten())
    model.add(layers.Dense(64, activation='relu'))
    model.add(layers.Dense(output))
    
    print(model.summary())
    return model

In [18]:
#Se realiza una comprobacion que las imagenes PNG para las fechas de los datos de precipitacion existan de manera local
#En caso no encontrarlos, elimina el dato de precipitacion del dataset
def comprobarFrames(dfOrignial, path_base, products, times, delete=1):
    start_time = time.time()

    dfTotal = pd.unique(dfOrignial['fecha'])

    no_fecha = []
    for fecha in dfTotal:
        year, month, day, hour = fecha.split('-')

        existe = True
        for p in products:
            for t in range(len(times)):
                filename = f'{path_base}comprimido/{fecha}/{fecha}_{p}_{t}.csv'
                existe = os.path.exists(filename)
                if not existe:
                    break
            if not existe:
                break
        if not existe:
            no_fecha.append(fecha)

    if delete:
        antes = len(dfOrignial)
        df2 = dfOrignial[~dfOrignial['fecha'].isin(no_fecha)]
        despues = len(df2)
        print(f'{antes - despues}/{antes} datos eliminados: No se encontraron los archivos de imagenes satelitales')
    else:
        df2 = dfOrignial

    print("Tiempo tomado en verificar datos: %.2fs" % (time.time() - start_time))
    return df2, no_fecha

In [None]:
#Del dataset guardamos los datos mas importantes en una columna para facilitar su lectura
def obtenerDir(row):
    fecha = row['fecha']

    year, month, day, hour = fecha.split('-')
    # filename = f'{path_base}comprimido/{year}_{month}_{day}/{hour}/'
    return f"{row['XO']}--{row['XA']}--{fecha}"

In [28]:
#Lee el archivo "filename" de datos de precipitacion y
#regresa un df que facilite la lectura del dataset para el entrenmaiento
def obtenerDatos(filename):
    start_time = time.time()
    pdata = pd.read_csv(filename)

    # Quitamos los valores NA
    pdata = pdata[pdata['dato'].notna()]

    # Definimos un solo tipo (str) pora asi poder convertirlo a tensor
    pdata = pdata.astype({"dato": str, "XO": str, "XA": str, "fecha": str})

    #Definimos la nueva columna para guardar el XO, XA y fecha
    pdata['imagen'] = pdata.apply(obtenerDir, axis=1)

    # Seleccionamos solo las columnas necesarias :
    # precipitacion, Estacion (Longitud), Estacion (Latitud), Fecha (año-mes-dia-hora)
    pdataX = pdata.loc[:, ['atipico90', 'imagen', 'fecha']]
    pdataX = pdataX.astype({"atipico90": str, "imagen": str, "fecha": str})

    # Barajeamos los datos
    pdataX = shuffle(pdataX)

    print(f'{len(pdataX)} datos leidos')
    print("Tiempo tomado en leer datos: %.2fs" % (time.time() - start_time))
    return pdataX

In [92]:
#Transforma el filename de la imagen (tensor) en un arreglo de numeros
def read_png_file(item, value, size, path_base, products, times):
    # imagenData[0] = XO
    # imagenData[1] = XA
    # imagenData[2] = Fecha
    imagenData = tf.strings.split(item, sep='--')

    size = int(size / 2)
    timeJoin = []
    for j in range(len(times)):
        filename = path_base + 'PNG/' + imagenData[2] + '/' + imagenData[2] + '_' + str(j) + '.png'
        image_string = tf.io.read_file(filename)

        img_decoded = tf.io.decode_png(image_string, dtype=tf.uint16, channels=3)

        timeJoin.append(img_decoded[int(imagenData[0]) - size:int(imagenData[0]) + size,
                             int(imagenData[1]) - size:int(imagenData[1]) + size,:])

    img = tf.stack(timeJoin, axis=0)

    return img, int(value)

In [None]:
"""
Realizamos el flujo de entrenmaiento
"""

In [19]:
#Variables generales

#Path_base debe ser completo, se usará para comprobar si existen las imagenes satelitales descargadas
#path_base = 'C:/Users/Shounen/Desktop/Ciclo XI/Tesis 2/GOES/'
path_base = 'F:/GOES/'

#Productos de las imagenes satelitales (C08, C07 o C13, C02)
products = ['C07','C08','C13']
times = ['10','20','30','40','50','00']

#W, H son el tamaño que se tomara de la matriz, teniendo como centro la cordenada de la estacion
#dimT se refiere a intervalos de tiempo que se toamran las imagenes (min 15,30 o 45).
#Tambien cuenta el tiempo 00, asi que dimT > 1
dimT = len(times)

W = 110
H = 110

#Representa el output del modelo (2 clases)
#1 = Precipitacion extrema
#0 = Precipitacion normal
dimOutput = 2

#El margen servira para recortar la imagen [alto, ancho] desde el punto de origen (estacion)
margen = [W,H]

In [29]:
#Leemos los datos del archivo
#dfOrignial = obtenerDatos('2021_umbral.csv')
dfOrignial = obtenerDatos('2020_umbral.csv')

92786 datos leidos
Tiempo tomado en leer datos: 1.30s


In [31]:
#Comprobamos que existan las imagenes (PNG) para todos los dato
dfVerificado, no_fecha = comprobarFrames(dfOrignial,path_base,products, times,1)
dfVerificado

Unnamed: 0,atipico90,imagen,fecha
75903,0,391--531--2020-10-06-16,2020-10-06-16
77423,0,391--531--2020-12-14-05,2020-12-14-05
26120,0,281--379--2020-04-30-22,2020-04-30-22
21225,0,540--822--2020-06-30-22,2020-06-30-22
68387,0,419--592--2020-05-08-22,2020-05-08-22
...,...,...,...
27706,0,281--379--2020-07-06-03,2020-07-06-03
4788,0,724--294--2020-10-19-16,2020-10-19-16
66108,0,491--700--2020-11-25-11,2020-11-25-11
51181,0,539--356--2020-12-02-15,2020-12-02-15


In [27]:
##################################################
####Se entrenara con 2 products (C08,C07)#####
##################################################

In [74]:
#Seleccionamos algunos para las pruebas
dfSplit = dfVerificado[0:100]
datasetList = dfSplit.values.tolist()

#-Visualizacion
print(len(datasetList))
print(datasetList[0])

100
['0', '391--531--2020-10-06-16', '2020-10-06-16']


In [106]:
#Procemos los dataset en tensores para facilitar el entrenamiento
train, test = train_test_split(dfSplit, test_size=0.2)

train_dataset = tf.data.Dataset.from_tensor_slices((train['imagen'].tolist(),train['atipico90'].tolist()))           
val_dataset = tf.data.Dataset.from_tensor_slices((test['imagen'].tolist(),test['atipico90'].tolist()))           


train_dataset = train_dataset.map(lambda x ,y : read_png_file(x,y,110,path_base,products,times))
val_dataset = val_dataset.map(lambda x ,y : read_png_file(x,y,110,path_base,products,times))

val_dataset

<MapDataset element_spec=(TensorSpec(shape=(6, 110, 110, 3), dtype=tf.int16, name=None), TensorSpec(shape=(), dtype=tf.int32, name=None))>

In [107]:
#Variables para el entrenmianeto
batch_size = 100
epocas = 7
train_dataset = train_dataset.batch(batch_size)
val_dataset = val_dataset.batch(batch_size)

In [33]:
#Creamos el modelo
modelo = crearModelo(dimT, W,H, len(products),dimOutput)

Se creo un modelo con input (6, 110,110, 3) y output(2)
Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
 conv3d (Conv3D)             (None, 4, 108, 108, 32)   2624      
                                                                 
 max_pooling3d (MaxPooling3D  (None, 2, 54, 54, 32)    0         
 )                                                               
                                                                 
 flatten (Flatten)           (None, 186624)            0         
                                                                 
 dense (Dense)               (None, 64)                11944000  
                                                                 
 dense_1 (Dense)             (None, 2)                 130       
                                                                 
Total params: 11,946,754
Trainable params: 11,946,754
Non-trainabl

In [108]:
#Entrenamos
modelo.compile(optimizer=keras.optimizers.RMSprop(learning_rate=1e-3),
               loss=keras.losses.SparseCategoricalCrossentropy(from_logits=True),)


with tf.device('/CPU:0'):
    modelo.fit(train_dataset, batch_size= batch_size,validation_data= val_dataset, epochs=2)

Epoch 1/2
Epoch 2/2
