In [1]:
import cv2 as cv
import numpy as np
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Leer el archivo CSV con las respuestas correctas
csv_file = "train/train.csv"
df = pd.read_csv(csv_file)

# Crear listas para almacenar las características y las etiquetas
features = []
labels = []

# Procesar cada imagen y extraer las características
images_folder = 'train/train'
for filename in os.listdir(images_folder):
    if filename.endswith('.png'):
        # Leer la imagen
        img_path = os.path.join(images_folder, filename)
        img = cv.imread(img_path)
        # Extraer las características de la imagen (por ejemplo, el número de contornos)
        hsv_img = cv.cvtColor(img, cv.COLOR_BGR2HSV)
        histogram = cv.calcHist([hsv_img], [0, 1], None, [180, 256], [0, 180, 0, 256])
        most_common_color_index = np.unravel_index(np.argmax(histogram), histogram.shape)
        lower_red = np.array([0, 25, 25])
        upper_red = np.array([255, 255, 255])
        mask = cv.inRange(hsv_img, lower_red, upper_red)
        red_pixels = np.where(mask == 255)
        most_common_color_hsv = (most_common_color_index[0], most_common_color_index[1], 255)
        most_common_color_bgr = cv.cvtColor(np.uint8([[most_common_color_hsv]]), cv.COLOR_HSV2BGR)[0][0]
        img[red_pixels] = most_common_color_bgr
        gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
        blurred = cv.GaussianBlur(gray, (5, 5), 0)
        _, thresh = cv.threshold(blurred, 0, 255, cv.THRESH_BINARY + cv.THRESH_OTSU)
        contours, _ = cv.findContours(thresh, cv.RETR_LIST, cv.CHAIN_APPROX_NONE)
        num_contours = len(contours)
    
        # Obtener el número real de clips del archivo CSV correspondiente
        image_id = int(filename.split('-')[1].split('.')[0])
        real_clips = df.loc[df['id'] == image_id, 'clip_count'].values[0]

        # Agregar las características y la etiqueta a las listas
        features.append(num_contours)
        labels.append(real_clips)

# Convertir las listas en arrays numpy
features = np.array(features)
labels = np.array(labels)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# Entrenar un modelo (ejemplo utilizando Random Forest)
model = RandomForestRegressor()
model.fit(X_train.reshape(-1, 1), y_train)

# Evaluar el modelo en el conjunto de prueba
y_pred = model.predict(X_test.reshape(-1, 1))

# Calcular métricas de evaluación
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)
print(f"MSE: {mse}")
print(f"R2 score: {r2}")
print(f"RMSE: {np.sqrt(mse)}")

MSE: 9.535226618997747
R2 score: 0.9802249285163469
RMSE: 3.0879162260329776


In [2]:
#Entreno con toda la data

import cv2 as cv
import numpy as np
import os
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Leer el archivo CSV con las respuestas correctas
csv_file = "train/train.csv"
df = pd.read_csv(csv_file)

# Crear listas para almacenar las características y las etiquetas
features = []
labels = []

# Procesar cada imagen y extraer las características
images_folder = 'train/train'
for filename in os.listdir(images_folder):
    if filename.endswith('.png'):
        # Leer la imagen
        img_path = os.path.join(images_folder, filename)
        img = cv.imread(img_path)
        # Extraer las características de la imagen (por ejemplo, el número de contornos)
        hsv_img = cv.cvtColor(img, cv.COLOR_BGR2HSV)
        histogram = cv.calcHist([hsv_img], [0, 1], None, [180, 256], [0, 180, 0, 256])
        most_common_color_index = np.unravel_index(np.argmax(histogram), histogram.shape)
        lower_red = np.array([0, 25, 25])
        upper_red = np.array([255, 255, 255])
        mask = cv.inRange(hsv_img, lower_red, upper_red)
        red_pixels = np.where(mask == 255)
        most_common_color_hsv = (most_common_color_index[0], most_common_color_index[1], 255)
        most_common_color_bgr = cv.cvtColor(np.uint8([[most_common_color_hsv]]), cv.COLOR_HSV2BGR)[0][0]
        img[red_pixels] = most_common_color_bgr
        gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
        blurred = cv.GaussianBlur(gray, (5, 5), 0)
        _, thresh = cv.threshold(blurred, 0, 255, cv.THRESH_BINARY + cv.THRESH_OTSU)
        contours, _ = cv.findContours(thresh, cv.RETR_LIST, cv.CHAIN_APPROX_NONE)
        num_contours = len(contours)
    
        # Obtener el número real de clips del archivo CSV correspondiente
        image_id = int(filename.split('-')[1].split('.')[0])
        real_clips = df.loc[df['id'] == image_id, 'clip_count'].values[0]

        # Agregar las características y la etiqueta a las listas
        features.append(num_contours)
        labels.append(real_clips)

# Convertir las listas en arrays numpy
features = np.array(features)
labels = np.array(labels)

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(features, labels, test_size=0.2, random_state=42)

# Entrenar un modelo (ejemplo utilizando Random Forest)
model = RandomForestRegressor()
model.fit(features.reshape(-1, 1), labels)

# Evaluar el modelo en el conjunto de prueba
y_pred = model.predict(features.reshape(-1, 1))

# Calcular métricas de evaluación
mse = mean_squared_error(labels, y_pred)
r2 = r2_score(labels, y_pred)
print(f"MSE: {mse}")
print(f"R2 score: {r2}")
print(f"RMSE: {np.sqrt(mse)}")

MSE: 9.261517683637079
R2 score: 0.9807281514045729
RMSE: 3.043274171617976


In [None]:
from keras.callbacks import EarlyStopping
earlystop = EarlyStopping(patience=5)
from keras.callbacks import ModelCheckpoint
mcheckpoint = ModelCheckpoint("callback_model.h5")

In [None]:
#, input_shape=IMAGE_SIZE
layers = [
    keras.layers.Conv2D(64, (3,3), activation='relu'),
    keras.layers.MaxPooling2D(pool_size=(2,2)),
    
    keras.layers.Conv2D(128, (3,3), activation='relu'),
    keras.layers.MaxPooling2D(pool_size=(2,2)),
    
    keras.layers.Flatten(),
    keras.layers.Dense(128, activation='relu'),
    keras.layers.Dense(64, activation='relu'),
    keras.layers.Dense(1, activation='linear')  # Cambio de la función de activación a lineal
]

model = keras.Sequential(layers)

model.compile(optimizer='adam',
              loss='mean_squared_error',  # Cambio de la función de pérdida a MSE
              metrics=['mean_squared_error'])  # Opcional: Puedes utilizar métricas adecuadas para la regresión, como MSE


In [None]:
history = model.fit(X_train,
         y_train,
         epochs = 10,
         batch_size = 100,
         callbacks = [earlystop, mcheckpoint],
         validation_split = 0.2)

In [4]:
#Test
features2 = []

images_folder2 = 'test/test'
for filename in os.listdir(images_folder2):
    if filename.endswith('.png'):
        # Leer la imagen
        img_path = os.path.join(images_folder2, filename)
        img = cv.imread(img_path)

        # Extraer las características de la imagen (por ejemplo, el número de contornos)
        hsv_img = cv.cvtColor(img, cv.COLOR_BGR2HSV)
        histogram = cv.calcHist([hsv_img], [0, 1], None, [180, 256], [0, 180, 0, 256])
        most_common_color_index = np.unravel_index(np.argmax(histogram), histogram.shape)
        lower_red = np.array([0, 25, 25])
        upper_red = np.array([255, 255, 255])
        mask = cv.inRange(hsv_img, lower_red, upper_red)
        red_pixels = np.where(mask == 255)
        most_common_color_hsv = (most_common_color_index[0], most_common_color_index[1], 255)
        most_common_color_bgr = cv.cvtColor(np.uint8([[most_common_color_hsv]]), cv.COLOR_HSV2BGR)[0][0]
        img[red_pixels] = most_common_color_bgr
        gray = cv.cvtColor(img, cv.COLOR_BGR2GRAY)
        blurred = cv.GaussianBlur(gray, (5, 5), 0)
        _, thresh = cv.threshold(blurred, 0, 255, cv.THRESH_BINARY + cv.THRESH_OTSU)
        contours, _ = cv.findContours(thresh, cv.RETR_LIST, cv.CHAIN_APPROX_NONE)
        num_contours = len(contours)

        # Obtener el número real de clips del archivo CSV correspondiente
        image_id = int(filename.split('-')[1].split('.')[0])
        

        # Agregar las características y la etiqueta a las listas
        features2.append(num_contours)
        

In [5]:
features2 = np.array(features2)
y_pred2 = model.predict(features2.reshape(-1, 1))

In [6]:
ids_solucion=pd.read_csv("test/test.csv")
ids_solucion["clip_count"]=y_pred2

In [7]:
ids_solucion.to_csv("solucion2.csv",index=False)