In [None]:
import cv2
import os
from time import time
import uuid

## This is the program I used for collecting samples, and it works as follows:

#### Initially, you need to enter the name of the symbol you are going to collect (e.g., C), and then enter the name of the folder where you want to save the samples. The folder will be named after the symbol you entered earlier.

#### You need to collect 1000 samples for each symbol with different backgrounds and lighting conditions. To create my database, I collected samples in various locations. For each location, I repeated the same process 26 times, once for each symbol, using the same general folder name each time (e.g., roomBilbao2). I repeated this process 12 times.

#### Once you see what the camera captures on the screen, select the screen titled "Copia" and press the number 2 key on the keyboard to start collecting the samples. To exit, simply hold down the number 1 key or q after collecting the 1000 samples.

#### The code assigns a unique name to each image, so if you repeat the process with the same names, there will be 2000 images in the folder. If you want to avoid this and, for example, delete the first 1000 samples, you can delete the folder before collecting the samples for the second time.

#### Each computer has an assigned index for its webcam or additional camera. The first line of the following code block has the number 0, which is the number my computer uses. Another computer may use a different number.

## Este es el programa que he utilizado para la recogida de muestras, funciona de la siguiente manera:

#### Al principio será necesario introducir el nombre del símbolo que vamos a recoger (C, por ejemplo, y para los símbolos auxiliares yo he utilizado _space_ y _stop_), y, después, es necesario introducir el nombre de la carpeta en la que queremos guardar la carpeta (la cual tendrá el nombre del símbolo que hemos introducido anteriormente) que contiene las muestras recogidas.
#### Es necesario recoger 1000 muestras símbolo por símbolo con distintos fondos e iluminaciones. Para crear mi base de datos, he recogido muestras en distintas ubicaciones, entonces, en cada ubicación he utilizado el siguiente bloque 26 veces, una para cada símbolo, utilizando el mismo nombre de la carpeta general las 26 veces (habitacionBilbao2, por ejemplo), y he repetido el mismo proceso 12 veces.
#### Una vez que se ve lo que capta la cámara en pantalla, hay que seleccionar la pantalla titulada "Copia", y pulsar el botón número 2 en el teclado para que empiece a recoger las muestras. Para salir, una vez recogidas las 1000 muestras, basta con mantener pulsado el botón 1 o q.
#### El bloque asigna un nombre único a cada imagen, por lo que si se repite el proceso con los mismos nombres habrá 2000 imágenes en la carpeta. Si se desea evitar ésto y, por ejemplo, borrar las 1000 primeras, yo suelo borrar la carpeta antes de recoger las mismas muestras por segunda vez.
#### Cada ordenador tiene asignado un índice a su cámara web, o cámara adicional, la primera línea del siguiente bloque tiene el número 0, el cual es el número que utiliza mi ordenador, puede que otro ordenador utilice otro.

In [None]:
cap = cv2.VideoCapture(0)


#----------------------------------
#----------------------------------
letra = input("Sign (in my case, for the signs of space and stop I used the names '_space_' and '_stop_', and the letter otherwise, A, for example): ").upper()
carpeta = input("Please provide the name of the folder where the samples will be saved (e.g., 'roomHouse1').")
#----------------------------------
#----------------------------------


directory = os.path.join(os.getcwd(), "all_images", carpeta , letra)
cont = 0
t = time()
empieza = False
terminado = False

while cap.isOpened():
    
    ret, frame = cap.read()
    frame = cv2.flip(frame, 1)
    
    roi = frame[100 : 400, 320 : 620]
    
    
    
    #cv2.imshow("WebCam", frame)
    #cv2.imshow("ROI", roi)
    copy = frame.copy()
    cv2.rectangle(copy, (320, 100), (620, 400), (255, 0, 0), 5)
    #cv2.imshow("Copia", copy)
    
    if cv2.waitKey(1) & 0xFF == ord("q"):
        break
        
    if cv2.waitKey(1) & 0xFF == ord("1"):
        break
        
    if cv2.waitKey(1) & 0xFF == ord("2"): empieza = True

        
    if empieza:
        
        if not os.path.exists(directory):
            #print("No existe")
            os.makedirs(directory)
               
        if cont < 1000:
            
            now = time()
            dif = now - t
            
            if dif > 0.01:
                               
                #cv2.imwrite( directory + "/" + str(cont) + ".jpg", roi)
                
                unique_filename = str(uuid.uuid4())
                cv2.imwrite( directory + "/" + unique_filename + ".jpg", gray_rs)
                cont += 1
                #print(cont)
                t = now
         
        else:
            #print("FUERA!!!!!!!!!!!!!!!!!!!")
            terminado = True
            empieza = False

    if terminado: cv2.putText(copy, "Finished", (400, 400), cv2.FONT_HERSHEY_COMPLEX, 1, (0, 255, 0), 1)
    else:  cv2.putText(copy, str(cont), (400, 400), cv2.FONT_HERSHEY_COMPLEX, 1, (0, 255, 0), 1)
        
    cv2.imshow("ROI", roi)
    cv2.imshow("Copia", copy)
    
    roi_copy = roi.copy()
    gray = cv2.cvtColor(roi_copy, cv2.COLOR_BGR2GRAY)
    gray_rs = cv2.resize(gray, (56, 56), interpolation = cv2.INTER_AREA)
    cv2.imshow("Procesado", gray_rs)
        
cap.release()
cv2.destroyAllWindows()

### The following blocks are used to create a .csv file with all the images from the selected folder and their respective labels, similar to the database provided by Kaggle. It is necessary to create a .csv file for each folder with the 26 symbols (a file that contains all the images from the folder titled 'roomBilbao2', for example).

### Los siguientes bloques sirven para crear un archivo .csv con todas las imágenes de la carpeta seleccionda y sus respectivas etiquetas (de la misma forma que la base de datos proporcionada por Kaggle). Es necesario crear un archivo .csv por cada carpeta con los 26 símbolos (un archivo que contiene todas las imágenes de la carpeta titulada 'habitaciónBilbao2', por ejemplo).

In [None]:
letters = "ABCDEFGHIJKLMNOPQRSTUVWXYZ"
letter_number = {}
cont = 0
for letter in letters:
    letter_number[letter] = cont
    cont += 1
    
# el 9(J) y el 25(Z) están cogidos
# aunque no van a aparecer nunca voy a dejarlos con su neurona
# por lo que ahora tendré que poner 3 neuronas más de salida:
# la de la Z (aunque no se use, como la de J), la de SPACE y la de STOP
letter_number["_SPACE"] = 26
letter_number["_STOP"] = 27

letters_list = []
for letra in letters:
    letters_list.append(letra)
letters_list.append("_SPACE")
letters_list.append("_STOP")

In [None]:
main_array = None
labels = np.array([])
cont = -1

carpeta = input("Please provide the name of the folder where the samples have been saved (e.g., 'roomHouse1').")


for letter in letters_list:
    if letter == "J" or letter == "Z": continue
    
    path = os.path.join("all_images", carpeta , letter)
    
    files = os.listdir(path)
    
    for name in files:
        img = Image.open(os.path.join(path, name))

        arr = np.asarray(img)
        arr = arr.reshape(3136)
        cont += 1
        if cont == 0:
            main_array = arr
            continue
        main_array = np.vstack((main_array, arr))
        
    labels = np.append(labels, np.ones(1000)*letter_number[letter])

In [None]:
columns = []
for i in range(56*56):
    columns.append(i)

In [None]:
nombre = input("Please provide the name of the csv file, without the .csv extension ('Room1', for example)")


nombre_com = os.path.join("all_images", nombre, ".csv")
pd.DataFrame(main_array, columns = columns).to_csv(nombre_com)