# 1. Adam wykrywanie tekstu za pomocą canny.
Do następnego punktu potrzebny mi jest:
    - img: Na wejście dostaje obraz binarny, gdzie wykryte tekst jest wskazywany przez 1, a reszta to 0.
    - img_org: Oryginalny niezmieniony obraz.

# 2. Wykrywanie fragmentu obrazu z tekstem

In [None]:
from skimage import measure
from skimage import exposure

import numpy as np
%matplotlib qt 

### Pomocnicze

In [None]:
def remove_outliers_centroids(data, quantile_height=0.9, quantile_width=0.9):
    Q1 = np.quantile(data[:, 0], 1-quantile_height)
    Q3 = np.quantile(data[:, 0], quantile_height)
    IQR = Q3 - Q1
    data = np.array([el for el in data if el[0] > Q1 and el[0] < Q3])

    Q1 = np.quantile(data[:, 1], 1-quantile_width)
    Q3 = np.quantile(data[:, 1], quantile_width)
    IQR = Q3 - Q1
    data = np.array([el for el in data if el[1] > Q1 and el[1] < Q3])
    
    return data

def remove_background_on_left_side(img):
    img_org = img.copy()
    
    ############ Jeżeli zwracać obraz w skali szarości, bez rozciągania histogramu to użyć tego ############
    ############ ,a w głównej funkcji usunąć ############
#     p2, p98 = np.percentile(img, (2, 98))
#     img = exposure.rescale_intensity(img_slice, in_range=(p2, p98))
    ###########################################################################################
    
    # Sprawdzamy średnią jasność obrazu. Następnie bierzemy po kolei grupy kolumn (skłądające się z step kolumn).
    # Jeżeli jasność w grupie jest mniejsza niż (średnia w obrazie - bias) to zastępujemy wartością średnią.
    mean_value_in_img = np.mean(img) 
    step = 10
    bias = 0.2 # 0.07 bez roziągania histogramu
    was_action = True 
    for el in range(0, len(img.T), step):
        if np.mean(img[:,el:el+step]) < mean_value_in_img-bias:
#             img[:,el:el+step] = mean_value_in_img
            img_org = img_org[:,el+step:]
            was_action = True
        else:
            was_action = False
        
        if not was_action:
#             img[:,el:el+step] = mean_value_in_img
            img_org = img_org[:,el+int(step/2):]
            break
            
    return img_org

def remove_background(img):
     # usuwa z lewej
    img = remove_background_on_left_side(img)
    
     # usuwa z prawej
    img = transform.rotate(img, 180)
    img = remove_background_on_left_side(img)
    
    # usuwa z dołu
    img = img.T
    img = remove_background_on_left_side(img)
    
    # usuwa z góry
    img = transform.rotate(img, 180)
    img = remove_background_on_left_side(img)
    
    # wraca do oryginalnej postaci
    img = img.T
    
    return img

### Główna funkcja

In [None]:
def detect_fragment_with_text(img, img_org):
    """
    Parameters:
    img: Na wejście dostaje obraz binarny, gdzie wykryte tekst jest wskazywany przez 1, a reszta to 0.
    img_org: Oryginalny niezmieniony obraz.
    
    Returns:
    img_removed_background: Zwraca wycinek obrazu zawierający tekst w skali szarości z rozciągniętym histogramem.
    img_org: Przekazuje obraz oryginalny dalej.
    
    """
    
    # Szukamy regionów. Więkoszość z nich powinna znajdować się w obszarze tekstu.
    label_img = measure.label(img)
    regions = measure.regionprops(label_img)
    regions_centroids = np.array([reg.centroid for reg in regions])
    mean_centroid = (np.mean(regions_centroids[:, 0]), np.mean(regions_centroids[:, 1]))

    # Usuwamy obszary, który centoridy zbyt mocno odstają. Dwukrotnie.
    data = remove_outliers_centroids(regions_centroids, quantile_height=0.95, quantile_width=0.9)
    data = remove_outliers_centroids(data, quantile_height=0.95, quantile_width=0.95)

    # Z pozostałych centoridów tworzymy prostokąt troche powiększony.
    height_min = np.min(data[:, 0])
    width_min = np.min(data[:, 1])
    height_max = np.max(data[:, 0])
    width_max = np.max(data[:, 1])
    
    img_height, img_width = img.shape
    
    start_point_height = int(max(height_min-img_height*0.09, 1))
    start_point_width = int(max(width_min-img_width*0.15, 1))
    end_point_height = int(height_max+img_height*0.1)
    end_point_width = int(width_max+img_width*0.25)
    
    # Wycięcie tego prostokątu z oryginalnego obrazu.
#     img_org_path = Path('../data/ocr1') / str(image_path.stem + ".jpg")
#     img_org = io.imread(img_org_path)
    img_slice = img_org[start_point_height:end_point_height, start_point_width:end_point_width]
    
    # Na wycinkach nadal czasami pojawia się stół. Więc usuwamy te fragmenty.
    p2, p98 = np.percentile(img_slice, (2, 98))
    img_slice = exposure.rescale_intensity(img_slice, in_range=(p2, p98))
    img_removed_background = remove_background(img_slice)
    
    reference_point_to_img_org = (start_point_height, start_point_width)
    return img_removed_background, img_org, reference_point_to_img_org


# 3. Adam - wykrywanie tekstu teraz z fragmentu obrazu zawierajęcego tekst.
<p><b>Dostaniesz:</b><p>
    - img_removed_background: obraz w skali szarości z rozciągniętym histogramem będący fragmentem oryginalnego obrazu zawierającym obszar tekstu.<p>
    - img_org: Oryginalny niezmieniony obraz.<p>
    - reference_point_to_img_org: Punkt odniesienia wycinku (img) do obrazu oryginalnego (img_org).<p>
<p><b>Potrzebuję dalej:</b><p>
    - img: Obraz binarny, gdzie wykryty tekst jest wskazywany przez 1, a reszta to 0.<p>
    - img_org: Oryginalny niezmieniony obraz.<p>
    - reference_point_to_img_org: Punkt odniesienia wycinku (img) do obrazu oryginalnego (img_org).<p>

# 4. Wykrywanie obszarów słów w obrazie

In [None]:
import numpy as np
from pathlib import Path
from skimage import io
from skimage import measure
from skimage import morphology
%matplotlib qt

### Pomocnicze

In [None]:
def detect_lines_of_text(img):    
    # obliczamy średnią jasność wierszy w obrazie
    sum_of_rows = np.sum(img, axis=1) 
    mean_row_value = np.mean(sum_of_rows)
    
    # wiersze poniżej średniej jasności zerujemy (usuwa np. ogonki liter nachodzących na kolejne wiersze)
    # chodzi o to żeby wyciągnąć na pewno te wiersze obrazu, w których jest tekst
    for i, row in enumerate(img):
        if np.sum(row) < mean_row_value: # mean_row_value, ale to jest takie niefajne, eh
            row = np.zeros(row.shape)
            img[i] = row
        
    # zaznaczamy obszary, które są powyżej średniej (całe wiersze)
    for i, row in enumerate(img):
        if np.sum(row) > 0.0:
            img[i:i+1, :] = 1 
            
    # łączenie lekko rozdzielonych linijek
#     img = morphology.dilation(img, morphology.disk(5)) # TODO WAŻNE - zoptymalizować!
                
    return img
            

def detect_words_in_line(image_result, image_binary, coords_of_line, row_intensity=255):
    # wycinamy kawałek obrazu będącego linią tekstu i obracamy go (.T)
    line_img = get_slice_of_image_with_specific_coords(image=image_binary, coords=coords_of_line).T
    line_img = morphology.dilation(line_img, morphology.disk(13))
    
    # szukamy miejsc, w których jasność jest większa od 0.0 i te miejsca zaznaczamy w wycinku obrazu
    # (obraz jest obrócony, więc tekst idzie z góry na dół)
    sum_of_rows = np.sum(line_img, axis=1) 
    mean_row_value = np.mean(sum_of_rows)
    for i, row in enumerate(line_img):
        if np.mean(row) > 0.0:
#             line_img[i:i+1, :] = (255, 0, 0)
            line_img[i:i+1, :] = row_intensity
    # znowu obracamy, tekst biegnie od lewej do prawej
    line_img = line_img.T
    
    # wykrywamy regiony, czyli pojedynczy region to powinien być jeden wyraz
    label_line_img = measure.label(line_img)
    regions = measure.regionprops(label_line_img)
#     print("liczba słów: ", len(regions))
    
    # tutaj szukamy regionu, który jest najdalej na lewo - czyli indeksu
    max_width_coord = max(regions[0].coords[:, 1])
    max_region_index = 0
    for i, region in enumerate(regions[1:]):        
        temp = max(region.coords[:, 1])
        if temp > max_width_coord:
            max_width_coord = temp
            max_region_index = i + 1
    
    # czyli mamy wszystkie współrzędne regionu z indeksem
    last_word_coords = regions[max_region_index].coords
    # ale aktualnie do tego regionu odnosimy się względem naszego wycinka obrazu - jednego wiersza
    # a chcemy go zaznaczyć na całym obrazie, więc do współrzędnych dodajemy współrzędne naszego wycinka,
    # (te współrzędne wycinka odnoszą się do całego obrazu)
    last_word_coords[:,0] += coords_of_line[0][0]
    
    # zamieniamy ten wycinek obrazu w całym obrazie
    first_point = coords_of_line[0]
    last_point = coords_of_line[-1]
    image_result[first_point[0]:last_point[0]+1, first_point[1]:last_point[1]+1] = line_img
                
    return last_word_coords


def get_slice_of_image_with_specific_coords(image, coords):
    height = coords[:, 0]
    width = coords[:, 1]
    slice_image = image[(height, width)].reshape((-1, image.shape[1]))
    
    return slice_image

### Główna funkcja

In [None]:
save_path_k_wyrazy = Path('../data/partial_results/k_wyrazy_2') # POTRZEBNE - to jeden z wyników zadania
save_path_k_wyrazy.mkdir(parents=True, exist_ok=True)

def detect_fragments_with_words(img, img_org, reference_point_to_img_org):
    """
    Zapisuje k-wyrazy.png oraz wykrywa fragmenty obrazu reprezentującego indeksy.
    
    Parameters:
    img: Na wejście dostaje obraz binarny, gdzie wykryty tekst jest wskazywany przez 1, a reszta to 0.
    img_org: Oryginalny niezmieniony obraz.
    reference_point_to_img_org: Punkt odniesienia wycinku (img) do obrazu oryginalnego (img_org).
    
    Returns:
    last_word_images: Lista wyciętych fragmentów indeksów z oryginalnego obrazu.
    
    """    
    img_detected_rows = detect_lines_of_text(img.copy()) 
     
    # region = linia tekstu
    label_image = measure.label(img_detected_rows)
    regions = measure.regionprops(label_image)
    
#     width = img_canny.shape[1]
#     regions = [reg for reg in regions if reg.area > width*5] # wiersze powyżej 7 pikseli wysokości
#     print("regions po usunięciu cienkich wierszy: ", len(regions))
    
    # Wynikowy obraz ma mieć czarne tło, a wyrazy w kolejnych wierszach mają mieć wartości 1,2,3...
    image_result = np.zeros(img.shape, dtype=np.uint8)
    last_words = []
    for i, region in enumerate(regions, 1):
        last_word_coords = detect_words_in_line(image_result=image_result, 
                                               image_binary=img, 
                                               coords_of_line=region.coords, 
                                               row_intensity=((i*1)%256))
        
        last_word_coords_height = last_word_coords[0] + reference_point_to_img_org[0]
        last_word_coords_width = last_word_coords[1] + reference_point_to_img_org[1]
        last_words.append([last_word_coords_height, last_word_coords_width])
    
    # Zapisywanie k-wyrazy        
    io.imsave(arr=image_result, fname=save_path_k_wyrazy / '{}-wyrazy.png'.format(number_of_image))

    
    # Utworzenie katalogu dla wycinka indeksu.
#     number_of_image = re.search('[0-9]+', image_path.stem)[0]
#     last_word_directory = save_path / number_of_image
#     last_word_directory.mkdir(parents=True, exist_ok=True)
    
    # Wycięcie indeksu (last_word) z oryginalnego obrazu i dodanie go do listy wszystkich.
    last_word_images = []
    for i, last_word_coords in enumerate(last_words):
        first_point = last_word_coords[0]
        last_point = last_word_coords[-1]
        last_word_img = img_org[first_point[0]:last_point[0]+1, first_point[1]:last_point[1]+1] 
        last_word_images.append(last_word_img)
        # Zapisanie
#         io.imsave(arr=last_word_img, fname=last_word_directory / '{}.png'.format(i))

    return last_word_images

# 5. Wycięcie cyfr z obrazów indeksów

In [None]:
from pathlib import Path
from skimage import filters
from skimage import transform
from skimage import measure
from skimage import exposure

import numpy as np

%matplotlib qt

### Pomocnicze

In [None]:
# rect_points - (start_point, end_point), where p0 is top-left corner, p1 is down-right corner
def euclidean_distance(p1, p2):
        return pow(pow(p1[0]-p2[0],2)+pow(p1[1]-p2[1],2),0.5)


def sort_regions_by_area(regions, descending=True):     
    def func(region):
        return region.area

    regions = sorted(regions, key=func, reverse=descending)
    return regions

def get_binary_image_with_digits(word_image):
    # Multio-Otsu dzieli obraz na 3 klasy o różnych jasnościach.
    thresholds = filters.threshold_multiotsu(word_image, classes=3)

    # Regions - to obraz, który ma wartości od 0 do 2. 
    # Wartość odpowiada regionowi, do którego należey dany piksel.
    otsu_regions = np.digitize(word_image, bins=thresholds)

    # Jeden z wykrytych regionów odpowiadał w większości jasności kratki, więc go usuwam.
    # Region trzeba traktować jako jakiś przedział wartości jasności w obrazie.
    image_removed_otsu_region = word_image*util.invert((otsu_regions == 1))

    # Po ponownym wykryciu regionów, jeden z nich pasował do cyfr więc użyłem go licząc, że są to cyfry.
    thresholds = filters.threshold_multiotsu(image_removed_otsu_region, classes=3)
    otsu_regions = np.digitize(word_image, bins=thresholds)
    image_digits = (otsu_regions==0)
    
    return image_digits

def get_digits_regions(image_digits):
    # Tutaj region to już chodzi o podobne jasności pikseli w sąsiedztwie.
    label_image = measure.label(image_digits)
    regions = measure.regionprops(label_image)
    
    # usuwanie regionów, które są zbyt szerokie na liczbę (usuwa wykryte poziome linie kratki)
    # źle działa dla 2_1, cyfra 5 jest zbyt duża
#     width = image_digits.shape[1] 
#     regions_width = [(np.max(reg.coords[:, 1]) - np.min(reg.coords[:, 1])) for reg in regions]
#     regions = [reg for i, reg in enumerate(regions) if regions_width[i] < width/5]

#     print("liczba wykrytych regionów (cyfr): ", len(regions))
    
    
    return regions


def remove_overlapped_regions(regions_as_rect_points):
    # usunięcie regionów zbytnio nakładajacych się na siebie, prawdopodobnie cyfra została podzielona na górę-dół
    
    regions_list_with_key = []
    for i, reg in enumerate(regions_as_rect_points):
        regions_list_with_key.append([i, reg])
    
    valid_regions = []
    invalid_regions_keys = []
    l1 = regions_list_with_key[0:]
    l2 = regions_list_with_key[1:]
    for reg1_dict, reg2_dict in zip(l1, l2): 
        reg1_key, reg1 = reg1_dict
        reg2_key, reg2 = reg2_dict
        
        if reg1_key in invalid_regions_keys:
            continue

        reg1_start_point, reg1_end_point = reg1
        reg2_start_point, reg2_end_point = reg2
        
        diff = reg2_start_point[1] - reg1_end_point[1] 
        if diff < 0: # jeżeli regiony oddalone o mniej niż 'diff' pikseli to połącz w jeden
            new_start_point, new_end_point = combine_two_overlapping_regions(reg1, reg2)
                
            valid_regions.append([new_start_point, new_end_point])              
            invalid_regions_keys.append(reg1_key)
            invalid_regions_keys.append(reg2_key)

    
    for key, reg in regions_list_with_key:
        if key not in invalid_regions_keys:
            valid_regions.append(reg)
            
    return valid_regions

def combine_two_overlapping_regions(reg1, reg2):
    reg1_start_point, reg1_end_point = reg1
    reg2_start_point, reg2_end_point = reg2
        
    new_start_point = []
    new_end_point = []

    if reg1_start_point[0] < reg2_start_point[0]:
        new_start_point.append(reg1_start_point[0])
    else:
        new_start_point.append(reg2_start_point[0])
    if reg1_start_point[1] < reg2_start_point[1]:
        new_start_point.append(reg1_start_point[1])
    else:
        new_start_point.append(reg2_start_point[1])           

    if reg1_end_point[0] > reg2_end_point[0]:
        new_end_point.append(reg1_end_point[0])
    else:
        new_end_point.append(reg2_end_point[0])
    if reg1_end_point[1] > reg2_end_point[1]:
        new_end_point.append(reg1_end_point[1])
    else:
        new_end_point.append(reg2_end_point[1])
        
    return new_start_point, new_end_point

def get_list_of_rectangle_points(regions):
    rect_points = [get_two_points_to_create_rectangle_from_region(reg) for reg in regions]
    
    # usuwanie bardzo małych wykrytych obszarów
    def func_area(points):
        start_point, end_point = points
        width = abs(end_point[1]-start_point[1])
        height = abs(end_point[0]-start_point[0])
        return width*height
    
    rect_points_area = [func_area(reg) for reg in rect_points]
    rect_points = [reg for i, reg in enumerate(rect_points) if rect_points_area[i] > 20]
    
    # sortowanie obszarów, biegnących od lewej do prawej - aby cyfry były po kolei
    def func(points):
        p0, p1 = points
        return (p0[1] + p1[1])/2   
    rect_points_sorted_by_distance_to_start_of_horizontal_axis = sorted(rect_points, key=func)    
    rect_points = remove_overlapped_regions(rect_points_sorted_by_distance_to_start_of_horizontal_axis)
    rect_points = sorted(rect_points, key=func) 
    rect_points = remove_overlapped_regions(rect_points)
    rect_points = sorted(rect_points, key=func) 
    
#     rect_points = rect_points_sorted_by_distance_to_start_of_horizontal_axis # TODO do usunięcia

#     l1 = rect_points[0:]
#     l2 = rect_points[1:]
#     for reg1, reg2 in zip(l1, l2):
#         half_diff = int((reg2[0][1] - reg1[1][1])/2)
#         reg1[1][1] += half_diff
#         reg2[0][1] -= half_diff
        
#     print("liczba wykrytych regionów ostatecznie (cyfr): ", len(rect_points))
#     print(rect_points)
    return rect_points
        

def get_two_points_to_create_rectangle_from_region(region):
    height_min = np.min(region.coords[:, 0])
    width_min = np.min(region.coords[:, 1])
    height_max = np.max(region.coords[:, 0])
    width_max = np.max(region.coords[:, 1])
    
    return [[height_min, width_min], [height_max, width_max]]

def scale_digit_image(image, scale=28):
    (h, w) = image.shape
    
    if abs(h-w) < 2:
        image = transform.resize(image, (scale,scale))
        return image
    if h > w: 
        half_diff = int((h-w)/2) # zakładamy, że jednak zawsze cyfra jest wyższa niż szersza
        
        # left border
        new_image_left_border = np.full((h,w+half_diff), fill_value=0, dtype=np.uint8)
        new_image_left_border[:,half_diff:] = image
        image = new_image_left_border
              
        # right border
        fill_value = (h-w) - 2*half_diff
        (h, w) = image.shape
        new_image_right_border = np.full((h,w+half_diff+fill_value), fill_value=0, dtype=np.uint8)
        new_image_right_border[:,:-half_diff-fill_value] = image
        image = new_image_right_border
        
    else:
        half_diff = int((w-h)/2) # zakładamy, że jednak zawsze cyfra jest wyższa niż szersza

        # bottom border  
        new_image_bot_border = np.full((h+half_diff,w), fill_value=0, dtype=np.uint8)
        new_image_bot_border[:-half_diff,:] = image
        image = new_image_bot_border

        # top border
        fill_value = (w-h) - 2*half_diff
        (h, w) = image.shape
        new_image_top_border = np.full((h+half_diff+fill_value,w), fill_value=0, dtype=np.uint8)
        new_image_top_border[half_diff+fill_value:,:] = image
        image = new_image_top_border
    
    image = transform.resize(image, (scale,scale)) # to zmienia na float8
    image = util.img_as_bool(image) # jak tego nie użyłem to po zmianie na uint8 (czyli akcja niżej) 
                                    # miałem wartości inne niż 0 i 255 (np. 254)
    image = util.img_as_ubyte(image) # nie mogę zapisywać obrazów typu bool, czyli takich jak wyżej, więc zmiana na uint8
    
    return image


### Główna funkcja

In [None]:
def cut_digits_from_index_image(last_word_images):
    """
    Wycina cyfry z obrazu indeksu i zapisuje wykryte indeksy do k-indeksy.txt.
    
    Parameters:
    last_word_images: List obrazów indeksów.
    
    """   
        
    for word_image_org in last_word_images:
        # Wczytanie obrazu
        word_image = word_image_org.copy()
        word_image = color.rgb2gray(word_image)
        word_image = filters.gaussian(word_image)

        # Rozciąganie jasności obrazu.
        p2, p98 = np.percentile(word_image, (2, 98))
        word_image = exposure.rescale_intensity(word_image, in_range=(p2, p98))

        image_digits = get_binary_image_with_digits(word_image)

        regions = get_digits_regions(image_digits)    
        rect_points_sorted_by_distance_to_start_of_horizontal_axis = get_list_of_rectangle_points(regions)

        word_image = color.gray2rgb(word_image)  
        image_digits = util.img_as_ubyte(image_digits)
        temp_image = word_image_org.copy()
        for index_digit, (start_point, end_point) in enumerate(rect_points_sorted_by_distance_to_start_of_horizontal_axis):           
            # Narysowanie prostokąta wokół cyfry.
#             rr, cc = draw.rectangle_perimeter(start_point, end_point, shape=word_image_org.shape)         
#             temp_image[rr, cc] = (255,0+index_digit*30,0+index_digit*30)

            # Wycięcie cyfry
            one_digit =  image_digits[:, start_point[1]:end_point[1]+1]
            one_digit = scale_digit_image(one_digit, scale=28)
            # TUTAJ MAMY OBRAZ JEDNEJ CYFRY, więc trzeba użyć sieci do wykrycia
            # a po pętli zapisać całą liczbę do pliku tekstowego?
            
#             io.imsave(arr=one_digit, fname=word_directory / '{}.png'.format(index_digit))

#         io.imsave(arr=temp_image, fname=word_directory / 'index.png')