# Big task 1

The files are Excel files taken from open sources and processed from PDFs using OCR. The recognition quality is slightly above average; in some places, the recognition is incorrect, or extraneous characters are included, etc.

The tasks here are:

- Familiarize yourself with the structure of these files. Each file contains several sheets, etc.
- Extract all tables and combine them into one.
- Retain only two columns: the address and the cadastral number.
- Additionally, there’s an extra challenge. Analyze which russian letters are being replaced by which english ones and think about how we can improve the recognition quality.


In [1]:
import pandas as pd

In [2]:
# Path to the uploaded file
file_path = 'C:/Users/ii/Desktop/SATVRN/study/Andrei/bt1/Postanovlenie_ot_13_06_2024_1067_p_s_prilozh.xlsx'
file_path_2 = 'C:/Users/ii/Desktop/SATVRN/study/Andrei/bt1/Postanovlenie_ot_13_06_2024_1068_p_s_prilozh.xlsx'
file_path_3 = 'C:/Users/ii/Desktop/SATVRN/study/Andrei/bt1/Postanovlenie_ot_13_06_2024_1069_p_s_prilozh.xlsx'

## Function

In [3]:
# Write a function to upload all the sheets from the file
def table_upload(file_path, df_sheet_name):
    df = pd.read_excel(file_path, sheet_name=[df_sheet_name], usecols=[1, 2], skiprows=range(0, 2))
    # Rename the columns
    df_1 = df[df_sheet_name]
    df_1 = df_1.rename(columns={df_1.columns[0]: 'Адрес поврежденного жилого помещения',
                                df_1.columns[1]: 'Кадастровый номер жилого помещения'})
    
    # Read all sheet names from the Excel file
    sheet_names = pd.ExcelFile(file_path).sheet_names

    # Initialize an empty list to hold the dataframes
    dataframes = []
    
    # Loop through the sheets, excluding "Table 1"
    for sheet in sheet_names:
        if sheet != "Table 1" and sheet != "Table 2":
            # Read the first three columns of the current sheet
            df_2 = pd.read_excel(file_path, sheet_name=sheet, usecols=[1, 2], skiprows=0)
            dataframes.append(df_2)
    
    # Concatenate all the dataframes into one
    combined_table = pd.concat(dataframes, ignore_index=True)
    # Rename the columns
    combined_table = combined_table.rename(columns={combined_table.columns[0]: 'Адрес поврежденного жилого помещения',
                                                    combined_table.columns[1]: 'Кадастровый номер жилого помещения'})
    # Concatenate all the sheets into one
    final_table = pd.concat([df_1, combined_table], ignore_index=True, axis=0)
    
    return final_table


In [4]:
table_1 = table_upload('C:/Users/ii/Desktop/SATVRN/study/Andrei/bt1/Postanovlenie_ot_13_06_2024_1067_p_s_prilozh.xlsx', 'Table 2')

In [5]:
table_2 = table_upload('C:/Users/ii/Desktop/SATVRN/study/Andrei/bt1/Postanovlenie_ot_13_06_2024_1068_p_s_prilozh.xlsx', 'Table 2')

In [6]:
table_3 = table_upload('C:/Users/ii/Desktop/SATVRN/study/Andrei/bt1/Postanovlenie_ot_13_06_2024_1069_p_s_prilozh.xlsx', 'Table 2')

In [7]:
# Concatenate all the tables into one
united_table = pd.concat([table_1, table_2, table_3], ignore_index=True, axis=0)
united_table.head(15)

Unnamed: 0,Адрес поврежденного жилого помещения,Кадастровый номер жилого помещения
0,"г. Оренбург, CHT «Дубовый плес\n1», проезд 9-й...",56:44:0239001:22105
1,"г. Оренбург, CHT «Дубовый плёс»\nпроезд 5-й Ду...",56:44:0239001:21336
2,"г. Оренбург, CHT «Дубовый плёс»\nпроезд 5-й Ду...",56:44:0239001:22284
3,"г. Оренбург, CHT «Дубовый\nплёс», проезд 5-й Д...",56:44:0239001:21692
4,"г. Оренбург, CHT «Дубовый\nплёс», проезд 5-й Д...",56:44:0239001:20944
5,Адрес поврежденного жилого помещения,Кадастровый номер жилого помещения
6,"г. Оренбург, CHT «Дубовый\nплес», проезд 2-й Д...",56:44:0239001:21068
7,"г. Оренбург, CHT «Дубовый\nплес», проезд 2-й Д...",56:44:0239001:21387
8,"г. Оренбург, CHT «Дубовый\nплес», проезд 2-й Д...",56:44:0239001:21066
9,"г. Оренбург, CHT «Дубовый плёс»\nпроезд 5-й Ду...",56:44:0239001:21091


In [8]:
# Filter all the strings which need to be dropped
to_drop = united_table[united_table['Адрес поврежденного жилого помещения'].str.contains('поврежд')].index
to_drop

Int64Index([5, 13, 22, 34, 52, 55, 67, 107, 117, 132, 147], dtype='int64')

In [9]:
# Drop the filtered strings
filtered_table = united_table.drop(to_drop).reset_index(drop=True)
filtered_table.tail(15)

Unnamed: 0,Адрес поврежденного жилого помещения,Кадастровый номер жилого помещения
135,"г. Оренбург, CHTCH\n«Энергетик», уж. 7 Линия, ...",56:44:0116001:2646
136,"г. Оренбург, CHT «Дружба- Заречное», ул. Друж...",56:44:0244005:6227
137,"г. Оренбург, CHT «Дружба-\nЗаречное», ул. Друж...",56:44:0244005:6720
138,"г. Оренбург, CHT «Дружба-\nЗаречное», ул. Дру...",56:44 30239001:9594
139,"г. Оренбург, CHT «Банковец»,\nул. Банковская, ...",56:44:0244005:6963
140,"г. Оренбург, снт «Банковец»,\nул. 5 проезд, на...",56:44:0244005:6561
141,"г. Оренбург, мкр. пос. им.\nКуйбышева, ул. Се...",56:44:0240011:218
142,"г. Оренбург, мкр. поселок им\nКуйбышева, yn. С...",56:44:0240012:373
143,"г. Оренбург, с. Краснохолм,\nул. Краснознаменн...",56:44:1001001:2353
144,"г. Оренбург, ул. 1-я Семафорная,\nд. 12",56:44:0439006:72


In [10]:
# Clean dataframe from unnecessary characters
filtered_table['Адрес поврежденного жилого помещения'] = (
               filtered_table['Адрес поврежденного жилого помещения']
               .str.replace('\n', ' ')
               .str.replace('  ', ' ')
               )

In [11]:
# Check the english letters 
len(filtered_table[filtered_table['Адрес поврежденного жилого помещения'].str.contains('[a-z]', regex=True, case=False)])

86

In [12]:
len(filtered_table[filtered_table['Адрес поврежденного жилого помещения'].str.contains('[efglerako]', regex=True, case=False)])

13

In [13]:
len(filtered_table[filtered_table['Адрес поврежденного жилого помещения'].str.contains('[ch]', regex=True, case=False)])

77

In [14]:
# Replace the english letters with the russian ones to improve recognition quality of OCR 
filtered_table['Адрес поврежденного жилого помещения'] = (
               filtered_table['Адрес поврежденного жилого помещения']
               .str.replace('C', 'С')
               .str.replace('H', 'Н')
               )
len(filtered_table[filtered_table['Адрес поврежденного жилого помещения'].str.contains('[ch]', regex=True, case=False)])

0