# Підготовка даних

## Файл csv із збігами та їх прізвищами

Мають бути такі колонки

- surname - прізвище предка збіженця. У чоловічому роді, українською мовою
- name - ім'я збіженця
- cm - число, спільна днк в сантиморганах
- url - покликання на збіженця

# Параметри

In [1]:
# Всі необхідні файли потрібно покласи у цей каталог
directory = "data"

# Файл із збіженцями та прізвищами їх предків
filename = "DNA Genealogy - Surnames_sister"

limit_counties = 15

# Відкриваємо вхідний файл із збіженцями прізвищами їх предків та базу даних

In [2]:
import sqlite3

db = sqlite3.connect(f'{directory}/surnames.sqlite3')

In [3]:
import pandas as pd
matches_df = pd.read_csv(f'{directory}/{filename}.csv')
matches_df

Unnamed: 0,surname,name,cm,url
0,Стемковський,Владислав Стемковський,108.0,https://www.myheritage.com.ua/dna/match/D-303A...
1,Стемпковський,Владислав Стемковський,108.0,https://www.myheritage.com.ua/dna/match/D-303A...
2,Шмигелюк,Oleksandr Shmyheliuk,55.1,https://www.myheritage.com.ua/dna/match/D-3DE6...
3,Вовкодав,Надія Коваленко,50.5,https://www.myheritage.com.ua/dna/match/D-3DE6...
4,Захарченко,Надія Коваленко,50.5,https://www.myheritage.com.ua/dna/match/D-3DE6...
...,...,...,...,...
128,Міхно,Oleksandra Fedosova,25.3,https://www.myheritage.com.ua/dna/match/D-3DE6...
129,Пточщук,Владимир Сопронюк,25.1,https://www.myheritage.com.ua/dna/match/D-3DE6...
130,Сопронюк,Владимир Сопронюк,25.1,https://www.myheritage.com.ua/dna/match/D-3DE6...
131,Дмитрук,Elvira Melmann,24.9,https://www.myheritage.com.ua/dna/match/D-3DE6...


# Підготовка таблиць

In [4]:
table_distribution = "distribution"

cursor = db.cursor()


In [5]:
cursor.execute(f'DROP TABLE IF EXISTS {table_distribution}')
cursor.execute(
    f'''
    CREATE TABLE {table_distribution} (
    	"county"	INT NOT NULL,
        "surname"   TEXT NOT NULL,
        "cnt" INT NOT NULL,
        "score"	    REAL NOT NULL
    )
    '''
)

<sqlite3.Cursor at 0x758f704f5ab0>

In [6]:
db.commit()

# Обробка прізвищ

In [7]:
for idx, row in matches_df.iterrows():
    # print(row)
    surname = row['surname'].upper()
    cm = row['cm']
    match = row['name']
    print(match)

    sql = f'''
        INSERT INTO {table_distribution}
        SELECT
        	P."Районнародження" AS county,
            "{surname}",
        	COUNT(*) as cnt,
        	{cm}
        FROM People P
        WHERE P."Прізвищє" = "{surname}"
        AND P."Стать" = 1
        AND county IS NOT NULL
        GROUP BY county
        ORDER BY cnt DESC
        LIMIT 15
    '''

    # print(sql)

    cursor.execute(sql)
    # break
    
db.commit()

print("All records processed")
    

Владислав Стемковський
Владислав Стемковський
Oleksandr Shmyheliuk
Надія Коваленко
Надія Коваленко
Надія Коваленко
Anna stefanidis
Anna stefanidis
Anna stefanidis
Bohdana Humen
Інна Сидорук
Інна Сидорук
Інна Сидорук
Hurtov Oleksii
Hurtov Oleksii
Camilla Strand
Camilla Strand
Іван Афанасійович Олійник
Іван Афанасійович Олійник
Іван Афанасійович Олійник
Іванна Романівна Бузниковата
Viktoriya Petriv
Viktoriya Petriv
Viktoriya Petriv
Viktoriya Petriv
Viktoriya Petriv
Viktoriya Petriv
Viktoriya Petriv
Seklita Furdik
Seklita Furdik
Tetyana Romanyuk
Tetyana Romanyuk
Tetyana Romanyuk
Tetyana Romanyuk
Tetyana Romanyuk
Natallia Vavilonskaya
Natallia Vavilonskaya
Yana Butsko
Yana Butsko
Yana Butsko
Віталій Тимчишин
Віталій Тимчишин
Віталій Тимчишин
Віталій Тимчишин
Sofiya Urina
Sofiya Urina
Sofiya Urina
Sofiya Urina
Taras Kvasniuk
Іван Міщук
Олена Гетман
Олена Гетман
Mychailo Piwtorackyj
Mychailo Piwtorackyj
Mykola Yakonski
Mykola Yakonski
Irene Chodakowski
Irene Chodakowski
Yuliia Lukiianchuk
Va

# Створимо результуючий документ

In [21]:
import xlsxwriter

In [22]:
import os, errno

resfile = f'{directory}/{filename}.xlsx'
try:
    os.remove(filename)
except OSError:
    pass
workbook = xlsxwriter.Workbook(resfile)

In [23]:
def add_row(ws, rn, content, format = None):
    for i, c in enumerate(content):
        # print(f"Write {c} to ({i},{rn})")
        ws.write(rn, i, c, format)

In [24]:
header_format = workbook.add_format()
header_format.set_bold()

def add_sheet_sql(name, header, sql, width = None):
    worksheet = workbook.add_worksheet(name)
    # if width is not None:
    #     for w in width:
            
    add_row(worksheet, 0, header, header_format)
    cursor.execute(sql)
    for i, row in enumerate(cursor.fetchall()):
        add_row(worksheet, i+1, row)

    worksheet.autofit()

In [25]:
add_sheet_sql("Райони", ["Область", "Район", "Ранг"], 
              '''
            SELECT
            	IFNULL(r.name, C.region) as region,
                IFNULL(c.name, D.county) as county,
            	SUM(score) as score
            FROM
            	distribution D
            LEFT JOIN counties C ON D.county = C.id
            LEFT JOIN regions R ON c.region = R.id
            GROUP BY D.county
            ORDER BY score DESC
              '''
             )

In [26]:
add_sheet_sql("Прізвища", ["Прізвище", "Область", "Район", "Кількість", "Ранг"], 
              f'''
            SELECT 
                surname,
                IFNULL(r.name, c.region) as region,
                IFNULL(c.name, d.county) as county,
                cnt,
                score
            FROM {table_distribution} d
            LEFT JOIN counties as c ON d.county = c.id
            LEFT JOIN regions as r on c.region = r.id
            order by d.surname    
              '''
             )

OperationalError: no such column: с.region

In [27]:
workbook.close()

# Закрити базу даних

In [29]:
db.close()