# Import von WIAG-Daten in FactGrid
Formatiere CSV-Daten aus WIAG als V1-Statements für QuickSteps  
siehe [Einführung in QuickStatements](https://www.wikidata.org/wiki/Help:QuickStatements)
und die [Properties des FactGrid](https://database.factgrid.de/wiki/FactGrid:Directory_of_Properties)

Änderungen

- *2023-12-11* Verwende die Gruppe des höchsten erreichten Amtes in der englischen Beschreibung und für P165

Inhalt:

- [neue Objekte in FactGrid anlegen](#neue-Objekte-in-FactGrid-anlegen)

In [None]:
using CSV, DataFrames, Dates

In [None]:
ENV["COLUMNS"] = 120

In [None]:
input_path = "C:\\Users\\georg\\Documents\\projekte-doc\\Forschungsdaten-GS\\data\\FactGrid"

In [None]:
output_path = input_path

## neue Objekte in FactGrid anlegen
Es wird davon ausgegangen, dass die betreffenden Personen noch nicht in FactGrid vorhanden sind. Die Spalte "FactGrid_ID" sollte also für alle Einträge leer sein.

Daten aus WIAG einlesen: Quelle Export "CSV Personendaten"

In [None]:
input_file = "WIAG-Köln_2023-12-18.csv"
input_path_file = joinpath(input_path, input_file)

In [None]:
df_person_all = CSV.read(input_path_file, DataFrame);
nrow(df_person_all)

Betrachte nur Neu-Zugänge (keine FactGrid-ID)

In [None]:
df_person_in = subset(df_person_all, :FactGrid_ID => ByRow(ismissing));
nrow(df_person_in)

In [None]:
sort!(df_person_in, :corpus);

Lies die Amtsdaten ein (zunächst für P1018)

In [None]:
input_file = "WIAG-Köln-roles_2023-12-18.csv"
input_path_file = joinpath(input_path, input_file)

In [None]:
df_role_all = CSV.read(input_path_file, DataFrame);
nrow(df_role_all)

Definiere Funktionen:  
Lege die zwei Rollen/Amtszeiten fest, die für die Beschreibung verwendet werden.  
Priorisiere nach Gruppe der Rolle (siehe `role_group_rank_list`) und dann nach Amtszeit (jüngste zuerst)

In [None]:
function describe_role(role)
    inst_or_dioc = !ismissing(role[:institution]) ? role[:institution] : role[:diocese]    
    
    date_info = ""
    if !ismissing(role[:date_begin]) && !ismissing(role[:date_end])
        date_info = role[:date_begin] * "-" * role[:date_end]
    elseif !ismissing(role[:date_begin])
        date_info = role[:date_begin]
    elseif !ismissing(role[:date_end])
        date_info = "bis " * role[:date_end]
    end
    
    description = role[:name]
    if !ismissing(inst_or_dioc)
        description *= " " * inst_or_dioc
    end
    if date_info != ""
        description *= " " * date_info
    end
    
    return description    
end

In [None]:
role_group_rank_list = [
    "Q648236", # Leiter (Erz-)diözese (Altes Reich)
    "Q648232", # Domdignitär Altes Reich
    "Q648233", # Klosterangehöriger mit Leitungsamt
    "Q646226", # Domkleriker Altes Reich
]

In [None]:
"""
    lt_role_group_fq_id(a, b, role_group_rank_list)

compare `a` and `b` based on `role_group_rank_list`
"""
function less_than_role_group_fq_id(a, b, role_group_rank_list)
    if ismissing(a)
        return false
    end
    if ismissing(b)
        return true
    end
    
    lt = false
    for rg_prio in role_group_rank_list
        if a == rg_prio && b != rg_prio
            lt = true
            break
        end
        if a != rg_prio && b == rg_prio
            lt = false
            break
        end
    end
    
    return lt        
end

lt_rg_fq_id(a, b) = less_than_role_group_fq_id(a, b, role_group_rank_list)

In [None]:
function description_by_role(df)
    N_ROLE_4_DESCRIPTION = 2
    df_s = sort(df, [:date_sort_key], rev = true)
    df_s = sort(df_s, [:role_group_fq_id], lt = lt_rg_fq_id, alg = MergeSort)
    description_list = String[]
    for row in eachrow(df_s)
        push!(description_list, describe_role(row))
    end
    head_list = first(unique(description_list), N_ROLE_4_DESCRIPTION)
    return join(head_list, ", ")
end

In [None]:
dfg_role_all = groupby(df_role_all, [:person_id]);
df_role_description = combine(dfg_role_all, description_by_role);
nrow(df_role_description)

In [None]:
df_role_description[200:205, :]

Test
Karl Erzherzog von Österreich, WIAG-Pers-EPISCGatz-20417-001

In [None]:
subset(df_role_description, :person_id => ByRow(isequal("WIAG-Pers-EPISCGatz-20417-001")))

In [None]:
columns = [
    :person_id => :person_id,
    :x1 => :summary_roles,
]

In [None]:
df_person = innerjoin(df_person_in, select(df_role_description, columns), on = :id => :person_id);
nrow(df_person)

In [None]:
df_person[200:204, [:id, :displayname, :summary_roles]]

Wähle für die Liste der Rollen die relevanten Spalten aus.

In [None]:
columns = [
    :person_id => :person_id,
    :role_group_fq_id => :P1018
]

In [None]:
df_role = select(df_role_all, columns);

Es werden die Ämter für P1018 eingetragen, deren Gruppen über die entsprechenden FactGrid-IDs hier ausgewählt werden.

In [None]:
relevant_role_group_fq_id = [
    "Q648236", # Leiter (Erz-)diözese (Altes Reich)
    "Q648232", # Domdignitär Altes Reich    
];

In [None]:
is_relevant(s) = !ismissing(s) && s in relevant_role_group_fq_id

In [None]:
df_role = subset(df_role, :P1018 => ByRow(is_relevant));
nrow(df_role)

Das deutsche Beschreibungsfeld soll Lebensdaten mit der Zusammenfassung der Amtsdaten enthalten.

In [None]:
join_komma(a, b) = join((a, b), ", ")
transform!(df_person, [:biographical_dates, :summary_roles] => ByRow(join_komma) => :description_de);

Das FactGrid arbeitet für Wikipedia nicht mit URL-codierten Adressen.
*2023-12-13* WIAG gibt direkt unkodierte URLs aus, daher sind die folgenden Schritte auskommentiert

In [None]:
# unescape_not_mg(s) = ismissing(s) ? s : URIs.unescapeuri(s)

In [None]:
# transform!(df_person, :Wikipedia => ByRow(unescape_not_mg) => :Wikipedia);

In [None]:
columns = [:givenname, :prefix, :familyname, :Wikipedia]
dropmissing(df_person, :Wikipedia)[5:9, columns]

Benenne die Spalten um entsprechend den Konventionen des FactGrid  
*2023-12-14* `career` wird jetzt mehrfach anhand der Amtsdaten eingetragen (siehe unten)

In [None]:
columns = [
    :displayname => :Lde,
    :description_de => :Dde,
    :date_of_birth => :P77,
    :date_of_death => :P38,
    :GND_ID => :P76,
    :GSN => :P472,
    :id => :P601,
    :Wikidata_ID => :Swikidatawiki,
    :Wikipedia => :Sdewiki
];

In [None]:
rename!(df_person, columns);

Kopiere das Label in Deutsch für die anderen Sprachen

In [None]:
df_person.Len = df_person.Lde;
df_person.Lfr = df_person.Lde;
df_person.Les = df_person.Lde;

Erstelle eine Beschreibung für Englisch aus Lebensdaten und der Gruppe des höchsten Amtes (Spalte 'career_en')

In [None]:
join_komma(a, b) = join([a, b], ", ")

In [None]:
transform!(df_person, [:biographical_dates, :career_en] => ByRow(join_komma) => :Den);

In [None]:
df_person[111:114, [:P601, :givenname, :prefix, :familyname, :Len, :Den]]

Füge Daten ein, die für alle Personen gleich sind:
Mensch, Teil der Germania Sacra Forschungsdaten, männlich

In [None]:
insertcols!(df_person, 
    :P2 => "Q7",
    :P131 => "Q153178",
    :P154 => "Q18"
);    

Definiere Umwandlungsfunktionen  
*offen:* Datumsangaben sind noch zu besprechen, wegen der Verarbeitung von unscharften Zeitangaben.

In [None]:
fqs_string(s) = "\"" * string(s) * "\""

In [None]:
function create(out, row, col_list) 
    println(out, "CREATE")    
    for col in col_list
        println(out, "LAST\t", string(col), "\t", fqs_string(row[col]))        
    end
end

In [None]:
"""
    set_property_list (out, row, object, col_list, fmt_list)

    

# Arguments
- `out::IOStream`: output stream
- `row::DataFrameRow`: input data
- `object`: FactGrid identifier or "LAST"
- `col_list`: list of colums where data should be read from
- `fmr_list`: list of formatting functions (one for each column)
"""
function set_property_list(out, row, object, col_list, fmt_list)
    for (col, fmt) in zip(col_list, fmt_list)
        if (!ismissing(row[col]))
            println(out, object, "\t", string(col), "\t", fmt(row[col]))
        end
    end
end

Lies die Amtsdaten für einen bestimmten Domherren

In [None]:
"""
    set_role(df_role, id)

extract roles for person with `id`
"""
function set_role(out, df_role, id, object, property)
    property = Symbol(property)
    df_pr = subset(df_role, :person_id => ByRow(isequal(id)));
    df_pr = subset(df_pr, )
    fq_id_list = unique(df_pr[!, property])
    for fq_id in fq_id_list
        println(out, object, "\t", property, "\t", fq_id)
    end
    return nothing
end


Gib ausgewählte Elemente aus `df_person` aus. Falls es schon eine Datei mit gleichem Namen im angegebenen Verzeichnis gibt, wird die Datei überschrieben.

In [None]:
date_key = Dates.format(now(), "yyyy-mm-dd")

In [None]:
output_file = "Insert_WIAG-Köln_" * date_key * "_FQ.csv"
output_path_file = joinpath(output_path, output_file)

In [None]:
open(output_path_file, "w") do out_stream
    for row in eachrow(df_person)
        create(out_stream, row, [:Lde, :Len, :Lfr, :Les, :Dde, :Den])
        set_property_list(out_stream, row, "LAST", 
            [:P2, :P131, :P154, :P601, :P76, :P472, :Swikidatawiki, :Sdewiki], 
            [identity, identity, identity, fqs_string, fqs_string, fqs_string, fqs_string, fqs_string])
        set_role(out_stream, df_role, row[:P601], "LAST", :P1018)
    end        
end