# Enquête sur l'estimation de la valeur d'export de Dunkerque vers l'étranger en 1787

L'objectif de ce document est d'obtenir une estimation de l'ordre de grandeur de la valeur exportée par Dunkerque, afin d'avoir ensuite une estimation de la valeur fraudée.

Pour faire cela, chacune des deux sources navigo et toflit18 sont incomplètes :

* pour toflit18, nous n'avons que les exports de produits coloniaux
* pour navigo, nous n'avons que le nombre des bateaux et - avec une approximation les non-smoggleurs - leur tonnage.


Il s'agit donc d'effectuer l'estimation de la valeur exportée par Dunkerque en 1789 selon la méthode suivante :

1. calculer un prix par tonneau et par partenaire en fonction des différents partenaires de la France en 1787, en rapportant la somme des valeurs d'exports au tonnage cumulé des bateaux partis de France vers l'étranger, soit :

    1.1. calculer le tonnage cumulé par pays des bateaux partis de France vers l'étranger en 1787, selon les registres de congés   
    
    1.2. calculer la valeur cumulée par partenaire des exports en 1787, selon les registres de la ferme
    
    1.3. calculer le ratio des exports par mer et par terre par partenaire en 1787
    
    1.4. finalement, calculer un prix par tonneau par partenaire tel que `p = t / (v * r)` où t est tonnage cumulé, v est la valeur d'export, r est le ratio terre-mer, et p est le prix par tonneau des exports vers un partenaire donné

2. projeter les prix par tonneau et par partenaire sur les tonnage cumulés par destination de Dunkerque en 1789


On devrait ainsi obtenir une estimation de la valeur d'export de Dunkerque, y compris les sommes d'exports issues de la fraude et non déclarées à la ferme.

Pour cela, après l'effervescence du datasprint puis du visusprint du 2-3 mai, nous effectuons une série de vérifications approfondies et de tests avant de faire ce calcul.

Afin d'estimer la valeur exportée par Dunkerque en 1789 à partir des données de navigation du port franc, on procédera en 3 étapes :

1. s'assurer qu'on utilise les meilleures sources pour navigo et toflit18 en comparant les parts des destinations navigo et les parts des partenaires toflit18
2. tester la méthode de projection sur des cas où l'on dispose à la fois de données navigo complètes et de données toflit18 complètes (PASA 1789)
3. faire la projection sur Dunkerque 1789 et la mettre en regard avec les autres données dont on dispose


Cette méthode est très spéculative et exploratoire. Elle commence avec plusieurs hypothèses et approximations, comme les suivantes :

* tous les bateaux voyagent pleins
* les exports par partenaires au niveau national sont à peu près les mêmes entre 1787 et 1789
* le commerce de Dunkerque est à peu près similaire à celui de la France quand on le découpe par partenaire (Dunkerque exporte les même types de produits que la France par partenaire)
* les partenaires commerciaux sont associés à des commerce relativement uniformes du point de vue des produits commercés - ce qui fait qu'on suppose que la valeur par tonneau est uniforme pour un partenaire donné
* ... ?


In [None]:
import csv
import pandas as pds
from IPython.display import display
import json


def VegaLite(spec):
    bundle = {}
    bundle['application/vnd.vegalite.v4+json'] = spec
    display(bundle, raw=True)

# 1. Stabilisation des données Navigo

Il s'agit d'abord de s'assurer qu'on dispose de données stables pour effectuer la projection des prix par tonneau par partenaire.

## 1.1. Analyse de Christine sorti à partir de la base postgresql durant le visusprint

Note : en relation à une première stratégie d'estimation "fine" finalement abandonnée, cette extraction présentait un compte par pays et par produit, nous avions donc des tonnages qui n'incluent pas les bateaux sans cargaison définie.

In [None]:
control_map = {}

transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
    }
with open('../../../productions/module_12/export_france_1787_par_pays_par_produits.csv', newline='') as csvfile:
    rows_navigo = list(csv.DictReader(csvfile))
    control_map = {}
    for flow in rows_navigo:
      destination = flow["destination_partner_balance_1789"]
      if destination in transformation_map:
          destination = transformation_map[destination]
      tonnage = float(flow["sum_tonnage"] or 0)
      if destination not in control_map:
        control_map[destination] = 0
      control_map[destination] += tonnage
    
print("Agrégation des valeurs par pays à partir de l'extraction de Christine:")

print(pds.DataFrame([{"pays": pays, "tonnage": tonnage} for pays, tonnage in control_map.items()]))

viz_data = [{"partenaire": partenaire, "tonnage": tonnage} for partenaire, tonnage in control_map.items()]

VegaLite({
    "title": "Tonnage partenaire des destinations depuis la France en 1787 - fichier sorti par Christine sur la base de pays x produits",
    "data": {
        "values": viz_data
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "tonnage"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})


# 1.2. Test d'une seconde méthode à partir de l'API `raw_flows`

On refait le même compte en se basant sur les données disponibles en lignes via l'adresse raw_flows. On teste cette méthode pour s'assurer d'une meilleure reproductibilité pour la suite.

Filtres appliqués sur les flux navigo :

- departure_state_1789_fr = France
- departure_function = 'O'
- destination_state_1789_fr != France et destination_state_1789_fr != vide
- cargaison : on prend tous les flux sans cargaison, ou alors avec au moins une cargaison qui ne correspond pas à 'lest', 'lège', 'vide', ou 'futailles vides'

In [None]:
transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
    }

destinations_navigo = {}
with open('../../../data/navigo_all_flows_1787.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for flow in flows:
    destination = flow['destination_partner_balance_1789']
    if destination in transformation_map:
      destination = transformation_map[destination]
    departure = flow['departure_state_1789_fr']
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and departure == 'France' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
      # else:
      #   print('removing flow with commodities :', commodities)
print('destinations navigo :')
print(pds.DataFrame([{"pays": pays, "tonnage": tonnage} for pays, tonnage in destinations_navigo.items()]))

viz_data = [{"partenaire": partenaire, "tonnage": tonnage} for partenaire, tonnage in destinations_navigo.items()]

VegaLite({
    "title": "Tonnage partenaire des destinations depuis la France en 1787 - méthode des flows",
    "data": {
        "values": viz_data
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "tonnage"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})


Première analyse : résultats légèrement différents par rapport à la méthode précédente, avec des tonnages généralement moins importants (est-ce à cause de l'exclusion des vides ? ou du `departure_function=O` ?)

## 1.3. Méthode à partir des pointcalls 1787

Pour controller, on teste également une méthode se basant sur les pointcalls.

Filtrage appliqué aux pointcalls :

- pointcall_type = 'In'
- state_1789_fr != France et state_1789_fr != vide
- cargaison : on prend tous les flux sans cargaison, ou alors avec au moins une cargaison qui ne correspond pas à 'lest', 'lège', 'vide', ou 'futailles vides'

In [None]:
transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
    }

destinations_navigo = {}
with open('../../../data/navigo_all_pointcalls_1787.csv', newline='') as csvfile:
  pointcalls = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for pointcall in pointcalls:
    destination = pointcall['partner_balance_1789']
    if destination in transformation_map:
      destination = transformation_map[destination]
    departure = pointcall['state_1789_fr']
    tonnage = float(pointcall['tonnage'] or 0)
    if destination != '' and pointcall['state_1789_fr'] != '' and pointcall['state_1789_fr'] != 'France' :
      commodities = [pointcall[field].lower() for field in commodity_fields if pointcall[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
      # else:
      #   print('removing flow with commodities :', commodities)
print('destinations navigo:')
print(pds.DataFrame([{"pays": pays, "tonnage": tonnage} for pays, tonnage in destinations_navigo.items()]))

viz_data = [{"partenaire": partenaire, "tonnage": tonnage} for partenaire, tonnage in destinations_navigo.items()]

VegaLite({
    "title": "Tonnage partenaire des destinations depuis la France en 1787 - méthode des pointcalls",
    "data": {
        "values": viz_data
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "tonnage"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})

Analyse : les données sont de nouveaux lègerement différentes. À noter : on n'a pas pris en compte les in-out dans ce cas précis, c'est peut-être l'explication.

## 1.4. Conclusion de la vérification navigo

On décide de se fonder sur la méthode des flux pour sa reproductibilité et sa simplicité (par rapport aux pointcalls).

# 2. stabilisation des données toflit18

On s'attelle maintenant à la vérification des données toflit18.


On va tester différentes sources de données pour s'assurer qu'il n'y a pas de disparités qui expliqueraient les chiffres bizarres obtenus pendant le 2ème datasprint.

## 2.1. Source "résumé"

Filtrage des flux toflit18 :

- année : 1787
- source_type : "Résumé"
- export_import : "Exports"

In [None]:
partners_toflit18 = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['source_type'] == 'Résumé' \
      and flow['year'] == '1787' \
      and flow['export_import'] != 'Exports':

      partner = flow['partner_simplification']
      value = float(flow['value'] or 0)
      if partner not in partners_toflit18:
        partners_toflit18[partner] = 0
      partners_toflit18[partner] += value
print('somme des exports selon résumé en 1787 :')
print(pds.DataFrame([{"partenaire": pays, "tonnage": tonnage} for pays, tonnage in partners_toflit18.items()]))


viz_data = [{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in partners_toflit18.items() if partenaire != 'Colonies françaises']

VegaLite({
    "title": "Valeur d'export par partenaire - 1787 - source 'Résumé'",
    "data": {
        "values": viz_data
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "valeur"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})

Note : après essais, on se rend compte qu'utiliser la source_type "Résumé" revient en fait exactement à utiliser `best_guess_national_partner` (au moins pour l'année 1787).

## 2.2. Méthode `best_guess_national_prodxpart`

Pour controller, on essaie de reproduire le calcul du total des exports fr en 1787 via les sources comprenant les produits. On aggrège toujours par partenaire.

Filtrage des flux toflit18 :

- année : 1787
- drapeau : "best_guess_national_prodxpart"
- export_import : "Exports"

In [None]:
partners_toflit18 = {}
sources = set()
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['best_guess_national_prodxpart'] == '1' \
      and flow['year'] == '1787' \
      and flow['export_import'] != 'Exports':

      partner = flow['partner_simplification']
      sources.add(flow['source_type'])
      value = float(flow['value'] or 0)
      if partner not in partners_toflit18:
        partners_toflit18[partner] = 0
      partners_toflit18[partner] += value

print('sources utilisées:' + str(list(sources)))
print('partners_toflit18:')
print(pds.DataFrame([{"partenaire": pays, "tonnage": tonnage} for pays, tonnage in partners_toflit18.items()]))


viz_data = [{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in partners_toflit18.items() if partenaire != 'Colonies françaises']

VegaLite({
    "title": "Valeur d'export par partenaire - 1787 - best guess national prodxpart",
    "data": {
        "values": viz_data
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "valeur"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})

Analyse : les données sont identiques, c'est toujours la source "Résumé" qui est utilisée. Cela valide l'accès aux données toflit18 comme stable. Néanmoins subsiste un problème : les exports peuvent se faire par mer ou par terre pour certains partenaires ...

On note certains partenaires vers lesquelles une valeur particulièrement importante de marchandise a été exportée : Hollande, Villes Hanséatiques, Espagne, Angleterre. 

D'un point de vue méthodologique et vis-à-vis de la suite, la question est de savoir si les échanges qui produisent ces valeurs correspondent à des échanges marins, et s'ils sont spécifiques à l'année 1787.

Avant d'aller plus loin, inspectons quels sont les produits qui produisent ces irrégularités remarquables.

### 2.3. Interlude : zoom sur les exports toflit18 nationaux par produits

On prend le temps de visualiser de quoi sont composées les valeurs du graphique précédents.

Filtrage des flux toflit18 :

- année : 1787
- drapeau : "best_guess_national_prodxpart"
- export_import : "Exports"
- partner_simplification différent de 'Colonies françaises'

Puis on visualise les valeurs par produit et partenaire agrégés selon la classification "révolution et empire" :

In [None]:
partxprod = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['best_guess_national_prodxpart'] == '1' \
      and flow['year'] == '1787' \
      and flow['export_import'] != 'Exports' \
      and flow['partner_simplification'] != 'Colonies françaises':

      partner = flow['partner_simplification']
      product = flow['product_revolutionempire']
      value = float(flow['value'] or 0)
      if partner not in partxprod:
        partxprod[partner] = {}
      if product not in partxprod[partner]:
        partxprod[partner][product] = 0
      partxprod[partner][product] += value
    
viz_data = []
for partner, products in partxprod.items():
    for product, value in products.items():
        viz_data.append({
            "partenaire": partner,
            "produit": product,
            "valeur": value
        })

VegaLite({
    "title": "Approfondissement : produits et partenaires - 1787 - best guess national prodxpart",
    "data": {
        "values": viz_data
    },
    "mark": {"type": "rect", "tooltip": True},
    "encoding": {
        "color": {
            "type": "quantitative",
            "field": "valeur"
        },
        "x": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "x",
            "axis": {
                "orient": "top"
            }
        },
        "y": {
            "type": "nominal",
            "field": "produit"
        },
        
    }
})

Analyse : pour l'Espagne, on voit qu'elle est l'objet d'un import de monnaies et métaux précieux depuis la France très important : après investigation, il s'agit d'un unique flux de "lingots ou monnaies étrangères d'argent et d'or" (est-il régulier sur les autres années ?).

Pour Hollande, Villes Hanséatiques, et Angleterre, on ne note pas de type de produit à la valeur exceptionnel qui pourrait représenter une irrégularité avec 1789 (?).

Il faut maintenant être capable de distinguer les flux faits par terre et par mer.

## 2.3. Utilisation de la source terre-mer

Il s'agit de distinguer, pour chaque partenaire, la portion des flux vraisemblement effectués par la mer. Cette information n'est disponible que de manière agrégée par partenaire, on va donc utiliser une source nous donnant cette information.

Le décompte des exports par terre et par mer consigné dans ce fichier google spreadsheet : https://docs.google.com/spreadsheets/d/1d0peowoVhblBWtHkGxO0V1_H201rUAWd_arI0LbPfXc/edit#gid=373560562

L'image de la source originale est ici : https://drive.google.com/file/d/1tLsLCy3Wn22IqMxRO71koSUpH4jXogVM/view?usp=sharing

On utilise cette source pour avoir une estimation des sommes d'export par la mer pour chaque partenaire de 1787, ainsi qu'une estimation du ratio terre/mer permettant d'approximer la répartition des valeurs entre terre et mer pour d'autres flux toflit18.

*Note : ce ratio est une importante approximation dans notre méthodologie, mais au vu des données ensuite concernées il n'aura pas un très gros impact sur les chiffres.*

On dispose de deux valeurs pour chaque partenaire dans la source terre-mer : les valeurs d'exports par la mer, et par la terre. On commence par visualiser la somme des deux, puis les valeurs d'exports par la mer seulement :

In [None]:
# Compute terre mer partition

with open('./terre_mer.csv', newline='') as csvfile:
    rows_terremer = list(csv.DictReader(csvfile))
# print(pds.DataFrame(rows_terremer))
terre_mer_ratio = {}
terre_mer = {}
mer_seule = {}
for row in rows_terremer:
  if row['partner'] not in terre_mer:
    partner = row['partner']
    transformation_map = {
      'Villes Anséatiques': 'Villes hanséatiques',
      'Danemarck et Norwège': 'Danemark',
      'République de Gênes': 'Gênes',
      'Naples et Sicile': 'Naples',
      'États du Roi de Sardaigne': 'Royaume de Sardaigne',
      'Angleterre, Ecosse et Irlande': 'Angleterre',
      'Rome et Venise': 'Venise',
      'États de l\'Empereur, en Flandre et Allemagne': 'Etats de l\'Empereur',
      'Suisse, ses Alliées et Genève': 'Suisse'
    }
    if partner in transformation_map:
      partner = transformation_map[partner]
    terre_mer_ratio[partner] = float(row['ratio_terre_mer'])
    terre_mer[partner] = float(row['somme_mer']) + float(row['somme_terre'])
    mer_seule[partner] = float(row['somme_mer'])
    
VegaLite({
    "title": "Valeur d'export par partenaire - 1787 - source terre mer - mer + terre",
    "data": {
        "values": [{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in terre_mer.items() if partenaire != 'Colonies françaises']
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "valeur"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})
VegaLite({
    "title": "Valeur d'export par partenaire - 1787 - source terre mer - mer seule",
    "data": {
        "values": [{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in mer_seule.items() if partenaire != 'Colonies françaises']
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "valeur"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})
VegaLite({
    "title": "Ratio terre/mer par partenaire - 1787 - source terre mer",
    "data": {
        "values": [{"partenaire": partenaire, "ratio": ratio} for partenaire, ratio in terre_mer_ratio.items() if partenaire != 'Colonies françaises']
    },
    "mark": {"type": "bar", "tooltip": True},
    "encoding": {
        "x": {
            "type": "quantitative",
            "field": "ratio"
        },
        "y": {
            "type": "nominal",
            "field": "partenaire",
            "sort": "y"
        }
    }
})

Première analyse : Allemagne et Pologne sont classé comme 0% mer, ce qui est étonnant (comme les Etats de l'Inde). Certaines valeurs pourraient être agrégées pour affiner les comptages.

Pour affiner, il pourrait être intéressant d'aligner ces noms de partenaires avec la classification simplification. Mais au vu des données ensuite concernées pour Dunkerque, cela ne devrait pas avoir un gros impact (?).

# 3. Essais de projection avec les diverses sources

On va maintenant tester le calcul des prix par tonneau par partenaire, avec l'hésitation principale suivante : faut-il utiliser les données toflit18 "Résumé" en pondérant les valeurs par le ratio terre/mer calculé grâce à la source terre-mer, ou utiliser directement les valeurs d'export par la mer mentionnées dans la source terre-mer ?

## 3.1. Source terre mer, avec mer seule

On commence en utilisant la source terre-mer seule, et la source API raw_flows pour navigo.

Filtrage des flux toflit18 :

- departure_state_1789_fr = France
- departure_function = 'O'
- destination_state_1789_fr != France et destination_state_1789_fr != vide
- cargaison : on prend tous les flux sans cargaison, ou alors avec au moins une cargaison qui ne correspond pas à 'lest', 'lège', 'vide', ou 'futailles vides'

Filtrage navigo 

```
Note : pour faire coller les partenaires et la nouvelle source terre-mer on a dû appliquer la table de conversion suivante :

'Villes Anséatiques': 'Villes hanséatiques',
'Danemarck et Norwège': 'Danemark',
'République de Gênes': 'Gênes',
'Naples et Sicile': 'Naples',
'États du Roi de Sardaigne': 'Royaume de Sardaigne',
'Angleterre, Ecosse et Irlande': 'Angleterre',
'Rome et Venise': 'Venise',
'États de l\'Empereur, en Flandre et Allemagne': 'Etats de l\'Empereur',
'Suisse, ses Alliées et Genève': 'Suisse'
```


On visualise les valeurs absolues côté navigo et terre-mer par partenaire, et le prix par tonneau correspondant.

On visualise ensuite les parts relatives de chaque partenaire pour chaque source, afin d'évaluer les disparités.

In [None]:
transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
    }

destinations_navigo = {}
with open('../../../data/navigo_all_flows_1787.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for flow in flows:
    destination = flow['destination_partner_balance_1789']
    if destination in transformation_map:
      destination = transformation_map[destination]
    departure = flow['departure_state_1789_fr']
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and departure == 'France' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
        
with open('./terre_mer.csv', newline='') as csvfile:
    rows_terremer = list(csv.DictReader(csvfile))

terre_mer_ratio = {}
terre_mer = {}
mer_seule = {}
for row in rows_terremer:
  if row['partner'] not in terre_mer:
    partner = row['partner']
    transformation_map = {
      'Villes Anséatiques': 'Villes hanséatiques',
      'Danemarck et Norwège': 'Danemark',
      'République de Gênes': 'Gênes',
      'Naples et Sicile': 'Naples',
      'États du Roi de Sardaigne': 'Royaume de Sardaigne',
      'Angleterre, Ecosse et Irlande': 'Angleterre',
      'Rome et Venise': 'Venise',
      'États de l\'Empereur, en Flandre et Allemagne': 'Etats de l\'Empereur',
      'Suisse, ses Alliées et Genève': 'Suisse'
    }
    if partner in transformation_map:
      partner = transformation_map[partner]
    terre_mer_ratio[partner] = float(row['ratio_terre_mer'])
    terre_mer[partner] = float(row['somme_mer']) + float(row['somme_terre'])
    mer_seule[partner] = float(row['somme_mer'])

partners_toflit18 = mer_seule
        
correspondance = []
for destination, tonnage in destinations_navigo.items():
  if destination not in partners_toflit18:
    print('problème, le pays de destination navigo suivant n\'est pas dans la source terre-mer pour 1787 :', destination)
  else:
    value = partners_toflit18[destination]
    correspondance.append({
      "partner": destination,
      "sum_tonnage": tonnage,
      "sum_exports": value,
      "price_per_barrel": value / tonnage
    })

VegaLite({
    "title": "Comparaison valeurs terre-mer : Navigo flows vs source terre mer (mer seule)",
    "data": {
        "values": correspondance
    },
    "spacing": 0,
    "hconcat": [
        {
            "title": "tonnages navigo",
            "mark": {"type": "bar", "tooltip": True},
            "encoding": {
                "x": {
                    "type": "quantitative",
                    "field": "sum_tonnage",
                    "sort": "descending",
                },
                "y": {
                    "field": "partner",
                    "type": "nominal",
                    "axis": {"orient": "right"}
                }
            }
        },
        {
            "title": "valeurs d'export toflit18",
            "mark": {"type": "bar", "tooltip": True},
            "encoding": {
                "x": {
                    "type": "quantitative",
                    "field": "sum_exports"
                },
                "y": {
                    "field": "partner",
                    "type": "nominal"
                }
            }
        },
        {
            "title": "prix par tonneau résultant (lt)",
            "mark": "bar",
            "encoding": {
                "x": {
                    "type": "quantitative",
                    "field": "price_per_barrel"
                },
                "y": {
                    "field": "partner",
                    "type": "nominal"
                }
            }
        }
    ]
})


# relative comparison

total_tonnage = 0
total_value = 0
for c in correspondance:
    total_tonnage += c["sum_tonnage"]
    total_value += c["sum_exports"]
for c in correspondance:
    c["part_tonnage"] = c["sum_tonnage"] / total_tonnage * 100
    c["part_value"] = c["sum_exports"] / total_value * 100
in_part = []
for c in correspondance:
    in_part.append({
        "partner": c["partner"],
        "value": c["part_tonnage"],
        "group": "tonnage (source navigo)"
    })
    in_part.append({
        "partner": c["partner"],
        "value": c["part_value"],
        "group": "valeur d'export (source toflit18)"
    })
    

VegaLite({
    "title": "Comparaison valeurs terre-mer : Navigo flows vs source terremer (mer seule) - comparaison des parts",
    "data": {
        "values": in_part
    },
    "width": 80,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "column": {"field": "partner"},
        "y": {
            "field": "value", "type": "quantitative",
            "title": "% de l'ensemble des exports/tonneaux"
        },
        "x": {
            "field": "group",
            "axis": {"title": ""}
        },
        "color": {
            "field": "group",
            "title": "pourcentage par source"
        }
      }
})

Première analyse : 

L'Angleterre semble être l'objet de relativement beaucoup plus de voyages que de valeur exportée, ce qui correspondrait à des produits à faible valeur ajoutée du point de vue du transport. 

C'est le contraire pour la Hollande, les Etats de l'Empereur et les villes hanséatiques dont on peut supposer qu'elles correspondent à des produits à haute valeur ajoutée. Est-ce cohérent ?

L'espagne a une valeur d'export relativement plus haute que le tonnage cumulé, mais cela s'explique en partie par le fort export de lingots d'or repéré plus tôt.

## 3.2. Source Résumé, avec ratios

On teste maintenant le même calcul avec les données de la base toflit18 principale, source 'Résumé', pondérées par les ratio terre-mer calculés grâce à la source terre-mer.

Filtrage des flux toflit18 :

- année : 1787
- source_type : "Résumé"
- export_import : "Exports"
- partner_simplification différent de 'Colonies françaises'



Filtres appliqués sur les flux navigo :

- departure_state_1789_fr = France
- departure_function = 'O'
- destination_state_1789_fr != France et destination_state_1789_fr != vide
- cargaison : on prend tous les flux sans cargaison, ou alors avec au moins une cargaison qui ne correspond pas à 'lest', 'lège', 'vide', ou 'futailles vides'



In [None]:
transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
    }

destinations_navigo = {}
with open('../../../data/navigo_all_flows_1787.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for flow in flows:
    destination = flow['destination_partner_balance_1789']
    if destination in transformation_map:
      destination = transformation_map[destination]
    departure = flow['departure_state_1789_fr']
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and departure == 'France' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
        
with open('./terre_mer.csv', newline='') as csvfile:
    rows_terremer = list(csv.DictReader(csvfile))

terre_mer_ratio = {}
terre_mer = {}
mer_seule = {}
for row in rows_terremer:
  if row['partner'] not in terre_mer:
    partner = row['partner']
    transformation_map = {
      'Villes Anséatiques': 'Villes hanséatiques',
      'Danemarck et Norwège': 'Danemark',
      'République de Gênes': 'Gênes',
      'Naples et Sicile': 'Naples',
      'États du Roi de Sardaigne': 'Royaume de Sardaigne',
      'Angleterre, Ecosse et Irlande': 'Angleterre',
      'Rome et Venise': 'Venise',
      'États de l\'Empereur, en Flandre et Allemagne': 'Etats de l\'Empereur',
      'Suisse, ses Alliées et Genève': 'Suisse'
    }
    if partner in transformation_map:
      partner = transformation_map[partner]
    terre_mer_ratio[partner] = float(row['ratio_terre_mer'])
    terre_mer[partner] = float(row['somme_mer']) + float(row['somme_terre'])
    mer_seule[partner] = float(row['somme_mer'])

partners_toflit18 = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['source_type'] == 'Résumé' \
      and flow['year'] == '1787' \
      and flow['export_import'] != 'Exports':

      partner = flow['partner_simplification']
      if partner == "États de l'Empereur":
            partner = "Etats de l'Empereur"
      value = float(flow['value'] or 0)
      if partner not in partners_toflit18:
        partners_toflit18[partner] = 0
      partners_toflit18[partner] += value
partners_toflit18_corrected = {}
for (partner, value) in partners_toflit18.items():
  ratio = 1
  
  if partner in terre_mer:
    ratio = float(terre_mer[partner])
  # else:
  #   print('ratio : issue with partner: ', partner)
  partners_toflit18_corrected[partner] = value * ratio

# partners_toflit18 = partners_toflit18_corrected

correspondance = []
for destination, tonnage in destinations_navigo.items():
  if destination not in partners_toflit18:
    print('Note : un pays présent dans les destinations navigo (1787) n\'est pas dans les partenaires des flux toflit18 sélectionnés :', destination)
  else:
    value = partners_toflit18[destination]
    correspondance.append({
      "partner": destination,
      "sum_tonnage": tonnage,
      "sum_exports": value,
      "price_per_barrel": value / tonnage
    })

VegaLite({
    "title": "Comparaison valeurs terre-mer : Navigo flows vs source 'Résumé' pondérée par les ratios terre-mer",
    "data": {
        "values": correspondance
    },
    "spacing": 0,
    "hconcat": [
        {
            "title": "tonnages navigo",
            "mark": {"type": "bar", "tooltip": True},
            "encoding": {
                "x": {
                    "type": "quantitative",
                    "field": "sum_tonnage",
                    "sort": "descending"
                },
                "y": {
                    "field": "partner",
                    "type": "nominal",
                    "axis": {"orient": "right"}
                }
            }
        },
        {
            "title": "valeurs d'export toflit18",
            "mark": {"type": "bar", "tooltip": True},
            "encoding": {
                "x": {
                    "type": "quantitative",
                    "field": "sum_exports"
                },
                "y": {
                    "field": "partner",
                    "type": "nominal",
                    "axis": {"title": ""}
                }
            }
        },
        {
            "title": "prix par tonneau résultant (lt)",
            "mark": {"type": "bar", "tooltip":  True},
            "encoding": {
                "x": {
                    "type": "quantitative",
                    "field": "price_per_barrel"
                },
                "y": {
                    "field": "partner",
                    "type": "nominal",
                    "axis": {"title": ""}
                }
            }
        }
    ]
})

# relative comparison

total_tonnage = 0
total_value = 0
for c in correspondance:
    total_tonnage += c["sum_tonnage"]
    total_value += c["sum_exports"]
for c in correspondance:
    c["part_tonnage"] = c["sum_tonnage"] / total_tonnage * 100
    c["part_value"] = c["sum_exports"] / total_value * 100
in_part = []
for c in correspondance:
    in_part.append({
        "partner": c["partner"],
        "value": c["part_tonnage"],
        "group": "tonnage (source navigo)"
    })
    in_part.append({
        "partner": c["partner"],
        "value": c["part_value"],
        "group": "valeur d'export (source toflit18)"
    })
    

VegaLite({
    "title": "Comparaison valeurs terre-mer : Navigo flows vs source 'Résumé' pondérée par les ratios terre-mer - comparaison des parts",
    "data": {
        "values": in_part
    },
    "width": 80,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "column": {"field": "partner"},
        "y": {
            "field": "value", "type": "quantitative",
            "title": "% de l'ensemble des exports/tonneaux"
        },
        "x": {
            "field": "group",
            "axis": {"title": ""}
        },
        "color": {
            "field": "group",
            "title": "pourcentage par source"
        }
      }
})

Première analyse :

Les données et parts sont sensiblement différentes de la méthode précédente.


L'Angleterre semble toujours être l'objet de relativement plus de voyages que de valeur exportée, mais moins qu'avec la méthode précédente.

Pour la Hollande et les villes hanséatiques on obtient le contraire de la méthode précédente : les produits échangés semblent avoir moins de valeur ajoutée par rapport aux trajets.

Les états de l'empereur ne sont pas disponibles dans les flux toflit18 de la source "Résumé", on ne peut donc pas les comparer.

On voit apparaître des pays avec une forte disparité au profit de la navigation (ce qui veut correspond à des échanges de produits peu rentables du point de vue transport) comme le Danemark et le Portugal.

L'abérration de l'Espagne (dont les causes sont explicitées ci-avant) est plus grande qu'avec la méthode précédente. 

## 3.3. Conclusion des tests pour établir le modèle

Les résultats obtenus avec les deux méthodes (flux toflit18 pondérés par les ratio terre-mer, ou valeurs d'export par la mer directement) sont sensiblement différents.

Il faut maintenant la tester le modèle obtenu à partir de chaque source pour vérifier lequel fonctionne le mieux quand on le vérifie avec des données où l'on dispose à la fois de navigo et de toflit18.

# 4. Vérification du modèle sur des ensembles de données complets (avant projection sur Dunkerque)

In [None]:
# Turning the computation into a function
def compute_price_per_barrel_per_destination(method="mer seule", verbose = False):
    # compute destinations navigo general
    transformation_map = {
          'Quatre villes hanséatiques': 'Villes hanséatiques',
          'Etats-Unis': 'États-Unis d\'Amérique',
          # 'Etats de l\'Empereur':''
        }

    destinations_navigo_national = {}
    with open('../../../data/navigo_all_flows_1787.csv', newline='') as csvfile:
      flows = csv.DictReader(csvfile)
      commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
      stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
      total_commodities = set()
      for flow in flows:
        destination = flow['destination_partner_balance_1789']
        if destination in transformation_map:
          destination = transformation_map[destination]
        departure = flow['departure_state_1789_fr']
        tonnage = float(flow['tonnage'] or 0)
        if flow['departure_function'] == 'O' \
          and departure == 'France' \
          and destination != '' \
          and destination != 'France' \
          and flow['destination_state_1789_fr'] != 'France' :
          commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
          not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
          # take the flow if no commodity specified or at least one 'not stop' commodity speciied
          if len(commodities) == 0 or len(not_stop) > 0:
            for c in not_stop:
              total_commodities.add(c)
            # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
            # at this point we have all the flows we want
            if destination not in destinations_navigo_national:
              destinations_navigo_national[destination] = 0
            destinations_navigo_national[destination] += tonnage
    with open('./terre_mer.csv', newline='') as csvfile:
            rows_terremer = list(csv.DictReader(csvfile))

    terre_mer_ratio = {}
    terre_mer = {}
    mer_seule = {}
    for row in rows_terremer:
      if row['partner'] not in terre_mer:
        partner = row['partner']
        transformation_map = {
          'Villes Anséatiques': 'Villes hanséatiques',
          'Danemarck et Norwège': 'Danemark',
          'République de Gênes': 'Gênes',
          'Naples et Sicile': 'Naples',
          'États du Roi de Sardaigne': 'Royaume de Sardaigne',
          'Angleterre, Ecosse et Irlande': 'Angleterre',
          'Rome et Venise': 'Venise',
          'États de l\'Empereur, en Flandre et Allemagne': 'Etats de l\'Empereur',
          'Suisse, ses Alliées et Genève': 'Suisse'
        }
        if partner in transformation_map:
          partner = transformation_map[partner]
        terre_mer_ratio[partner] = float(row['ratio_terre_mer'])
        terre_mer[partner] = float(row['somme_mer']) + float(row['somme_terre'])
        mer_seule[partner] = float(row['somme_mer'])
    if verbose is True:
        print("ratios obtenus : ")
        print(pds.DataFrame([{"partenaire": partenaire, "ratio": ratio} for partenaire, ratio in terre_mer_ratio.items()]))
            
    toflit18_map = {}
    if method == 'mer seule':
        # rely on mer seule
        toflit18_map = mer_seule
    elif method == 'résumé':
        # compute sums of exports at national level
        partners_toflit18_national = {}
        with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
          flows = csv.DictReader(csvfile)
          for flow in flows:
            if flow['source_type'] == 'Résumé' \
              and flow['year'] == '1787' \
              and flow['export_import'] != 'Exports':

              partner = flow['partner_simplification']
              if partner == 'États de l\'Empereur':
                partner = 'Etats de l\'Empereur'
              value = float(flow['value'] or 0)
              if partner not in partners_toflit18_national:
                partners_toflit18_national[partner] = 0
              partners_toflit18_national[partner] += value
        # correct sums of exports at national level with ratios
        partners_toflit18_national_corrected = {}
        for (partner, value) in partners_toflit18_national.items():
          ratio = 1

          if partner in terre_mer:
            ratio = float(terre_mer_ratio[partner])
          # else:
          #  print('ratio : ce partenaire n\'est pas disponible dans la table des ratios : ', partner)
          partners_toflit18_national_corrected[partner] = value * ratio
        toflit18_map = partners_toflit18_national_corrected
        

    correspondance = []
    for destination, tonnage in destinations_navigo_national.items():
      if destination not in toflit18_map:
        print('problème, le pays de destination navigo suivant n\'est pas dans la source terre-mer pour 1787 :', destination)
      else:
        value = toflit18_map[destination]
        correspondance.append({
          "partner": destination,
          "sum_tonnage": tonnage,
          "sum_exports": value,
          "price_per_barrel": value / tonnage
        })
    if verbose:
        print('table de correspondance : ')
        print(pds.DataFrame(correspondance))
    return correspondance, terre_mer_ratio

#compute_price_per_barrel_per_destination(verbose=True, method='mer seule')
#compute_price_per_barrel_per_destination(verbose=True, method='résumé')

## 4.1. Test sur les données du bureau des fermes de La Rochelle en 1789

Pour tester les prix par tonneau obtenus avec notre méthode, on va les appliquer aux départs du port de La Rochelle en 1789, et les comparer aux exports cumulés toflit18 pour le bureau des fermes de La Rochelle la même année.

**On s'attend à avoir des valeurs similaires par partenaires entre la valeur calculée et la valeur des sources toflit18.** Plus la valeur calculée et la valeur sont "proches", plus on s'assure que la projection sur Dunkerque sera crédible.

### 4.1.1. Analyse préliminaire des données

On commence par visualiser la répartition des destinations des trajets pour le port de La Rochelle en 1789.

Filtres appliqués sur les flux navigo :

- departure_ferme_bureau = La Rochelle
- departure_function = 'O'
- destination_state_1789_fr != France et destination_state_1789_fr != vide
- cargaison : on prend tous les flux sans cargaison, ou alors avec au moins une cargaison qui ne correspond pas à 'lest', 'lège', 'vide', ou 'futailles vides'

In [None]:
# =================================================
# =================================================
# select flows from navigo 1789 - port = 'La Rochelle'
# =================================================
# =================================================


destinations_navigo = {}
sum_tonnage = 0
sum_travels = 0
with open('../../../data/navigo_all_flows_1789.csv', newline='') as csvfile:
  transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
  }
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for flow in flows:
    # destination = flow['destination_partner_balance_1789']
    destination = flow['destination_partner_balance_1789']
    departure = flow['departure']
#    departure = flow['departure_state_1789_fr']
    if destination in transformation_map:
      destination = transformation_map[destination]
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and flow['departure_ferme_bureau'] == 'La Rochelle' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
        sum_tonnage += tonnage
        sum_travels += 1
print('Destinations selon navigo (en tonneaux) : ')
print(pds.DataFrame([{"destination": destination, "tonnage": tonnage} for destination, tonnage in destinations_navigo.items()]))
print('Tonnage moyen des navires : ' + str(sum_tonnage / sum_travels))

VegaLite({
    "title": "Destinations des bateaux partis vers l'étranger depuis le port de la Rochelle en 1789, agrégées par tonnage cumulé",
    "data": {
        "values": [{"destination": destination, "tonnage": tonnage} for destination, tonnage in destinations_navigo.items()]
    },
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "y": {
            "field": "destination", 
            "type": "nominal",
            "title": "destination"
        },
        "x": {
            "field": "tonnage",
            "type": "quantitative"
        }
      }
})

On visualise ensuite les flux d'export du bureau des fermes de La Rochelle.

Filtrage des flux toflit18 :

- année : 1789
- customs_office : 'La Rochelle'
- drapeau 'best_guess_region_prodxpart' (flux avec direction des fermes, produit et partenaire)
- export_import : "Exports"
- partner_grouping différent de 'France'
- partner_simplification différent de 'Colonies françaises' et de 'Îles françaises de l\'Amérique'


On visualise les valeurs d'export brutes, puis les valeurs d'export pondérées par les ratios terre-mer par partenaire calculé grâce à la source terre-mer.


In [None]:
# =================================================
# =================================================
# select flows from  - customs office = 'La Rochelle'
# =================================================
# =================================================

with open('./terre_mer.csv', newline='') as csvfile:
    rows_terremer = list(csv.DictReader(csvfile))

terre_mer_ratio = {}
terre_mer = {}
mer_seule = {}
for row in rows_terremer:
  if row['partner'] not in terre_mer:
    partner = row['partner']
    transformation_map = {
      'Villes Anséatiques': 'Villes hanséatiques',
      'Danemarck et Norwège': 'Danemark',
      'République de Gênes': 'Gênes',
      'Naples et Sicile': 'Naples',
      'États du Roi de Sardaigne': 'Royaume de Sardaigne',
      'Angleterre, Ecosse et Irlande': 'Angleterre',
      'Rome et Venise': 'Venise',
      'États de l\'Empereur, en Flandre et Allemagne': 'Etats de l\'Empereur',
      'Suisse, ses Alliées et Genève': 'Suisse'
    }
    if partner in transformation_map:
      partner = transformation_map[partner]
    terre_mer_ratio[partner] = float(row['ratio_terre_mer'])
    terre_mer[partner] = float(row['somme_mer']) + float(row['somme_terre'])
    mer_seule[partner] = float(row['somme_mer'])

partners_toflit18 = {}
ratios = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['year'] == '1789' \
      and flow['best_guess_region_prodxpart'] == '1' \
      and flow['customs_office'] == 'La Rochelle' \
      and flow['export_import'] != 'Exports' \
      and flow['partner_simplification'] != 'Îles françaises de l\'Amérique' \
      and flow['partner_simplification'] != 'Colonies françaises' \
      and flow['partner_grouping'] != 'France':
        partner = flow['partner_simplification']
        if partner == 'États de l\'Empereur':
            partner = 'Etats de l\'Empereur'
        value = float(flow['value'] or 0)
        if partner not in partners_toflit18:
         partners_toflit18[partner] = 0
        partners_toflit18[partner] += value

partners_toflit18_corrected = {}
for (partner, value) in partners_toflit18.items():
  ratio = 1
  
  if partner in terre_mer_ratio:
    ratio = float(terre_mer_ratio[partner])
  else:
    print('Ratio : le partenaire suivant n\'a pas été trouvé dans les ratios ', partner)
  partners_toflit18_corrected[partner] = value * ratio
  ratios[partner] = ratio
    
print()

print('Partenaires selon toflit18 (en livre tournois) - non corrigé avec terre-mer : ' )
print(pds.DataFrame([{"partenaire": partenaire, "valeur exports": valeur} for partenaire, valeur in partners_toflit18.items()]))

VegaLite({
    "title": "Partenaires toflit18 pour le bureau des fermes de La Rochelle, agrégés par valeur en livre tournois",
    "data": {
        "values": [{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in partners_toflit18.items()]
    },
    "width": 1000,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "y": {
            "field": "partenaire", 
            "type": "nominal",
            "title": "partenaire"
        },
        "x": {
            "field": "valeur",
            "type": "quantitative"
        }
      }
})
print()
print('Partenaires selon toflit18 (en livre tournois) - corrigé avec terre-mer : ')
print(pds.DataFrame([{"partenaire": partenaire, "valeur exports": valeur} for partenaire, valeur in partners_toflit18_corrected.items()]))

VegaLite({
    "title": "Partenaires toflit18 pour le bureau des fermes de La Rochelle, agrégés par valeur en livre tournois et modulés selon les ratios terre-mer",
    "data": {
        "values": [{"partenaire": partenaire, "valeur": valeur, "ratio": ratios[partenaire] or 0} for partenaire, valeur in partners_toflit18_corrected.items()]
    },
    "width": 1000,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "y": {
            "field": "partenaire", 
            "type": "nominal",
            "title": "partenaire"
        },
        "x": {
            "field": "valeur",
            "type": "quantitative"
        },
        "color": {
            "field": "ratio",
            "type": "quantitative",
            "scale": {"range": ["orange", "blue"]}
        }
      }
})

Première analyse : concernant les flux toflit18 de La Rochelle 1789, les ratios terre-mer n'affectent que légèrement l'Espagne et les Etats de l'Empereur, tous les autres partenaires correspondent à des échanges par mer et ne sont donc pas pondérés.

On compare maintenant les parts relatives des valeurs d'exports toflit18 et des tonnages cumulés navigo par partenaire pour vérifier qu'on ne détecte pas de bizarreries à ce stade avant d'appliquer le modèle :

In [None]:
# Compute relative values
def compute_rel_pcts(dct) :
    total = 0
    output = {}
    for key, val in dct.items():
        total += val
    for key, val in dct.items():
        output[key] = val / total * 100
    return output

toflit18_corrected_pcts = compute_rel_pcts(partners_toflit18_corrected)
destinations_navigo_pcts = compute_rel_pcts(destinations_navigo)
correspondances_in_pct = []
navigo_parsed = set()
for key, toflit18_part in toflit18_corrected_pcts.items():
    if key in destinations_navigo_pcts:
        tonnage_part = destinations_navigo_pcts[key]
        navigo_parsed.add(key)
        correspondances_in_pct.append({
            "partner": key,
            "group": "toflit18",
            "value": toflit18_part
        })
        correspondances_in_pct.append({
            "partner": key,
            "group": "navigo",
            "value": tonnage_part
        })
    else: 
        correspondances_in_pct.append({
            "partner": key,
            "group": "toflit18",
            "value": toflit18_part
        })
        correspondances_in_pct.append({
            "partner": key,
            "group": "navigo",
            "value": 0
        })
for key, navigo_part in destinations_navigo_pcts.items():
    if key not in navigo_parsed:
        correspondances_in_pct.append({
            "partner": key,
            "group": "toflit18",
            "value": 0
        })
        correspondances_in_pct.append({
            "partner": key,
            "group": "navigo",
            "value": tonnage_part
        })

VegaLite({
    "title": "Comparaison entre destinations navigo et partenaires toflit18 pour 1789 - comparaison des parts",
    "data": {
        "values": correspondances_in_pct
    },
    "width": 80,
    "height": 400,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "column": {
            "field": "partner",
            "axis": {"title": ""}
        },
        "y": {
            "field": "value", 
            "type": "quantitative",
            "title": "% de l'ensemble des exports/tonneaux"
        },
        "x": {
            "field": "group",
            "axis": {"title": ""}
        },
        "color": {
            "field": "group",
            "title": "pourcentage par source"
        }
      }
})

Première analyse : des bizarreries pour les Etats de l'Empereur et le Portugal (leur absence de toflit18 est-elle un problème de source ?).

Les trois partenaires/destinations les plus importants (Angleterre, Hollande, Villes hanséatiques) semblent à peu près cohérent.

Les États-Unis d'Amérique et le Danemark semblent correspondre à des produits très peu rentables, ce qui me (Robin) semble contre-intuitif vue la distance, notamment pour les USA (peut-être lié à la pêche ?).

### 4.1.2. Test du modèle

On fait maintenant le test en appliquant les prix par tonneau calculés pour la France en 1787 aux destinations du port de La Rochelle en 1789.


#### 4.1.2.1. Méthode "source terre mer - mer seule"

On obtient les valeurs d'export en livres tournois suivantes :


In [None]:
# compute model
correspondance, national_ratios = compute_price_per_barrel_per_destination(method='mer seule')

# =================================================
# =================================================
# select flows from  - customs office = 'La Rochelle'
# =================================================
# =================================================

partners_toflit18 = {}
ratios = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['year'] == '1789' \
      and flow['best_guess_region_prodxpart'] == '1' \
      and flow['customs_office'] == 'La Rochelle' \
      and flow['export_import'] != 'Exports' \
      and flow['partner_simplification'] != 'Îles françaises de l\'Amérique' \
      and flow['partner_simplification'] != 'Colonies françaises' \
      and flow['partner_grouping'] != 'France':
        partner = flow['partner_simplification']
        if partner == 'États de l\'Empereur':
            partner = 'Etats de l\'Empereur'
        value = float(flow['value'] or 0)
        if partner not in partners_toflit18:
         partners_toflit18[partner] = 0
        partners_toflit18[partner] += value

partners_toflit18_corrected = {}
for (partner, value) in partners_toflit18.items():
  ratio = 1
  
  if partner in national_ratios:
    ratio = float(national_ratios[partner])
  else:
    print('Ratio : le partenaire suivant n\'a pas été trouvé dans les ratios ', partner)
  partners_toflit18_corrected[partner] = value * ratio
  ratios[partner] = ratio
    
# select flows navigo for La Rochelle
destinations_navigo = {}
with open('../../../data/navigo_all_flows_1789.csv', newline='') as csvfile:
  transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
  }
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for flow in flows:
    # destination = flow['destination_partner_balance_1789']
    destination = flow['destination_partner_balance_1789']
    departure = flow['departure']
#    departure = flow['departure_state_1789_fr']
    if destination in transformation_map:
      destination = transformation_map[destination]
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and flow['departure_ferme_bureau'] == 'La Rochelle' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage

        # Projection method
projection = []
sum_projection = 0
sum_toflit18 = 0
table = []
for cor in correspondance:
    partner = cor['partner']
    price_per_barrel = cor['price_per_barrel']
    estimate = 0
    toflit18_value = 0
    if partner in destinations_navigo:
        navigo_tonnage = destinations_navigo[partner]
        estimate = navigo_tonnage * price_per_barrel
        sum_projection += estimate
        projection.append({
            "partner": partner,
            "group": "estimation depuis navigo",
            "value": estimate
        })
    else:
        projection.append({
            "partner": partner,
            "group": "estimation depuis navigo",
            "value": 0
        })
    if partner in partners_toflit18_corrected:
        toflit18_value = partners_toflit18_corrected[partner]
        projection.append({
            "partner": partner,
            "group": "vraie valeur dans toflit18",
            "value": toflit18_value
        })
        sum_toflit18 += toflit18_value
    else:
        projection.append({
            "partner": partner,
            "group": "vraie valeur dans toflit18",
            "value": 0
        })
    table.append({
        "partenaire": partner,
        "toflit18": f'{int(toflit18_value):,}',
        "estimation" : f'{int(estimate):,}',
        "source/estimation": str(int(estimate) / int(toflit18_value)) if toflit18_value > 0 else "/"
    })
print(pds.DataFrame(table))
        
VegaLite({
    "title": "Comparaison entre la projection par les destinations navigo et les exports par partenaires toflit18 pour La Rochelle 1789 - méthode 'source mer seule'",
    "data": {
        "values": projection
    },
    "width": 80,
    "height": 400,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "column": {"field": "partner"},
        "y": {
            "field": "value", 
            "type": "quantitative",
            "title": "valeur en livres tournous"
        },
        "x": {
            "field": "group",
            "axis": {"title": ""}
        },
        "color": {
            "field": "group",
            "title": "pourcentage par source"
        }
      }
})

print("Total des exports en lt selon la projection : " + f'{int(sum_projection):,}')
print("Total des exports en lt selon toflit18 : " + f'{int(sum_toflit18):,}')
print('rapport projection/réalité : ' + str(sum_projection / sum_toflit18))


Première analyse :

Le rapport global entre la projection et la réalité des sources est de 1 à 3, ce qui est moyennement satisfaisant.

Certaines abérations mériteraient un post-mortem : les Etats de l'Empeureur, la Prusse et le Portugal sont largement surévalués par la projection. Cela correspond-il à des problèmes de nommage dans les sources, à des sources manquantes, à un problème dans le calcul ?

#### 4.1.2.2. Méthode "source résumé pondérée"

Par acquis de conscience on va tester avec la deuxième méthode de projection : aggréger les flux toflit18 de la source 'Résumé' puis les pondérer avec les ratios terre-mer.

On obtient les valeurs d'export en livres tournois suivantes :

In [None]:
correspondance, national_ratios = compute_price_per_barrel_per_destination(method='résumé')

# select toflit18 flows for target
partners_toflit18_la_rochelle = {}
ratios = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  for flow in flows:
    if flow['year'] == '1789' \
      and flow['best_guess_region_prodxpart'] == '1' \
      and flow['customs_office'] == 'La Rochelle' \
      and flow['export_import'] != 'Exports' \
      and flow['partner_simplification'] != 'Îles françaises de l\'Amérique' \
      and flow['partner_simplification'] != 'Colonies françaises' \
      and flow['partner_grouping'] != 'France':
        partner = flow['partner_simplification']
        if partner == 'États de l\'Empereur':
            partner = 'Etats de l\'Empereur'
        value = float(flow['value'] or 0)
        if partner not in partners_toflit18_la_rochelle:
         partners_toflit18_la_rochelle[partner] = 0
        partners_toflit18_la_rochelle[partner] += value

partners_toflit18_la_rochelle_corrected = {}
for (partner, value) in partners_toflit18_la_rochelle.items():
  ratio = 1
  
  if partner in national_ratios:
    ratio = float(national_ratios[partner])
  else:
    print('Ratio : le partenaire suivant n\'a pas été trouvé dans les ratios ', partner)
  partners_toflit18_la_rochelle_corrected[partner] = value * ratio
  ratios[partner] = ratio
print('partenaires toflit18 pour la rochelle : ')
print(pds.DataFrame([{"partenaire": partenaire, "valeur d'export": valeur, "valeur d'export pondérée": partners_toflit18_corrected[partenaire]} for partenaire, valeur in partners_toflit18.items()]))
# select navigo flows for La Rochelle
destinations_navigo_la_rochelle = {}
with open('../../../data/navigo_all_flows_1789.csv', newline='') as csvfile:
  transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
  }
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  total_commodities = set()
  for flow in flows:
    # destination = flow['destination_partner_balance_1789']
    destination = flow['destination_partner_balance_1789']
    departure = flow['departure']
#    departure = flow['departure_state_1789_fr']
    if destination in transformation_map:
      destination = transformation_map[destination]
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and flow['departure_ferme_bureau'] == 'La Rochelle' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo_la_rochelle:
          destinations_navigo_la_rochelle[destination] = 0
        destinations_navigo_la_rochelle[destination] += tonnage
# Projection method
projection = []
sum_projection = 0
sum_toflit18 = 0
table = []
for cor in correspondance:
    partner = cor['partner']
    price_per_barrel = cor['price_per_barrel']
    estimate = 0
    toflit18_value = 0
    if partner in destinations_navigo_la_rochelle:
        navigo_tonnage = destinations_navigo_la_rochelle[partner]
        estimate = navigo_tonnage * price_per_barrel
        sum_projection += estimate
        projection.append({
            "partner": partner,
            "group": "estimation depuis navigo",
            "value": estimate
        })
    else:
        projection.append({
            "partner": partner,
            "group": "estimation depuis navigo",
            "value": 0
        })
    if partner in partners_toflit18_la_rochelle:
        toflit18_value = partners_toflit18_la_rochelle[partner]
        projection.append({
            "partner": partner,
            "group": "vraie valeur dans toflit18",
            "value": toflit18_value
        })
        sum_toflit18 += toflit18_value
    else:
        projection.append({
            "partner": partner,
            "group": "vraie valeur dans toflit18",
            "value": 0
        })
    table.append({
        "partenaire": partner,
        "toflit18": f'{int(toflit18_value):,}',
        "estimation" : f'{int(estimate):,}',
        "source/estimation": str(int(estimate) / int(toflit18_value)) if toflit18_value > 0 else "/"
    })
print(pds.DataFrame(table))
        
VegaLite({
    "title": "Comparaison entre la projection par les destinations navigo et les exports par partenaires toflit18 pour La Rochelle 1789 - méthode 'résumé'",
    "data": {
        "values": projection
    },
    "width": 80,
    "height": 400,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "column": {"field": "partner"},
        "y": {
            "field": "value", 
            "type": "quantitative",
            "title": "% de l'ensemble des exports/tonneaux"
        },
        "x": {
            "field": "group",
            "axis": {"title": ""}
        },
        "color": {
            "field": "group",
            "title": "pourcentage par source"
        }
      }
})

print("Total des exports en lt selon la projection : " + f'{int(sum_projection):,}')
print("Total des exports en lt selon toflit18 : " + f'{int(sum_toflit18):,}')
print('rapport projection/réalité : ' + str(sum_projection / sum_toflit18))

Première analyse : la méthode 'résumé pondéré' obtient une projection très proche de la somme des exports réels, elle est donc prometteuse.

Éprouvons maintenant sa robustesse en refaisant le test avec d'autres ports/bureaux de ferme.

In [None]:

def project_for_bureau (ferme_bureau, ferme_key = 'departure_ferme_bureau'):
  # build two models
  correspondance_resume, national_ratios = compute_price_per_barrel_per_destination(method='résumé')
  correspondance_mer_seule, _ratio_not_used = compute_price_per_barrel_per_destination(method='mer seule')

  # =================================================
  # =================================================
  # select flows from navigo 1787 - ferme_bureau = ferme_bureau
  # =================================================
  # =================================================
  destinations_navigo = {}
  sum_tonnage = 0
  sum_travels = 0
  ports = set()
  with open('../../../data/navigo_all_flows_1789.csv', newline='') as csvfile:
    transformation_map = {
        'Quatre villes hanséatiques': 'Villes hanséatiques',
        'Etats-Unis': 'États-Unis d\'Amérique',
        # 'Etats de l\'Empereur':''
    }
    flows = csv.DictReader(csvfile)
    commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
    stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
    total_commodities = set()
    for flow in flows:
      destination = flow['destination_partner_balance_1789']
      departure = flow['departure']
      bureau_clean = flow[ferme_key]
      if bureau_clean == 'Charente':
            bureau_clean = 'Tonnay-Charente'
      if bureau_clean == 'Saint-Martin île de Ré':
            bureau_clean = 'Saint-Martin-de-Ré'
      if destination in transformation_map:
        destination = transformation_map[destination]
      tonnage = float(flow['tonnage'] or 0)
      if flow['departure_function'] == 'O' \
        and bureau_clean == ferme_bureau \
        and destination != '' \
        and destination != 'France' \
        and flow['destination_state_1789_fr'] != 'France' :
        ports.add(departure)
        commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
        not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
        # take the flow if no commodity specified or at least one 'not stop' commodity speciied
        if len(commodities) == 0 or len(not_stop) > 0:
          for c in not_stop:
            total_commodities.add(c)
          # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
          # at this point we have all the flows we want
          if destination not in destinations_navigo:
            destinations_navigo[destination] = 0
          destinations_navigo[destination] += tonnage
          sum_tonnage +=  tonnage
          sum_travels += 1
  print('Destinations selon navigo (en tonneaux) : ')
  print(pds.DataFrame([{"destination": destination, "tonnage": tonnage} for destination, tonnage in destinations_navigo.items()]))
  print('Ports pris en compte pour le bureau : ' + ', '.join(list(ports)))
  print('Tonnage moyen des navires : ' + str(sum_tonnage / sum_travels))

  VegaLite({
      "title": "Destinations des bateaux partis vers l'étranger depuis le ou les ports associés " + ("au bureau des fermes" if ferme_key == 'departure_ferme_bureau' else "à la direction des fermes") + " de " + ferme_bureau + " en 1789, agrégées par tonnage cumulé",
      "width": 1000,
      "data": {
          "values": [{"destination": destination, "tonnage": tonnage} for destination, tonnage in destinations_navigo.items()]
      },
      "mark": {"type": "bar", "tooltip": True},
        "encoding": {
          "y": {
              "field": "destination", 
              "type": "nominal",
              "title": "destination"
          },
          "x": {
              "field": "tonnage",
              "type": "quantitative"
          }
        }
  })

  # =================================================
  # =================================================
  # select flows from  - customs office = ferme_bureau
  # =================================================
  # =================================================

  partners_toflit18 = {}
  print('scan des valeurs pour ' + ('le bureau des fermes de ' if ferme_key == 'departure_ferme_bureau' else 'la direction des fermes de ') + ferme_bureau)
  with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
    flows = csv.DictReader(csvfile)
    for flow in flows:
      if flow['year'] == '1789' \
        and flow['best_guess_region_prodxpart'] == '1' \
        and flow['customs_office' if ferme_key == 'departure_ferme_bureau' else 'customs_region'] == ferme_bureau \
        and flow['export_import'] != 'Exports' \
        and flow['partner_simplification'] != 'Îles françaises de l\'Amérique' \
        and flow['partner_grouping'] != 'France':
          partner = flow['partner_simplification']
          if partner == "États de l'Empereur":
            partner = "Etats de l'Empereur"
          value = float(flow['value'] or 0)
          if partner not in partners_toflit18:
            partners_toflit18[partner] = 0
          partners_toflit18[partner] += value
  print('flux bruts toflit18 : ')
  print(pds.DataFrame([{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in partners_toflit18.items()]))

  partners_toflit18_corrected = {}
  for (partner, value) in partners_toflit18.items():
    ratio = 1
    
    if partner in national_ratios:
      ratio = float(national_ratios[partner])
    else:
      print('Problème d\'attribution du le partenaire qui n\'est pas dans la table des ratios terre-mer : ', partner)
    partners_toflit18_corrected[partner] = value * ratio

  VegaLite({
      "title": "Partenaires toflit18 pour " + ("le bureau des fermes" if ferme_key == 'departure_ferme_bureau' else 'la direction des fermes') + " de " + ferme_bureau + ", agrégés par valeur en livre tournois",
      "data": {
          "values": [{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in partners_toflit18.items()]
      },
      "width": 1000,
      "mark": {"type": "bar", "tooltip": True},
        "encoding": {
          "y": {
              "field": "partenaire", 
              "type": "nominal",
              "title": "partenaire"
          },
          "x": {
              "field": "valeur",
              "type": "quantitative"
          }
        }
  })
  VegaLite({
      "title": "Partenaires toflit18 pour " + ("le bureau des fermes" if ferme_key == 'departure_ferme_bureau' else 'la direction des fermes') + " de " + ferme_bureau + ", agrégés par valeur en livre tournois et modulés selon les ratios terre-mer",
      "data": {
          "values": [{"partenaire": partenaire, "valeur": valeur, "ratio": national_ratios[partenaire] if partenaire in national_ratios else 1} for partenaire, valeur in partners_toflit18_corrected.items()]
      },
      "width": 1000,
      "mark": {"type": "bar", "tooltip": True},
        "encoding": {
          "y": {
              "field": "partenaire", 
              "type": "nominal",
              "title": "partenaire"
          },
          "x": {
              "field": "valeur",
              "type": "quantitative"
          },
          "color": {
              "type": "quantitative",
              "field": "ratio"
          }
        }
  })

  # Compute relative values
  def compute_rel_pcts(dct) :
      total = 0
      output = {}
      for key, val in dct.items():
          total += val
      for key, val in dct.items():
          output[key] = val / total * 100
      return output

  toflit18_corrected_pcts = compute_rel_pcts(partners_toflit18_corrected)
  destinations_navigo_pcts = compute_rel_pcts(destinations_navigo)
  correspondances_in_pct = []
  navigo_parsed = set()
  for key, toflit18_part in toflit18_corrected_pcts.items():
      if key in destinations_navigo_pcts:
          tonnage_part = destinations_navigo_pcts[key]
          navigo_parsed.add(key)
          correspondances_in_pct.append({
              "partner": key,
              "group": "toflit18",
              "value": toflit18_part
          })
          correspondances_in_pct.append({
              "partner": key,
              "group": "navigo",
              "value": tonnage_part
          })
      else: 
          correspondances_in_pct.append({
              "partner": key,
              "group": "toflit18",
              "value": toflit18_part
          })
          correspondances_in_pct.append({
              "partner": key,
              "group": "navigo",
              "value": 0
          })
  for key, navigo_part in destinations_navigo_pcts.items():
      if key not in navigo_parsed:
          correspondances_in_pct.append({
              "partner": key,
              "group": "toflit18",
              "value": 0
          })
          correspondances_in_pct.append({
              "partner": key,
              "group": "navigo",
              "value": tonnage_part
          })

  VegaLite({
      "title": "Comparaison entre destinations navigo et partenaires toflit18 pour " + ("le bureau" if ferme_key == 'departure_ferme_bureau' else "la direction") + " et port(s) de " + ferme_bureau + " en 1789 - comparaison des parts",
      "data": {
          "values": correspondances_in_pct
      },
      "width": 80,
      "mark": {"type": "bar", "tooltip": True},
        "encoding": {
          "column": {
              "field": "partner",
              "axis": {"title": ""}
          },
          "y": {
              "field": "value", 
              "type": "quantitative",
              "title": "% de l'ensemble des exports/tonneaux"
          },
          "x": {
              "field": "group",
              "axis": {"title": ""}
          },
          "color": {
              "field": "group",
              "title": "pourcentage par source"
          }
        }
  })

  # Projection method
  projection_mer_seule = []
  control_mer_seule = []
  sum_projection_mer_seule = 0
  sum_toflit18_mer_seule = 0
  for cor in correspondance_mer_seule:
      partner = cor['partner']
      price_per_barrel = cor['price_per_barrel']
      control = {
          "partner": partner
      }
      if partner in destinations_navigo:
          navigo_tonnage = destinations_navigo[partner]
          estimate = navigo_tonnage * price_per_barrel
          projection_mer_seule.append({
              "partner": partner,
              "group": "estimation depuis navigo",
              "value": estimate
          })
          # print(partner + " : " + str(navigo_tonnage) + " * " + str(price_per_barrel) + " = " + str(estimate))
          control["tonnage cumulé"] = navigo_tonnage
          control["prix/tonneau"] = price_per_barrel
          control["valeur estimée"] = estimate
          sum_projection_mer_seule += estimate
      else:
          projection_mer_seule.append({
              "partner": partner,
              "group": "estimation depuis navigo",
              "value": 0
          })
          
      if partner in partners_toflit18_corrected:
          toflit18_value_corrected = partners_toflit18_corrected[partner]
          projection_mer_seule.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (pondéré avec terre-mer)",
              "value": toflit18_value_corrected
          })
          projection_mer_seule.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (non pondéré)",
              "value": partners_toflit18[partner]
          })
          control["toflit18 pondéré"] = toflit18_value_corrected
          control["toflit18 non pondéré"] = partners_toflit18[partner]
          sum_toflit18_mer_seule += toflit18_value_corrected
      else:
          projection_mer_seule.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (pondéré avec terre-mer)",
              "value": 0
          })
          projection_mer_seule.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (non pondéré)",
              "value": 0
          })
      control_mer_seule.append(control)
  
  print('Correspondance mer seule : ')
  print(pds.DataFrame(correspondance_mer_seule))
  print('Résultat de la projection avec la méthode mer seule : ')
  print(pds.DataFrame(control_mer_seule).round(4))
          
  VegaLite({
      "title": "Comparaison entre la projection par les destinations navigo et les exports par partenaires toflit18 pour le(s) port(s) associé(s) à " + ferme_bureau + " 1789 - projection 'mer seule'",
      "data": {
          "values": projection_mer_seule
      },
      "width": 80,
      "mark": {"type": "bar", "tooltip": True},
        "encoding": {
          "column": {"field": "partner"},
          "y": {
              "field": "value", 
              "type": "quantitative",
              "title": "valeur en lt"
          },
          "x": {
              "field": "group",
              "axis": {"title": ""}
          },
          "color": {
              "field": "group",
              "title": "pourcentage par source"
          }
        }
  })

  projection_resume = []
  sum_projection_resume = 0
  sum_toflit18_resume = 0
  for cor in correspondance_resume:
      partner = cor['partner']
      price_per_barrel = cor['price_per_barrel']
      if partner in destinations_navigo:
          navigo_tonnage = destinations_navigo[partner]
          estimate = navigo_tonnage * price_per_barrel
          #if partner == 'Danemark':
          #  print('in partner danemark')
          #  print('tonnage (should be 4277) : ', navigo_tonnage)
          #  print('price per barel (should be 230 : ', price_per_barrel)
          #  print('estimate : ', estimate)
          projection_resume.append({
              "partner": partner,
              "group": "estimation depuis navigo",
              "value": estimate
          })
          sum_projection_resume += estimate
      else:
          projection_resume.append({
              "partner": partner,
              "group": "estimation depuis navigo",
              "value": 0
          })
          
      if partner in partners_toflit18_corrected:
          toflit18_value_corrected = partners_toflit18_corrected[partner]
          projection_resume.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (pondéré avec terre-mer)",
              "value": toflit18_value_corrected
          })
          projection_resume.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (non pondéré)",
              "value": partners_toflit18[partner]
          })
          sum_toflit18_resume += toflit18_value_corrected
      else:
          projection_mer_seule.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (pondéré avec terre-mer)",
              "value": 0
          })
          projection_resume.append({
              "partner": partner,
              "group": "vraie valeur dans toflit18 (non pondéré)",
              "value": 0
          })
  print('Correspondance résumé : ')
  print(pds.DataFrame(correspondance_resume))
            
  VegaLite({
      "title": "Comparaison entre la projection par les destinations navigo et les exports par partenaires toflit18 pour le(s) port(s) associé(s) à " + ferme_bureau + " 1789 - projection 'résumé'",
      "data": {
          "values": projection_resume
      },
      "width": 80,
      "mark": {"type": "bar", "tooltip": True},
        "encoding": {
          "column": {"field": "partner"},
          "y": {
              "field": "value", 
              "type": "quantitative",
              "title": "valeur en lt"
          },
          "x": {
              "field": "group",
              "axis": {"title": ""}
          },
          "color": {
              "field": "group",
              "title": "pourcentage par source"
          }
        }
  })
  
  print("Total des exports en lt selon la projection 'mer seule' : " + f'{int(sum_projection_mer_seule):,}' + " lt")
  print("Total des exports en lt selon la projection 'résumé' : " + f'{int(sum_projection_resume):,}' + " lt")
  print("Total des exports en lt selon toflit18 : " + f'{int(sum_toflit18_resume):,}' + " lt")
  print('Méthode \'mer seule\' - rapport projection/réalité : facteur de ' + str(sum_projection_mer_seule / sum_toflit18_mer_seule))  
  print('Méthode \'résumé\' - rapport projection/réalité : facteur de ' + str(sum_projection_resume / sum_toflit18_resume))


## 4.2. Test sur les ports du bureau des fermes de Saint-Martin-de-Ré

In [None]:
project_for_bureau('Saint-Martin-de-Ré')

Première analyse : chacune des deux projections donne des résultats beaucoup plus importants que la somme effective des exports (44 fois plus ou 22 fois plus). C'est très décevant, comment l'expliquer ?

Hypothèses d'explication :

* ces ports commercent des produits de bien plus faible valeur que la moyenne française. Ou que les bateaux partent très peu chargés.
* étant donné d'une part que les bateaux qui partent de ces ports ont des tonnages importants, et d'autre part qu'on les suppose toujours pleins, on surestime la valeur

## 4.2. Test sur le port de Tonnay-Charente

In [None]:
project_for_bureau('Tonnay-Charente')

Première analyse : les résultats des projections sont de nouveau largement supérieurs à la réalité (20 fois plus et 14 fois plus pour chaque méthode). Les hypothèses d'explication sont les mêmes que pour les cas précédents.

## 4.3 Test sur la direction des fermes de La Rochelle et tous ses ports associés

In [None]:
project_for_bureau('La Rochelle', ferme_key='departure_ferme_direction')

Première analyse : à l'échelle de la direction des fermes, les résultats sont toujours plus importants que la réalité (4 à 10 fois plus). Les hypothèses d'explication restent les mêmes que précédemment.

## 4.4. Bilan des tests sur la projection

Les projections fonctionnent plutôt bien sur le port/bureau de ferme de La Rochelle, mais très mal sur d'autres bureaux de fermes de la direction ou sur la direction dans son ensemble : on obtient des résultats différents d'au moins un ordre de grandeur, ce qui n'est pas acceptable. 

Des spécificités font-elles que la projection fonctionne mieux sur certaines zones que d'autres ? Est-ce le caractère essentiellement colonial du commerce du port de La Rochelle qui explique que le modèle fonctionne bien sur lui alors qu'il ne fonctionne pas sur les autres ?

Malgré le caractère décevant et incertain de ces tests, on va néanmoins tenter de projeter le modèle sur le cas de Dunkerque en 1789.

# 5. projection sur Dunkerque 1789

On va maintenant projeter les deux méthodes d'estimation sur les tonnages partis de Dunkerque, puis les comparer aux données toflit18 partielles dont on dispose sur le commerce colonial.

In [None]:
# build two models
correspondance_resume, national_ratios = compute_price_per_barrel_per_destination
(method='résumé')
correspondance_mer_seule, _ratio_not_used = compute_price_per_barrel_per_destination(method='mer seule')
# =================================================
# =================================================
# select flows from navigo 1789 - port = 'Dunkerque'
# =================================================
# =================================================


destinations_navigo = {}
sum_tonnage = 0
with open('../../../data/navigo_all_flows_1789.csv', newline='') as csvfile:
  transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
  }
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  # stop_commodities = set()
  total_commodities = set()
  for flow in flows:
    destination = flow['destination_partner_balance_1789']
    departure = flow['departure']
#    departure = flow['departure_state_1789_fr']
    if destination in transformation_map:
      destination = transformation_map[destination]
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and departure == 'Dunkerque' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
        sum_tonnage += tonnage

VegaLite({
    "title": "Destinations des bateaux partis vers l'étranger depuis le port de Dunkerque en 1789, agrégées par tonnage cumulé",
    "data": {
        "values": [{"destination": destination, "tonnage": tonnage} for destination, tonnage in destinations_navigo.items()]
    },
    "width": 800,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "y": {
            "field": "destination", 
            "type": "nominal",
            "title": "destination"
        },
        "x": {
            "field": "tonnage",
            "type": "quantitative"
        }
      }
})

print('tonnage cumulé', sum_tonnage)

sum_estimates_mer_seule = 0
estimates_mer_seule = []
for cor in correspondance_mer_seule:
    partner = cor['partner']
    if partner in destinations_navigo:
        tonnage = destinations_navigo[partner]
        estimates_mer_seule.append({
            "partenaire": partner,
            "tonnage": tonnage,
            "estimate": tonnage * cor['price_per_barrel']
        })
        sum_estimates_mer_seule += tonnage * cor['price_per_barrel']
VegaLite({
    "title": "Estimation par destination en livres tournois - méthode mer seule",
    "data": {
        "values": estimates_mer_seule
    },
    "width": 800,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "y": {
            "field": "partenaire", 
            "type": "nominal",
            "title": "partenaire"
        },
        "x": {
            "field": "estimate",
            "title": "estimation en livres tournois",
            "type": "quantitative"
        },
          "color": {
              "value": "olive"
          }
      }
})
print("valeur d'export vers l'étranger estimée pour Dunkerque selon la méthode 'mer seule' : " + str(int(sum_estimates_mer_seule)) + " livres tournois")

sum_estimates_resume = 0
estimates_resume = []
for cor in correspondance_resume:
    partner = cor['partner']
    if partner in destinations_navigo:
        tonnage = destinations_navigo[partner]
        estimates_resume.append({
            "partenaire": partner,
            "tonnage": tonnage,
            "estimate": tonnage * cor['price_per_barrel']
        })
        sum_estimates_resume += tonnage * cor['price_per_barrel']
VegaLite({
    "title": "Estimation par destination en livres tournois - méthode 'résumé'",
    "data": {
        "values": estimates_resume
    },
    "width": 800,
    "mark": {"type": "bar", "tooltip": True},
      "encoding": {
        "y": {
            "field": "partenaire", 
            "type": "nominal",
            "title": "partenaire"
        },
        "x": {
            "field": "estimate",
            "title": "estimation en livres tournois",
            "type": "quantitative"
        },
          "color": {
              "value": "aqua"
          }
      }
})
print("valeur d'export vers l'étranger estimée pour Dunkerque selon la méthode 'résumé' : " + str(int(sum_estimates_resume)) + " livres tournois")

On compare maintenant les projections obtenues aux exports connus par toflit18, qui correspondent aux exports de produits coloniaux et aux exports vers les colonies.

In [None]:
# comparison with real data from Dunkerque exports according to toflit18
destinations_navigo = {}
with open('../../../data/navigo_all_flows_1789.csv', newline='') as csvfile:
  transformation_map = {
      'Quatre villes hanséatiques': 'Villes hanséatiques',
      'Etats-Unis': 'États-Unis d\'Amérique',
      # 'Etats de l\'Empereur':''
  }
  flows = csv.DictReader(csvfile)
  commodity_fields = ['commodity_standardized_fr', 'commodity_standardized2_fr', 'commodity_standardized3_fr', 'commodity_standardized4_fr']
  # stop_commodities = set(['lest', 'lège', 'vide', 'futailles vides'])
  stop_commodities = set()
  total_commodities = set()
  for flow in flows:
    destination = flow['destination_partner_balance_1789']
    departure = flow['departure']
#    departure = flow['departure_state_1789_fr']
    if destination in transformation_map:
      destination = transformation_map[destination]
    tonnage = float(flow['tonnage'] or 0)
    if flow['departure_function'] == 'O' \
      and departure == 'Dunkerque' \
      and destination != '' \
      and destination != 'France' \
      and flow['destination_state_1789_fr'] != 'France' :
      commodities = [flow[field].lower() for field in commodity_fields if flow[field] != '']
      not_stop = [commodity for commodity in commodities if commodity not in stop_commodities]
      # take the flow if no commodity specified or at least one 'not stop' commodity speciied
      if len(commodities) == 0 or len(not_stop) > 0:
        for c in not_stop:
          total_commodities.add(c)
        # print(departure + '->' + destination, flow['tonnage'] + '->' + str(tonnage))
        # at this point we have all the flows we want
        if destination not in destinations_navigo:
          destinations_navigo[destination] = 0
        destinations_navigo[destination] += tonnage
        
exports_toflit18 = {}
imports_toflit18 = {}
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  # and flow['customs_office'].lower().find('dunkerque') != -1 \
  for flow in flows:
    if flow['year'] == '1789' \
      and flow['export_import'] != 'Exports' \
      and flow['customs_office'] == "Dunkerque" \
      and flow['partner_grouping'] != 'France':

      partner = flow['partner_simplification']
      value = float(flow['value'] or 0)
      if partner not in exports_toflit18:
        exports_toflit18[partner] = 0
      exports_toflit18[partner] += value
    if flow['year'] == '1789' \
      and flow['export_import'] != 'Imports' \
      and flow['customs_office'] == "Dunkerque" \
      and flow['partner_grouping'] != 'France':

      partner = flow['partner_simplification']
      value = float(flow['value'] or 0)
      if partner not in imports_toflit18:
        imports_toflit18[partner] = 0
      imports_toflit18[partner] += value
print('exports : ')
print(pds.DataFrame([{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in exports_toflit18.items()]))
print('imports hors France : ')
print(pds.DataFrame([{"partenaire": partenaire, "valeur": valeur} for partenaire, valeur in imports_toflit18.items()]))
      

In [None]:
comparaison = []
for cor in correspondance_mer_seule:
    partner = cor['partner']
    if partner in destinations_navigo:
        tonnage = destinations_navigo[partner]
        comparaison.append({
            "partner": partner,
            "group": "estimation - m. 'mer seule'",
            "value": tonnage * cor['price_per_barrel']
        })
    else:
        print('dans le tableau de correspondances mais pas dans les destinations navigo pour Dunkerque : ' + partner)
    if partner in exports_toflit18:
      comparaison.append({
          "partner": partner,
          "group": "exports selon toflit18",
          "value": exports_toflit18[partner]
      })
    if partner in imports_toflit18:
      comparaison.append({
          "partner": partner,
          "group": "importations de Dunkerque hors France",
          "value": imports_toflit18[partner]
      })
for cor in correspondance_resume:
    partner = cor['partner']
    if partner in destinations_navigo:
        tonnage = destinations_navigo[partner]
        comparaison.append({
            "partner": partner,
            "group": "estimation - m. 'résumé'",
            "value": tonnage * cor['price_per_barrel']
        })

VegaLite({
  "title": "Comparaison entre la projection par les destinations navigo et les exports de produits coloniaux de Dunkerque",
  "data": {
      "values": comparaison
  },
  "width": 80,
  "mark": {"type": "bar", "tooltip": True},
    "encoding": {
      "column": {"field": "partner"},
      "y": {
          "field": "value", 
          "type": "quantitative",
          "title": "livres tournois exportées"
      },
      "x": {
          "field": "group",
          "axis": {"title": ""}
      },
      "color": {
          "field": "group",
          "title": "méthode",
          "scale": {
              "range": ["olive", "aqua", "#4c78a8",]
          }
      }
    }
})

Première analyse : les résultats obtenus sont similaires avec les deux méthodes pour la plupart des partenaires, sauf deux cas notables :

* états de l'empereur : ne sont pas présent dans la source 'résumé' (?) ce qui provoque une sous-valuatio par cette dernière méthode
* hollande : la méthode mer seule donne une estimation beaucoup plus importante que l'autre méthode

Par ailleurs, la valeur des exports selon toflit18 est parfois (pour l'espagne par exemple) inférieure à la projection, ce qui devrait être impossible (?).

In [None]:
sum_miroir = 0
with open('../../../data/toflit18_all_flows.csv', newline='') as csvfile:
  flows = csv.DictReader(csvfile)
  # and flow['customs_office'].lower().find('dunkerque') != -1 \
  for flow in flows:
    if flow['year'] == '1789' \
      and flow['export_import'] != 'Imports'  \
      and flow['partner_simplification'] == 'Dunkerque':
      value = float(flow['value'] or 0)
      sum_miroir += value



sum_projection_mer_seule = 0
sum_projection_resume = 0
for c in comparaison:
    if c['group'] == "estimation - m. 'mer seule'":
        sum_projection_mer_seule += c['value']
    if c['group'] == "estimation - m. 'résumé'":
        sum_projection_resume += c['value']
        
sum_exports = 0
for f, value in exports_toflit18.items():
    sum_exports += value
    
sum_imports = 0
for f, value in imports_toflit18.items():
    sum_imports += value

print('somme imports Dunkerque : ' + f'{int(sum_imports):,}' + ' lt')   
print('somme imports français depuis Dunkerque : ' + f'{int(sum_miroir):,}' + ' lt')
print('somme exports coloniaux : ' + f'{int(sum_exports):,}' + ' lt')
print('somme exports selon la projection mer seule : ' + f'{int(sum_projection_mer_seule):,}' + ' lt')
print('somme exports selon la projection résumé : ' + f'{int(sum_projection_resume):,}' + ' lt')

redux = [
{
    "label": "imports déclarés par le bureau de fermes de Dunkerque",
    "type": "imports",
    "valeur": sum_imports
},
{
    "label": "exports Dunkerque -> France (flux miroirs)",
    "type": "exports",
    "valeur": sum_miroir
},
{
    "label": "exports de produits coloniaux hors France (bureau de fermes de Dunkerque)",
    "type": "exports",
    "valeur": sum_exports
},
{
    "label": "projection m. mer seule",
    "type": "exports",
    "valeur": sum_projection_mer_seule
}, 
{
    "label": "projection m. resume",
    "type": "exports",
    "valeur": sum_projection_resume
}, 
]
VegaLite({
  "title": "Comparaison des valeurs",
  "data": {
      "values": redux
  },
  "width": 800,
  "mark": {"type": "bar", "tooltip": True},
    "encoding": {
      "y": {
          "field": "label", 
          "type": "nominal",
          "axis": {"title": ""},
          "sort": "-color"
      },
        "color": {
            "field": "type"
        },
      "x": {
          "field": "valeur",
          "type": "quantitative",
          "title": "valeur en lt"
      }
    }
})

Première analyse : les projections (avec toutes les imperfections et problèmes relatés au cours de ce document) ne semblent pas donner un résultat différent de plusieurs ordres de grandeur avec ce qu'on connaît via toflit18.

La faiblesse de la somme obtenue avec la méthode résumé s'explique par les problèmes mentionnés plus haut, mais il ne me semble pas (robin) que les régler changerait beaucoup le résultat final.

# Conclusion


Pour rappel, la méthode a consisté à :

* établir un prix par tonneau et par destination, en estimant les valeurs d'export de la France par la mer seule et les flux navigo par tonnage - pour l'année 1787
* pour les tests : d'une part sommer les flux toflit18 et les pondérer par destination en fonction des ratio terre-mer tels que décrits en 1787, d'autre part sommer les flux navigo par destination en tonnage cumulé puis les transformer en valeur via l'index des prix par tonneau par destination
* pour Dunkerque : sommer les flux navigo par destination en tonnage cumulé puis les transformer en valeur via l'index des prix par tonneau par destination

La méthode trouvée empiriquement pour calculer les prix de tonneau par partenaire semble assez fiable sur La Rochelle, mais pas du tout sur d'autres corpora de test.

Les résultats obtenus via la projection sur Dunkerque ne semblent pas probants, mais des erreurs ont peut-être été commises dans le processus.

Il nous faut définir si elle nous semble crédible ou non pour une intégration dans l'argument du site, à la fois du point de vue du test et de la projection sur Dunkerque :

* Si c'est le cas, il nous faut réfléchir à un fil argumentatif permettant d'en faire usage.
* Si ce n'est pas le cas, ce travail pourra toujours être valorisé sous une forme ou une autre.