In [1]:
import pandas as pd
import numpy as np
import mysql.connector
import pymysql
from sqlalchemy import create_engine
import re
import mmap

## Connexion à la base de données

In [90]:
# Connexion au serveur et à la base
connection = mysql.connector.Connect(
    host = "127.0.0.1",
    user = "user_project",
    passwd = "2022_user_project",
    database= "commerce_extérieur_2019",
    auth_plugin = "mysql_native_password"
    )
    
cursor = connection.cursor()

In [2]:
# create sqlalchemy engine
engine = create_engine("mysql+pymysql://{user}:{pw}@localhost/{db}"
                       .format(user="user_project",
                               pw="2022_user_project",
                               db="commerce_extérieur_2019"))

## ================= Table NC8 ================= 

### Lecture de tous les échanges et récupération des correspondances NC8

In [3]:
transaction_columns = [
    "flux",
    "mois",
    "année",
    "CPF6",
    "code_A129",
    "code_NC8",
    "code_pays",
    "valeur",
    "masse",
    "code_usup"
]

In [4]:
transaction_i_df = pd.read_csv("National-2019-import/National_2019_Import.txt", sep=';', 
                         names=transaction_columns, dtype={"code_NC8":object, "valeur":float, "masse":float})

In [5]:
transaction_e_df = pd.read_csv("National-2019-export/National_2019_Export.txt", sep=';', 
                         names=transaction_columns, dtype={"code_NC8":object, "valeur":float, "masse":float})

In [6]:
transaction_i_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1687753 entries, 0 to 1687752
Data columns (total 10 columns):
 #   Column     Non-Null Count    Dtype  
---  ------     --------------    -----  
 0   flux       1687753 non-null  object 
 1   mois       1687753 non-null  int64  
 2   année      1687753 non-null  int64  
 3   CPF6       1687753 non-null  object 
 4   code_A129  1687753 non-null  object 
 5   code_NC8   1687753 non-null  object 
 6   code_pays  1687140 non-null  object 
 7   valeur     1687753 non-null  float64
 8   masse      1687753 non-null  float64
 9   code_usup  1687753 non-null  int64  
dtypes: float64(2), int64(3), object(5)
memory usage: 128.8+ MB


In [7]:
transaction_e_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2627612 entries, 0 to 2627611
Data columns (total 10 columns):
 #   Column     Dtype  
---  ------     -----  
 0   flux       object 
 1   mois       int64  
 2   année      int64  
 3   CPF6       object 
 4   code_A129  object 
 5   code_NC8   object 
 6   code_pays  object 
 7   valeur     float64
 8   masse      float64
 9   code_usup  int64  
dtypes: float64(2), int64(3), object(5)
memory usage: 200.5+ MB


### Lecture de tous les codes NC8 - Création de la table produit

In [30]:
produit_df = pd.read_csv("National-2019-import/Libelle_NC8_2019.txt", sep=';', 
                         dtype={"NC8":object}, encoding="ISO-8859-1")
produit_df.drop_duplicates("NC8", inplace=True)
produit_df.reset_index(drop=True, inplace=True)
produit_df.rename(columns={"NC8": "code_NC8", 
                           "Libelle": "libelle_nc8", 
                           "Présence d'unité supplémentaire": "code_usup",
                           "Unnamed: 3": "nom_usup"}, inplace=True)
produit_df.drop(["Début", "Fin"], axis=1, inplace=True)

In [40]:
produit_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9642 entries, 0 to 9641
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   code_NC8     9642 non-null   object
 1   libelle_nc8  9642 non-null   object
 2   code_usup    9642 non-null   int64 
 3   nom_usup     2626 non-null   object
dtypes: int64(1), object(3)
memory usage: 301.4+ KB


### Correspondance NC2019 - 20120

In [31]:
nc19_20_df = pd.read_excel("Nomenclature/rlnc2019-2020.xls")
nc19_20_df.drop("Unnamed: 1", axis=1, inplace=True)
nc19_20_df.drop_duplicates(["NC2019"], inplace=True)
nc19_20_df.reset_index(drop=True, inplace=True)
nc19_20_df["NC2019"] = nc19_20_df["NC2019"].str.replace(' ', '')
nc19_20_df["NC2020"] = nc19_20_df["NC2020"].str.replace(' ', '')

In [32]:
"""
On remplace les code NC8_2019 de la table 'transaction' par les codes NC8_2020
"""
#def maj_code_nc8(table_trans, table_corresp):
#    idx_echge = table_trans.index[table_trans["code_NC8"].isin(table_corresp["NC2019"])]

#    for i, rows in table_trans.iloc[idx_echge].iterrows():
#        idx = table_corresp[table_corresp["NC2019"] == rows["code_NC8"]].index[0]
#        table_trans.iloc[i, 5] = table_corresp.iloc[idx, 1]    
        
        
def maj_code_nc8(table_trans, table_corresp):
    idx_codes = table_corresp.index[table_corresp["NC2019"].isin(table_trans["code_NC8"])]

    for i, rows in nc19_20_df.iloc[idx_codes].iterrows():
        table_trans[table_trans["code_NC8"] == rows["NC2019"]] = rows["NC2020"]

In [33]:
maj_code_nc8(transaction_i_df, nc19_20_df)
maj_code_nc8(transaction_e_df, nc19_20_df)

In [11]:
"""
On remplace les code NC8_2019 de la table 'produit' par les codes NC8_2020
"""
idx_produit = produit_df.index[produit_df["code_NC8"].isin(nc19_20_df["NC2019"])]

for i, rows in produit_df.iloc[idx_produit].iterrows():
    idx = nc19_20_df[nc19_20_df["NC2019"] == rows["code_NC8"]].index[0]
    produit_df.iloc[i, 0] = nc19_20_df.iloc[idx, 1]

In [12]:
produit_df.drop_duplicates(["code_NC8"], inplace=True)
produit_df.set_index("code_NC8", inplace=True, verify_integrity=True)

In [13]:
produit_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9584 entries, 01012100 to 99992000
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   libelle_nc8  9584 non-null   object
 1   code_usup    9584 non-null   int64 
 2   nom_usup     2602 non-null   object
dtypes: int64(1), object(2)
memory usage: 299.5+ KB


# ================= Table catégories NC8 ================= 

In [19]:
cat_NC8_df = pd.read_excel("Nomenclature/NC2020a-FR.xls", dtype={"CODES NC\n2020": object})
cat_NC8_df.drop(["CREATIONS (1)\nMODIFICATIONS (2)"], axis=1, inplace=True)
cat_NC8_df.rename(columns={"CODES NC\n2020": "code_NC2020", 
                           "LIBELLES AUTOSUFFISANTS NC 2020 (fichier DSECE)": "libelles"}, 
                            inplace=True)

In [64]:
cat_NC8_df

Unnamed: 0,code_NC2020,libelles
0,SECTION I,ANIMAUX VIVANTS ET PRODUITS DU RÈGNE ANIMAL
1,CHAPITRE 1,ANIMAUX VIVANTS
2,0101,"Chevaux, ânes, mulets et bardots, vivants"
3,0101 21 00,Chevaux reproducteurs de race pure
4,0101 29,Chevaux vivants (à l'excl. des animaux reprodu...
...,...,...
12309,9703 00 00,Productions originales de l'art statuaire ou d...
12310,9704 00 00,"Timbres-poste, timbres fiscaux, marques postal..."
12311,9705 00 00,Collections et spécimens pour collections de z...
12312,9706 00 00,Objets d'antiquité ayant > 100 ans d'âge


In [5]:
cat_NC8_df["code_NC2020"] = cat_NC8_df["code_NC2020"].str.replace(r"(\d{4}) (\d{2}) (\d{2})", r"\1\2\3", regex=True)

In [67]:
cat_NC8_df

Unnamed: 0,code_NC2020,libelles
0,SECTION I,ANIMAUX VIVANTS ET PRODUITS DU RÈGNE ANIMAL
1,CHAPITRE 1,ANIMAUX VIVANTS
2,0101,"Chevaux, ânes, mulets et bardots, vivants"
3,01012100,Chevaux reproducteurs de race pure
4,0101 29,Chevaux vivants (à l'excl. des animaux reprodu...
...,...,...
12309,97030000,Productions originales de l'art statuaire ou d...
12310,97040000,"Timbres-poste, timbres fiscaux, marques postal..."
12311,97050000,Collections et spécimens pour collections de z...
12312,97060000,Objets d'antiquité ayant > 100 ans d'âge


### SECTIONS

In [20]:
sections = cat_NC8_df[cat_NC8_df["code_NC2020"].str.contains("SECTION\s*\w*", regex=True)].copy()

In [69]:
"""
Ajout de la colonne 'sections' dans la table produit
"""

produit_df["code_section"] = None
idx_sections = sections.index


for i, idx in enumerate(idx_sections):
    if i < len(idx_sections) - 1:
        tmp_df = cat_NC8_df.iloc[idx_sections[i]:idx_sections[i+1]]
    else:
        tmp_df = cat_NC8_df.iloc[idx_sections[i]:]
        
    sec_produits = tmp_df[tmp_df["code_NC2020"].str.fullmatch("\d{8}")]
    
    idx_pro = produit_df.index[produit_df.index.isin(sec_produits["code_NC2020"])]
    produit_df.loc[idx_pro, "code_section"] = i

### SOUS-SECTIONS

In [71]:
sous_sections = cat_NC8_df[cat_NC8_df[cat_NC8_df.columns[0]].str.fullmatch("\d{4}")].copy()

In [58]:
sous_sections

Unnamed: 0,code_NC2020,libelles
2,0101,"Chevaux, ânes, mulets et bardots, vivants"
9,0102,Animaux vivants de l'espèce bovine
35,0103,Animaux vivants de l'espèce porcine
44,0104,Animaux vivants des espèces ovine ou caprine
52,0105,"Coqs, poules, canards, oies, dindons, dindes e..."
...,...,...
12265,9612,Rubans encreurs pour machines à écrire et ruba...
12271,9613,Briquets et allumeurs (à l'excl. des mèches et...
12279,9615,"Peignes à coiffer, peignes de coiffure, barret..."
12283,9616,"Vaporisateurs de toilette, leurs montures et t..."


In [73]:
produit_df["code_ss_section"] = None
idx_ss_sections = sous_sections.index

for i, idx in enumerate(idx_ss_sections):
    if i < len(idx_ss_sections) - 1:
        tmp_df = cat_NC8_df.iloc[idx_ss_sections[i]:idx_ss_sections[i+1]]
    else:
        tmp_df = cat_NC8_df.iloc[idx_ss_sections[i]:]
        
    ss_sec_produits = tmp_df[tmp_df["code_NC2020"].str.fullmatch("\d{8}")]
    
    idx_pro = produit_df.index[produit_df.index.isin(ss_sec_produits["code_NC2020"])]
    produit_df.loc[idx_pro, "code_ss_section"] = sous_sections.loc[idx, "code_NC2020"]

In [None]:
"""
Après avoir créé les sous-tables produits des sections et sous-sections, créer les tables sections et sous-sections 
en réindexant ces tables

"""

In [23]:
sections.reset_index(drop=True, inplace=True)
#sections.index = np.arange(1, len(sections)+1)
sections.index.name = 'code_section'
sections.rename(columns={"code_NC2020": "nom_section", 
                           "libelles": "libelle_section"}, 
                     inplace=True)
sections["libelle_section"] = sections["libelle_section"].str.capitalize()

sections["libelle_short"] = sections["libelle_section"]
max_len = 40
sections.loc[sections["libelle_short"].str.len() > max_len, "libelle_short"] = sections["libelle_short"].str[:max_len] + "..."

In [24]:
sections

Unnamed: 0_level_0,nom_section,libelle_section,libelle_short
code_section,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,SECTION I,Animaux vivants et produits du règne animal,Animaux vivants et produits du règne ani...
1,SECTION II,Produits du règne végétal,Produits du règne végétal
2,SECTION III,Graisses et huiles animales ou végétales; prod...,Graisses et huiles animales ou végétales...
3,SECTION IV,Produits des industries alimentaires; boissons...,Produits des industries alimentaires; bo...
4,SECTION V,Produits minéraux,Produits minéraux
5,SECTION VI,Produits des industries chimiques ou des indus...,Produits des industries chimiques ou des...
6,SECTION VII,Matières plastiques et ouvrages en ces matière...,Matières plastiques et ouvrages en ces m...
7,SECTION VIII,"Peaux, cuirs, pelleteries et ouvrages en ces m...","Peaux, cuirs, pelleteries et ouvrages en..."
8,SECTION IX,"Bois, charbon de bois et ouvrages en bois; liè...","Bois, charbon de bois et ouvrages en boi..."
9,SECTION X,Pâtes de bois ou d'autres matières fibreuses c...,Pâtes de bois ou d'autres matières fibre...


In [70]:
sous_sections

Unnamed: 0,code_NC2020,libelles
2,0101,"Chevaux, ânes, mulets et bardots, vivants"
9,0102,Animaux vivants de l'espèce bovine
35,0103,Animaux vivants de l'espèce porcine
44,0104,Animaux vivants des espèces ovine ou caprine
52,0105,"Coqs, poules, canards, oies, dindons, dindes e..."
...,...,...
12265,9612,Rubans encreurs pour machines à écrire et ruba...
12271,9613,Briquets et allumeurs (à l'excl. des mèches et...
12279,9615,"Peignes à coiffer, peignes de coiffure, barret..."
12283,9616,"Vaporisateurs de toilette, leurs montures et t..."


In [75]:
sous_sections.set_index("code_NC2020", inplace=True, verify_integrity=True)
sous_sections.rename(columns={"libelles": "libelle_ss_section"}, 
                     inplace=True)
sous_sections.index.name = 'code_ss_section'

In [72]:
sous_sections

Unnamed: 0_level_0,libelle_ss_section
code_ss_section,Unnamed: 1_level_1
0101,"Chevaux, ânes, mulets et bardots, vivants"
0102,Animaux vivants de l'espèce bovine
0103,Animaux vivants de l'espèce porcine
0104,Animaux vivants des espèces ovine ou caprine
0105,"Coqs, poules, canards, oies, dindons, dindes e..."
...,...
9612,Rubans encreurs pour machines à écrire et ruba...
9613,Briquets et allumeurs (à l'excl. des mèches et...
9615,"Peignes à coiffer, peignes de coiffure, barret..."
9616,"Vaporisateurs de toilette, leurs montures et t..."


In [105]:
produit_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 9580 entries, 01012100 to 99992000
Data columns (total 6 columns):
 #   Column           Non-Null Count  Dtype 
---  ------           --------------  ----- 
 0   libelle_nc8      9580 non-null   object
 1   code_usup        9580 non-null   int64 
 2   nom_usup         2602 non-null   object
 3   code_A129        9298 non-null   object
 4   code_section     9471 non-null   object
 5   code_ss_section  0 non-null      object
dtypes: int64(1), object(5)
memory usage: 781.9+ KB


### ====== CREATION TABLE PRODUIT ======

In [76]:
produit_df

Unnamed: 0_level_0,libelle_nc8,code_usup,nom_usup,code_section,code_ss_section
code_NC8,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
01012100,Chevaux reproducteurs de race pure,1,Nombre de pièces,0,0101
01012910,Chevaux destinés à la boucherie,1,Nombre de pièces,0,0101
01012990,Chevaux vivants (à l'exclusion des chevaux rep...,1,Nombre de pièces,0,0101
01013000,"Ânes, vivants",1,Nombre de pièces,0,0101
01019000,"Mulets et bardots, vivants",1,Nombre de pièces,0,0101
...,...,...,...,...,...
99312700,Biens destinés à léquipage de linstallation ...,0,,,
99319900,Biens destinés à léquipage de linstallation ...,0,,,
99500000,Marchandises de faible valeurs dans les échang...,0,,,
99988000,Composants d'ensembles industriels non classés...,0,,,


In [25]:
# Peuplement des tables
sections.to_sql('sections', con=engine, if_exists='append')
sous_sections.to_sql('sous_sections', con=engine, if_exists='append')
produit_df.to_sql('produit', con=engine, if_exists='append')

21

In [236]:
Q1 = "SELECT * FROM sections where nom_section like 'SECTION_II'"
#query = "SELECT * FROM commerce_extérieur_2019.sous_sections;"
Q2 = "SELECT * FROM sous_sections JOIN produit USING(code_ss_section) where code_ss_section = '2712' "

cursor.execute(Q2)

res = cursor.fetchall()
for i in res:
    print(i)

('2712', "Vaseline; paraffine, cire de pétrole microcristalline, 'slack wax', ozokérite, cire de lignite, cire de tourbe, autres cires minérales et produits simil. obtenus par synthèse ou par d'autres procédés, même colorés", '27121010', 'Vaseline brute', 0, None, 'C19Z', 4)
('2712', "Vaseline; paraffine, cire de pétrole microcristalline, 'slack wax', ozokérite, cire de lignite, cire de tourbe, autres cires minérales et produits simil. obtenus par synthèse ou par d'autres procédés, même colorés", '27121090', 'Vaseline purifiée', 0, None, 'C19Z', 4)
('2712', "Vaseline; paraffine, cire de pétrole microcristalline, 'slack wax', ozokérite, cire de lignite, cire de tourbe, autres cires minérales et produits simil. obtenus par synthèse ou par d'autres procédés, même colorés", '27122010', "Paraffine synthétique contenant en poids < 0,75% d'huile et d'un poids moléculaire >= 460 mais <= 1560", 0, None, 'C19Z', 4)
('2712', "Vaseline; paraffine, cire de pétrole microcristalline, 'slack wax', ozo

In [10]:
connection.disconnect()

## ================= Table Pays ================= 

In [78]:
pays_df = pd.read_csv("National-2019-import/Libelle_PAYS.txt", sep=';',
                      names=["code_pays", "nom_pays", "a", "b"])
pays_df.drop_duplicates(["code_pays"], inplace=True)
pays_df.drop(["a", "b"], axis=1, inplace=True)
pays_df.dropna(subset="code_pays", how="all", inplace=True)
pays_df.reset_index(drop=True, inplace=True)

In [77]:
pays_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 285 entries, 0 to 284
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   code_pays  285 non-null    object
 1   nom_pays   285 non-null    object
dtypes: object(2)
memory usage: 4.6+ KB


In [79]:
infos_pays_df = pd.read_excel("pays_continents.xlsx")
infos_pays_df.drop(["Code numérique", "Capitale", "Pays indépendant ?", "Nationalité"],
                   axis=1, inplace=True)
infos_pays_df.rename(columns={"Code alpha-2": "code_pays",
                              "Nom français": "nom_pays",
                              "Continent": "continent",
                              "Code alpha-3": "code_iso3"},
                     inplace=True)
infos_pays_df.drop_duplicates(["code_pays"], inplace=True)
infos_pays_df.dropna(subset="code_pays", how="all", inplace=True)
infos_pays_df.reset_index(drop=True, inplace=True)

In [6]:
infos_pays_df

Unnamed: 0,code_pays,code_iso3,nom_pays,Nom anglais,continent
0,AF,AFG,Afghanistan,Afghanistan,Asie
1,ZA,ZAF,Afrique du Sud,South Africa,Afrique
2,AX,ALA,Åland (les Îles),Åland Islands,Europe
3,AL,ALB,Albanie,Albania,Europe
4,DZ,DZA,Algérie,Algeria,Afrique
...,...,...,...,...,...
243,VN,VNM,Viet Nam,Viet Nam,Asie
244,WF,WLF,Wallis-et-Futuna,Wallis and Futuna,Océanie
245,YE,YEM,Yémen,Yemen,Asie
246,ZM,ZMB,Zambie,Zambia,Afrique


In [80]:
idx_pays = pays_df.index[pays_df["code_pays"].isin(infos_pays_df["code_pays"])]
pays_df["continent"] = None
pays_df["code_iso3"] = None

for i, rows in pays_df.iloc[idx_pays].iterrows():
    idx = infos_pays_df[infos_pays_df["code_pays"] == rows["code_pays"]].index[0]
    pays_df.iloc[i, 2] = infos_pays_df.iloc[idx, 4]
    pays_df.iloc[i, 3] = infos_pays_df.iloc[idx, 1]

In [81]:
pays_df.set_index("code_pays", inplace=True, verify_integrity=True)

In [82]:
pays_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 285 entries, AD to ZW
Data columns (total 3 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   nom_pays   285 non-null    object
 1   continent  240 non-null    object
 2   code_iso3  240 non-null    object
dtypes: object(3)
memory usage: 8.9+ KB


In [83]:
pays_df.to_sql('pays', con=engine, if_exists='append')

285

## ================= Table zone économique ================= 

In [84]:
list_ze = ["UE", "ZE", "NEM", "OCDE", "ALENA", "ASEAN", "Mercosur"]
table_ze = {
    "UE": "Union européenne",
    "ZE": "Zone euro",
    "NEM": "Nouveaux États membres",
    "OCDE": "Organisation de coopération et de développement économiques",
    "ALENA": "Accord de libre-échange nord-américain",
    "ASEAN": "Association des nations de l'Asie du Sud-Est",
    "Mercosur": "Marché commun du Sud de l'Amérique",
}

In [85]:
ze_df = pd.DataFrame.from_dict(table_ze, orient='index')
ze_df.reset_index(inplace=True)
ze_df.columns = ["code_ze", "nom_ze"]
ze_df.index.name = 'id_ze'

In [6]:
ze_df

Unnamed: 0_level_0,code_ze,nom_ze
id_ze,Unnamed: 1_level_1,Unnamed: 2_level_1
0,UE,Union européenne
1,ZE,Zone euro
2,NEM,Nouveaux États membres
3,OCDE,Organisation de coopération et de développemen...
4,ALENA,Accord de libre-échange nord-américain
5,ASEAN,Association des nations de l'Asie du Sud-Est
6,Mercosur,Marché commun du Sud de l'Amérique


In [86]:
ze_df.to_sql('zone_economique', con=engine, if_exists='append')

7

In [87]:
with open("texte_zone_eco.txt", mode='r', encoding="utf-8") as f:
    with mmap.mmap(f.fileno(), length=0, access=mmap.ACCESS_READ) as mm:
        match = re.search((
            rf"\s*(?<=Union européenne)\s*(?P<{list_ze[0]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)" #\xc3\xa9\xc3\xa8
            rf"(?:Zone euro)\s*(?P<{list_ze[1]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)"
            rf"(?:Nouveaux États membres \(NEM\))\s*(?P<{list_ze[2]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)"
            rf"(?:OCDE)\s*(?P<{list_ze[3]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)"
            rf"(?:ALENA)\s*(?P<{list_ze[4]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)"
            rf"(?:ASEAN)\s*(?P<{list_ze[5]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)"
            rf"(?:Mercosur)\s*(?P<{list_ze[6]}>[-\w\xc3\x80-\xc3\xbc ,\(\)\s]+)"
            ).encode("utf-8"),
            mm)
        
        ze_dict = {}
        for ze in list_ze:
            ze_dict[ze] = re.findall(r"\((\w\w)\)", match[ze].decode("utf-8"))

In [88]:
ze_dict["UE"].append("FR")
ze_dict["ZE"].append("FR")
ze_dict["OCDE"].append("FR")
for code_pays in ze_dict["UE"][:13]:
        ze_dict["OCDE"].append(code_pays)

In [91]:
for code_ze, list_pays in ze_dict.items():
    for code_pays in list_pays:
        query = ("INSERT INTO ze_pays (code_pays, id_ze) VALUES (%s, %s)")
        values = (code_pays, int(ze_df[ze_df["code_ze"] == code_ze].index[0]))
        
        cursor.execute(query, values)
        connection.commit()

In [12]:
query = ("SELECT nom_pays, nom_ze FROM ze_pays JOIN zone_economique USING(id_ze)"
         "join pays using(code_pays) WHERE code_ze = 'OCDE'")

cursor.execute(query)

res = cursor.fetchall()
for i in res:
    print(i)

('Autriche', 'Organisation de coopération et de développement économiques')
('Australie', 'Organisation de coopération et de développement économiques')
('Belgique', 'Organisation de coopération et de développement économiques')
('Canada', 'Organisation de coopération et de développement économiques')
('Suisse', 'Organisation de coopération et de développement économiques')
('Chili', 'Organisation de coopération et de développement économiques')
('Colombie', 'Organisation de coopération et de développement économiques')
('Costa Rica', 'Organisation de coopération et de développement économiques')
('Tchèque (République)', 'Organisation de coopération et de développement économiques')
('Allemagne', 'Organisation de coopération et de développement économiques')
('Danemark', 'Organisation de coopération et de développement économiques')
('Estonie', 'Organisation de coopération et de développement économiques')
('Espagne', 'Organisation de coopération et de développement économiques')
('Fin

In [92]:
connection.disconnect()

## ================= Table TRANSACTION =================

In [34]:
def clean_trans(transaction_df):
    transaction_df.index.name = "id_transaction"
    transaction_df.rename(columns={"année": "annee"}, inplace=True)
    transaction_df.drop(["CPF6", "code_A129","code_usup"], axis=1, inplace=True)
    transaction_df.dropna(subset="code_pays", how="all", inplace=True)
    transaction_df.drop(transaction_df[transaction_df["flux"].str.len() > 1].index, inplace=True)

In [35]:
clean_trans(transaction_e_df)
clean_trans(transaction_i_df)

In [16]:
transaction_i_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1663587 entries, 0 to 1687752
Data columns (total 7 columns):
 #   Column     Non-Null Count    Dtype 
---  ------     --------------    ----- 
 0   flux       1663587 non-null  object
 1   mois       1663587 non-null  object
 2   annee      1663587 non-null  object
 3   code_NC8   1663587 non-null  object
 4   code_pays  1663587 non-null  object
 5   valeur     1663587 non-null  object
 6   masse      1663587 non-null  object
dtypes: object(7)
memory usage: 101.5+ MB


In [96]:
transaction_e_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 2627045 entries, 0 to 2627611
Data columns (total 7 columns):
 #   Column     Dtype 
---  ------     ----- 
 0   flux       object
 1   mois       object
 2   annee      object
 3   code_NC8   object
 4   code_pays  object
 5   valeur     object
 6   masse      object
dtypes: object(7)
memory usage: 160.3+ MB


In [17]:
transaction_i_df.isnull().sum()

flux         0
mois         0
annee        0
code_NC8     0
code_pays    0
valeur       0
masse        0
dtype: int64

In [98]:
transaction_e_df.isnull().sum()

flux         0
mois         0
annee        0
code_NC8     0
code_pays    0
valeur       0
masse        0
dtype: int64

In [36]:
transaction_i_df[:200_000].to_sql('transaction', con=engine, if_exists='append')

200000

In [37]:
transaction_e_df[:200_000].to_sql('transaction', con=engine, if_exists='append')

IntegrityError: (pymysql.err.IntegrityError) (1062, "Duplicate entry '0' for key 'transaction.PRIMARY'")
[SQL: INSERT INTO transaction (id_transaction, flux, mois, annee, `code_NC8`, code_pays, valeur, masse) VALUES (%(id_transaction)s, %(flux)s, %(mois)s, %(annee)s, %(code_NC8)s, %(code_pays)s, %(valeur)s, %(masse)s)]
[parameters: ({'id_transaction': 0, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'BE', 'valeur': 338975.0, 'masse': 1557951.0}, {'id_transaction': 1, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'DE', 'valeur': 19.0, 'masse': 24.0}, {'id_transaction': 2, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'ES', 'valeur': 1001.0, 'masse': 2567.0}, {'id_transaction': 3, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'HU', 'valeur': 233.0, 'masse': 597.0}, {'id_transaction': 4, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'IT', 'valeur': 73656.0, 'masse': 212060.0}, {'id_transaction': 5, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'LU', 'valeur': 190461.0, 'masse': 866000.0}, {'id_transaction': 6, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011100', 'code_pays': 'PT', 'valeur': 28.0, 'masse': 72.0}, {'id_transaction': 7, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '10011900', 'code_pays': 'BE', 'valeur': 2175398.0, 'masse': 10177965.0}  ... displaying 10 of 200000 total bound parameter sets ...  {'id_transaction': 203001, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '84211920', 'code_pays': 'IN', 'valeur': 10910.0, 'masse': 84.0}, {'id_transaction': 203002, 'flux': 'E', 'mois': 1, 'annee': 2019, 'code_NC8': '84211920', 'code_pays': 'IT', 'valeur': 17241.0, 'masse': 159.0})]
(Background on this error at: https://sqlalche.me/e/14/gkpj)

In [55]:
transaction_df = pd.concat(
    [transaction_i_df[:200_000], transaction_e_df[:200_000]],
    ignore_index=True,
    verify_integrity=True
)
transaction_df.index.name = "id_transaction"

In [56]:
transaction_df

Unnamed: 0_level_0,flux,mois,annee,code_NC8,code_pays,valeur,masse
id_transaction,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
0,I,1,2019,10011100,AU,1572.0,9.0
1,I,1,2019,10011100,BE,2730.0,8700.0
2,I,1,2019,10011100,DE,4179.0,2790.0
3,I,1,2019,10011100,ES,11768.0,21150.0
4,I,1,2019,10011100,IT,114961.0,222820.0
...,...,...,...,...,...,...,...
399995,E,1,2019,84211920,GR,6375.0,75.0
399996,E,1,2019,84211920,HR,4300.0,30.0
399997,E,1,2019,84211920,HU,5459.0,1.0
399998,E,1,2019,84211920,IN,10910.0,84.0


In [57]:
transaction_df.to_sql('transaction', con=engine, if_exists='append')

400000

In [268]:
query = ("SELECT nom_pays, continent, sum(valeur)  FROM echange JOIN pays USING(code_pays) JOIN produit USING(code_NC8)"
"JOIN sous_sections USING(code_ss_section) where nom_pays = 'Algérie';")

cursor.execute(query)

res = cursor.fetchall()
print(res)

[(None, None, None)]
