## Intégrer Refashion depuis l'api pointsapport :

- Récupérer les données-eo-refashion depuis l'api pointsapport.
- Créer et mapper les données vers les tables Acteurs, Proposition de Services et Sous-catégories.
- Enregistrer chaque table dans un fichier CSV.

In [1]:
from sqlalchemy import create_engine
user = 
password = 
host =
port = '33517'  # default PostgreSQL port is 5432
db_name = 'quefairedem_2657'

# Create the connection URL
connection_string = f'postgresql://{user}:{password}@{host}:{port}/{db_name}'

# Create the engine
engine = create_engine(connection_string)

In [120]:
engine

Engine(postgresql://quefairedem_2657:***@quefairedem-2657.postgresql.a.osc-fr1.scalingo-dbs.com:33517/quefairedem_2657)

## Get data from point apport 

In [100]:
import requests
import pandas as pd


def fetch_all_data(url):
    all_data = []
    while url:
        response = requests.get(url)
        if response.status_code == 200:
            data = response.json()
            all_data.extend(data['results'])
            # Check if there's a next page link
            url = data.get('next', None)
            print(url)
        else:
            print(f"Failed to fetch data: {response.status_code}")
            break
    return all_data

api_url = "https://data.pointsapport.ademe.fr/data-fair/api/v1/datasets/donnees-eo-refashion/lines?size=10000"

data = fetch_all_data(api_url)

df = pd.DataFrame(data)



https://data.pointsapport.ademe.fr/data-fair/api/v1/datasets/zkt20z09p8jl6oix18a5kcte/lines?size=10000&after=1709624636413%2C403043131916
https://data.pointsapport.ademe.fr/data-fair/api/v1/datasets/zkt20z09p8jl6oix18a5kcte/lines?size=10000&after=1709624630377%2C403037095926
https://data.pointsapport.ademe.fr/data-fair/api/v1/datasets/zkt20z09p8jl6oix18a5kcte/lines?size=10000&after=1709624624501%2C403031219936
None


In [3]:
df_acteurtype = pd.read_sql_table('qfdmo_acteurtype', engine)
df_sources = pd.read_sql_table('qfdmo_source', engine)
df_da = pd.read_sql_table('qfdmo_displayedacteur', engine)
df_ps = pd.read_sql_table('qfdmo_propositionservice', engine)
df_ps['id'].max()
df_pssc = pd.read_sql_table('qfdmo_propositionservice_sous_categories', engine)
df_action = pd.read_sql_table('qfdmo_action', engine)
df_ac = pd.read_sql_table('qfdmo_acteur', engine)


  self.meta.reflect(bind=self.con, only=[table_name], views=True)
  self.meta.reflect(bind=self.con, only=[table_name], views=True)
  self.meta.reflect(bind=self.con, only=[table_name], views=True)


In [120]:
df_ac = pd.read_sql_table('qfdmo_acteur', engine)


  self.meta.reflect(bind=self.con, only=[table_name], views=True)


### Mappers

In [6]:
column_mapping = {
    'id_point_apport_ou_reparation': 'identifiant_externe',
    'adresse_complement': 'adresse_complement',
    'type_de_point_de_collecte': 'acteur_type_id',
    'telephone': 'telephone',
    'siret': 'siret',
    'uniquement_sur_rdv': '',
    'exclusivite_de_reprisereparation': '',
    'filiere': '',
    'public_accueilli': '',
    'produitsdechets_acceptes': '',
    'labels_etou_bonus': '',
    'reprise': '',
    'point_de_reparation': '',
    'ecoorganisme': 'source_id',
    'adresse_format_ban': 'adresse',
    'nom_de_lorganisme': 'nom',
    'enseigne_commerciale':'nom_commercial',
    '_updatedAt':'cree_le',
    'site_web': 'url',
    'email': 'email',
    'perimetre_dintervention': '',
    'longitudewgs84': 'location',  
    'latitudewgs84': 'location',  
    'horaires_douverture': 'horaires',
    'consignes_dacces': 'commentaires',
}


# Print the dictionary for visual confirmation
print(column_mapping)

{'id_point_apport_ou_reparation': 'identifiant_externe', 'adresse_complement': 'adresse_complement', 'type_de_point_de_collecte': 'acteur_type_id', 'telephone': 'telephone', 'siret': 'siret', 'uniquement_sur_rdv': '', 'exclusivite_de_reprisereparation': '', 'filiere': '', 'public_accueilli': '', 'produitsdechets_acceptes': '', 'labels_etou_bonus': '', 'reprise': '', 'point_de_reparation': '', 'ecoorganisme': 'source_id', 'adresse_format_ban': 'adresse', 'nom_de_lorganisme': 'nom', 'enseigne_commerciale': 'nom_commercial', '_updatedAt': 'cree_le', 'site_web': 'url', 'email': 'email', 'perimetre_dintervention': '', 'longitudewgs84': 'location', 'latitudewgs84': 'location', 'horaires_douverture': 'horaires', 'consignes_dacces': 'commentaires'}


### Transformations

#### Create Actors

In [153]:
from shapely.geometry import Point
from shapely import wkb
import re
import hashlib


selected_columns = ['nom', 'adresse']

def generate_unique_id(row):
    max_length = 14
    unique_str = '_'.join([str(row[col]) for col in selected_columns])
    return str(row['nom'].replace(' ','_').lower())+'_'+hashlib.sha256(unique_str.encode()).hexdigest()
def transform_acteur_type_id(value):
    mapping_dict = {
        "Solution en ligne (site web, app. mobile)": "en ligne (web, mobile)",
        "Artisan, commerce indépendant": "artisan, commerce indépendant",
        "Magasin / Franchise, Enseigne commerciale / Distributeur / Point de vente": "commerce",
        "Point d'Apport Volontaire Publique": "point d'apport volontaire public",
        "Association, entreprise de l’économie sociale et solidaire (ESS)": "Association, entreprise de l'ESS",
        "Déchèterie": "déchèterie",
    }
    nom_affiche = mapping_dict.get(value)
    id_value = df_acteurtype.loc[df_acteurtype['nom_affiche'] == nom_affiche, 'id'].values[0] if any(df_acteurtype['nom_affiche'] == nom_affiche) else None
    return id_value



def transform_location(longitude, latitude):
    point = Point(longitude, latitude)
    
    transformed_location_binary = wkb.dumps(point)
    transformed_location_hex = transformed_location_binary.hex()

    return transformed_location_hex

def transform_ecoorganisme(value):
    
    id_value = df_sources.loc[df_sources['nom'].str.lower() == value.lower(), 'id'].values[0] if any(df_sources['nom'].str.lower() == value.lower()) else None
    return id_value

def extract_details(row):
    pattern = re.compile(r'\b(\d{5})\s+(.*)')
    
    address = None
    postal_code = None
    city = None
    if pd.isnull(row['adresse_format_ban']):
        return pd.Series([None, None, None])

    # Ensure adress_ban is treated as a string
    adress_ban = str(row['adresse_format_ban'])
    
    # Search for the pattern
    match = pattern.search(adress_ban)
    if match:
        postal_code = match.group(1)
        city = match.group(2)
        address = adress_ban[:match.start()].strip()
    
    return pd.Series([address, postal_code, city])

# Apply the function and assign the result to new columns
for old_col, new_col in column_mapping.items():
    if new_col: 
        if old_col == 'type_de_point_de_collecte':
            df[new_col] = df[old_col].apply(transform_acteur_type_id)
        elif old_col in ('longitudewgs84', 'latitudewgs84'):
            df['location'] = df.apply(lambda row: transform_location(row['longitudewgs84'], row['latitudewgs84']), axis=1)
        elif old_col == 'ecoorganisme':
            df[new_col] = df[old_col].apply(transform_ecoorganisme)
        elif old_col == 'adresse_format_ban':
            df[['adresse', 'code_postal', 'ville']] = df.apply(extract_details, axis=1)
        else:
            df[new_col] = df[old_col]
df['label_reparacteur']=False
df['multi_base']=False


df['identifiant_unique'] = df.apply(generate_unique_id, axis=1)
            


In [117]:
df['manuel']=False
df['statut']='ACTIF'
df['modifie_le'] = df['cree_le']
df['siret'] = df['siret'].astype(str).apply(lambda x : x[:14])
#81891823700020
df['telephone'] = df['telephone'].dropna().apply(lambda x: x.replace(' ', ''))  
df['telephone'] = df['telephone'].dropna().apply(lambda x: '0' + x[2:] if x.startswith('33') else x)  

#### Create Proposition de services

In [9]:
rows_list = []

for index, row in df.iterrows():
    acteur_id = row['identifiant_unique']
    action_id = None
    sous_categories = row['produitsdechets_acceptes']
    if row['point_dapport_de_service_reparation']:
        acteur_service_id = 17
        action_id = 1
    elif row['point_dapport_pour_reemploi']:
        acteur_service_id = 4
        action_id = 4
    elif row['point_de_reparation']:
        acteur_service_id = 15
        action_id = 1
    elif row['point_de_collecte_ou_de_reprise_des_dechets']:
        acteur_service_id = 4
        action_id = 11
    else:
        continue  # Skip rows that don't match any criteria
    
    rows_list.append({"acteur_service_id": acteur_service_id, "action_id": action_id, "acteur_id": acteur_id, "sous_categories":sous_categories})

df_pds = pd.DataFrame(rows_list)
df_pds.index = range(659225, 659225 + len(df_pds))

df_pds['id'] = df_pds.index


#### Create sous categories

In [10]:
rows_list=[]
sous_categories = { 
    "Vêtement" : 107,
    "Linge" : 104,
    "Chaussure":109
}
for index, row in df_pds.iterrows():
    products = str(row["sous_categories"]).split("|")
    for product in products:
        if product.strip() in sous_categories:
            rows_list.append({
                'propositionservice_id': row['id'], 
                'souscategorieobjet_id': sous_categories[product.strip()]
            })

df_sous_categories = pd.DataFrame(rows_list, columns=['propositionservice_id', 'souscategorieobjet_id'])

df_sous_categories

Unnamed: 0,propositionservice_id,souscategorieobjet_id
0,659225,109
1,659226,107
2,659227,107
3,659228,107
4,659229,107
...,...,...
105997,695164,104
105998,695164,109
105999,695165,107
106000,695165,104


In [118]:
df[['identifiant_unique','acteur_type_id',
'adresse',
    'code_postal', 'ville',
 'adresse_complement',
 'commentaires',
 'email',
 'horaires',
 'identifiant_externe',
 'label_reparacteur',
 'location',
 'nom_commercial',
 'nom',
 'siret',
 'source_id',
 'telephone',
 'url']].to_csv('refashion_actors.csv')


  self.meta.reflect(bind=self.con, only=[table_name], views=True)


In [133]:
dap = pd.read_sql('qfdmo_acteur',engine)
dap[dap['identifiant_unique']=='f9ac8c1cf63b0d1a82f3340710756e3fefc178dff43a80a3f0ddbc16c5de7afa']

Unnamed: 0,nom,identifiant_unique,adresse,adresse_complement,code_postal,ville,url,email,location,telephone,...,identifiant_externe,acteur_type_id,statut,source_id,cree_le,modifie_le,naf_principal,commentaires,horaires,description


In [142]:
dap.columns

Index(['nom', 'identifiant_unique', 'adresse', 'adresse_complement',
       'code_postal', 'ville', 'url', 'email', 'location', 'telephone',
       'multi_base', 'nom_commercial', 'nom_officiel', 'manuel',
       'label_reparacteur', 'siret', 'identifiant_externe', 'acteur_type_id',
       'statut', 'source_id', 'cree_le', 'modifie_le', 'naf_principal',
       'commentaires', 'horaires', 'description'],
      dtype='object')

In [165]:
from sqlalchemy.orm import sessionmaker
from sqlalchemy.exc import SQLAlchemyError

Session = sessionmaker(bind=engine)
session = Session()
ids = ['']
try:
    # Utilisation de la session pour envoyer le DataFrame à la base de données
    df[~df['identifiant_unique'].isin(ids)][[
        'identifiant_unique',
        'acteur_type_id',
        'adresse',
        'code_postal', 'ville',
        'adresse_complement',
        'commentaires',
        'email',
        'horaires',
        'identifiant_externe',
        'label_reparacteur',
        'nom_commercial',
        'nom',
        'cree_le',
        'modifie_le',
        'multi_base',
        'manuel',
        'statut',
        'siret',
        'source_id',
        'telephone',
        'url'
    ]].to_sql("qfdmo_acteur", con=session.bind, if_exists='append', index=False, method='multi', chunksize=1000)
    
    # Validation (commit) de la transaction
    session.commit()
except SQLAlchemyError as e:
    # En cas d'erreur, annulation (rollback) de la transaction
    session.rollback()
    print(f"Une erreur est survenue: {e}")
finally:
    # Fermeture de la session
    session.close()

Une erreur est survenue: (psycopg2.errors.UniqueViolation) duplicate key value violates unique constraint "qfdmo_acteur_identifiant_unique_2558d76a_pk"
DETAIL:  Key (identifiant_unique)=(ggd_generale_groupe_de_distribution_d2fb2faeef60b246260d92687869a287354bf45a9463899d357e666a2a2c727c) already exists.

[SQL: INSERT INTO qfdmo_acteur (identifiant_unique, acteur_type_id, adresse, code_postal, ville, adresse_complement, commentaires, email, horaires, identifiant_externe, label_reparacteur, nom_commercial, nom, cree_le, modifie_le, multi_base, manuel, statut, siret, source_id, telephone, url) VALUES (%(identifiant_unique_m0)s, %(acteur_type_id_m0)s, %(adresse_m0)s, %(code_postal_m0)s, %(ville_m0)s, %(adresse_complement_m0)s, %(commentaires_m0)s, %(email_m0)s, %(horaires_m0)s, %(identifiant_externe_m0)s, %(label_reparacteur_m0)s, %(nom_commercial_m0)s, %(nom_m0)s, %(cree_le_m0)s, %(modifie_le_m0)s, %(multi_base_m0)s, %(manuel_m0)s, %(statut_m0)s, %(siret_m0)s, %(source_id_m0)s, %(telephon

In [143]:
engine

Engine(postgresql://quefairedem_2657:***@quefairedem-2657.postgresql.a.osc-fr1.scalingo-dbs.com:33517/quefairedem_2657)

In [122]:
df_pds[['acteur_service_id','action_id','acteur_id','id']].to_csv('refashion_propositionservice.csv')
df_pds[['acteur_service_id','action_id','acteur_id']].to_sql("qfdmo_propositionservice_temp",engine, if_exists='append',index=False,method='multi',chunksize=1000)

35941

In [124]:
df_sous_categories[['propositionservice_id','souscategorieobjet_id']].to_csv('refashion_sous_categories.csv')
df_sous_categories[['propositionservice_id','souscategorieobjet_id']].to_sql('refashion_sous_categories',engine)

2

In [127]:
pd.read_sql('qfdmo_propositionservice_temp',engine)

Unnamed: 0,acteur_service_id,action_id,acteur_id
0,17,1,e465102448bf0c78d781b42e24a39147c70637a6353d49...
1,15,1,326753b39157d39ab2f167f83c122c6724d4227a87386b...
2,15,1,2d1bf4ad9a192d83ec5b955e900ee295e439c079ebe00f...
3,15,1,b9e83badddaa433a33777cef82b03b2c7a1bdb2b459d36...
4,15,1,e2bbb13f39cb12b2deba672ce7d05cd93ef1d6825dde16...
...,...,...,...
35936,4,11,042c99b0e3171bb06ef0f8d8c96b148b301d442c5b7a3e...
35937,4,11,7f83dc5b1971d785a9c9e708cdf47a4936481bb44677ca...
35938,4,11,3253f6a7aa69ae16d8f3c6f8b8bea599f5633e98191987...
35939,4,11,a3bf071038b6939bdd5aebcfca44143dadc99eae72a8ae...
