# Dépôts de brevets et marchés financiers : décrypter la valeur de l'innovation française par la Classification Internationale (CIB) 2017-2024
### Projet Python - ENSAE 2A
Manon Vallat, Clément Hadji, Iris Lafaille - Sous la direction de Romain Avouac

<a id="intro"></a>
## Introduction

### L'Innovation comme Boussole de la Valeur

À l'ère de l'économie de la connaissance, la capacité d’une entreprise à innover ne constitue plus seulement un avantage compétitif, mais la condition même de sa survie et de sa valorisation sur les marchés financiers. Ce projet de recherche se propose d'explorer la corrélation entre l'effort de recherche amont, matérialisé par les dépôts de brevets français, et la dynamique boursière des entreprises sur une période charnière allant de 2017 à 2024. Tandis que la plupart des analyses se concentrent sur les brevets déjà accordés, cette étude fait le choix stratégique de se focaliser sur les dépôts. Ce parti pris permet de capter le signal technologique à sa source, offrant une fenêtre inédite sur les intentions stratégiques des entreprises bien avant que leurs innovations ne se traduisent en produits commerciaux ou en rapports annuels.

Le cadre général de l'étude s'appuie sur la Classification Internationale des Brevets (CIB) pour dépasser les segmentations sectorielles traditionnelles, souvent trop rigides. En utilisant la CIB comme pivot, nous réorganisons le paysage économique français en fonction de la réalité technologique des entreprises, permettant ainsi d'identifier des mutations sectorielles "surprenantes" — par exemple, le pivot massif d'acteurs de l'énergie vers les technologies décarbonées ou l'intégration de l'IA dans l'industrie manufacturière. L'objectif central est de démontrer que le flux de dépôts, loin d'être une simple formalité administrative, agit comme un puissant réducteur d'asymétrie d'information pour les investisseurs.

Ce projet combine ainsi l'intelligence économique et l'analyse de données financières pour répondre à une problématique fondamentale : dans quelle mesure la densité et la nature des dépôts de brevets constituent-elles un prédicteur fiable de la performance boursière et de la trajectoire stratégique des entreprises françaises ? À travers une méthodologie rigoureuse croisant les données de l'INPI et les historiques de cours d'Euronext, nous ambitionnons de transformer l'information brevet en un véritable indicateur de pilotage et d'anticipation de la valeur de marché.

### Revue de la littérature et cadre de recherche 
L’analyse des dépôts de brevets comme indicateurs de la performance économique s’inscrit à l’intersection de l’intelligence stratégique et de la finance de marché. Contrairement aux brevets accordés, les dépôts (demandes de brevets) constituent des « signaux précoces » (early signals) de l’intention technologique d’une organisation. Dans cette perspective, Beaugency, Gatti et Regis (2012) démontrent que le brevet dépasse sa fonction strictement juridique pour devenir un outil de compréhension et d’anticipation. Dans le secteur de l’avionique, ils illustrent comment l’analyse des flux de dépôts permet de cartographier les trajectoires technologiques avant même que les produits ne soient commercialisés. Cette capacité d’anticipation est cruciale pour la période 2017-2024, marquée par une accélération des cycles d'innovation et une instabilité des marchés financiers.

Le cadre méthodologique de cette étude repose sur l'exploitation de la Classification Internationale des Brevets (CIB). Ce système hiérarchique permet de traduire un effort de recherche brut en une structure de données organisée, indépendante de la langue. Comme le soulignent Dou et Leveillé (2015), la CIB est un vecteur de créativité et de développement technologique : elle permet d’identifier comment les entreprises pivotent vers des solutions durables ou des domaines de rupture. L'utilisation de la CIB permet ici de segmenter l'activité d'innovation des entreprises françaises avec une granularité fine, isolant les secteurs dont l'évolution technologique est la plus "surprenante" par rapport aux standards industriels classiques.

Le lien entre ces dépôts et la « côte » boursière des entreprises s'articule autour de la théorie du signal et de la valorisation des actifs immatériels. Sur le marché financier français, particulièrement entre 2017 et 2024, le dépôt de brevet agit comme un réducteur d'asymétrie d'information. Il informe l'investisseur sur la vitalité de la R&D et la capacité de l'entreprise à générer des rentes de monopole futures. L'originalité de la présente recherche consiste à mettre en corrélation la densité des dépôts dans des classes CIB spécifiques avec l'évolution des cours de bourse, postulant que les secteurs en mutation technologique rapide (santé, transition énergétique, numérique) présentent une sensibilité boursière accrue aux flux de dépôts. Ce cadre permet ainsi de vérifier si la stratégie de propriété industrielle, lue à travers la CIB, constitue un prédicteur fiable de la confiance des marchés et de la valeur actionnariale sur le long terme.

## Sommaire
- [Installation](#installation)
- [Préparation des données](#préparation)
  - [Demandes de brevet](#brevets)
    - [Importation](#import_brevets)
    - [Première sélection de variables](#selec_brevets)
    - [Valeurs manquantes et incohérences](#nan_brevets)
    - [Constitution finale de la base](#base_brevets)
  - [Cours des actions](#actions)
- [Analyse descriptive](#statdesc)
- [Modélisation](#modélisation)
- [Conclusion et perspectives](#conclusion)


<a id='installation'></a>
## Installation

In [None]:
!pip install -r requirements.txt

# Modules
import pandas as pd
import s3fs
import matplotlib.pyplot as plt

# Fonctions
from scripts.importation import process_all_years_s3
from scripts.stats_des import plot_top_classifications
from scripts.stats_des import plot_evolution_classification
from scripts.stats_des import plot_part_classification_par_annee




<a id="preparation"></a>
## Préparation des données

<a id='brevets'></a>
### 1. Demandes de brevet

<a id='import_brevets'></a>
#### a) Importation

<a id='selec_brevets'></a>
#### b) Première sélection de variables pertinentes

<a id='nan_brevets'></a>
#### c) Gestion des NA et des incohérences

<a id='base_brevets'></a>
#### d) Constitution finale de la base

[...]



Les données sont localisées dans des fichiers XML, chaque fichier correspondant à une demande de brevets. Ces fichiers sont directement téléchargeables depuis le serveur FTP de l'INPI, accessible via FileZilla.

Pour rendre notre projet reproductible au maximum, bien que les données ne puissent pas être directement téléchargées par un utilisateur non autorisé par l'INPI, nous avons stocké les fichiers .zip tels que nous les avons initialement téléchargés dans le bucket diffusion de l'un de nous. 

Concernant leur format, ces fichiers compressés contiennent chacun les informations sur toutes les demandes de brevets déposés auprès de l'INPI chaque semaine. Il y a donc 52 dossiers par année, un pour chaque semaine. Dans ces dossiers, se trouvent des informations dont nous n'avons pas besoin (ex: des schémas d'invention). Nous n'utiliserons que les données présentes dans des fichiers XML, chacun de ces fichiers contenant de nombreuses informations sur une demande de brevet déposée dans la semaine concernée.

Le code suivant se charge de décompresser ces fichiers, d'identifier les fichiers XML au sein de leurs arborescences et d'en extraire toutes les informations.

In [21]:
# Connexion au bucket S3
fs = s3fs.S3FileSystem(client_kwargs={"endpoint_url": "https://minio.lab.sspcloud.fr"})

ROOT_S3_PATH = "mvallat/diffusion/projet"

In [None]:
# NB : ce code tourne +7min
data_brevets = process_all_years_s3(fs, ROOT_S3_PATH)
data_brevets.head(2)

In [None]:
# Exportation bucket S3
MY_BUCKET = "mvallat/diffusion"
FILE_PATH_OUT_S3 = f"{MY_BUCKET}/projet/data_brevets.parquet"

with fs.open(FILE_PATH_OUT_S3, 'wb') as file_out:
    data_brevets.to_parquet(file_out)

Notre base de données est maintenant stockée dans une bucket diffusion sur le ssp cloud, ce qui nous permet de ne pas avoir à repartir des fichiers compressés initiaux. 

**Pour importer directement les données sans passer par les étapes précédentes, on pourra utiliser le code suivant :**

In [None]:
from scripts.importation import process_all_years_s3
import s3fs
import pandas as pd

# Connexion au bucket S3
fs = s3fs.S3FileSystem(client_kwargs={"endpoint_url": "https://minio.lab.sspcloud.fr"})

ROOT_S3_PATH = "mvallat/diffusion/projet"

# Importation bucket S3
MY_BUCKET = "mvallat/diffusion"
FILE_PATH_S3 = f"{MY_BUCKET}/projet/data_brevets.parquet"

with fs.open(FILE_PATH_S3, 'rb') as file_in:
    data_brevets = pd.read_parquet(file_in)

data_brevets.head(10)

Unnamed: 0,doc-number,kind,country,status,publication_country,publication_doc-number,publication_date,publication_bopinum,publication_nature,invention-title,...,citation_3_country,citation_3_doc-number,citation_3_date,year,application_country,application_doc-number,application_date,last-fee-payement,next-fee-payement,date-search-completed
0,3038352,A1,FR,PUBDEM,FR,3038352,20170106,2017-01,Brevet,ENSEMBLE POUR PANNEAU DE PORTE ET PANNEAU ASSOCIE,...,,,,2017,,,,,,
1,3038278,A1,FR,PUBDEM,FR,3038278,20170106,2017-01,Brevet,VEHICULE HYBRIDE COMPRENANT UNE SUPPRESSION DE...,...,,,,2017,,,,,,
2,3038409,A1,FR,PUBDEM,FR,3038409,20170106,2017-01,Brevet,PROCEDE DE CONCEPTION ASSISTEE PAR ORDINATEUR ...,...,,,,2017,,,,,,
3,3038425,A1,FR,PUBDEM,FR,3038425,20170106,2017-01,Brevet,DOCUMENT ELECTRONIQUE TEL QU'UNE CARTE A PUCE ...,...,,,,2017,,,,,,
4,3038316,A1,FR,PUBDEM,FR,3038316,20170106,2017-01,Brevet,PROCEDE DE SYNTHESE EN CONTINU D'UN ELASTOMERE...,...,,,,2017,,,,,,
5,3038399,A1,FR,PUBDEM,FR,3038399,20170106,2017-01,Brevet,PROCEDE ET DISPOSITIF DE COMMANDE D'UNE CONSIG...,...,,,,2017,,,,,,
6,3038381,A1,FR,PUBDEM,FR,3038381,20170106,2017-01,Brevet,DISPOSITIF CAPTEUR PREVU POUR ETRE EMBARQUE DE...,...,,,,2017,,,,,,
7,3038328,A1,FR,PUBDEM,FR,3038328,20170106,2017-01,Brevet,VEHICULE FERROVIAIRE POUR LE NETTOYAGE DES FIL...,...,,,,2017,,,,,,
8,3038251,A1,FR,PUBDEM,FR,3038251,20170106,2017-01,Brevet,PLANCHER PVC EN FIBRES COUPEES ET PROCEDE DE F...,...,,,,2017,,,,,,
9,3038374,A1,FR,PUBDEM,FR,3038374,20170106,2017-01,Brevet,INSTALLATION THERMIQUE DE SECHAGE DE MATIERE P...,...,,,,2017,,,,,,


<a id='actions'></a>
### 2. Actions

<a id='statdesc'></a>
## Analyses descriptives

<a id='modélisation'></a>
## Modélisation

<a id='conclusion'></a>
## Conclusion et perspectives