# INSEE Data Analysis

This notebook is set up for analyzing INSEE (Institut National de la Statistique et des Études Économiques) data.

## Getting Started
- Run the cells below to import the necessary libraries
- Load your INSEE data and begin analysis

In [2]:
# Import essential libraries for data analysis
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Set up plotting
plt.style.use('default')
sns.set_palette('husl')

print("Libraries imported successfully!")

Libraries imported successfully!


In [3]:
# Configuration and settings
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Display versions
print(f"pandas version: {pd.__version__}")
print(f"numpy version: {np.__version__}")

pandas version: 2.3.2
numpy version: 2.3.3


## Data Loading

Use the cell below to load your INSEE data:

In [4]:
# Load your INSEE data here
# Example:
face_raw = pd.read_csv('data/face_raw_salesforce_ready.csv')
face_raw.head()

Unnamed: 0,Organisation_Original,Taille_Original,SIREN,Denomination_INSEE,Effectifs_Salesforce,Effectifs_Description,Confiance_Donnee,Statut_Revision,Match_Score,Notes_Revision,Annee_Effectifs,Categorie_Entreprise_INSEE,SIRET,Date_Creation,Activite_Principale,Etat_Administratif,Nb_Etablissements,Statut_Recherche,Date_Recherche
0,Abylsen,ETI,479973521.0,ABYLSEN,,Non renseigné,low,MISSING_EFFECTIFS,90,⚠️ Trouvée mais effectifs non renseignés - rec...,,ETI,47997350000000.0,2004-12-07,71.12B,A,3.0,Trouvé,2025-09-14T23:49:43.578937
1,AdatechSchool,PME,,,,,low,NOT_FOUND,40,❌ Entreprise non trouvée dans INSEE - vérifier...,,,,,,,,Non trouvé,2025-09-14T23:49:46.772276
2,ADECCO,PME,343009866.0,ADECCO TRAINING,150.0,100 à 199 salariés,high,CONFIRMED,100,✅ Données cohérentes et fiables,2022.0,GE,34300990000000.0,1987-10-05,85.59A,A,3.0,Trouvé,2025-09-14T23:49:49.897988
3,Adobe,PME,949079610.0,ADOBE,,Non renseigné,low,MISSING_EFFECTIFS,90,⚠️ Trouvée mais effectifs non renseignés - rec...,,,94907960000000.0,2023-01-19,68.20B,A,3.0,Trouvé,2025-09-14T23:49:53.042618
4,ADP Groupe,GE,,,,,low,NOT_FOUND,40,❌ Entreprise non trouvée dans INSEE - vérifier...,,,,,,,,Non trouvé,2025-09-14T23:49:56.234226


In [16]:
# Load your INSEE data here
# Example:
demo = pd.read_csv('data/demo_10_optimized_salesforce_ready.csv')
demo.tail(150)

Unnamed: 0,Organisation_Original,Taille_Original,Effectifs_Salesforce,Effectifs_Description,Confiance_Donnee,Statut_Revision,Match_Score,Notes_Revision,Statut_Recherche
0,3M FRANCE,ETI,750,500 à 999 salariés,medium,TO_REVIEW,40,📊 Tranche moyenne - bonne estimation,TO_REVIEW
1,3M FRANCE,GE,750,500 à 999 salariés,medium,TO_REVIEW,40,📊 Tranche moyenne - bonne estimation,TO_REVIEW
2,3M FRANCE,GE,750,500 à 999 salariés,medium,TO_REVIEW,40,📊 Tranche moyenne - bonne estimation,TO_REVIEW
3,3M FRANCE,GE,750,500 à 999 salariés,medium,TO_REVIEW,40,📊 Tranche moyenne - bonne estimation,TO_REVIEW
4,A.T.S. LASER,MICRO,150,100 à 199 salariés,high,TO_REVIEW,40,Aucune note,TO_REVIEW
5,AB7 SANTE,PME,150,100 à 199 salariés,high,TO_REVIEW,40,Aucune note,TO_REVIEW
6,AB7 SANTE,PME,150,100 à 199 salariés,high,TO_REVIEW,40,Aucune note,TO_REVIEW
7,ABAX INDUSTRIES,PME,35,20 à 49 salariés,high,TO_REVIEW,40,Aucune note,TO_REVIEW
8,ABAX INDUSTRIES,PME,35,20 à 49 salariés,high,TO_REVIEW,40,Aucune note,TO_REVIEW
9,Abbvie,GE,750,500 à 999 salariés,medium,TO_REVIEW,40,📊 Tranche moyenne - bonne estimation,TO_REVIEW


In [18]:
# Diagnostic des problèmes de statut
demo = pd.read_csv('data/demo_10_optimized_salesforce_ready.csv')
raw = pd.read_csv('data/insee_optimized_demo_10_results.csv')

print("=== DIAGNOSTIC DES STATUTS ===")
print("\n1. Exemple 3M FRANCE:")
print(f"   Taille originale: {demo.iloc[0]['Taille_Original']}")
print(f"   Effectifs extraits: {demo.iloc[0]['Effectifs_Description']}")
print(f"   Confiance: {demo.iloc[0]['Confiance_Donnee']}")
print(f"   Statut: {demo.iloc[0]['Statut_Revision']}")

print(f"\n   INSEE - Tranche établissement: {raw.iloc[0]['tranche_effectifs_etablissement']}")
print(f"   INSEE - Tranche unité légale: {raw.iloc[0]['tranche_effectifs_unite_legale']}")
print(f"   INSEE - Catégorie entreprise: {raw.iloc[0]['categorie_entreprise']}")

print("\n2. Tous les statuts dans le demo:")
statut_counts = demo['Statut_Revision'].value_counts()
print(statut_counts)

print("\n3. Répartition par confiance:")
confiance_counts = demo['Confiance_Donnee'].value_counts()
print(confiance_counts)

=== DIAGNOSTIC DES STATUTS ===

1. Exemple 3M FRANCE:
   Taille originale: ETI
   Effectifs extraits: 1000 à 1999 salariés
   Confiance: medium
   Statut: TO_REVIEW

   INSEE - Tranche établissement: 41
   INSEE - Tranche unité légale: 42
   INSEE - Catégorie entreprise: ETI

2. Tous les statuts dans le demo:
Statut_Revision
TO_REVIEW    10
Name: count, dtype: int64

3. Répartition par confiance:
Confiance_Donnee
medium    5
high      5
Name: count, dtype: int64
