
# Analyse des Secteurs Représentés dans les Entreprises Actives en Belgique

## Objectif
Ce notebook explore les secteurs d'activité des entreprises actives en Belgique pour analyser comment leur localisation géographique influence leur spécialisation.

Nous utiliserons les fichiers suivants :
- **`activity.csv`** : Informations sur les activités des entreprises.
- **`address.csv`** : Localisations géographiques des entreprises.

## Étapes
1. Charger et explorer les données des fichiers `activity.csv` et `address.csv`.
2. Analyser la répartition des entreprises par code NACE.
3. Étudier l'influence des localisations géographiques (`Zipcode`, `MunicipalityNL/FR`) sur les activités principales.
4. Visualiser les résultats sous forme de graphiques.


In [None]:

# Importation des bibliothèques nécessaires
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configurer les visualisations
sns.set(style="whitegrid")


In [None]:

# Chargement des fichiers CSV
activity_file = "activity.csv"
address_file = "address.csv"

activity_data = pd.read_csv(activity_file)
address_data = pd.read_csv(address_file)

# Aperçu des données
print("Aperçu des données - activity.csv")
print(activity_data.head(), "\n")
print("Aperçu des données - address.csv")
print(address_data.head())


In [None]:

# Prétraitement des données

# Conserver uniquement les colonnes nécessaires
activity_data = activity_data[["EntityNumber", "NaceCode"]]
address_data = address_data[["EntityNumber", "Zipcode", "MunicipalityNL", "MunicipalityFR"]]

# Fusion des deux jeux de données sur 'EntityNumber'
merged_data = pd.merge(activity_data, address_data, on="EntityNumber", how="inner")

# Supprimer les lignes avec des valeurs manquantes
merged_data.dropna(inplace=True)

# Aperçu des données fusionnées
print("Données fusionnées :")
print(merged_data.head())


In [None]:

# Analyse des secteurs d'activité par localisation géographique

# Répartition des entreprises par code NACE
nace_counts = merged_data["NaceCode"].value_counts().head(10)
print("Top 10 des secteurs d'activité les plus représentés :")
print(nace_counts)

# Répartition des entreprises par localisation (code postal)
location_counts = merged_data["Zipcode"].value_counts().head(10)
print("\nTop 10 des localisations les plus représentées :")
print(location_counts)


In [None]:

# Visualisation des secteurs d'activité par localisation

# Distribution des entreprises par secteur (Top 10)
plt.figure(figsize=(10, 6))
sns.barplot(x=nace_counts.index, y=nace_counts.values, palette="viridis")
plt.title("Top 10 des secteurs d'activité les plus représentés", fontsize=16)
plt.xlabel("Code NACE", fontsize=12)
plt.ylabel("Nombre d'entreprises", fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()

# Distribution des entreprises par localisation (Top 10)
plt.figure(figsize=(10, 6))
sns.barplot(x=location_counts.index, y=location_counts.values, palette="viridis")
plt.title("Top 10 des localisations géographiques", fontsize=16)
plt.xlabel("Code Postal", fontsize=12)
plt.ylabel("Nombre d'entreprises", fontsize=12)
plt.xticks(rotation=45)
plt.tight_layout()
plt.show()
