Source 1 - Connection and Exploration 
By Déborah Leclercq

Import needed libraries


In [1]:
import pandas as pd
import requests
import openpyxl

In [2]:
# URL du fichier Excel sur le site de l'INSEE
url = "https://www.insee.fr/fr/statistiques/fichier/5763593/IREF_SECUR21-F25.xlsx"  # URL exacte du fichier xlsx

# Nom du fichier local
file_path = "datasource1/IREF_SECUR21-F25.xlsx"

# Télécharger le fichier
response = requests.get(url)
if response.status_code == 200:
    with open(file_path, "wb") as file:
        file.write(response.content)
    print(f"Fichier téléchargé avec succès : {file_path}")
else:
    print(f"Erreur lors du téléchargement : {response.status_code}")

# Charger le fichier avec pandas (pour vérifier)
df = pd.read_excel(file_path)
print(df.head())  # Affiche les premières lignes pour vérifier


Fichier téléchargé avec succès : datasource1/IREF_SECUR21-F25.xlsx
  Figure 1 - Taux moyen d’incidents graves pour 1 000 élèves dans les collèges et les lycées, en 2018-2019  \
0                                                NaN                                                         
1                                           Collèges                                                         
2                                              LEGT1                                                         
3                              Lycées professionnels                                                         
4                                          Ensemble                                                          

  Unnamed: 1  
0       en ‰  
1       13.2  
2        4.5  
3       22.7  
4       12.2  


Vérifier l'intégralité des données stockées dans le fichier

In [3]:
# Lire tous les onglets du fichier
xls = pd.ExcelFile(file_path)

# Afficher les noms des onglets
print(f"Onglets disponibles : {xls.sheet_names}")

# Créer un DataFrame pour chaque onglet
dataframes = {}  # Dictionnaire pour stocker les DataFrames
for sheet_name in xls.sheet_names:
    df = pd.read_excel(xls, sheet_name=sheet_name)
    dataframes[sheet_name] = df  # Stocke le DataFrame sous le nom de l'onglet
    print(f"Données chargées pour l'onglet : {sheet_name} ({df.shape[0]} lignes, {df.shape[1]} colonnes)")

Onglets disponibles : ['Figure 1', 'Figure 2', 'Figure 3', 'Figure 4', 'Figure 5']
Données chargées pour l'onglet : Figure 1 (9 lignes, 2 colonnes)
Données chargées pour l'onglet : Figure 2 (15 lignes, 2 colonnes)
Données chargées pour l'onglet : Figure 3 (10 lignes, 3 colonnes)
Données chargées pour l'onglet : Figure 4 (28 lignes, 10 colonnes)
Données chargées pour l'onglet : Figure 5 (18 lignes, 2 colonnes)


Stocker les df pour chaque onglet

In [4]:
df_figure_1 = dataframes['Figure 1']
df_figure_2 = dataframes['Figure 2']
df_figure_3 = dataframes['Figure 3']
df_figure_4 = dataframes['Figure 4']
df_figure_5 = dataframes['Figure 5']

Visualisation des données contenues

In [5]:
df_figure_1.head()

Unnamed: 0,"Figure 1 - Taux moyen d’incidents graves pour 1 000 élèves dans les collèges et les lycées, en 2018-2019",Unnamed: 1
0,,en ‰
1,Collèges,13.2
2,LEGT1,4.5
3,Lycées professionnels,22.7
4,Ensemble,12.2


In [6]:
df_figure_2.head()

Unnamed: 0,"Figure 2 - Nature des incidents graves dans les collèges et les lycées, en 2018-2019",Unnamed: 1
0,,en %
1,Atteintes aux personnes,
2,Violences verbales,41.8
3,Violences physiques,29.8
4,Autres atteintes aux personnes1,7.7


In [7]:
df_figure_3

Unnamed: 0,"Figure 3 - Répartition des collèges et des lycées en fonction du nombre d'incidents graves, en 2018-2019",Unnamed: 1,Unnamed: 2
0,,,en %
1,,Aucun incident,10 ou plus
2,Collèges,30,19.613464
3,LEGT1,39,14.160569
4,Lycées professionnels,28,28.265801
5,Ensemble,32,19
6,1. Lycées d'enseignement général et technologique,,
7,Lecture : 32 % des chefs d'établissement de co...,,
8,"Champ : France, ensemble des établissements pu...",,
9,"Source : MENJS-DEPP, enquête Sivis 2018-2019.",,


In [8]:
df_figure_4.head()

Unnamed: 0,Figure 4 - Part de collégiens et de lycéens déclarant des violences au cours de l'année scolaire,Unnamed: 1,Unnamed: 2,Unnamed: 3,Unnamed: 4,Unnamed: 5,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,,,,,,,,,en %
1,,Collégiens en 2016-2017,,,,Lycéens en 2017-2018,,,,
2,,Ensemble,Filles,Garçons,Établissement\nREP +,Ensemble,Filles,Garçons,Lycée\nprofessionnel,LEGT1
3,Atteintes aux personnes,,,,,,,,,
4,Atteinte physique2,46.71446,39.86479,53.35957,48.09603,12.48743,12.17944,12.80519,15.79967,11.26652


In [9]:
df_figure_5.head()

Unnamed: 0,Figure 5 - Part de personnels de collèges et de lycées déclarant des violences au cours de l'année scolaire 2018-2019,Unnamed: 1
0,,en %
1,Atteintes aux personnes,
2,Refus ou contestation d'enseignement,35.41521
3,Moqueries ou insultes (y compris par des gestes),24.14305
4,Menaces sans arme (dont par internet),11.93326


Nettoyer chaque onglet afin de retirer les lignes inutiles

In [10]:
df_figure_1_cleaned = pd.read_excel("datasource1/IREF_SECUR21-F25.xlsx", sheet_name="Figure 1", skiprows=1)
df_figure_2_cleaned = pd.read_excel("datasource1/IREF_SECUR21-F25.xlsx", sheet_name="Figure 2", skiprows=2)
df_figure_3_cleaned = pd.read_excel("datasource1/IREF_SECUR21-F25.xlsx", sheet_name="Figure 3", skiprows=2)
df_figure_4_cleaned = pd.read_excel("datasource1/IREF_SECUR21-F25.xlsx", sheet_name="Figure 4", skiprows=2)
df_figure_5_cleaned = pd.read_excel("datasource1/IREF_SECUR21-F25.xlsx", sheet_name="Figure 5", skiprows=2)

Figure_1

In [11]:
# nommer les colonnes
df_figure_1_cleaned.columns = ["Type_etablissements","Taux_moyens_incidents_graves_en%"]
# Isoler le tableau avec les données 
df_figure_1_cleaned = df_figure_1_cleaned.loc[0:3]
# renommer certaines informations pour plus de clarté et en accord avec les informations contenues dans les notes
df_figure_1_cleaned["Type_etablissements"] = df_figure_1_cleaned["Type_etablissements"].replace({
    "LEGT1": "Lycées généraux et technologiques"})

In [12]:
# visualiser le tableau final
df_figure_1_cleaned

Unnamed: 0,Type_etablissements,Taux_moyens_incidents_graves_en%
0,Collèges,13.2
1,Lycées généraux et technologiques,4.5
2,Lycées professionnels,22.7
3,Ensemble,12.2


Figure_2

In [13]:
# renommer les colonnes
df_figure_2_cleaned = df_figure_2_cleaned.rename(columns={"Atteintes aux personnes": "Nature_des_incidents_graves","Unnamed: 1": "Atteinte_aux_personnes_en%"})
# Isoler le tableau avec les données 
df_figure_2_cleaned = df_figure_2_cleaned.loc[0:6]
# renommer certaines informations pour plus de clarté et en accord avec les informations contenues dans les notes
df_figure_2_cleaned["Nature_des_incidents_graves"] = df_figure_2_cleaned["Nature_des_incidents_graves"].replace({
    "Autres atteintes aux personnes1": "Atteinte à la vie privée (via les réseaux sociaux notamment), violence sexuelle, racket, happy slapping et bizutage",
    "Atteintes aux biens2" : "Vol, dommage aux locaux ou au matériel et dommage aux biens personnels",
    "Autres atteintes3" : "Port d'arme blanche ou objet dangereux, port d'arme à feu (sans violence),  intrusion sans violence, suicide ou tentative de suicide et autre fait de violence dont atteinte à la laïcité"
    })

In [14]:
# visualiser le tableau final
df_figure_2_cleaned

Unnamed: 0,Nature_des_incidents_graves,Atteinte_aux_personnes_en%
0,Violences verbales,41.8
1,Violences physiques,29.8
2,Atteinte à la vie privée (via les réseaux soci...,7.7
3,"Vol, dommage aux locaux ou au matériel et domm...",7.1
4,Atteintes à la sécurité,
5,Consommation d'alcool/stupéfiants ou trafic de...,4.7
6,"Port d'arme blanche ou objet dangereux, port d...",8.8


Figure_3

In [16]:
# renommer les colonnes
df_figure_3_cleaned = df_figure_3_cleaned.rename(columns={" ": "Répartition des collèges et des lycées en fonction du nombre d'incidents graves en %"})
# Isoler le tableau avec les données 
df_figure_3_cleaned = df_figure_3_cleaned.loc[0:3]
# renommer certaines informations pour plus de clarté et en accord avec les informations contenues dans les notes
df_figure_3_cleaned["Répartition des collèges et des lycées en fonction du nombre d'incidents graves en %"] = df_figure_3_cleaned["Répartition des collèges et des lycées en fonction du nombre d'incidents graves en %"].replace({
    "LEGT1": "Lycées généraux et technologiques"
    })

In [17]:
#visualiser le tableau final
df_figure_3_cleaned.head()

Unnamed: 0,Répartition des collèges et des lycées en fonction du nombre d'incidents graves en %,Aucun incident,10 ou plus
0,Collèges,30.0,19.613464
1,Lycées généraux et technologiques,39.0,14.160569
2,Lycées professionnels,28.0,28.265801
3,Ensemble,32.0,19.0


Figure_4

In [18]:
#visualiser le tableau initial
df_figure_4_cleaned.head()

Unnamed: 0.1,Unnamed: 0,Collégiens en 2016-2017,Unnamed: 2,Unnamed: 3,Unnamed: 4,Lycéens en 2017-2018,Unnamed: 6,Unnamed: 7,Unnamed: 8,Unnamed: 9
0,,Ensemble,Filles,Garçons,Établissement\nREP +,Ensemble,Filles,Garçons,Lycée\nprofessionnel,LEGT1
1,Atteintes aux personnes,,,,,,,,,
2,Atteinte physique2,46.71446,39.86479,53.35957,48.09603,12.48743,12.17944,12.80519,15.79967,11.26652
3,dont cible de lancers d'objets,13.5,11.23,15.7,17.03,4.4,3.58,5.26,6.16,3.83
4,Insulte à caractère discriminatoire3,27.49805,27.29021,27.67206,30.45007,20.12482,25.76666,14.15106,18.92168,21.67543


In [19]:
df_figure_4_cleaned.columns

Index(['Unnamed: 0', 'Collégiens en 2016-2017', 'Unnamed: 2', 'Unnamed: 3',
       'Unnamed: 4', 'Lycéens en 2017-2018', 'Unnamed: 6', 'Unnamed: 7',
       'Unnamed: 8', 'Unnamed: 9'],
      dtype='object')

In [21]:
# renommer les colonnes
df_figure_4_cleaned = df_figure_4_cleaned.rename(columns={"Unnamed: 0": "Types_d_atteintes en %","Unnamed: 2":"Filles","Unnamed: 3":"Garçons", "Unnamed: 4":"Etablissement_REP+", "Unnamed: 8":"Lycée_professionnel", "Unnamed: 9":"Lycées_généraux_et_technologiques"})
# Isoler le tableau avec les données 
df_figure_4_cleaned = df_figure_4_cleaned.loc[0:15]
# renommer certaines informations pour plus de clarté et en accord avec les informations contenues dans les notes
df_figure_4_cleaned["Types_d_atteintes en %"] = df_figure_4_cleaned["Types_d_atteintes en %"].replace({
    "Atteinte physique2": "les coups, bousculades et le fait d'être la cible de lancers d'objets. Spécifiquement pour les collégiens, le fait d'avoir participé à une bagarre collective",
    "Insulte à caractère discriminatoire3" : "les insultes en lien avec l'origine, la couleur de peau, le sexe et le lieu de résidence. Spécifiquement pour les collégiens, les insultes liées à l'apparence physique et spécifiquement pour les lycéens, les insultes homophobes",
    "Cyber-violence4" : "Au collège, les violences filmées avec un téléphone portable (« happy slapping »), le fait de recevoir des photos ou vidéos humiliantes, la diffusion de rumeurs par internet et l'usurpation d'identité sur internet.Au lycée, le fait d'être victime de vidéos, de photos ou de rumeurs humiliantes sur internet, d'être injurié ou moqué sur un réseau social et l'usurpation d'identité sur internet.",
    "Violence à caractère sexuel5":"Pour les collégiens le voyeurisme (dans les toilettes ou les vestiaires), les caresses forcées et les baisers forcés. Pour les lycéens, les agressions ou coups pour des raisons sexistes, des comportements déplacés à caractère sexuel ou des violences graves à caractère sexuel."
    })


In [22]:
# 🔹 DataFrame pour les collégiens
df_figure4_collegiens = df_figure_4_cleaned.iloc[:, :5].copy()
# Retrait de la ligne inutile avant les données
df_figure4_collegiens = df_figure4_collegiens.loc[1:]


In [23]:
df_figure4_collegiens.head()

Unnamed: 0,Types_d_atteintes en %,Collégiens en 2016-2017,Filles,Garçons,Etablissement_REP+
1,Atteintes aux personnes,,,,
2,"les coups, bousculades et le fait d'être la ci...",46.71446,39.86479,53.35957,48.09603
3,dont cible de lancers d'objets,13.5,11.23,15.7,17.03
4,"les insultes en lien avec l'origine, la couleu...",27.49805,27.29021,27.67206,30.45007
5,dont par rapport à l'origine ou la couleur de ...,11.55651,10.41196,12.65221,18.16783


In [24]:
# 🔹 DataFrame pour les lycéens
df_figure4_lyceens = df_figure_4_cleaned.iloc[:, [0] + list(range(5, 10))].copy()
# renommer les deux colonnes unnamed
df_figure4_lyceens = df_figure4_lyceens.rename(columns={"Unnamed: 6": "Filles","Unnamed: 7":"Garçons"})
# Retrait de la ligne inutile avant les données
df_figure4_lyceens = df_figure4_lyceens.loc[1:]


In [25]:
df_figure4_lyceens.head()

Unnamed: 0,Types_d_atteintes en %,Lycéens en 2017-2018,Filles,Garçons,Lycée_professionnel,Lycées_généraux_et_technologiques
1,Atteintes aux personnes,,,,,
2,"les coups, bousculades et le fait d'être la ci...",12.48743,12.17944,12.80519,15.79967,11.26652
3,dont cible de lancers d'objets,4.4,3.58,5.26,6.16,3.83
4,"les insultes en lien avec l'origine, la couleu...",20.12482,25.76666,14.15106,18.92168,21.67543
5,dont par rapport à l'origine ou la couleur de ...,7.13,6.56,7.73,8.59,6.6


Figure_5

In [26]:
df_figure_5_cleaned

Unnamed: 0,Atteintes aux personnes,Unnamed: 1
0,Refus ou contestation d'enseignement,35.41521
1,Moqueries ou insultes (y compris par des gestes),24.14305
2,Menaces sans arme (dont par internet),11.93326
3,Mise à l'écart/marginalisation,7.544594
4,Bousculé intentionnellement et/ou frappé,3.451657
5,Harcèlement,2.404056
6,Menaces avec arme,0.15278
7,Agression sexuelle,0.079997
8,Frappé avec une arme et/ou blessé avec une arme,0.030617
9,Atteintes aux biens,


In [27]:
# renommer les deux colonnes
df_figure_5_cleaned = df_figure_5_cleaned.rename(columns={"Unnamed: 1":"Part de personnels de collèges et de lycées déclarant des violences au cours de l'année scolaire 2018-2019 en%"})
# Isoler le tableau avec les données 
df_figure_5_cleaned = df_figure_5_cleaned.loc[0:12]


In [28]:
df_figure_5_cleaned

Unnamed: 0,Atteintes aux personnes,Part de personnels de collèges et de lycées déclarant des violences au cours de l'année scolaire 2018-2019 en%
0,Refus ou contestation d'enseignement,35.41521
1,Moqueries ou insultes (y compris par des gestes),24.14305
2,Menaces sans arme (dont par internet),11.93326
3,Mise à l'écart/marginalisation,7.544594
4,Bousculé intentionnellement et/ou frappé,3.451657
5,Harcèlement,2.404056
6,Menaces avec arme,0.15278
7,Agression sexuelle,0.079997
8,Frappé avec une arme et/ou blessé avec une arme,0.030617
9,Atteintes aux biens,


Sauvegarder tous ces df en csv


In [29]:
df_figure_1_cleaned.to_csv("datasource1cleaned/Source1Figure1.csv", index=False)
df_figure_2_cleaned.to_csv("datasource1cleaned/Source1Figure2.csv", index=False)
df_figure_3_cleaned.to_csv("datasource1cleaned/Source1Figure3.csv", index=False)
df_figure4_collegiens.to_csv("datasource1cleaned/Source1Figure4_collegiens.csv", index=False)
df_figure4_lyceens.to_csv("datasource1cleaned/Source1Figure4_lyceens.csv", index=False)
df_figure_5_cleaned.to_csv("datasource1cleaned/Source1Figure5.csv", index=False)