In [9]:
pip install PyPDF2

Note: you may need to restart the kernel to use updated packages.


In [24]:
import PyPDF2
import csv
import re
import pandas as pd

## IFM RCP 4.5 - Landes

La base de données étant en format pdf, le code suivant permet de les retranscrire dans un fichier csv

In [25]:
# Ouvrir le fichier PDF
with open('IFM RCP 4.5, Landes.pdf', 'rb') as f:
    # Créer un objet PdfReader
    pdf_reader = PyPDF2.PdfReader(f)
    
    # Lire chaque page du PDF et extraire le texte
    text = ''
    for page_num in range(len(pdf_reader.pages)):
        page = pdf_reader.pages[page_num]
        text += page.extract_text()

# Afficher le texte extrait
#print(text)


In [26]:
# Définir une expression régulière pour extraire les données de chaque ligne
pattern = re.compile(r'(\d+);([\d.-]+);([\d.-]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);([^;]+);')

# Ouvrir le fichier PDF extrait
with open('text.txt', 'w') as file:
    file.write(text)

# Ouvrir le fichier texte extrait
with open('text.txt', 'r') as file:
    # Créer un fichier CSV pour écrire les données
    with open('ifm45_landes.csv', 'w', newline='') as csvfile:
        writer = csv.DictWriter(csvfile, fieldnames=[
            'Point', 'Latitude', 'Longitude', 'Contexte', 'Période', 'Saison',
            'NORNSV23', 'NORNSV24', 'NORNSV25', 'NORIFM20', 'NORIFM40', 'NORIFM60',
            'NORIS400', 'NORIS700', 'NORIS1000'
        ])
        
        writer.writeheader()
        
        # Lire chaque ligne du fichier extrait
        for line in file:
            # Vérifier si la ligne correspond au pattern
            match = pattern.match(line)
            if match:
                # Extraire les données de la ligne
                data = {
                    'Point': match.group(1),
                    'Latitude': match.group(2),
                    'Longitude': match.group(3),
                    'Contexte': match.group(4),
                    'Période': match.group(5),
                    'Saison': match.group(6),
                    'NORNSV23': match.group(7),
                    'NORNSV24': match.group(8),
                    'NORNSV25': match.group(9),
                    'NORIFM20': match.group(10),
                    'NORIFM40': match.group(11),
                    'NORIFM60': match.group(12),
                    'NORIS400': match.group(13),
                    'NORIS700': match.group(14),
                    'NORIS1000': match.group(15)
                }
                
                # Écrire les données dans le fichier CSV
                writer.writerow(data)


In [27]:
# Lire le fichier CSV avec pandas
df_ifm45 = pd.read_csv('ifm45_landes.csv')

# Afficher les premières lignes du DataFrame pour vérifier les données
print(df_ifm45.head())


   Point  Latitude  Longitude Contexte Période  Saison  NORNSV23  NORNSV24  \
0   4034   43.5074    -1.3690   RCP4.5      H1       2         0         0   
1   4034   43.5074    -1.3690   RCP4.5      H1       3         9         1   
2   4034   43.5074    -1.3690   RCP4.5      H1       4         5         0   
3   4035   43.5107    -1.2704   RCP4.5      H1       2         0         0   
4   4035   43.5107    -1.2704   RCP4.5      H1       3        16         2   

  NORNSV25  NORIFM20  NORIFM40  NORIFM60  NORIS400  NORIS700  NORIS1000  
0     -999         1         0         0         0         0       -999  
1        0         7         0         0        23         1          0  
2     -999         2         0         0        18         1       -999  
3     -999         1         0         0         0         0       -999  
4        0         8         0         0        22         1          0  


## Lien entre les IFM et la survenance des feux de forêt

In [28]:
data = 'combine.csv'

df = pd.read_csv('combine.csv', sep=';')
print(df.head())

# Filtrer les lignes où la valeur de la colonne "Département" est égale à 40
bdiff_landes = df[df['Département'] == 1]

# Afficher les premières lignes du DataFrame filtré
print(bdiff_landes.head())

   Année  Numéro Département Code INSEE       Nom de la commune  \
0   2006       2          01      01148                  Dortan   
1   2006       3          01      01321                Revonnas   
2   2006       4          01      01032               Béligneux   
3   2006       5          01      01109               Collonges   
4   2006       6          01      01384  Saint-Rambert-en-Bugey   

  Date de première alerte Origine de l'alerte  \
0        27/02/2006 13:56         Indéterminé   
1        15/03/2006 16:02         Indéterminé   
2        16/03/2006 17:03         Indéterminé   
3        27/03/2006 14:30         Indéterminé   
4        24/04/2006 16:43         Indéterminé   

   Moyens de première intervention  Surface parcourue (m2)  \
0                              NaN                   10000   
1                              NaN                   10000   
2                              NaN                   10000   
3                              NaN                   1