In [1]:
import numpy as np
import pandas as pd
from pathlib import Path
import missingno as msno

### Data

In [2]:
file_path = Path.cwd() / "data" / "donnees_candidats_dev_python.csv"

In [3]:
data = pd.read_csv(file_path, encoding='latin-1')

In [436]:
data = pd.read_csv('./data/donnees_candidats_dev_python.csv', encoding='latin-1')
units = pd.DataFrame(data['Unité français'].unique())
units

Unnamed: 0,0
0,kgCO2e/kWh PCI
1,kgCO2e/tep PCI
2,kgCO2e/tonne
3,kgCO2e/GJ PCI
4,kgCO2e/kg
...,...
301,kgCO2e/TEP PCI
302,kgCO2e/TEP PCS
303,kgCO2e/personne.mois
304,kgCO2e/km.personne


In [435]:
data.columns

Index(['Type Ligne', 'Identifiant de l'élément', 'Structure',
       'Statut de l'élément', 'Nom base français', 'Nom attribut français',
       'Nom frontière français', 'Code de la catégorie', 'Tags français',
       'Unité français', 'Contributeur', 'Programme', 'Url du programme',
       'Source', 'Localisation géographique',
       'Sous-localisation géographique français', 'Date de création',
       'Date de modification', 'Période de validité', 'Incertitude',
       'Réglementations', 'Transparence', 'Qualité', 'Qualité TeR',
       'Qualité GR', 'Qualité TiR', 'Qualité C', 'Qualité P', 'Qualité M',
       'Commentaire français', 'Type poste', 'Nom poste français',
       'Total poste non décomposé', 'CO2f', 'CH4f', 'CH4b', 'N2O',
       'Code gaz supplémentaire 1', 'Valeur gaz supplémentaire 1',
       'Code gaz supplémentaire 2', 'Valeur gaz supplémentaire 2',
       'Code gaz supplémentaire 3', 'Valeur gaz supplémentaire 3',
       'Code gaz supplémentaire 4', 'Valeur gaz sup

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14380 entries, 0 to 14379
Data columns (total 49 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   Type Ligne                               14380 non-null  object 
 1   Identifiant de l'élément                 14380 non-null  int64  
 2   Structure                                14380 non-null  object 
 3   Statut de l'élément                      14380 non-null  object 
 4   Nom base français                        14380 non-null  object 
 5   Nom attribut français                    13160 non-null  object 
 6   Nom frontière français                   6710 non-null   object 
 7   Code de la catégorie                     14380 non-null  object 
 8   Tags français                            9549 non-null   object 
 9   Unité français                           14304 non-null  object 
 10  Contributeur                             14365

In [171]:
for col in data.columns:
    print(f'{col}: \n  {data[col].nunique()} unique values \n  {data[col].index.nunique():,} values')

Type Ligne: 
  2 unique values: 
  14,380 values
Identifiant de l'élément: 
  7454 unique values: 
  14,380 values
Structure: 
  4 unique values: 
  14,380 values
Statut de l'élément: 
  5 unique values: 
  14,380 values
Nom base français: 
  1040 unique values: 
  14,380 values
Nom attribut français: 
  2108 unique values: 
  14,380 values
Nom frontière français: 
  164 unique values: 
  14,380 values
Code de la catégorie: 
  336 unique values: 
  14,380 values
Tags français: 
  2668 unique values: 
  14,380 values
Unité français: 
  305 unique values: 
  14,380 values
Contributeur: 
  23 unique values: 
  14,380 values
Programme: 
  18 unique values: 
  14,380 values
Url du programme: 
  16 unique values: 
  14,380 values
Source: 
  34 unique values: 
  14,380 values
Localisation géographique: 
  5 unique values: 
  14,380 values
Sous-localisation géographique français: 
  962 unique values: 
  14,380 values
Date de création: 
  20 unique values: 
  14,380 values
Date de modification

### Missing data

In [None]:
msno.bar(data);

### Empty columns

In [None]:
def remove_null_columns(data):
    return data.drop(["Code gaz supplémentaire 2",
                      "Valeur gaz supplémentaire 2",
                      "Code gaz supplémentaire 3",
                      "Valeur gaz supplémentaire 3",
                      "Code gaz supplémentaire 4",
                      "Valeur gaz supplémentaire 4",
                      "Code gaz supplémentaire 5",
                      "Valeur gaz supplémentaire 5"], axis=1)

In [None]:
data = remove_null_columns(data)
data.head(3)

### Refuted data

In [None]:
data = pd.read_csv(file_path, encoding='utf-8')

In [None]:
data["Statut de l'élément"].nunique(), data["Statut de l'élément"].unique()

In [None]:
def remove_false_data(data):
    return data[~data["Statut de l'élément"].str.contains('Refusé')].copy()

In [None]:
data = remove_false_data(data)
data.head(3)

### Invalid data

In [None]:
def remove_invalid_data(data):
    return data#[~data["Période de validité"]]

In [None]:
data = remove_invalid_data(data)
data.head(3)

### Categories

In [52]:
data = pd.read_csv(file_path, encoding='latin-1')

In [53]:
def find_len_cat(data):
    cat = data["Code de la catégorie"].str.split(' > ')

    len_cat = [len(val) for val in cat.values]

    return f'min: {np.min(len_cat)}, max: {np.max(len_cat)}'

In [54]:
find_len_cat(data)

'min: 2, max: 6'

In [55]:
data[['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5', 'Cat6']] = data["Code de la catégorie"].str.split(" > ", expand=True)

In [56]:
data['Cat1'].nunique(), data['Cat1'].unique()

(12,
 array(['Combustibles', 'Process et émissions fugitives', 'UTCF',
        'Electricité', 'Statistiques territoriales', 'Achats de biens',
        'Achats de services', 'Transport de marchandises',
        'Transport de personnes', 'Traitement des déchets', 'PRG',
        'Réseaux de chaleur / froid'], dtype=object))

In [57]:
categories = data.groupby('Cat1')
for cat, df in categories:
    print(f'{cat}: {df["Cat2"].nunique()} categories \n {df.index.nunique():,} values')
    print(f'{df["Cat2"].unique()}')
    print(f'Units: {df["Unité français"].unique()} \n')

Achats de biens: 15 categories 
 3,899 values
['Métaux et produits métalliques' 'Produits minéraux non métalliques'
 'Papier, carton' 'Autres produits manufacturés'
 'Plastiques et produits chimiques' 'Machines et équipements'
 "Produits de l'agriculture et de la pêche" 'Bois' 'Minerais, granulats'
 "Bâtiments, ouvrages d'art et voirie"
 'Véhicules automobiles et autres matériels de transport' 'Mobilier'
 "Eau, traitement et distribution d'eau" 'Textile et habillement'
 'Produits agro-alimentaires, plats préparés et boissons']
Units: ['kgCO2e/tonne' 'kgCO2e/kg' 'kgCO2e/euro dépensé' 'kgCO2e/appareil'
 'kgCO2e/tonne de P2O5' 'kgCO2e/kg de matière active' 'kgCO2e/livre'
 'kgCO2e/keuro' 'kgCO2e/litre' 'kgCO2e/m²' 'kgCO2e/mL'
 'kgCO2e/m² de paroi' 'kgCO2e/m² de toiture' 'kgCO2e/m² de sol' '%'
 'kgCO2e/m de route' 'kgCO2e/tonne de matière sèche' 'kgCO2e/tonne brute'
 'kgCO2e/tonne de N' 'kgCO2e/tonne de K2O' 'kgCO2e/100 feuilles A4'
 'kgCO2e/unité' 'kgCO2e/m³' 'kgCO2e/kg de poids vif' "kgCO

#### Regional heat data

In [101]:
regional_heat_data = data[data['Cat1']=="Réseaux de chaleur / froid"].copy()
regional_heat_data.dropna(axis=1, how='all', inplace=True)
regional_heat_data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1240 entries, 11300 to 14139
Data columns (total 25 columns):
 #   Column                                   Non-Null Count  Dtype  
---  ------                                   --------------  -----  
 0   Type Ligne                               1240 non-null   object 
 1   Identifiant de l'élément                 1240 non-null   int64  
 2   Structure                                1240 non-null   object 
 3   Statut de l'élément                      1240 non-null   object 
 4   Nom base français                        1240 non-null   object 
 5   Nom attribut français                    1240 non-null   object 
 6   Nom frontière français                   1240 non-null   object 
 7   Code de la catégorie                     1240 non-null   object 
 8   Tags français                            1240 non-null   object 
 9   Unité français                           1240 non-null   object 
 10  Contributeur                             12

In [59]:
for col in regional_heat_data.columns:
    print(f'{col}: {regional_heat_data[col].nunique()} unique values')
    print(f'{regional_heat_data[col].unique()}')

Type Ligne: 1 unique values
['Elément']
Identifiant de l'élément: 1240 unique values
[26035 26036 26037 ... 27769 27770 27771]
Structure: 1 unique values
['élément non décomposé']
Statut de l'élément: 2 unique values
['Archivé' 'Valide générique']
Nom base français: 3 unique values
['Réseau de chaleur' 'Réseau de Froid' 'Réseau de froid']
Nom attribut français: 886 unique values
['1, Bourg-en-Bresse, La Reyssouze' '1, Oyonnax, La Forge'
 '1, Oyonnax, La Plaine (HLM)'
 '1, Saint-Denis-les-Bourg, Réseau de Saint-Denis-les-Bourg'
 '1, Marignieu, Belena' '1, Val-Revermont, Réseau de Treffort'
 '2, Saint-Quentin, ZUP du Quartier Europe' '2, Soissons, ZUP de Presles'
 '2, Laon, Réseau de Laon' "2, Urcel, Réseau d'Urcel"
 '3, Moulins, Réseau de Moulins' '3, Montluçon, Fontbouillant'
 '3, Mayet-de-Montagne, Réseau de Mayet-de-Montagne' '3, Meaulne, Meaulne'
 '4, Manosque, RCU Manosque ZAC Chanteprunier'
 '5, Embrun, Réseau bois Delaroche' '5, Embrun, Réseau Quartier Gare'
 "6, Nice, Sonitherm-

##### Addresses

In [111]:
df = pd.DataFrame()
df['country'] = regional_heat_data['Localisation géographique'].apply(lambda x: x.split()[0])

In [112]:
regional_heat_data.loc[regional_heat_data["Sous-localisation géographique français"].isna()] = 'Corse, Corte'

In [113]:
def find_num_elem_in_concat(data:pd.Series, delim:str):
    elems = data.str.split(delim)
    
    len_elems = [len(val) for val in elems.values]
    print(f'min: {np.min(len_elems)}, max: {np.max(len_elems)}')
    
#     max_elems = [val for val in elems.values if len(val) == np.max(len_elems)]
#     print(f'max_elems: \n{max_elems}')

#     min_elems = [val for val in elems.values if len(val) == np.min(len_elems)]      
#     print(f'min_elems: \n{min_elems}')

In [114]:
regional_heat_data["Sous-localisation géographique français"].str.split(', ')

11300          [Rhône-Alpes, Bourg-en-Bresse]
11301                  [Rhône-Alpes, Oyonnax]
11302                  [Rhône-Alpes, Oyonnax]
11303    [Rhône-Alpes, Saint-Denis-les-Bourg]
11304                [Rhône-Alpes, Marignieu]
                         ...                 
14135                 [Ile-de-France, Roissy]
14136           [Ile-de-France, Franconville]
14137        [Ile-de-France, Villiers-le-Bel]
14138               [Ile-de-France, Pontoise]
14139           [Ile-de-France, Franconville]
Name: Sous-localisation géographique français, Length: 1240, dtype: object

In [115]:
find_num_elem_in_concat(regional_heat_data["Sous-localisation géographique français"], delim=', ')

min: 2, max: 2


In [116]:
df['region'] = regional_heat_data['Sous-localisation géographique français'].apply(lambda x: x.split(',')[0])

In [117]:
find_num_elem_in_concat(regional_heat_data["Nom attribut français"], delim=', ')

min: 2, max: 4


In [120]:
df[['dep_id', 'city', 'address', 'address2']] = regional_heat_data['Nom attribut français'].str.split(', ', expand=True)
df['address'] = df['address'].str.cat(df['address2'], sep=' ', na_rep='') # Concat & remove as only 2 val
df.drop(columns={'address2'}, inplace=True)
df

Unnamed: 0,country,region,dep_id,city,address
11300,France,Rhône-Alpes,1,Bourg-en-Bresse,La Reyssouze
11301,France,Rhône-Alpes,1,Oyonnax,La Forge
11302,France,Rhône-Alpes,1,Oyonnax,La Plaine (HLM)
11303,France,Rhône-Alpes,1,Saint-Denis-les-Bourg,Réseau de Saint-Denis-les-Bourg
11304,France,Rhône-Alpes,1,Marignieu,Belena
...,...,...,...,...,...
14135,France,Ile-de-France,95,Roissy,Réseau ADP Roissy
14136,France,Ile-de-France,95,Franconville,ZUP de lEpine Guyon
14137,France,Ile-de-France,95,Villiers-le-Bel,Réseau de Villiers-le-Bel-Gonesse
14138,France,Ile-de-France,95,Pontoise,Réseau de Pontoise


##### Dates

In [60]:
import locale
from datetime import datetime
# set the locale to French
locale.setlocale(locale.LC_TIME, 'fr_FR.UTF-8')

'fr_FR.UTF-8'

In [61]:
date_txt = "Décembre 2012"
DATE_FORMAT = "%B %Y"
pd.to_datetime(datetime.strptime(date_txt, DATE_FORMAT))

Timestamp('2012-12-01 00:00:00')

In [62]:
date_txt = "Decembre 2012" # Missing accent throws error
DATE_FORMAT = "%B %Y"
date_txt = date_txt.replace('Decembre', 'Décembre')
pd.to_datetime(datetime.strptime(date_txt, DATE_FORMAT))

Timestamp('2012-12-01 00:00:00')

In [63]:
def clean_FR_dates(data:pd.Series, input_format:str) -> pd.Series:
    # set the locale to French
    locale.setlocale(locale.LC_TIME, 'fr_FR.UTF-8')
    
    # Ensure months have accents
    data = data.replace({'Fevrier':'Février', 'Aout':'Août','Decembre':'Décembre'}, regex=True)
    
    # Convert to datetime
    data = pd.to_datetime(data, format=input_format)
    
    return data

In [64]:
regional_heat_data['Date de création'] = clean_FR_dates(regional_heat_data['Date de création'], '%B %Y')

In [65]:
regional_heat_data['Date de création']

11300   2017-12-01
11301   2017-12-01
11302   2017-12-01
11303   2017-12-01
11304   2017-12-01
           ...    
14135   2019-09-01
14136   2019-09-01
14137   2019-09-01
14138   2019-09-01
14139   2019-09-01
Name: Date de création, Length: 1240, dtype: datetime64[ns]

##### Data cleaning

In [154]:
data = pd.read_csv(file_path, encoding='latin-1')
data[['Cat1', 'Cat2', 'Cat3', 'Cat4', 'Cat5', 'Cat6']] = data["Code de la catégorie"].str.split(" > ", expand=True)
regional_heat_data = data[data['Cat1']=="Réseaux de chaleur / froid"].copy()

In [167]:
def clean_regional_heat_data(data:pd.DataFrame) -> pd.DataFrame:
    clean_df = pd.DataFrame()    
    
    # Country
    clean_df['country'] = data['Localisation géographique'].apply(lambda x: x.split()[0])
    
    # Region
    data.loc[data["Sous-localisation géographique français"].isna(), "Sous-localisation géographique français"] = 'Corse, Corte'
    clean_df['region'] = data['Sous-localisation géographique français'].apply(lambda x: x.split(',')[0])
    
    # Split into dept, city and addresses
    clean_df[['dept_id', 'city', 'address', 'address2']] = data['Nom attribut français'].str.split(', ', expand=True)
    clean_df['address'] = clean_df['address'].str.cat(clean_df['address2'], sep=' ', na_rep='') # Concat & remove as only 2 val
    clean_df.drop(columns={'address2'}, inplace=True) 
    
    # Shorten heat_cycle value
    clean_df['heat_cycle'] = data['Nom base français'].apply(lambda x: 'heat' if 'chaleur' in x else 'froid')
    
    # Format Dates
    clean_df['creation_date'] = clean_FR_dates(data['Date de création'], input_format='%B %Y')
    clean_df['modified_date'] = clean_FR_dates(data['Date de modification'], input_format='%B %Y')
    clean_df['validity_date'] = pd.to_datetime(data['Période de validité'].apply(lambda x: x.replace('Année ', '')), format='%Y')
    
    # Archive status
    clean_df['archived'] = data["Statut de l'élément"].apply(lambda x: False if x=='Archivé' else True)
    
    # Emmission values
    clean_df['emissions'] = data['Total poste non décomposé']
    dept_mean_emissions = clean_df[clean_df['emissions'] != 0].groupby('dept_id')['emissions'].mean() # TODO: Also filter by validity_date
    clean_df['emissions'] = clean_df.apply(lambda x: dept_mean_emissions[x['dept_id']] if x['emissions'] == 0 else x['emissions'], axis=1)
    
    # Uncertainty values
    clean_df['uncertainty'] = data['Incertitude']
    
    # Units
    clean_df['unit'] = data['Unité français']
    
    # Source
    clean_df['source'] = data['Source']
    
    return clean_df

In [168]:
reg_df = clean_regional_heat_data(regional_heat_data)
reg_df

Unnamed: 0,country,region,dept_id,city,address,heat_cycle,creation_date,modified_date,validity_date,status,emissions,uncertainty,unit,source
11300,France,Rhône-Alpes,1,Bourg-en-Bresse,La Reyssouze,heat,2017-12-01,2019-09-01,2017-01-01,False,0.141,30%,kgCO2e/kWh,Legifrance
11301,France,Rhône-Alpes,1,Oyonnax,La Forge,heat,2017-12-01,2019-09-01,2017-01-01,False,0.268,30%,kgCO2e/kWh,Legifrance
11302,France,Rhône-Alpes,1,Oyonnax,La Plaine (HLM),heat,2017-12-01,2019-09-01,2017-01-01,False,0.334,30%,kgCO2e/kWh,Legifrance
11303,France,Rhône-Alpes,1,Saint-Denis-les-Bourg,Réseau de Saint-Denis-les-Bourg,heat,2017-12-01,2019-09-01,2017-01-01,False,0.055,30%,kgCO2e/kWh,Legifrance
11304,France,Rhône-Alpes,1,Marignieu,Belena,heat,2017-12-01,2019-09-01,2017-01-01,False,0.008,30%,kgCO2e/kWh,Legifrance
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14135,France,Ile-de-France,95,Roissy,Réseau ADP Roissy,froid,2019-09-01,2019-09-01,2020-01-01,True,0.008,30%,kgCO2e/kWh,
14136,France,Ile-de-France,95,Franconville,ZUP de lEpine Guyon,heat,2019-09-01,2019-09-01,2020-01-01,True,0.163,30%,kgCO2e/kWh,
14137,France,Ile-de-France,95,Villiers-le-Bel,Réseau de Villiers-le-Bel-Gonesse,heat,2019-09-01,2019-09-01,2020-01-01,True,0.105,30%,kgCO2e/kWh,
14138,France,Ile-de-France,95,Pontoise,Réseau de Pontoise,heat,2019-09-01,2019-09-01,2020-01-01,True,0.197,30%,kgCO2e/kWh,


### Structures

In [None]:
data = pd.read_csv(file_path, encoding='utf-8')

In [None]:
data["Structure"].nunique(), data["Structure"].unique()

In [None]:
a = data[data['Structure'] == "élément décomposé par poste et par gaz"]

In [None]:
a[a['Type Ligne'] =='Poste']

### Units

In [None]:
units = data[~data["Unité français"].isna()].copy()

In [None]:
units[units["Unité français"].str.contains('kgCO2e/kg')]['Code de la catégorie'].unique()

In [None]:
data["Unité français"].unique()

In [None]:
data[data["Unité français"]=='kgCO2e'].loc[:,["Nom base français",'Total poste non décomposé']]

In [None]:
data.loc[10885:10891]

In [None]:
data[data["Unité français"]=='kg / m³'].loc[:,["Nom base français",'Total poste non décomposé']]

In [None]:
import pandas as pd
import plotly.express as px

# Create a DataFrame with city, latitude, longitude, and emission value columns
data = pd.DataFrame({
    'City': ['Paris', 'Marseille', 'Lyon', 'Toulouse', 'Nice'],
    'Lat': [48.8534, 43.2965, 45.7640, 43.6045, 43.7031],
    'Lon': [2.3488, 5.3690, 4.8357, 1.4442, 7.2661],
    'Emission': [10, 5, 8, 7, 9]
})

# Create a scatter map with the latitude and longitude as location data and emission as color data
fig = px.scatter_mapbox(data, lat='Lat', lon='Lon', color='Emission', zoom=5)

# Customize the map
fig.update_layout(mapbox_style='open-street-map', mapbox_center_lon=3.0)
fig.show()

### Data ingestion

In [428]:
countries = pd.read_csv('./data/countries.csv', encoding='latin-1', keep_default_na=False)
regions = pd.read_csv('./data/french_regions.csv', encoding='latin-1')
depts = pd.read_csv('./data/french_dept.csv', encoding='latin-1')

In [429]:
countries[countries['country_short'].isna()]

Unnamed: 0,country_name,country_short


In [424]:
regions

Unnamed: 0,region_id,name
0,1,Grand Est
1,2,Aquitaine-Limousin-Poitou-Charentes
2,3,Auvergne-Rhône-Alpes
3,4,Bourgogne-Franche-Comté Dijon
4,5,Bretagne
5,6,Centre
6,7,Corse
7,8,Île-de-France
8,9,Occitanie
9,10,Hauts de France


In [419]:
def update_FR_region_names(data:pd.Series) -> pd.Series:
    region_map = {
        "Alsace" : "Grand Est",
        "Champagne-Ardenne" : "Grand Est",
        "Lorraine": "Grand Est",
        "Aquitaine": "Aquitaine-Limousin-Poitou-Charentes",
        "Limousin": "Aquitaine-Limousin-Poitou-Charentes",
        "Poitou-Charentes": "Aquitaine-Limousin-Poitou-Charentes",
        "Auvergne": "Auvergne-Rhône-Alpes",
        "Rhône-Alpes": "Auvergne-Rhône-Alpes",
        "Bourgogne" : "Bourgogne-Franche-Comté Dijon",
        "Franche-Comté": "Bourgogne-Franche-Comté Dijon",
        "Centre-Val de Loire": "Centre",
        "Languedoc-Roussillon": "Occitanie",
        "Midi-Pyrénées":"Occitanie",
        "Nord-Pas-de-Calais": "Hauts de France",
        "Picardie":"Hauts de France",
        "Basse-Normandie": "Normandie",
        "Haute-Normandie": "Normandie",
    }
    data.replace(region_map, regex=True, inplace=True)
    
    return data.str.strip()

In [420]:
depts['region'] = update_FR_region_names(depts['Région administrative'])

In [421]:
depts['region_id'] = depts['region'].map(regions.set_index('name')['region_id']).astype(int)

In [430]:
def fetch_FR_dept_dim_data() -> pd.DataFrame:
    """
    Retrieves all french departments and regions, alongside their corresponding ids
    -----------
    returns:
        df containing the relationship between each department, region and country
        for upload into the db.
    """
    regions = pd.read_csv('./data/french_regions.csv', encoding='latin-1')
    depts = pd.read_csv('./data/french_dept.csv', encoding='latin-1')

    depts['region'] = update_FR_region_names(depts['Région administrative'])
    depts['region_id'] = depts['region'].map(regions.set_index('region_name')['region_id']).astype(int)
    dept_dims = depts[['dept_id', 'Département ', 'region_id']].copy()
    dept_dims = dept_dims.rename(columns={'Département ':'dept_name'})
    
    return dept_dims

In [434]:
fr_dept = fetch_FR_dept_dim_data()
fr_dept.rename(columns={'Département ':'dept_name'})

Unnamed: 0,dept_id,dept_name,region_id
0,1,Ain,3
1,2,Aisne,10
2,3,Allier,3
3,4,Alpes de Haute-Provence,13
4,5,Hautes-Alpes,13
...,...,...,...
91,91,Essonne,8
92,92,Hauts-de-Seine,8
93,93,Seine-Saint-Denis,8
94,94,Val-de-Marne,8


In [327]:
geo = depts['']
geo.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 96 entries, 0 to 95
Data columns (total 7 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   dept_id                96 non-null     object 
 1   Département            96 non-null     object 
 2   Chef-lieu/préfecture   96 non-null     object 
 3   Région administrative  96 non-null     object 
 4   region                 96 non-null     object 
 5   region_id              25 non-null     float64
 6   name                   25 non-null     object 
dtypes: float64(1), object(6)
memory usage: 6.0+ KB


In [314]:
geo = depts[['dept_id', 'Département ', 'region_id', 'region']].copy()
geo.head()

KeyError: "['region_id'] not in index"

In [305]:
geo.loc[:,'country_id'] = 1
geo.loc[:,'country'] = 'France'

In [308]:
dept.info()

<class 'pandas.core.frame.DataFrame'>
Index: 96 entries, 1 to 95
Data columns (total 3 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   Département            96 non-null     object
 1   Chef-lieu/préfecture   96 non-null     object
 2   Région administrative  96 non-null     object
dtypes: object(3)
memory usage: 3.0+ KB


In [310]:
geo

Unnamed: 0,dept_id,Département,region_id,region,country_id,country
0,16,Charente,2,Aquitaine-Limousin-Poitou-Charentes,1,France
1,17,Charente-Maritime,2,Aquitaine-Limousin-Poitou-Charentes,1,France
2,23,Creuse,2,Aquitaine-Limousin-Poitou-Charentes,1,France
3,87,Haute-Vienne,2,Aquitaine-Limousin-Poitou-Charentes,1,France
4,15,Cantal,3,Auvergne-Rhône-Alpes,1,France
5,21,Côte-d'Or,4,Bourgogne-Franche-Comté Dijon,1,France
6,25,Doubs,4,Bourgogne-Franche-Comté Dijon,1,France
7,39,Jura,4,Bourgogne-Franche-Comté Dijon,1,France
8,70,Haute-Saône,4,Bourgogne-Franche-Comté Dijon,1,France
9,90,Territoire-de-Belfort,4,Bourgogne-Franche-Comté Dijon,1,France
