# Traitement pour le jeu de données Population

In [2]:
import requests
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Appel API

In [13]:

base_url = "https://data.paysdelaloire.fr/api/explore/v2.1/catalog/datasets/12002701600563_population_pays_de_la_loire_2019_communes_epci/records"
limit = 100  # Nombre de résultats par page
offset = 0  # Offset initial
dfPopulation =  pd.DataFrame()  # Liste pour stocker tous les enregistrements

while True:
    # Construire l'URL avec le paramètre d'offset
    url = f"{base_url}?limit={limit}&offset={offset}"

#Appeler l'API
    response = requests.get(url)

#Vérifier si la requête a réussi
    if response.status_code != 200:
        print(f"Erreur lors de l'appel de l'API: {response.status_code}")
        break

    data = response.json()
#Récupérer les enregistrements
    results = data.get('results', [])
    if results:
        df_results = pd.json_normalize(results)
        dfPopulation = pd.concat([dfPopulation, df_results], ignore_index=True)

#Vérifier si le nombre d'enregistrements récupérés est inférieur au limite
    if len(results) < limit:
        break  # Arrêter la boucle si tous les enregistrements ont été récupérés

#Mettre à jour l'offset pour la prochaine itération
    offset += limit

print(f"Total records retrieved: {len(dfPopulation)}")

Total records retrieved: 1238


## Analyse et correction du Dataset

In [14]:
dfPopulation.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1238 entries, 0 to 1237
Data columns (total 20 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   code_region                     1238 non-null   int64  
 1   nom_de_la_region                1238 non-null   object 
 2   code_departement                1238 non-null   object 
 3   code_arrondissement             1238 non-null   object 
 4   code_canton                     1238 non-null   object 
 5   code_commune                    1238 non-null   object 
 6   nom_de_la_commune               1238 non-null   object 
 7   population_municipale           1238 non-null   float64
 8   population_comptee_a_part       1238 non-null   float64
 9   population_totale               1238 non-null   float64
 10  epci                            1229 non-null   object 
 11  departement                     1238 non-null   object 
 12  tranche_population              12

In [15]:
dfPopulation.info

<bound method DataFrame.info of       code_region  nom_de_la_region code_departement code_arrondissement  \
0              52  Pays de la Loire               44                   3   
1              52  Pays de la Loire               44                   2   
2              52  Pays de la Loire               44                   3   
3              52  Pays de la Loire               44                   2   
4              52  Pays de la Loire               44                   3   
...           ...               ...              ...                 ...   
1233           52  Pays de la Loire               85                   1   
1234           52  Pays de la Loire               85                   2   
1235           52  Pays de la Loire               85                   1   
1236           52  Pays de la Loire               85                   1   
1237           52  Pays de la Loire               85                   1   

     code_canton code_commune      nom_de_la_commune  p

In [16]:
dfPopulation.isnull().sum()

code_region                          0
nom_de_la_region                     0
code_departement                     0
code_arrondissement                  0
code_canton                          0
code_commune                         0
nom_de_la_commune                    0
population_municipale                0
population_comptee_a_part            0
population_totale                    0
epci                                 9
departement                          0
tranche_population                   0
geo_shape.type                       8
geo_shape.geometry.coordinates       8
geo_shape.geometry.type              8
geo_point_2d.lon                     8
geo_point_2d.lat                     8
geo_shape                         1238
geo_point_2d                      1238
dtype: int64

In [8]:
for col in dfPopulation.select_dtypes('float64'):
    print(f'{col :-<20} {dfPopulation[col].unique()}')

population_municipale [1790. 7844. 6759. ... 1621. 1312. 1010.]
population_comptee_a_part [3.200e+01 1.530e+02 1.090e+02 2.430e+02 5.400e+01 3.300e+01 4.900e+01
 1.100e+01 8.100e+01 3.400e+01 1.330e+02 2.900e+01 5.900e+01 5.157e+03
 5.300e+01 2.700e+01 2.600e+01 1.500e+01 4.500e+01 1.270e+02 5.600e+01
 3.320e+02 1.000e+02 1.710e+02 5.900e+02 1.650e+02 1.000e+00 1.600e+01
 2.650e+02 2.100e+01 2.300e+01 1.400e+01 1.900e+01 9.000e+00 1.300e+01
 1.000e+01 2.000e+00 5.000e+00 6.000e+00 1.700e+01 6.200e+01 2.000e+01
 5.100e+01 8.000e+00 0.000e+00 5.700e+01 3.000e+00 1.200e+01 3.500e+01
 2.400e+01 3.350e+02 4.000e+00 1.800e+01 4.300e+01 2.200e+01 2.090e+02
 4.800e+01 1.020e+02 6.700e+01 5.200e+01 3.100e+01 3.000e+01 2.500e+01
 4.390e+02 2.800e+01 9.100e+01 1.790e+02 2.780e+02 4.600e+01 4.700e+01
 3.380e+02 4.400e+01 2.960e+02 1.570e+02 3.800e+01 7.000e+00 9.400e+01
 7.100e+01 5.800e+01 1.000e+03 7.300e+01 4.990e+02 3.600e+01 8.000e+01
 1.550e+02 1.610e+02 3.700e+01 1.670e+02 2.120e+02 7.800e+

In [11]:
for col in dfPopulation.select_dtypes('int64'):
    print(f'{col :-<20} {dfPopulation[col].unique()}')

code_region--------- [52]


In [12]:
for col in dfPopulation.select_dtypes('object'):
    print(f'{col :-<20} {dfPopulation[col].unique()}')

nom_de_la_region---- ['Pays de la Loire']
code_departement---- ['44' '49' '53' '72' '85']
code_arrondissement- ['3' '2' '5' '1' '4']
code_canton--------- ['09' '21' '89' '24' '02' '19' '06' '05' '08' '18' '30' '96' '10' '07'
 '04' '03' '11' '14' '85' '15' '16' '13' '01' '17' '20' '28' '23' '12'
 '27' '99' '29' '86' '31' '25' '88' '97' '98' '84' '87']
code_commune-------- ['44006' '44018' '44005' ... '85289' '85290' '85297']
nom_de_la_commune--- ['Assérac' 'Bouaye' 'Chaumes-en-Retz' ... 'La Tardière' 'Thiré' 'Triaize']
epci---------------- ["Communauté d'agglomération de la Presqu'île de Guérande - Atlantique (CAP Atlantique)"
 'Communauté Urbaine de Nantes Métropole' 'Pornic Agglo Pays de Retz'
 'Communauté de communes du Pays de Pont-Château - Saint-Gildas-des-Bois'
 'Redon agglomération' 'Communauté de communes de Châteaubriant-Derval'
 "Communauté de communes d'Erdre et Gesvres"
 "Communauté de communes du Pays d'Ancenis"
 'Communauté de communes Sèvre et Loire'
 'Communauté de comm

TypeError: unhashable type: 'list'

Observations : 

On remarque ici que les colonnes geo_shape et geo_point_2d sont vides. En effet ces deux colonnes ont des sous ensembles qui sont récuperées en étant préfixé par le nom de ces colonnes. On peut donc supprimer ces 2 colonnes qui sont entièrement vides.
On remarque également que quelques colonnes sont vides sur une dizaine de lignes, dependant sur un total de 1238 lignes ce n'est pas significatif, on garde donc ces lignes ici.
De plus on remarque que certaines colonnes ne sont pas du bon type, il faut donc les changer : 
- code_departement : object --> int64
- code_arrondissement : object --> int64
- code_canton : object --> int64
- code_commune : object --> int64

In [6]:
# Afficher les premières lignes de la colonne 'departement'
print("Premières lignes de la colonne 'departement' :")
print(dfPopulation['departement'].head(200))

Premières lignes de la colonne 'departement' :
0      Loire-Atlantique
1      Loire-Atlantique
2      Loire-Atlantique
3      Loire-Atlantique
4      Loire-Atlantique
             ...       
195             Mayenne
196             Mayenne
197             Mayenne
198             Mayenne
199             Mayenne
Name: departement, Length: 200, dtype: object


### Suppression des colonnes geo_shape et geo_point_2d

In [17]:
# Suppression des colonnes 'geo_shape' et 'geo_point_2d' de dfPopulation
dfPopulation = dfPopulation.drop(columns=['geo_shape', 'geo_point_2d'], errors='ignore')

# Afficher les premières lignes du DataFrame dfPopulation pour vérifier les modifications
print(dfPopulation.head())


   code_region  nom_de_la_region code_departement code_arrondissement  \
0           52  Pays de la Loire               44                   3   
1           52  Pays de la Loire               44                   2   
2           52  Pays de la Loire               44                   3   
3           52  Pays de la Loire               44                   2   
4           52  Pays de la Loire               44                   3   

  code_canton code_commune nom_de_la_commune  population_municipale  \
0          09        44006           Assérac                 1790.0   
1          21        44018            Bouaye                 7844.0   
2          89        44005   Chaumes-en-Retz                 6759.0   
3          24        44047           Couëron                21372.0   
4          02        44049        Le Croisic                 4093.0   

   population_comptee_a_part  population_totale  \
0                       32.0             1822.0   
1                      153.0    

### Changement de types pour les colonnes : 
- code_departement : object --> int64
- code_arrondissement : object --> int64
- code_canton : object --> int64
- code_commune : object --> int64

In [18]:
# Vérifier si les colonnes existent dans le DataFrame
colonnes_a_convertir = ['code_departement', 'code_arrondissement', 'code_canton', 'code_commune']

# Convertir les colonnes en int64
for col in colonnes_a_convertir:
    if col in dfPopulation.columns:
        dfPopulation[col] = dfPopulation[col].astype('int64')

# Afficher les types de colonnes pour vérifier les conversions
print(dfPopulation.dtypes)


code_region                         int64
nom_de_la_region                   object
code_departement                    int64
code_arrondissement                 int64
code_canton                         int64
code_commune                        int64
nom_de_la_commune                  object
population_municipale             float64
population_comptee_a_part         float64
population_totale                 float64
epci                               object
departement                        object
tranche_population                 object
geo_shape.type                     object
geo_shape.geometry.coordinates     object
geo_shape.geometry.type            object
geo_point_2d.lon                  float64
geo_point_2d.lat                  float64
dtype: object
