# 3. Pandas : structures de données *Series* et *DataFrame*

In [None]:
# import des modules usuels
import pandas as pnd
import numpy as np
import matplotlib.pyplot as plt

# commande magique pour l'affichage des graphiques
%matplotlib inline

# options d'affichage
pnd.set_option("display.max_rows", 16)
plt.style.use('seaborn-darkgrid')

## 3.1 Chargement des données

On va également charger un jeu de données qui comprend la correspondance Code INSEE / Code Postal et intègre également des données de référence sur les communes :
- Population
- Superficie
- Altitude moyenne
- Latitude et longitude
- Polygone(s)
- etc.

Les données open data proviennent du portail OpenDataSoft accessible à l'adresse http://public.opendatasoft.com/explore/

Plusieurs points importants concernant l'open data :
- Il ne faut pas négliger les données externes qui sont extrêmement riches.
- Il peut y avoir un intérêt à combiner des données internes avec des données externes.
- Il faut aussi s'interroger sur l'ouverture des données internes et leur monétisation par exemple sous forme d'API.

Voici les principales fonctions d'import disponibles :

fonction|usage
-|-
read_clipboard()|à partir d'une copie mémoire
read_csv()|à partir d'un fichier *CSV* (Comma-Separated Value)
read_excel()|à partir d'un fichier *Excel*
read_fwf()| à partir d'une fichier texte à largeur fixe
read_html()|à partir d'un fichier *HTML* (recherche des *< table >*)
read_json()|à partir d'un fichier *JSON*
read_sql()|à partir d'une requête *SQL*
read_sas()|à partir d'un fichier *SAS*
read_stata()|à partir d'un fichier *STATA*
read_table()|à partir d'un fichier tabulaire quelconque

Chacune de ces fonctions comporte un grand nombre d'options qui permettent d'adapter le fonctionnement de l'import aux données réelles.

Pour la plupart des fonctions *read_xxx*, il existe une fonction *to_xxx* qui exporte un fichier au format spécifié.

Voir la documentation : http://pandas.pydata.org/pandas-docs/stable/io.html

L'analyse manuelle du fichier CSV montre que les données sont séparées par le caractère ";" et que l'on va seulement utiliser les 11 premières colonnes.

In [None]:
# pnd.read_

In [None]:
geo = pnd.read_csv("correspondance-code-insee-code-postal.csv",
                   sep=';',
                   usecols=range(11))
geo

Nous verrons que les tableaux obtenus sont de type *DataFrame* et qu'ils sont composés d'un ensemble de colonnes appelées *Series*.

On va étudier les deux structures de données *Series* (1D) et *DataFrame* (2D).

## 3.2 Chargement de tableaux HTML

Au passage, la fonction *read_html()* permet de charger les tableaux d'une page trouvée sur le web.

Attention, elle nécessite l'installation des librairies : *lxml* et *beautifulsoup*.

Comme cette fonction retourne une liste de tableaux HTML, on peut l'utiliser en la combinant avec l'attribut *shape* déjà vu avec *numpy* qui retourne les dimensions d'un *DataFrame*.

In [65]:
var = pnd.read_html("https://fr.wikipedia.org/wiki/Liste_des_pays_par_PIB_nominal")
[df.shape for df in var]

[(224, 4), (10, 14), (6, 2), (5, 2)]

In [66]:
var[0]

Unnamed: 0,0,1,2,3
0,Rang,Pays ou territoire,PIB (en milliards de dollars),Année
1,1,États-Unis,"18 569,1",2016
2,,Union européenne,"15 928,49*",2016[5]
3,,Zone euro,"11 885,66",2016
4,2,Chine,"11 564,86",2016
5,3,Japon,"4 929,38",2016[5]
6,4,Allemagne,"3 466,76",2016
7,5,Royaume-Uni,"2 618,89",2016
...,...,...,...,...
216,192,Vatican,0200,2005[12]


## 3.3 *Series*

On accède aux colonnes d'un *DataFrame* avec l'opérateur *[]* et en utilisant le nom de la colonne.

L'objet obtenu est de type *Series*. Un objet *Series* est une structure de données unidimensionnelle représentant un tableau de données en général homogène.

Cette classe Python s'appuie sur la structure de données *ndarray* fournie par la librairie Python de calcul numérique *numpy* (N-dimensional array). Toutes les fonctions et opérations sur *ndarray* sont rendues disponibles aux objets de type *Series*.

L'objet *Series* obtenu possède un index identique à celui du *DataFrame* et un tableau de valeurs correspondant à la colonne du *DataFrame*. Il possède également un nom qui est celui de la colonne dont il est tiré. En fait, c'est une vue du *DataFrame* : toute modification de la *Series* est répercutée sur le *DataFrame*.

In [None]:
# on obtient un objet Series à partir d'une colonne du DataFrame
s = geo["Commune"]
s

### 3.3.1 Caractéristiques des *Series*

In [5]:
# type de l'objet
type(s)

pandas.core.series.Series

In [6]:
# accès à la variable d'instance "name" = nom de la colonne
s.name

'Commune'

In [7]:
# accès à la variable d'instance "values"
s.values

array(['BOULOGNE-SUR-GESSE', 'FEUILLA', 'BESSAMOREL', ...,
       'LACHAPELLE-SOUS-AUBENAS', 'BAGE-LE-CHATEL', 'GUILBERVILLE'], dtype=object)

In [8]:
# type de la variable "values"
type(s.values)

numpy.ndarray

In [9]:
# dimension de l'objet, retourne un tuple avec un seul élément
s.shape

(36742,)

In [10]:
# taille de l'objet, ou bien len(s)
s.size

36742

In [11]:
# index numérique par défaut
s.index

RangeIndex(start=0, stop=36742, step=1)

### 3.3.2 Méthodes usuelles

Tête et queue d'un objet de type *Series*.

In [12]:
# tête
s.head()

0      BOULOGNE-SUR-GESSE
1                 FEUILLA
2              BESSAMOREL
3      PRUNAY-EN-YVELINES
4    MORIERES-LES-AVIGNON
Name: Commune, dtype: object

In [13]:
# queue
s.tail(3)  # ou bien s.tail(n=3)

36739    LACHAPELLE-SOUS-AUBENAS
36740             BAGE-LE-CHATEL
36741               GUILBERVILLE
Name: Commune, dtype: object

Nombre de valeurs uniques d'un objet *Series*

In [14]:
# nombre de valeurs uniques
s.nunique()

34130

In [15]:
# nombre de départements
geo["Département"].nunique()

101

In [16]:
# nombre de débits "éligibles"
geo["Statut"].nunique()

6

Valeurs uniques d'un objet *Series*.

In [17]:
# liste des départements
geo["Département"].unique()

array(['HAUTE-GARONNE', 'AUDE', 'HAUTE-LOIRE', 'YVELINES', 'VAUCLUSE',
       'SOMME', 'LANDES', 'CHARENTE-MARITIME', 'ORNE', 'NORD',
       'ALPES-DE-HAUTE-PROVENCE', 'AISNE', 'CHER', 'CALVADOS', 'ARDECHE',
       'MOSELLE', 'SARTHE', 'DEUX-SEVRES', 'HAUTES-ALPES', 'FINISTERE',
       'SAVOIE', "COTES-D'ARMOR", "COTE-D'OR", 'HAUTE-MARNE', 'VIENNE',
       'PYRENEES-ATLANTIQUES', 'DROME', 'OISE', 'CHARENTE', 'EURE-ET-LOIR',
       'MARNE', 'MAYENNE', 'GIRONDE', 'DOUBS', 'PAS-DE-CALAIS', 'LOIRE',
       'VENDEE', 'HAUTE-SAVOIE', 'HAUTE-CORSE', 'VOSGES', 'MEUSE',
       'ESSONNE', 'JURA', 'EURE', 'PYRENEES-ORIENTALES', 'MORBIHAN', 'LOT',
       'SEINE-ET-MARNE', 'GARD', 'HAUTE-SAONE', 'HAUTE-VIENNE',
       'SAONE-ET-LOIRE', 'ARDENNES', 'HERAULT', 'ILLE-ET-VILAINE',
       'SEINE-MARITIME', 'MANCHE', 'BAS-RHIN', 'HAUTES-PYRENEES', 'AIN',
       'LOIRET', 'CORREZE', 'INDRE-ET-LOIRE', 'INDRE', 'ARIEGE',
       "VAL-D'OISE", 'MEURTHE-ET-MOSELLE', 'RHONE', 'LOIRE-ATLANTIQUE',
       'ALPES-M

**Exercice**

La colonne "Altitude Moyenne" comporte 1652 valeurs.

Pour quelle altitude inférieure à 1000m n'y a-t-il aucune commune ?

In [21]:
l = geo["Altitude Moyenne"].unique()
[i for i in range(1000) if not i in l]

[876]

Décompte du nombre d'occurences des valeurs uniques d'un objet *Series*.

In [22]:
# nombre de communes par département
geo["Département"].value_counts()

PAS-DE-CALAIS        895
AISNE                816
SOMME                782
SEINE-MARITIME       744
MOSELLE              730
CALVADOS             706
COTE-D'OR            706
OISE                 693
                    ... 
SEINE-SAINT-DENIS     40
HAUTS-DE-SEINE        36
MARTINIQUE            34
GUADELOUPE            32
REUNION               24
GUYANE                22
PARIS                 20
MAYOTTE               17
Name: Département, Length: 101, dtype: int64

**Remarque** : L'objet retourné par la méthode **value_counts()** est lui-même un objet de type *Series*.

In [23]:
s2 = geo["Département"].value_counts()
type(s2)

pandas.core.series.Series

In [24]:
# l'index est composé des valeurs uniques de l'objet Series initial
s2.index

Index(['PAS-DE-CALAIS', 'AISNE', 'SOMME', 'SEINE-MARITIME', 'MOSELLE',
       'CALVADOS', 'COTE-D'OR', 'OISE', 'EURE', 'NORD',
       ...
       'TERRITOIRE DE BELFORT', 'VAL-DE-MARNE', 'SEINE-SAINT-DENIS',
       'HAUTS-DE-SEINE', 'MARTINIQUE', 'GUADELOUPE', 'REUNION', 'GUYANE',
       'PARIS', 'MAYOTTE'],
      dtype='object', length=101)

In [25]:
# les valeurs sont les nombres d'occurences des valeurs uniques de l'objet Series initial
s2.values

array([895, 816, 782, 744, 730, 706, 706, 693, 675, 650, 620, 601, 594,
       594, 589, 573, 557, 547, 545, 544, 542, 533, 527, 515, 514, 505,
       500, 474, 472, 470, 463, 463, 455, 438, 438, 433, 419, 404, 402,
       377, 375, 373, 369, 363, 353, 353, 343, 340, 339, 334, 332, 331,
       327, 323, 320, 319, 312, 305, 305, 304, 301, 294, 291, 290, 286,
       283, 282, 281, 277, 262, 261, 261, 260, 260, 260, 247, 236, 226,
       221, 201, 200, 196, 195, 185, 185, 177, 163, 153, 151, 134, 124,
       102,  47,  40,  36,  34,  32,  24,  22,  20,  17], dtype=int64)

Rang des valeurs d'un objet de type *Series*, i.e. le numéro d'ordre lorsque les données sont triées.

In [26]:
geo["Commune"].rank()

0         4231.0
1        11092.0
2         3236.0
3        25464.0
4        22058.0
5        16239.0
6        22286.0
7        30589.0
          ...   
36734     4516.0
36735      587.0
36736     5178.0
36737     7148.0
36738    22599.0
36739    15974.0
36740     1975.0
36741    13182.0
Name: Commune, Length: 36742, dtype: float64

**Exercice** :

Donner le décompte des différents statuts des communes.

Quels sont les 10 noms de communes les plus fréquents ?

En français, le nom de famille le plus fréquent est *Martin*, mais quel est le nom de commune le plus fréquent ?

In [28]:
geo["Statut"].value_counts()

Commune simple          33421
Chef-lieu canton         2980
Sous-préfecture           240
Préfecture                 74
Préfecture de région       26
Capitale d'état             1
Name: Statut, dtype: int64

In [29]:
geo.Statut

0        Chef-lieu canton
1          Commune simple
2          Commune simple
3          Commune simple
4          Commune simple
5          Commune simple
6          Commune simple
7          Commune simple
               ...       
36734      Commune simple
36735      Commune simple
36736      Commune simple
36737      Commune simple
36738      Commune simple
36739      Commune simple
36740    Chef-lieu canton
36741      Commune simple
Name: Statut, Length: 36742, dtype: object

In [67]:
geo["Commune"].value_counts().head(10)

SAINTE-COLOMBE    14
SAINT-SAUVEUR     12
BEAULIEU          11
SAINTE-MARIE      11
SAINT-AUBIN       10
SAINT-REMY        10
LE PIN            10
SAINT-SULPICE     10
SAINT-LOUP        10
SAINT-MEDARD       9
Name: Commune, dtype: int64

In [71]:
geo["Commune"].value_counts().index[0]

'SAINTE-COLOMBE'

### 3.3.3 Opérations sur les objets *Series*

Toutes les opérations vectorielles des *ndarray* de *numpy* sont disponibles pour les *Series* :
- fonctions mathématiques ususelles : **abs()**, **sqrt()**, **sign()**, **floor()**, **rint()**, trigonométrie, logarithme, exponentielle
- calcul vectoriel avec une valeur scalaire ou une autre Series
- comparaisons avec une valeur scalaire ou une autre *Series*
- opérateurs logiques
- fonctions statistiques ususelles

In [30]:
# exemple : calcul de la densité en divisant la population par la superficie
geo["Population"] / geo["Superficie"]

0        0.000648
1        0.000041
2        0.000538
3        0.000294
4        0.007294
5        0.000653
6        0.000104
7        0.000356
           ...   
36734    0.000082
36735    0.000559
36736    0.000130
36737    0.000623
36738    0.000966
36739    0.001473
36740    0.009302
36741    0.000450
Length: 36742, dtype: float64

In [31]:
geo["Population"] < 1

0        False
1         True
2         True
3         True
4        False
5         True
6         True
7         True
         ...  
36734     True
36735     True
36736     True
36737     True
36738     True
36739    False
36740     True
36741    False
Name: Population, Length: 36742, dtype: bool

In [32]:
# exemple : appartenance à une liste de valeurs
geo["Altitude Moyenne"].isin([49.0, 50.0])

0        False
1        False
2        False
3        False
4         True
5        False
6         True
7        False
         ...  
36734    False
36735    False
36736    False
36737    False
36738    False
36739    False
36740    False
36741    False
Name: Altitude Moyenne, Length: 36742, dtype: bool

**Exercice**

Obtenir l'altitude maximale des communes.

In [33]:
geo["Altitude Moyenne"].max()

2713.0

In [34]:
geo.shape

(36742, 11)

### 3.3.4 Opérations sur les *Series* comportant des chaînes de caractères

L'opérateur **str** permet de traiter une *Series* comportant des chaînes de caractères et d'obtenir une nouvelle *Series* avec le résultat des opérations appliquées à chacune des chaînes de caractères.

Grâce à l'opérateur *str*, la plupart des fonctions Python pour les chaînes de caractères sont disponibles en méthodes de *Series* composées de chaînes : **len()**, **startswith()**, **contains()**, **endswith()**, **split()**, **lower()**...

Ces méthodes retournent un objet *Series* composé du résultat ligne à ligne.

In [35]:
geo["Commune"].str.startswith("A")

0        False
1        False
2        False
3        False
4        False
5        False
6        False
7        False
         ...  
36734    False
36735     True
36736    False
36737    False
36738    False
36739    False
36740    False
36741    False
Name: Commune, Length: 36742, dtype: bool

**Exercice** :

Calculez le minimum et le maximum des longueurs des noms des communes.

Donnez le décompte des longueurs de noms des communes.

In [38]:
geo["Commune"].str.len().min()

45

In [38]:
geo["Commune"].str.len().max()

45

In [39]:
geo["Commune"].str.len().value_counts()

8     3919
7     3883
6     3393
9     3193
10    2675
5     2084
11    1993
12    1505
      ... 
37       2
41       2
36       2
33       2
43       1
44       1
45       1
1        1
Name: Commune, Length: 43, dtype: int64

### 3.3.5 La méthode *apply()*

La méthode **apply()** permet d'appliquer une fonction (ou une lambda) sur toutes les valeurs d'un objet *Series*.

Elle retourne un objet analogue dont les valeurs correspondent à l'application de la fonction à chaque élément.

In [40]:
s = geo["Superficie"]
s

0        2470.0
1        2426.0
2         743.0
3        2717.0
4        1042.0
5         613.0
6        6736.0
7        2528.0
          ...  
36734    1222.0
36735    1252.0
36736     769.0
36737     321.0
36738     725.0
36739    1018.0
36740      86.0
36741    2224.0
Name: Superficie, Length: 36742, dtype: float64

In [43]:
# côtés des carrés de surface équivalente
geo["Superficie"].apply(np.sqrt)

0        49.699095
1        49.254441
2        27.258026
3        52.124850
4        32.280025
5        24.758837
6        82.073138
7        50.279220
           ...    
36734    34.957117
36735    35.383612
36736    27.730849
36737    17.916473
36738    26.925824
36739    31.906112
36740     9.273618
36741    47.159304
Name: Superficie, Length: 36742, dtype: float64

In [44]:
# rayons des cercles de surface équivalente
s.apply(lambda x: np.sqrt(x / np.pi))

0        28.039711
1        27.788843
2        15.378695
3        29.408297
4        18.212054
5        13.968678
6        46.304810
7        28.367012
           ...    
36734    19.722441
36735    19.963065
36736    15.645456
36737    10.108287
36738    15.191269
36739    18.001096
36740     5.232079
36741    26.606788
Name: Superficie, Length: 36742, dtype: float64

In [47]:
np.sqrt(314)

17.720045146669349

In [46]:
(lambda x: np.sqrt(x / np.pi))(314)

9.9974648917468212

In [48]:
def rayon(x):
    return np.sqrt(x / np.pi)

rayon(10)

1.7841241161527712

In [49]:
s.apply(rayon)

0        28.039711
1        27.788843
2        15.378695
3        29.408297
4        18.212054
5        13.968678
6        46.304810
7        28.367012
           ...    
36734    19.722441
36735    19.963065
36736    15.645456
36737    10.108287
36738    15.191269
36739    18.001096
36740     5.232079
36741    26.606788
Name: Superficie, Length: 36742, dtype: float64

## 3.4 DataFrame

Un *DataFrame* est un tableau de données tel que l'on en rencontre fréquemment dans d'autres environnements informatiques : une table dans une base de données, une feuille de calcul en Excel, un *data.frame* du langage R, un fichier de données...

En général, un tableau est constitué d'un ensemble d'enregistrements. Chaque ligne représente un enregistrement particulier et les diférentes colonnes matérialisent différentes caractéristiques de chaque enregistrement.

Les objets contenu dans un *DataFrame* peuvent être de différents types :
- booléen : **bool**
- nombre entier : **int**
- nombre flottant : **float**
- chaîne de caractères : **object** (le type le plus général)
- temps : date, heure...
- n'importe quel objet Python...

La librairie *pandas* essaie d'utiliser le type le plus approprié en fonction des objets de chaque colonne.

Attention si le type d'une colonne est *object* (le type le plus général), il peut y avoir des objets qui ne sont pas des chaînes de caractères.

Il est possible d'afficher les caractéristiques des *DataFrame* obtenus précédemment :
- le type de l'objet obtenu par la fonction *read_csv()*
- les dimensions du *DataFrame*
- l'index du *DataFrame* (par défaut les entiers de 0 à L-1 où L est le nombre de lignes du *DataFrame*)
- les noms des colonnes du *DataFrame*
- des informations colonne par colonne et aussi sur l'empreinte mémoire

### 3.4.1 Caractéristiques des *DataFrames*

In [50]:
# type de l'objet
type(geo)

pandas.core.frame.DataFrame

In [51]:
# dimensions
geo.shape

(36742, 11)

In [52]:
# nombre de lignes
len(geo)

36742

In [53]:
# nombre total d'éléments
geo.size

404162

In [54]:
# index
geo.index

RangeIndex(start=0, stop=36742, step=1)

In [55]:
# liste des colonnes
geo.columns

Index(['Code INSEE', 'Code Postal', 'Commune', 'Département', 'Région',
       'Statut', 'Altitude Moyenne', 'Superficie', 'Population',
       'geo_point_2d', 'geo_shape'],
      dtype='object')

**Remarque importante**

La liste des colonnes est également un index. Un *DataFrame* possède donc 2 index :
- l'index vertical (*axis=0*)
- l'index horizontal correspondant aux colonnes (*axis=1*)

In [56]:
# types des colonnes
geo.dtypes

Code INSEE           object
Code Postal          object
Commune              object
Département          object
Région               object
Statut               object
Altitude Moyenne    float64
Superficie          float64
Population          float64
geo_point_2d         object
geo_shape            object
dtype: object

In [57]:
# appel de la méthode info()
geo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36742 entries, 0 to 36741
Data columns (total 11 columns):
Code INSEE          36742 non-null object
Code Postal         36742 non-null object
Commune             36742 non-null object
Département         36742 non-null object
Région              36742 non-null object
Statut              36742 non-null object
Altitude Moyenne    36742 non-null float64
Superficie          36742 non-null float64
Population          36742 non-null float64
geo_point_2d        36742 non-null object
geo_shape           36742 non-null object
dtypes: float64(3), object(8)
memory usage: 3.1+ MB


### 3.4.2 Fonctions usuelles

Comme pour les *Series*, on peut accéder aux premières et aux dernières lignes du tableau.

In [58]:
# tête
geo.head()

Unnamed: 0,Code INSEE,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
0,31080,31350,BOULOGNE-SUR-GESSE,HAUTE-GARONNE,MIDI-PYRENEES,Chef-lieu canton,301.0,2470.0,1.6,"43.2904403081, 0.650641474176","{""type"": ""Polygon"", ""coordinates"": [[[0.671852..."
1,11143,11510,FEUILLA,AUDE,LANGUEDOC-ROUSSILLON,Commune simple,314.0,2426.0,0.1,"42.9291375888, 2.90138923544","{""type"": ""Polygon"", ""coordinates"": [[[2.906996..."
2,43028,43200,BESSAMOREL,HAUTE-LOIRE,AUVERGNE,Commune simple,888.0,743.0,0.4,"45.1306448726, 4.07952494849","{""type"": ""Polygon"", ""coordinates"": [[[4.091674..."
3,78506,78660,PRUNAY-EN-YVELINES,YVELINES,ILE-DE-FRANCE,Commune simple,155.0,2717.0,0.8,"48.5267627187, 1.80513972814","{""type"": ""Polygon"", ""coordinates"": [[[1.829610..."
4,84081,84310,MORIERES-LES-AVIGNON,VAUCLUSE,PROVENCE-ALPES-COTE D'AZUR,Commune simple,49.0,1042.0,7.6,"43.9337788848, 4.90875878315","{""type"": ""Polygon"", ""coordinates"": [[[4.927176..."


In [59]:
# queue
geo.tail()

Unnamed: 0,Code INSEE,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
36737,74066,74270,CHAVANNAZ,HAUTE-SAVOIE,RHONE-ALPES,Commune simple,564.0,321.0,0.2,"46.0500384099, 6.01652644319","{""type"": ""Polygon"", ""coordinates"": [[[6.026228..."
36738,67315,67630,NEEWILLER-PRES-LAUTERBOURG,BAS-RHIN,ALSACE,Commune simple,157.0,725.0,0.7,"48.9516989257, 8.11931601006","{""type"": ""Polygon"", ""coordinates"": [[[8.106826..."
36739,7122,7200,LACHAPELLE-SOUS-AUBENAS,ARDECHE,RHONE-ALPES,Commune simple,257.0,1018.0,1.5,"44.5622616562, 4.35906947518","{""type"": ""Polygon"", ""coordinates"": [[[4.356584..."
36740,1026,1380,BAGE-LE-CHATEL,AIN,RHONE-ALPES,Chef-lieu canton,202.0,86.0,0.8,"46.3077069231, 4.92862084189","{""type"": ""Polygon"", ""coordinates"": [[[4.926593..."
36741,50224,50160,GUILBERVILLE,MANCHE,BASSE-NORMANDIE,Commune simple,165.0,2224.0,1.0,"48.9866701737, -0.949588175705","{""type"": ""Polygon"", ""coordinates"": [[[-0.99753..."


#### Transposition

La méthode **transpose()**, également **T**, permet de transposer un *DataFrame*, c'est-à-dire d'échanger les lignes et les colonnes.

La méthode retourne un nouveau *DataFrame* dans lequel l'index correspond aux noms des colonnes initiales et les noms des colonnes aux valeurs de l'index initial.

In [60]:
# transposition
geo.transpose()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,36732,36733,36734,36735,36736,36737,36738,36739,36740,36741
Code INSEE,31080,11143,43028,78506,84081,80462,40200,17394,61422,80496,...,28379,14325,15024,76008,02137,74066,67315,07122,01026,50224
Code Postal,31350,11510,43200,78660,84310,80150,40410,17700,61270,80150,...,28130,14880,15700,76370,02810,74270,67630,07200,01380,50160
Commune,BOULOGNE-SUR-GESSE,FEUILLA,BESSAMOREL,PRUNAY-EN-YVELINES,MORIERES-LES-AVIGNON,LAMOTTE-BULEUX,MOUSTEY,SAINT-SATURNIN-DU-BOIS,LES ASPRES,MACHIEL,...,SOULAIRES,HERMANVILLE-SUR-MER,BRAGEAC,ANCOURT,BUSSIARES,CHAVANNAZ,NEEWILLER-PRES-LAUTERBOURG,LACHAPELLE-SOUS-AUBENAS,BAGE-LE-CHATEL,GUILBERVILLE
Département,HAUTE-GARONNE,AUDE,HAUTE-LOIRE,YVELINES,VAUCLUSE,SOMME,LANDES,CHARENTE-MARITIME,ORNE,SOMME,...,EURE-ET-LOIR,CALVADOS,CANTAL,SEINE-MARITIME,AISNE,HAUTE-SAVOIE,BAS-RHIN,ARDECHE,AIN,MANCHE
Région,MIDI-PYRENEES,LANGUEDOC-ROUSSILLON,AUVERGNE,ILE-DE-FRANCE,PROVENCE-ALPES-COTE D'AZUR,PICARDIE,AQUITAINE,POITOU-CHARENTES,BASSE-NORMANDIE,PICARDIE,...,CENTRE,BASSE-NORMANDIE,AUVERGNE,HAUTE-NORMANDIE,PICARDIE,RHONE-ALPES,ALSACE,RHONE-ALPES,RHONE-ALPES,BASSE-NORMANDIE
Statut,Chef-lieu canton,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,...,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Commune simple,Chef-lieu canton,Commune simple
Altitude Moyenne,301,314,888,155,49,59,49,45,251,54,...,143,21,555,80,141,564,157,257,202,165
Superficie,2470,2426,743,2717,1042,613,6736,2528,2346,654,...,598,821,1222,1252,769,321,725,1018,86,2224
Population,1.6,0.1,0.4,0.8,7.6,0.4,0.7,0.9,0.7,0.2,...,0.4,2.7,0.1,0.7,0.1,0.2,0.7,1.5,0.8,1
geo_point_2d,"43.2904403081, 0.650641474176","42.9291375888, 2.90138923544","45.1306448726, 4.07952494849","48.5267627187, 1.80513972814","43.9337788848, 4.90875878315","50.1865666179, 1.83564836965","44.3882918763, -0.750880080586","46.1401428747, -0.665133364912","48.6753438359, 0.610110315479","50.2721837623, 1.83743610924",...,"48.5176795466, 1.58912796204","49.2832471592, -0.32297738333","45.2038604898, 2.26559675808","49.9085547953, 1.17898885458","49.0765910572, 3.25026191909","46.0500384099, 6.01652644319","48.9516989257, 8.11931601006","44.5622616562, 4.35906947518","46.3077069231, 4.92862084189","48.9866701737, -0.949588175705"


In [61]:
geo.head(1).T

Unnamed: 0,0
Code INSEE,31080
Code Postal,31350
Commune,BOULOGNE-SUR-GESSE
Département,HAUTE-GARONNE
Région,MIDI-PYRENEES
Statut,Chef-lieu canton
Altitude Moyenne,301
Superficie,2470
Population,1.6
geo_point_2d,"43.2904403081, 0.650641474176"


### 3.4.3 Modification de l'index

In [62]:
# modification de l'index
geo.set_index("Code INSEE", inplace=True)
geo.head()

Unnamed: 0_level_0,Code Postal,Commune,Département,Région,Statut,Altitude Moyenne,Superficie,Population,geo_point_2d,geo_shape
Code INSEE,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
31080,31350,BOULOGNE-SUR-GESSE,HAUTE-GARONNE,MIDI-PYRENEES,Chef-lieu canton,301.0,2470.0,1.6,"43.2904403081, 0.650641474176","{""type"": ""Polygon"", ""coordinates"": [[[0.671852..."
11143,11510,FEUILLA,AUDE,LANGUEDOC-ROUSSILLON,Commune simple,314.0,2426.0,0.1,"42.9291375888, 2.90138923544","{""type"": ""Polygon"", ""coordinates"": [[[2.906996..."
43028,43200,BESSAMOREL,HAUTE-LOIRE,AUVERGNE,Commune simple,888.0,743.0,0.4,"45.1306448726, 4.07952494849","{""type"": ""Polygon"", ""coordinates"": [[[4.091674..."
78506,78660,PRUNAY-EN-YVELINES,YVELINES,ILE-DE-FRANCE,Commune simple,155.0,2717.0,0.8,"48.5267627187, 1.80513972814","{""type"": ""Polygon"", ""coordinates"": [[[1.829610..."
84081,84310,MORIERES-LES-AVIGNON,VAUCLUSE,PROVENCE-ALPES-COTE D'AZUR,Commune simple,49.0,1042.0,7.6,"43.9337788848, 4.90875878315","{""type"": ""Polygon"", ""coordinates"": [[[4.927176..."


In [63]:
geo.index

Index(['31080', '11143', '43028', '78506', '84081', '80462', '40200', '17394',
       '61422', '80496',
       ...
       '28379', '14325', '15024', '76008', '02137', '74066', '67315', '07122',
       '01026', '50224'],
      dtype='object', name='Code INSEE', length=36742)

La colonne "*Code INSEE*" a disparu de l'ensemble des colonnes et est venue remplacer l'ancien index. Le *DataFrame* obtenu n'a plus que 22 colonnes.

On peut vérifier que l'index est unique, c'est-à-dire composé de valeurs distinctes.

In [None]:
geo.index

In [64]:
# test de l'unicité de l'index
geo.index.is_unique

True