In [32]:
import pandas as pd
import numpy as np
pd.set_option('display.max_rows', 10)

In [2]:
produits = pd.read_excel("composition-nutritionnelle.xls", index_col=[0],usecols=[6,7,12,13,15,16,17,18])

Les colonnes peuvent être ajoutées à un DataFrame à l'aide de plusieurs méthodes.

Ajoutons une colonne purement démonstrative appelée CIK2 qui ajoute une nouvelle colonne avec une valeur calculée de 2.0 * la colonne CIK. Étant donné que cela modifie l'objet DataFrame, nous ferons aussi une copie.


In [3]:
# faisons une copie de notre DataFrame
copieProd = produits.copy()

In [6]:
#On ajoute une nouvelle colonne
copieProd['tx2'] = copieProd['Protéines (g/100g)'] +" gr"


In [7]:
copieProd[['Protéines (g/100g)','tx2']]

Unnamed: 0_level_0,Protéines (g/100g),tx2
alim_code,Unnamed: 1_level_1,Unnamed: 2_level_1
25600,112,"1,12gr"
25601,915,"9,15gr"
25602,806,"8,06gr"
25605,208,"2,08gr"
25606,268,"2,68gr"
...,...,...
13166,32,"3,2gr"
13167,51,"5,1gr"
13168,10,10gr
24689,799,"7,99gr"


On peut aussi insérer dynamiquement une colonne en utilisant la fonction insert 


In [12]:
# faisons une copie de notre DataFrame
copieProd = produits.copy()

In [13]:
# On ajoute une colonne à la position 3
copieProd.insert(3, 'gramme', copieProd['Protéines (g/100g)'] +" gr")


In [14]:
copieProd.head()

Unnamed: 0_level_0,alim_nom_fr,Eau (g/100g),Protéines (g/100g),gramme,Glucides (g/100g),Lipides (g/100g),Sucres (g/100g),Amidon (g/100g)
alim_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
25600,"Céleri rémoulade, préemballé",785,112,"1,12 gr",419,128,238,13
25601,"Salade de thon et légumes, appertisée, égouttée",765,915,"9,15 gr",774,47,308,41
25602,"Salade composée avec viande ou poisson, appert...",767,806,"8,06 gr",64,53,19,33
25605,Champignon à la grecque,846,208,"2,08 gr",395,355,238,028
25606,Salade de pommes de terre maison,76,268,"2,68 gr",99,82,-,-


Si on a un index dans notre DataFrame, on peut s'en servir pour ajouter une colonne en se basant sur le contenu de l'index.

Nous allons créer un objet Series


In [20]:
#Création d'une série
s = pd.Series( {25600: 'Ce produit est présent',1: 'Ce produit est absent'} )
s


25600    Ce produit est présent
1         Ce produit est absent
dtype: object

In [21]:
# faisons une copie de notre DataFrame
copieProd = produits.copy()

In [22]:
# On va créer dynamiquement un nouvelle colonne commentaire et va fusionner avec la séries s
copieProd['Commentaire'] = s


In [23]:
copieProd.head()

Unnamed: 0_level_0,alim_nom_fr,Eau (g/100g),Protéines (g/100g),Glucides (g/100g),Lipides (g/100g),Sucres (g/100g),Amidon (g/100g),Commentaire
alim_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
25600,"Céleri rémoulade, préemballé",785,112,419,128,238,13,Ce produit est présent
25601,"Salade de thon et légumes, appertisée, égouttée",765,915,774,47,308,41,
25602,"Salade composée avec viande ou poisson, appert...",767,806,64,53,19,33,
25605,Champignon à la grecque,846,208,395,355,238,028,
25606,Salade de pommes de terre maison,76,268,99,82,-,-,


Il faut faire attention au type d'index pour utiliser cette opération.

In [24]:
# Ajout d'une nouvelle colonne à partir d'éléments existants

# faisons une copie de notre DataFrame
copieProd = produits.copy()

copieProd['Fusion']=copieProd['Protéines (g/100g)']+" "+copieProd['Glucides (g/100g)']

copieProd.head()

Unnamed: 0_level_0,alim_nom_fr,Eau (g/100g),Protéines (g/100g),Glucides (g/100g),Lipides (g/100g),Sucres (g/100g),Amidon (g/100g),Fusion
alim_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
25600,"Céleri rémoulade, préemballé",785,112,419,128,238,13,"1,12 4,19"
25601,"Salade de thon et légumes, appertisée, égouttée",765,915,774,47,308,41,"9,15 7,74"
25602,"Salade composée avec viande ou poisson, appert...",767,806,64,53,19,33,"8,06 6,4"
25605,Champignon à la grecque,846,208,395,355,238,028,"2,08 3,95"
25606,Salade de pommes de terre maison,76,268,99,82,-,-,"2,68 9,9"


In [25]:
# Ajout d'une nouvelle colonne en passant une série avec index
# Index c n'existe pas d'où valeur Nan

# faisons une copie de notre DataFrame
copieProd = produits.copy()

copieProd['Fusion']=pd.Series([10,20,30],index=[25600,25601,0])



In [26]:
copieProd.head()

Unnamed: 0_level_0,alim_nom_fr,Eau (g/100g),Protéines (g/100g),Glucides (g/100g),Lipides (g/100g),Sucres (g/100g),Amidon (g/100g),Fusion
alim_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
25600,"Céleri rémoulade, préemballé",785,112,419,128,238,13,10.0
25601,"Salade de thon et légumes, appertisée, égouttée",765,915,774,47,308,41,20.0
25602,"Salade composée avec viande ou poisson, appert...",767,806,64,53,19,33,
25605,Champignon à la grecque,846,208,395,355,238,028,
25606,Salade de pommes de terre maison,76,268,99,82,-,-,


In [27]:
copieProd.tail()

Unnamed: 0_level_0,alim_nom_fr,Eau (g/100g),Protéines (g/100g),Glucides (g/100g),Lipides (g/100g),Sucres (g/100g),Amidon (g/100g),Fusion
alim_code,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
13166,Dessert lacté infantile nature sucré ou aux fr...,788,32,139,29,999,22,
13167,"Céréales instantanées, poudre à reconstituer, ...",22,51,883,17,127,445,
13168,"Céréales instantanées, poudre à reconstituer, ...",18,10,811,2,328,36,
24689,Biscuit pour bébé,346,799,727,122,276,391,
42501,Poudre cacaotée pour bébé,12,85,85,19,445,161,


In [33]:
# On va créer une nouvelle colonne couleur
exam_data  = {'nom': ['Anne', 'Alex', 'catherine', 'Jean', 'Emillie', 'Michel', 'Matieu', 'Laura', 'Kevin', 'Jonas'],
        'note': [12.5, 9, 16.5, np.nan, 9, 20, 14.5, np.nan, 8, 19],
        'qualification': ['yes', 'no', 'yes', 'no', 'no', 'yes', 'yes', 'no', 'no', 'yes']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(exam_data , index=labels)

In [34]:
df

Unnamed: 0,nom,note,qualification
a,Anne,12.5,yes
b,Alex,9.0,no
c,catherine,16.5,yes
d,Jean,,no
e,Emillie,9.0,no
f,Michel,20.0,yes
g,Matieu,14.5,yes
h,Laura,,no
i,Kevin,8.0,no
j,Jonas,19.0,yes


In [35]:
couleur = ['Rouge','Bleue','Orange','Rouge','Blanc','Blanc','Bleue','Vert','Vert','Rouge']
df['couleur'] = couleur
df

Unnamed: 0,nom,note,qualification,couleur
a,Anne,12.5,yes,Rouge
b,Alex,9.0,no,Bleue
c,catherine,16.5,yes,Orange
d,Jean,,no,Rouge
e,Emillie,9.0,no,Blanc
f,Michel,20.0,yes,Blanc
g,Matieu,14.5,yes,Bleue
h,Laura,,no,Vert
i,Kevin,8.0,no,Vert
j,Jonas,19.0,yes,Rouge
