# Pandas functionnalities

# Import

In [1]:
import  numpy as np
import  pandas as pd
from sklearn import datasets
from sqlalchemy import create_engine
iris = datasets.load_iris()

# Sommaire

[I. Chargement de données](#Partie1)
- [I.1. CSV](#Partie1.1) 
- [I.2. Excel](#Partie1.2) 
- [I.3. Json](#Partie1.3) 
- [I.4. SQL](#Partie1.4) 

[II. Manipulation de données dans DataFrame](#Partie2)
- [II.1. Création, description, renommer DataFrame](#Partie2.1) 
- [II.2. Navigation et sélection DataFrame](#Partie2.2) 
- [II.3. Remplacement et gestion valeur unique et manquante](#Partie2.3) 
- [II.4. Suppresion ligne, colonne et regroupemment](#Partie2.4) 
- [II.5. Application d'une fonction](#Partie2.5) 
- [II.6. Concatenation et fusion de DataFrame](#Partie2.6) 

## I. Chargement de données <a class="anchor" id="Partie1"></a>

### I.1. CSV <a class="anchor" id="Partie1.1"></a>

In [2]:
# data=pd.read_csv(file)

### I.2. Excel <a class="anchor" id="Partie1.2"></a>

In [3]:
# data=pd.read_excel(file,sheetname=0,header=1)

### I.3. Json <a class="anchor" id="Partie1.3"></a>

In [4]:
# data=pd.read_json(file,orient='columns')

### I.4. SQL <a class="anchor" id="Partie1.4"></a>

In [5]:
#database_connection=create_engine('sqlite:///sample.db') # Create a connection to the database
#dataframe=pd.read_sql_query('SELECT * FROM data',database_connection) # Load data

## II. Manipulation de données dans DataFrame <a class="anchor" id="Partie2"></a>

### II.1. Création, description, renommer DataFrame <a class="anchor" id="Partie2.1"></a>

In [6]:
dataframe=pd.DataFrame()
dataframe['Name']=["Thibaud","Ophelia","Cessprin"]
dataframe['Age']=[23,23,2]
dataframe['Driver']=[True,True,False]
dataframe.head()

Unnamed: 0,Name,Age,Driver
0,Thibaud,23,True
1,Ophelia,23,True
2,Cessprin,2,False


In [7]:
print(dataframe.shape) # Donne les dimensions
print(dataframe.describe()) # Donne les quelques indicateurs statistiques
print(dataframe.info()) # Donne le nombre d'instance et le type de donnée

(3, 3)
             Age
count   3.000000
mean   16.000000
std    12.124356
min     2.000000
25%    12.500000
50%    23.000000
75%    23.000000
max    23.000000
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Name    3 non-null      object
 1   Age     3 non-null      int64 
 2   Driver  3 non-null      bool  
dtypes: bool(1), int64(1), object(1)
memory usage: 179.0+ bytes
None


In [8]:
dataframe.rename(columns={"Driver":"Permis B"}).head()

Unnamed: 0,Name,Age,Permis B
0,Thibaud,23,True
1,Ophelia,23,True
2,Cessprin,2,False


In [9]:
print(dataframe['Age'].max())
print(dataframe['Age'].min())
print(dataframe['Age'].mean())
print(dataframe['Age'].sum())
print(dataframe['Age'].count())

23
2
16.0
48
3


### II.2. Navigation et sélection DataFrame <a class="anchor" id="Partie2.2"></a>

In [10]:
print(dataframe.iloc[0]) # Sélectionne permière ligne
print(dataframe.iloc[:2]) # Sélectionne les 2 premières lignes

Name      Thibaud
Age            23
Driver       True
Name: 0, dtype: object
      Name  Age  Driver
0  Thibaud   23    True
1  Ophelia   23    True


In [11]:
dataframe = dataframe.set_index(dataframe['Name']) # Modifie l'index sur la colonne nom
print(dataframe.loc["Thibaud"]) # Renvoie la ligne de l'index précisé

Name      Thibaud
Age            23
Driver       True
Name: Thibaud, dtype: object


In [12]:
print(dataframe[dataframe['Age']==23].head()) # Séléction conditionnelle

            Name  Age  Driver
Name                         
Thibaud  Thibaud   23    True
Ophelia  Ophelia   23    True


### II.3. Remplacement et gestion valeur unique et manquante <a class="anchor" id="Partie2.3"></a>

In [13]:
print(dataframe["Age"].replace(23,24).head()) #remplace 23 par 24

Name
Thibaud     24
Ophelia     24
Cessprin     2
Name: Age, dtype: int64


In [14]:
print(dataframe['Name'].unique()) #Sélection des valeurs uniques
print(dataframe['Name'].value_counts()) #Compte le nombre d'occurence par valeur
print(dataframe['Name'].nunique()) #Compte le nombre de valeur unique

['Thibaud' 'Ophelia' 'Cessprin']
Cessprin    1
Ophelia     1
Thibaud     1
Name: Name, dtype: int64
3


In [15]:
print(dataframe[dataframe['Age'].isnull()].head()) #garde uniquement les lignes avec un age=0
print(dataframe[dataframe['Age'].isna()].head()) #garde uniquement les lignes avec un age=NaN 

Empty DataFrame
Columns: [Name, Age, Driver]
Index: []
Empty DataFrame
Columns: [Name, Age, Driver]
Index: []


### II.4. Suppresion ligne, colonne et regroupemment <a class="anchor" id="Partie2.4"></a>

In [16]:
print(dataframe.drop('Driver',axis=1)) # Retire la colonne Driver
print(dataframe.drop("Thibaud",axis=0)) # Retir la ligne indexée par 1
print(dataframe[dataframe.index!=0]) # Garde tout sauf la ligne 0

              Name  Age
Name                   
Thibaud    Thibaud   23
Ophelia    Ophelia   23
Cessprin  Cessprin    2
              Name  Age  Driver
Name                           
Ophelia    Ophelia   23    True
Cessprin  Cessprin    2   False
              Name  Age  Driver
Name                           
Thibaud    Thibaud   23    True
Ophelia    Ophelia   23    True
Cessprin  Cessprin    2   False


In [17]:
print(dataframe.drop_duplicates().head()) #Supprime les duplicatas des lignes exactement pareille (garde la première)
print(dataframe.drop_duplicates(subset=['Age']).head()) #Supprime les duplicatas de la colonne Age (garde la première)

              Name  Age  Driver
Name                           
Thibaud    Thibaud   23    True
Ophelia    Ophelia   23    True
Cessprin  Cessprin    2   False
              Name  Age  Driver
Name                           
Thibaud    Thibaud   23    True
Cessprin  Cessprin    2   False


In [18]:
print(dataframe.groupby('Age').mean()) #Regroupe les lignes selon Age et réalise le calcul souhiaté sur autres colonnes
print(dataframe.groupby('Age').sum())
print(dataframe.groupby('Age').count())

     Driver
Age        
2     False
23     True
     Driver
Age        
2         0
23        2
     Name  Driver
Age              
2       1       1
23      2       2


### II.5. Application d'une fonction <a class="anchor" id="Partie2.5"></a>

In [19]:
print(dataframe['Name'].apply(lambda x: x.upper())) #Applique la fonction lambda à Name

Name
Thibaud      THIBAUD
Ophelia      OPHELIA
Cessprin    CESSPRIN
Name: Name, dtype: object


### II.6. Concatenation et fusion de DataFrame <a class="anchor" id="Partie2.6"></a>

In [20]:
dataframe_2=pd.DataFrame()
dataframe_2['Name']=["Arnaud","Sabine"]
dataframe_2['Age']=[70,65]
dataframe_2['Driver']=[True,True]

In [21]:
print(pd.concat([dataframe,dataframe_2],axis=0)) # Concatenation sur les lignes
print(pd.concat([dataframe,dataframe_2],axis=1)) # Concatenation sur les colonnes

              Name  Age  Driver
Thibaud    Thibaud   23    True
Ophelia    Ophelia   23    True
Cessprin  Cessprin    2   False
0           Arnaud   70    True
1           Sabine   65    True
              Name   Age Driver    Name   Age Driver
0              NaN   NaN    NaN  Arnaud  70.0   True
1              NaN   NaN    NaN  Sabine  65.0   True
Cessprin  Cessprin   2.0  False     NaN   NaN    NaN
Ophelia    Ophelia  23.0   True     NaN   NaN    NaN
Thibaud    Thibaud  23.0   True     NaN   NaN    NaN


In [22]:
new_person=pd.Series(["Francine",61,True],index={'Name','Age','Driver'}) #Création d'une nouvelle ligne
dataframe.append(new_person,ignore_index=True) #Ajout d'une nouvelle ligne

Unnamed: 0,Name,Age,Driver
0,Thibaud,23,True
1,Ophelia,23,True
2,Cessprin,2,False
3,Francine,61,True


In [23]:
print(pd.merge(dataframe,dataframe_2,on='Age',how='outer')) # joint les df sur la clé mis en argument 

     Name_x  Age Driver_x  Name_y Driver_y
0   Thibaud   23     True     NaN      NaN
1   Ophelia   23     True     NaN      NaN
2  Cessprin    2    False     NaN      NaN
3       NaN   70      NaN  Arnaud     True
4       NaN   65      NaN  Sabine     True
