In [None]:
import pandas as pd
import numpy as np
import os

# **DataFrame** 

<div class="alert alert-block alert-info">
Création de DataFrame par lignes
</div>

In [None]:
ar = np.array([[1.1, 2, 3.3, 4], [2.7, 10, 5.4, 7], [5.3, 9, 1.5, 15]]) #lignes
df = pd.DataFrame(ar, index = ['i1', 'i2', 'i3'], columns = ['A', 'B', 'C', 'D']) #index
df

In [None]:
<div class="alert alert-block alert-info">
Création de DataFrame par colonnes
</div>

In [None]:
df_2 = pd.DataFrame({'col1': [1.1, 2.7, 5.3], 
                     'col2': [2, 10, 9],
                     'col3': [3.3, 5.4, 1.5], 
                     'col4': [4, 7, 15]}, 
                     index = ['i1', 'i2', 'i3'])
df_2

In [None]:
df_3 = pd.DataFrame({'col1': pd.Series([2, 3, 4], index = ['i1', 'i2', 'i3']), 
                     'col2': pd.Series([6, 7, 8], index = ['i2', 'i1', 'i4'])})
df_3

<div class="alert alert-block alert-info">
Manipulation de DataFrame
</div>

In [None]:
df['A'] #afficher colonne A du DataFrame 'df'

df['A'][0:3] #les 3 premières valeurs des 3 premières lignes de la colonne 'A' (sous forme de Series)

df.loc['i2'] #renvoie la Series correspondant à la ligne d'index i2

df.loc[['i2', 'i3'], ['A', 'C']] # renvoie un dataframe avec un sous-ensemble des lignes et des colonnes 

df.loc[:,['A', 'C']] # toutes les lignes et seulement les colonnes A et B.

df.loc['i2', 'C'] # accès à la valeur de la ligne i2 et de la colonne C : 5.4.

df.at['i2', 'C'] # autre façon recommandée d'accéder à la valeur de la ligne i2 et de la colonne C : 5.4.

df.at['i2', 'C'] = 7 # on peut aussi faire une affectation pour changer la valeur : .

df.at[0, 1] # on peut aussi utiliser des indices numériques : (ou même un mélange des deux).

df[df['A'] > 2] #renvoie un dataframe avec seulement les lignes où la condition est vérifiée 

df.iloc[1] # renvoie la deuxième ligne.

df.iloc[1:3,[0, 2]] # renvoie le dataframe avec les lignes 1 à 3 exclue, et les colonnes numéros 0 et 2.

df.iloc[:,2:4] #renvoie toutes les lignes et les colonnes 2 à 4 exclue.

df.iloc[1,2] #renvoie la valeur à la ligne 2 et la colonne 3.

df.iat[1,2] #renvoie la valeur à la ligne 2 et la colonne 3.

df.iat[1, 2] = 7 # on peut aussi faire une affectation pour changer la valeur 

df.rename(columns = {'A': 'aa', 'B': 'bb'}) #Renommer une variable

df.rename(columns = {'C': 'A'})  # renomme les colonnes A et B en a et b, mais pas les autres s'il y en a d'autres.

df.rename(index = {0: 'i1', 1: 'i2'}, inplace = True)  
#on peut aussi utiliser des numéros, ici sur les lignes, et ici en modifiant directement le dataframe.

df['E'] = pd.Series([1, 0, 1], index = ['i1', 'i2', 'i3'])

df.assign(E = df['A'] + df['B'], F = 2 * df['A']) 
#renvoie une copie du dataframe avec deux nouvelles colonnes E et F (sans modifier le dataframe original)

del df['A'] # permet de supprimer la colonne A

df.drop(['i1', 'i3'], inplace = True) #détruit les lignes d'index 'i1' et 'i3'

df.drop(['A', 'C'], axis = 1, inplace = True) #permet de détruire plusieurs colonnes en même temps.

df.drop(columns = ['A', 'C'], inplace = True) #alternative à l'indication de l'axis.

df.drop(index = ['i1', 'i3'], inplace = True) #alternative à l'indication de l'axis (destruction de lignes)

df.astype(np.float64) # renvoie un dataframe avec toutes les colonnes converties dans le type indiqué

df.astype({'A': int, 'B': np.float64}) 
#renvoie un dataframe avec les colonnes A et B converties selon les types indiqués.

df['A'][df['A'] < 2] = 0 #on peut faire 

df.dropna(how = 'any') 

df.dropna() 
#renvoie un dataframe avec les lignes contenant au moins 
#une valeur NaN supprimée (how = 'all' : supprime les lignes où toutes les valeurs sont NaN)

df.dropna(axis = 1, how = 'any') 
#supprime les colonnes ayant au moins un NaN plutôt que les lignes (le défaut est axis = 0).

df.dropna(inplace = True) #ne renvoie rien, mais fait la modification en place.

df.fillna(0) #renvoie un dataframe avec toutes les valeurs NaN remplacées par 0.

df['A'].fillna(0, inplace = True) #remplace tous les NA de la colonne A par 0, sur place.

df.isnull() #renvoie un dataframe de booléens, avec True dans toutes les cellules non définies. 

df.replace(np.inf, 99) #remplace les valeurs infinies par 99 (on peut utiliser inplace = True)

df.copy() # df2 est alors un dataframe indépendant. 

df.replace(1, 5) # remplace tous les 1 par 5.

df.replace([1, 2], [5, 7]) #remplace tous les 1 par 5 et tous les 2 par 7.

df.replace({1: 5, 2: 7}) #remplace tous les 1 par 5 et tous les 2 par 7.

df.drop_duplicates() 
#renvoie un dataframe avec les lignes redondantes enlevées 
#en n'en conservant qu'une seule (ici 3 lignes restant)

df.drop_duplicates(keep = False) 
#renvoie un dataframe avec les lignes redondantes toutes enlevées

df.drop_duplicates(inplace = True) # fait la modification en place.

df.drop_duplicates(subset = ['A', 'B']) 
#renvoie un dataframe avec les doublons enlevés en considérant seulement les colonnes A et B, 
#et en renvoyant la 1ère ligne pour chaque groupe ayant mêmes valeurs de A et B.

df.drop_duplicates(subset = ['A', 'B'], keep = 'last') 
# on conserve la dernière ligne plutôt que la première (keep = first, qui est le défaut).

df.T #renvoie le dataframe transposé.

df.sort_index(axis = 0, ascending = False) 
# dataframe df avec les lignes triées par ordre décroissant des labels (le défaut est ascendant)

df.info() #imprime des infos sur le dataframe : les noms et types des colonnes, le nombre de valeurs non nulles et la place occupée.

df.head(2) #renvoie un dataframe avec les 2 premières lignes. #Idem avec df.tail(2) pour les deux dernières.

df.head() #les 5 premières

df.tail() #les 5 dernières.

df.columns #les noms des colonnes, par exemple Index(['A', 'B', 'C', 'D'], dtype='object').

df.columns.values #le nom des colonnes sous forme d'array numpy.

df.index #les noms des lignes (individus), par exemple Index(['i1', 'i2', 'i3'], dtype='object').

df.index.values #le nom des lignes sous forme d'array numpy.

df.values #pour récupérer le dataframe sous forme d'array numpy 2d.

df.describe() #renvoie un dataframe donnant des statistiques sur les valeurs (nombres de valeurs, moyenne, écart-type, ...), 
#mais uniquement sur les colonnes numériques (faire df.describe(include = 'all')

<div class="alert alert-block alert-info">
Import de DataFrame
</div>

In [None]:
os.chdir('C:/Users/marvin.edorh_artefac/Desktop/Python')

In [None]:
table_Janvier_juin = pd.read_csv('bq-results-20220202-112742-8uhtmn1jew7v.csv', sep=",") 
table_juillet_decembre = pd.read_csv('bq-results-20220202-113230-xz2qjac20sim.csv', sep=",")

In [None]:
results_Janvier_juin = table_Janvier_juin[['ID_EMETTEUR',
'SYSTEME_EMETTEUR',                                         
'DATE_CREATION_SOURCE',
'NB_NON_FAITS',
'INSTRUCTION_INTERVENTION']]

In [None]:
results_juillet_decembre = table_juillet_decembre[['ID_EMETTEUR',
'SYSTEME_EMETTEUR',                                         
'DATE_CREATION_SOURCE',
'NB_NON_FAITS',
'INSTRUCTION_INTERVENTION']]

<div class="alert alert-block alert-info">
Concatenation de DataFrame
</div>

In [None]:
concatenation = pd.concat([results_Janvier_juin, results_juillet_decembre]) 

<div class="alert alert-block alert-info">
Jointure de DataFrame
</div>

In [None]:
data = table_Janvier_juin[['ID_EMETTEUR','SYSTEME_EMETTEUR']]
data_2 = table_Janvier_juin[['ID_EMETTEUR','NB_NON_FAITS']]

**INNER JOIN** 

In [None]:
data_3=pd.merge(data, data_2, on = ['ID_EMETTEUR']) 
data_3
# merge par défaut, "on" est facultatif si variable commune aux 2 tables

In [None]:
data_4 = data.merge(data_2) #méthode 2

**FULL JOIN**  

In [None]:
data_5 = pd.merge(data, data_4, on = ['ID'], how = 'outer') 

**LEFT JOIN** 

In [None]:
data_6 = pd.merge(data_3, data_2, how = 'left')

**RIGHT JOIN**

In [None]:
data_9 =  pd.merge(data, data_4, how = 'right')

<div class="alert alert-block alert-info">
Selection de colonnes
</div>

In [None]:
col = list(table_Janvier_juin.columns)              
del col[0] 
del col[99] 
data_10 = pd.DataFrame(np.c_[table_Janvier_juin.iloc[:,1:100], #colonne 2 à 99, colonne 100 non compris
                             table_Janvier_juin.iloc[:,[101]]], columns = col, index = table_Janvier_juin['ID_EMETTEUR']) 

<div class="alert alert-block alert-info">
Ajouter une variable
</div>

In [None]:
data_10['A_bis'] = np.where(data_10['NB_NON_FAITS']>0,1,0) #A_bis = 1 si A > 0 sinon A_bis = 0

In [None]:
data_10['A_bis'] =  data_10.A_bis.replace({1:"oui",0:"non"}) #recoder la variable A_bis 

# **Fonctions** 

<div class="alert alert-block alert-info">
Boucle Si
</div>

In [None]:
x = 2
if x > 1 :
    print("bb") #si vrai -> exécution du code indenté
print("ff")

In [None]:
x = 0
if x > 1 :
    print("bb") 
print("ff")

In [None]:
x = 0
if x > 1 :
    print("bb") 
else :
    print("cc")

In [None]:
x = 0
if x > 1 :
    print("bb") 
else :
    print("cc")
    if x < 1 :
        print("vv") 

<div class="alert alert-block alert-info">
Boucle While
</div>

In [None]:
i = 0
while i < 5:
    print (i, "C bon")
    i = i + 1

In [None]:
i = 0
while i < 10 :
    if i % 2 == 0 : #reste de la division euclidienne
        print (i, "C bon")
    i = i + 1

<div class="alert alert-block alert-info">
Boucle def
</div>

In [None]:
def compteur3():
    i = 0
    while i < 3:
        print(i)
        i = i + 1

In [None]:
compteur3()

In [None]:
def compteur(stop):
    i = 0
    while i < stop:
        print(i)
        i = i + 1

In [None]:
compteur(15)

In [None]:
def compteur_complet(start, stop, step):
    i = start
    while i < stop:
        print(i)
        i = i + step

In [None]:
compteur_complet(1, 7, 2)

In [None]:
def cube(w):
    return w**3

In [None]:
cube(3)

In [None]:
def volume_sphere(r):
    return 4 / 3 * np.pi * cube(r)

In [None]:
r = float(input("Entrez la valeur du rayon : "))
print("Le volume de cette sphere vaut", volume_sphere(r))

In [None]:
def nom():
    nom = input("Votre nom :")
    print("Bonjour :",nom)

In [None]:
data_10_bis_index.to_csv('C:/Users/marvin/Desktop/Python/data_10_bis_index.csv') 