<h1> Créer et consulter une série Pandas </h1>


<b> Qu'est-ce qu'une série Pandas ? </b>

Une série Pandas est un tableau unidimensionnel étiqueté capable de contenir des données de tout type (entier, chaîne, flottant, objets Python, etc.). 
La série est l'une des structures de données de base de Pandas.

In [117]:
import pandas as pd

Créer une série Pandas à partir d'une liste

In [118]:
liste_exemple = [10, 20, 30, 40, 50]
serie_exemple =pd.Series(liste_exemple)
print(serie_exemple)

0    10
1    20
2    30
3    40
4    50
dtype: int64


Accéder à un élément d'une série Pandas

In [119]:
serie_exemple[0]

10

Créer une série Pandas avec un index personnalisé

In [120]:
index_personnalise = ['a', 'b', 'c', 'd', 'e']
serie_exemple = pd.Series(liste_exemple, index= index_personnalise)
print(serie_exemple)

a    10
b    20
c    30
d    40
e    50
dtype: int64


Accéder à un élément d'une série avec un index personnalisé

In [121]:
serie_exemple['a']

10

Exemple avec des données de ventes pour un produit

In [122]:
ventes_produit = [150, 200, 250, 300, 350, 400]
mois = ['Jan', 'Fev', 'Mar', 'Avr', 'Mai', 'Jun']

sales_df = pd.DataFrame(ventes_produit, index=mois, columns=['Ventes'])
print(sales_df)

     Ventes
Jan     150
Fev     200
Mar     250
Avr     300
Mai     350
Jun     400


<h1> Créer un dataframe pandas à partir de liste ou d'un dictionnaire </h1>

<b> Qu'est-ce qu'un dataframe ? </b>

Un DataFrame est une structure de données bidimensionnelle, potentiellement hétérogène, avec des axes étiquetés (lignes et colonnes). <br>
Pensez à un DataFrame comme à une table SQL, ou à un tableau Excel.

<b> Créer un dataframe à partir d'un dictionnaire </b>

In [123]:
import pandas as pd

data = {
    'Fruit': ['Pommes', 'Oranges', 'Bananes', 'Fraises'],
    'Ventes': [100, 150, 200, 250,]
}
df = pd.DataFrame(data)
print(df) 

     Fruit  Ventes
0   Pommes     100
1  Oranges     150
2  Bananes     200
3  Fraises     250


In [124]:
data_varie = [
    {'Fruit': 'Pommes', 'Ventes': 100},
    {'Fruit': 'Oranges', 'Ventes': 150},
    {'Fruit': 'Bananes', 'Ventes': 200, 'Stock': 50},
    {'Fruit': 'Fraises', 'Ventes': 250}
]

df_ventes_varie = pd.DataFrame(data_varie)
print(df_ventes_varie)

     Fruit  Ventes  Stock
0   Pommes     100    NaN
1  Oranges     150    NaN
2  Bananes     200   50.0
3  Fraises     250    NaN


<b> Créer un dataFrame à partir de listes </b>

In [125]:
ventes_produit_A = [150, 200, 250, 300, 350, 400]
ventes_produit_B = [100, 150, 200, 250, 300, 350]
ventes_produit_C = [50, 100, 150, 200, 250, 300]

# Création des séries Pandas pour chaque produit
mois = ['Jan', 'Fev', 'Mar', 'Avr', 'Mai', 'Jun']

In [126]:
list(zip(mois,ventes_produit_A,ventes_produit_B,ventes_produit_C))

[('Jan', 150, 100, 50),
 ('Fev', 200, 150, 100),
 ('Mar', 250, 200, 150),
 ('Avr', 300, 250, 200),
 ('Mai', 350, 300, 250),
 ('Jun', 400, 350, 300)]

In [127]:
df_ventes = pd.DataFrame(list(zip(mois,ventes_produit_A,ventes_produit_B,ventes_produit_C)), columns=['mois','produit A','produit B', 'produit C'])
df_ventes.set_index('mois')

Unnamed: 0_level_0,produit A,produit B,produit C
mois,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Jan,150,100,50
Fev,200,150,100
Mar,250,200,150
Avr,300,250,200
Mai,350,300,250
Jun,400,350,300


<h1> Gestion de l'index dans un dataframe </h1>

Imaginons que nous ayons un DataFrame représentant les ventes mensuelles de différents produits

In [128]:
import pandas as pd

data = {
    'Mois': ['Janvier', 'Février', 'Mars', 'Avril'],
    'Produit A': [100, 150, 200, 250],
    'Produit B': [90, 120, 150, 180]
}

df_ventes = pd.DataFrame(data)
df_ventes = df_ventes.set_index('Mois')
df_ventes


Unnamed: 0_level_0,Produit A,Produit B
Mois,Unnamed: 1_level_1,Unnamed: 2_level_1
Janvier,100,90
Février,150,120
Mars,200,150
Avril,250,180


Lorsque nous créons un DataFrame, Pandas attribue automatiquement un index numérique à chaque ligne.

In [129]:
df_ventes

Unnamed: 0_level_0,Produit A,Produit B
Mois,Unnamed: 1_level_1,Unnamed: 2_level_1
Janvier,100,90
Février,150,120
Mars,200,150
Avril,250,180


In [130]:
df_ventes.loc[['Janvier'], ['Produit A']]

Unnamed: 0_level_0,Produit A
Mois,Unnamed: 1_level_1
Janvier,100


Dans notre cas, il serait logique d'utiliser les mois comme index.

In [131]:
df_ventes

Unnamed: 0_level_0,Produit A,Produit B
Mois,Unnamed: 1_level_1,Unnamed: 2_level_1
Janvier,100,90
Février,150,120
Mars,200,150
Avril,250,180


Si nécessaire, nous pouvons réinitialiser l'index à sa forme numérique par défaut

In [132]:
type(df_ventes)

pandas.core.frame.DataFrame

Il est également possible de spécifier l'index personnalisé dès la création du dataframe

In [133]:
data = {
    'Produit A': [100, 150, 200, 250],
    'Produit B': [90, 120, 150, 180]
}

mois = ['Janvier', 'Février', 'Mars', 'Avril']

df_ventes = df_ventes.reset_index()

In [134]:
df_ventes

Unnamed: 0,Mois,Produit A,Produit B
0,Janvier,100,90
1,Février,150,120
2,Mars,200,150
3,Avril,250,180


<h1> Créer un dataframe à partir d'un fichier CSV </h1>

1. Import basique

In [139]:
import pandas as pd

path = r'C:\Users\nmako\Documents\Data-Science-Projects-Repository\Pandas_basic\data\raw\data.csv'
df_employes = pd.read_csv(path)
df_employes


Unnamed: 0,Nom,Poste,Salaire
0,John Doe,Ingenieur,50000
1,Jane Smith,Analyste de donnees,60000
2,Emma Jones,Chef de projet,70000
3,Alex Brown,Developpeur,55000


2. gestion du caractère séparateur

In [143]:
df_employes_sep = pd.read_csv(r'C:\Users\nmako\Documents\Data-Science-Projects-Repository\Pandas_basic\data\raw\data_sep.csv', sep=';')
df_employes_sep


Unnamed: 0,Nom,Poste,Salaire
0,John Doe,Ingenieur,50000
1,Jane Smith,Analyste de donnees,60000
2,Emma Jones,Chef de projet,70000
3,Alex Brown,Developpeur,55000


3. Définir la ligne d'entête des colonnes

In [148]:
df_employes_head = pd.read_csv(r'C:\Users\nmako\Documents\Data-Science-Projects-Repository\Pandas_basic\data\raw\data_head.csv', header=1, sep=';')
df_employes_head

Unnamed: 0,Nom,Poste,Salaire
0,John Doe,Ingenieur,50000
1,Jane Smith,Analyste de donnees,60000
2,Emma Jones,Chef de projet,70000
3,Alex Brown,Developpeur,55000


4. Gestion des csv sans entête

df_employes_headless = pd.read_csv('import_csv/data_headless.csv')

df_employes_headless = pd.read_csv('import_csv/data_headless.csv')


5. Définir un index personnalisé à l'import

df_employes_index = pd.read_csv('import_csv/data.csv')

6. Importer uniquement certaines colonnes

df_employes_columns = pd.read_csv('import_csv/data.csv')

7. Ne pas importer certaines lignes de données

df_employes_head = pd.read_csv('import_csv/data_head.csv')

8. spécifier des valeurs supplémentaires à considérer comme NA/NaN

df_employes_na = pd.read_csv('import_csv/data_na.csv')

df_employes_na = pd.read_csv('import_csv/data_na.csv')

<h1> Importer d'autres types de fichiers </h1>

<b> Importer un fichier Excel </b>

Pour lire ce fichier Excel et le convertir en DataFrame, nous utilisons pd.read_excel()

df_employes = pd.read_excel('donnees_employes.xlsx', sheet_name='Employés')
df_employes

df_projets = pd.read_excel('donnees_employes.xlsx', sheet_name='Projets')
df_projets

#Vous pouvez également charger tous les onglets en une seule fois en spécifiant sheet_name=None
all_sheets = pd.read_excel('donnees_employes.xlsx', sheet_name=None)
all_sheets

all_sheets.keys()

all_sheets['Projets']

<h1> Importer un fichier Json </h1>

Pour lire ce fichier JSON et le convertir en DataFrame, nous utilisons pd.read_json()

df_employes = pd.read_json('fichier_json_classique.json')
df_employes

df_employes_a_retravailler = pd.read_json('fichier_json.json')
df_employes_a_retravailler

df_employes_a_retravailler['employes']

pd.DataFrame(list(df_employes_a_retravailler['employes']))

<h1> Exporter son dataframe en différents formats </h1>

Une fois vos modifications réalisées sur vos données, vous pouvez enregistrer vos modifications sous différents format

df_employes_na = pd.read_csv('import_csv/data_na.csv', sep=";")
df_employes_na

df_employes_na.to_csv('employes_save.csv', index=False)

df_employes_na.to_excel('employes_save.xlsx', index=False)

df_employes_na.to_json('employes.json')