<style>
div{
    text-align: center;
}
</style>
<div>
    <h2>Introduction de Pandas</h2>
    <h3>BADJO Dibéa koffi</h3>
    <p>Scientifique de données et un ingénieur de logiciel</p>
</div>

<p>
Pandas est une bibliothèque open-source très populaire en Python qui offre des structures de données et des outils d'analyse de données faciles à utiliser. Elle est particulièrement adaptée pour la manipulation et l'analyse de données tabulaires et les séries temporelles.
</p>

<h4>Structure de données en pandas</h4>

<ul>
    <li>
        <em>Series</em>
        <p>
            Ce sont des tableaux unidimensionnels étiquetés qui peuvent contenir n'importe quel type de données.
        </p>
    </li>
    <li>
        <em>DataFrame</em>
        <p>
            Ce sont des tableaux bidimensionnels qui ressemblent à une feuille de calcul ou à une table de base de données. Ils sont composés de lignes et de colonnes et peuvent stocker différents types de données.
        </p>
    </li>
</ul>

<h4>Manipulations de données</h4>

<p>
    Pandas offre une grande variété de méthodes pour effectuer des opérations de manipulation de données, telles que le filtrage, le tri, le regroupement, la fusion, etc.
</p>

<h4>Lectures et écritures de données</h4>

<p>
    Pandas permet de lire et d'écrire des données à partir de divers formats de fichiers, tels que CSV, Excel, JSON, SQL, HDF5, etc.
</p>

<h4>Fonctions d'aggrégation</h4>

<p>
    Pandas propose des fonctions pour effectuer des opérations d'agrégation sur les données, telles que la somme, la moyenne, le comptage, etc.
</p>

<h4>Intégration avec d'autres bibliothèques </h4>

<p>
    Pandas s'intègre bien avec d'autres bibliothèques Python comme NumPy, Matplotlib, et scikit-learn, ce qui en fait un outil essentiel dans l'écosystème Python pour l'analyse de données.
</p>

<h4>Installation python</h4>

<ul>
    <li>
        <h4>En utilisant pip</h4>
        <em>pip install pandas</em>
    </li>
    <li>
        <h4>Ananconda</h4>
        <em>conda install -c anaconda pandas</em>
    </li>
<ul>

<h4>Importation de pandas</h4>

In [1]:
import pandas as pd # Importation
print(pd.__version__)


1.4.4


<h4>Introduction au objets Pandas</h4>

<ul>
    <li>
        <em>Line<em>
        <p>
        Une ligne en Pandas fait référence à un enregistrement individuel dans un DataFrame. Elle représente une observation spécifique ou une entrée unique dans un jeu de données.
        </p>
    </li>
    <li>
        <em>Colonnes<em>
        <p>
        En Pandas, une colonne représente une seule dimension de données dans un DataFrame. Chaque colonne est étiquetée avec un nom qui identifie de manière unique cette caractéristique particulière des données.
        </p>
    </li>
    <li>
        <em>Indices<em>
        <p>
        En Pandas, un indice (index en anglais) est une structure qui identifie de manière unique chaque ligne d'un DataFrame. Il joue un rôle crucial dans la manipulation et l'organisation des données.
        L'indice est généralement une séquence de nombres entiers qui commence souvent à zéro, mais il peut aussi être constitué de valeurs de n'importe quel type (entiers, chaînes de caractères, dates, etc.). L'indice permet d'accéder rapidement à une ligne spécifique dans un DataFrame.
        </p>
    </li>
</ul>

In [8]:
import pandas as pd

# Création des données
donnees = {'Nom': ['Alice', 'Bob', 'Charlie', 'David', 'Eugenie'],
           'Âge': [30, 35, 25, 40, 28],
           'Salaire': [50000, 60000, 45000, 70000, 55000]}

# Création du DataFrame
df = pd.DataFrame(donnees)

# Affichage du DataFrame
print(df)

       Nom  Âge  Salaire
0    Alice   30    50000
1      Bob   35    60000
2  Charlie   25    45000
3    David   40    70000
4  Eugenie   28    55000


<h5>Series</h5>

<p>
    Une série (ou "Series" en anglais) est l'une des structures de données principales fournies par la bibliothèque Pandas. Elle peut être considérée comme un tableau unidimensionnel qui peut contenir n'importe quel type de données (entiers, flottants, chaînes de caractères, etc.)
</p>

<h5>Creation d'une series</h5>

<p>Il existe plusieurs façons de créer une série en utilisant la bibliothèque Pandas.</p>

<em>A partir d'une liste</em>

In [3]:

import pandas as pd
data_list = [1, 2, 3, 4, 5]
serie_list = pd.Series(data_list)
print(serie_list)


0    1
1    2
2    3
3    4
4    5
dtype: int64


<em>A partir d'un array numpy</em>


In [4]:

import numpy as np
data_array = np.array([1, 2, 3, 4, 5])
serie_array = pd.Series(data_array)
print(serie_array)

0    1
1    2
2    3
3    4
4    5
dtype: int64


<em>A partir d'un dictionnaire</em>

In [7]:
import pandas as pd

data_dict = {'a': 1, 'b': 5, 'c': 3, 'd': 4, 'e': 5}
serie_dict = pd.Series(data_dict)
print(serie_dict)

a    1
b    5
c    3
d    4
e    5
dtype: int64


<h5>DataFrame</h5>

<p>
    Plus précisément, un DataFrame se compose de lignes et de colonnes. Chaque colonne représente une caractéristique ou un attribut spécifique, tandis que chaque ligne contient les valeurs associées à ces attributs. Chaque ligne est identifiée par un indice unique.
</p>

In [9]:
print(df)

       Nom  Âge  Salaire
0    Alice   30    50000
1      Bob   35    60000
2  Charlie   25    45000
3    David   40    70000
4  Eugenie   28    55000


<em>A partir d'un dictionnaire</em>

In [10]:
import pandas as pd

donnees = [{'Nom': 'Alice', 'Âge': 30, 'Salaire': 50000},
          {'Nom': 'Bob', 'Âge': 35, 'Salaire': 60000},
          {'Nom': 'Charlie', 'Âge': 25, 'Salaire': 45000}]

df = pd.DataFrame(donnees)
print(df)

       Nom  Âge  Salaire
0    Alice   30    50000
1      Bob   35    60000
2  Charlie   25    45000


<em>À partir d'un dictionnaire de listes </em>

In [12]:
import pandas as pd

donnees = {'Nom': ['Alice', 'Bob', 'Charlie'],
           'Âge': [30, 35, 25],
           'Salaire': [50000, 60000, 45000]}

df = pd.DataFrame(donnees)
print(df)


       Nom  Âge  Salaire
0    Alice   30    50000
1      Bob   35    60000
2  Charlie   25    45000


<em>À partir d'une liste </em>

In [13]:
import pandas as pd

donnees = [['Alice', 30, 50000],
          ['Bob', 35, 60000],
          ['Charlie', 25, 45000]]

df = pd.DataFrame(donnees, columns=['Nom', 'Âge', 'Salaire'])
print(df)

       Nom  Âge  Salaire
0    Alice   30    50000
1      Bob   35    60000
2  Charlie   25    45000


<p>
    Vous pouvez créer également un objet pandas en lisant les informations dans un fichier ou en se connectant directement á une base de données en envoyant une requete SQL. 
</p>

<h4>Récupération de données depuis une base de données avec Pandas</h4>
<ol>
    <li><strong>Installer les bibliothèques nécessaires</strong>:</li>
    <p>Assurez-vous d'avoir installé Pandas et SQLAlchemy dans votre environnement Python.</p>
    <pre><code>pip install pandas sqlalchemy</code></pre>
    <li><strong>Importer les bibliothèques</strong>:</li>
    <pre><code>import pandas as pd from sqlalchemy import create_engine</code></pre>
    <li><strong>Établir une connexion à la base de données</strong>:</li>
    <p>Utilisez la fonction <code>create_engine</code> pour créer une connexion à votre base de données. Remplacez <code>URL_DE_LA_BASE_DE_DONNÉES</code> par l'URL de connexion spécifique à votre base de données.</p>
    <pre><code>engine = create_engine('URL_DE_LA_BASE_DE_DONNÉES')</code></pre>
    <li><strong>Exécuter une requête SQL</strong>:</li>
    <p>Utilisez la fonction <code>pd.read_sql_query</code> pour exécuter une requête SQL et récupérer les données dans un DataFrame Pandas. Remplacez <code>VOTRE_REQUÊTE_SQL</code> par la requête SQL que vous souhaitez exécuter.</p>
    <pre><code>df = pd.read_sql_query('VOTRE_REQUÊTE_SQL', engine)</code></pre>
    <li><strong>Manipuler les données avec Pandas</strong>:</li>
    <p>Vous pouvez maintenant utiliser les fonctionnalités de Pandas pour effectuer diverses opérations de manipulation de données sur le DataFrame <code>df</code>.</p>
    <li><strong>Fermer la connexion</strong> (si nécessaire):</li>
    <p>N'oubliez pas de fermer la connexion à la base de données une fois que vous avez terminé.</p>
    <pre><code>engine.dispose()</code></pre>
</ol>

