<style>
div{
    text-align: center;
}
</style>
<div>
    <h2>Manipulation de données: <span>Création d'objets et indexation<span></h2>
    <h3>BADJO Dibéa koffi</h3>
    <p>Scientifique de données et un ingénieur de logiciel</p>
</div>

<h4>Indexation</h4>
<p>
L'indexation de données fait référence au processus de création d'une structure spéciale qui permet d'accéder rapidement à des éléments spécifiques d'un ensemble de données. Cela permet d'optimiser la recherche et la récupération d'informations, en réduisant le temps nécessaire pour trouver des éléments particuliers.Dans le contexte des bases de données, l'indexation consiste à créer une liste ordonnée de références vers les enregistrements d'une table. Ces références sont généralement basées sur des valeurs spécifiques (comme des clés primaires) ou des colonnes importantes. L'index permet de localiser rapidement les enregistrements correspondant à certaines conditions de recherche.
</p>

<h4>Importation de données</h4>

<p>Pandas prend en charge divers types de fichiers de données pour l'importation et l'exportation. Pour chaque format de fichier de données, un fonction particulière permet de lire les données dans ces fichiers</p>
<ul>
    <li>
        <em>CSV (Comma-Separated Values)</em>
        <p>Les fichiers CSV sont des fichiers texte où les valeurs sont séparées par des virgules. Ils sont largement utilisés pour stocker des données tabulaires.</p>
    </li>
     <li>
        <em>Excel</em>
        <p>LPandas peut lire et écrire des fichiers Excel (.xls, .xlsx) en utilisant les bibliothèques sous-jacentes comme openpyxl ou xlrd.</p>
    </li>
     <li>
        <em>JSON (JavaScript Object Notation) </em>
        <p> Pandas peut lire et écrire des données au format JSON, qui est largement utilisé pour représenter et stocker des données semi-structurées.</p>
    </li>
     <li>
        <em>SQL (Structured Query Language)</em>
        <p>Pandas prend en charge la connexion et la requête de bases de données SQL à l'aide de SQLAlchemy, une bibliothèque Python pour interagir avec les bases de données relationnelles.</p>
    </li>
</ul>

<h4>Lecture de fichier</h4>

<p>
    Pour lire un fichier CSV avec Pandas, vous pouvez utiliser la fonction pandas.read_csv() en précisant les paramètres de la fonction. Dépendant de l'utilité il faut préciser les parametre, ce paramètre est indispensable.
</p>
<ul>
    <li>filepath_or_buffer</li>
    <p>Il s'agit du chemin du fichier CSV ou de l'objet de type file-like à lire. C'est le seul paramètre obligatoire.</p>
</ul>

In [1]:
import pandas as pd  
mobile = pd.read_csv("/Users/dibe/Documents/GitHub/DataAnalysis/Data/mobile price.csv") # faites attention au chemin
mobile.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
0,842,0,2.2,0,1,0,7,0.6,188,2,...,20,756,2549,9,7,19,0,0,1,1
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
3,615,1,2.5,0,0,0,10,0.8,131,6,...,1216,1786,2769,16,8,11,1,0,0,2
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1208,1212,1411,8,2,15,1,1,0,1


<h4>Sélection de Colonnes</h4>

<p>Pour sélectionner une colonne spécifique, vous pouvez utiliser la notation nom_dataframe['nom_colonne'].</p>

In [2]:
mobile["dual_sim"]

0       0
1       1
2       1
3       0
4       0
       ..
1995    1
1996    1
1997    1
1998    0
1999    1
Name: dual_sim, Length: 2000, dtype: int64

<h4>Sélection de Plusieurs Colonnes</h4>

<p>Si vous souhaitez sélectionner plusieurs colonnes, vous pouvez fournir une liste de noms de colonnes.
Exemple : df[['colonne1', 'colonne2']].</p>

In [3]:
mobile[["dual_sim", "clock_speed"]]

Unnamed: 0,dual_sim,clock_speed
0,0,2.2
1,1,0.5
2,1,0.5
3,0,2.5
4,0,1.2
...,...,...
1995,1,0.5
1996,1,2.6
1997,1,0.9
1998,0,0.9


<h4>Sélection de Lignes :</h4>
<p>
    Pour sélectionner des lignes spécifiques, vous pouvez utiliser l'attribut .loc[].
    Exemple : df.loc[indices] où indices sont les indices des lignes que vous souhaitez sélectionner.
</p>

In [5]:
mobile.loc[[1,2,6,9,2]]

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
6,1821,0,1.7,0,4,1,10,0.8,139,8,...,381,1018,3220,13,8,18,1,0,1,3
9,509,1,0.6,1,2,1,9,0.1,93,5,...,1137,1224,513,19,10,12,1,0,0,0
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2


<h4>Sélection de Plage de Lignes et de Colonnes </h4>
<p>
    Vous pouvez utiliser .loc[] avec des plages d'indices et de colonnes pour sélectionner une partie spécifique du DataFrame.
Exemple : df.loc['début':'fin', 'colonne1':'colonne2'].
</p>

In [7]:
mobile.loc[3:9, ["dual_sim", "clock_speed"]]

Unnamed: 0,dual_sim,clock_speed
3,0,2.5
4,0,1.2
5,1,0.5
6,0,1.7
7,1,0.5
8,0,0.5
9,1,0.6


<h4>Selction conditionnelle</h4>
<p>
Vous pouvez utiliser des conditions pour filtrer les données.
Exemple : df[df['colonne'] > 5] sélectionne les lignes où la valeur de la colonne est supérieure à 5.
</p>

In [8]:
mobile[mobile["dual_sim"] == 1]

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
5,1859,0,0.5,1,3,0,22,0.7,164,1,...,1004,1654,1067,17,1,10,1,0,0,1
7,1954,0,0.5,1,0,0,24,0.8,187,4,...,512,1149,700,16,3,5,1,1,1,0
9,509,1,0.6,1,2,1,9,0.1,93,5,...,1137,1224,513,19,10,12,1,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1992,674,1,2.9,1,1,0,21,0.2,198,3,...,576,1809,1180,6,3,4,1,1,1,0
1995,794,1,0.5,1,0,1,2,0.8,106,6,...,1222,1890,668,13,4,19,1,1,0,0
1996,1965,1,2.6,1,0,0,39,0.2,187,4,...,915,1965,2032,11,10,16,1,1,1,2
1997,1911,0,0.9,1,1,1,36,0.7,108,8,...,868,1632,3057,9,1,5,1,1,0,3


<h4>Sélection basée sur la Position :</h4>
<p>Vous pouvez utiliser .iloc[] pour sélectionner des données en fonction de leur position numérique plutôt que de leur libellé.
Exemple : df.iloc[3:5, 1:3].</p>

In [9]:
mobile.iloc[1:19, 4:9]

Unnamed: 0,fc,four_g,int_memory,m_dep,mobile_wt
1,0,1,53,0.7,136
2,2,1,41,0.9,145
3,0,0,10,0.8,131
4,13,1,44,0.6,141
5,3,0,22,0.7,164
6,4,1,10,0.8,139
7,0,0,24,0.8,187
8,0,0,53,0.7,174
9,2,1,9,0.1,93
10,0,0,9,0.1,182


<h3>Création et suppression de colonnes et ligne</h3>

<h4>Création de colonne avec valeur par défaut</h4>

In [10]:
mobile["New"] = 0
mobile.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range,New
0,842,0,2.2,0,1,0,7,0.6,188,2,...,756,2549,9,7,19,0,0,1,1,0
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,1988,2631,17,3,7,1,1,0,2,0
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1716,2603,11,2,9,1,1,0,2,0
3,615,1,2.5,0,0,0,10,0.8,131,6,...,1786,2769,16,8,11,1,0,0,2,0
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1212,1411,8,2,15,1,1,0,1,0


<h4>Créer une colonne à partir d'une liste ou d'un tableau</h4>

In [12]:
import pandas as pd

# Créer un DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# Créer une nouvelle colonne 'C' à partir d'une liste
nouvelle_colonne = [7, 8, 9]
df['C'] = nouvelle_colonne
df

   A  B
0  1  4
1  2  5
2  3  6


Unnamed: 0,A,B,C
0,1,4,7
1,2,5,8
2,3,6,9


<h4>Utiliser une fonction pour calculer les valeurs de la nouvelle colonne</h4>

In [13]:
mobile["Nv"] = mobile["dual_sim"]*2
mobile.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range,New,Nv
0,842,0,2.2,0,1,0,7,0.6,188,2,...,2549,9,7,19,0,0,1,1,0,0
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,2631,17,3,7,1,1,0,2,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,2603,11,2,9,1,1,0,2,0,2
3,615,1,2.5,0,0,0,10,0.8,131,6,...,2769,16,8,11,1,0,0,2,0,0
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1411,8,2,15,1,1,0,1,0,0


<h3>Suppression de nouvelle colonne</h3>

<p>C'est très facile de supprimer un colonne ou un ensemble de colonne dans une dataframe, il suffit d'utiliser la fonction drop</p>

In [14]:
mobile = mobile.drop(columns=["New", "Nv"])
mobile.head()

Unnamed: 0,battery_power,blue,clock_speed,dual_sim,fc,four_g,int_memory,m_dep,mobile_wt,n_cores,...,px_height,px_width,ram,sc_h,sc_w,talk_time,three_g,touch_screen,wifi,price_range
0,842,0,2.2,0,1,0,7,0.6,188,2,...,20,756,2549,9,7,19,0,0,1,1
1,1021,1,0.5,1,0,1,53,0.7,136,3,...,905,1988,2631,17,3,7,1,1,0,2
2,563,1,0.5,1,2,1,41,0.9,145,5,...,1263,1716,2603,11,2,9,1,1,0,2
3,615,1,2.5,0,0,0,10,0.8,131,6,...,1216,1786,2769,16,8,11,1,0,0,2
4,1821,1,1.2,0,13,1,44,0.6,141,2,...,1208,1212,1411,8,2,15,1,1,0,1


<h4>Ajoute d'une nouvelle enregistrement</h4>

<p>
    Pour insérer une ligne dans un DataFrame Pandas, vous pouvez utiliser la méthode append. Voici un exemple :
</p>

In [4]:
import pandas as pd

# Créer un DataFrame
df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]})
print(df)
# Créer une nouvelle ligne
nouvelle_ligne = pd.DataFrame({'A': [4], 'B': [7]})

# Concaténer le DataFrame existant avec la nouvelle ligne
df = pd.concat([df, nouvelle_ligne], ignore_index=True)
print(df)

   A  B
0  1  4
1  2  5
2  3  6
   A  B
0  1  4
1  2  5
2  3  6
3  4  7
