# PANDAS Presentation Explaining 

In [13]:
import pandas as pd

# Series et DataFrames

## Series

## DataFrame

In [14]:
population_dict = {'Paris': 2187526, 'Marseille': 863310, 'Lyon': 516092, 'Toulouse': 479553, 'Nice': 340017}

population = pd.Series(population_dict)

area_dict = {'Paris': 105.4, 'Marseille': 240.6, 'Lyon': 47.9, 'Toulouse': 118.3, 'Nice': 71.9}

area = pd.Series(area_dict)

df = pd.DataFrame({'population': population, 'area': area})

print(df)

           population   area
Paris         2187526  105.4
Marseille      863310  240.6
Lyon           516092   47.9
Toulouse       479553  118.3
Nice           340017   71.9


**On peut accéder aux données et aux index d’un DataFrame avec les attributs values, index et columns. Par exemple :**

In [15]:
print(df.values) # affiche [[2187526.   105.4]
                 #         [ 863310.   240.6]
                 #         [ 516092.    47.9]
                 #         [ 479553.   118.3]
                 #         [ 340017.    71.9]]
print(df.index) # affiche Index(['Paris', 'Marseille', 'Lyon', 'Toulouse', 'Nice'], dtype='object')
print(df.columns) # affiche Index(['population', 'area'], dtype='object')


[[2.187526e+06 1.054000e+02]
 [8.633100e+05 2.406000e+02]
 [5.160920e+05 4.790000e+01]
 [4.795530e+05 1.183000e+02]
 [3.400170e+05 7.190000e+01]]
Index(['Paris', 'Marseille', 'Lyon', 'Toulouse', 'Nice'], dtype='object')
Index(['population', 'area'], dtype='object')


**On peut accéder aux colonnes d’un DataFrame par leur nom, en utilisant la notation [] ou la notation .. Par exemple :**

In [19]:
print("Methode 1 : ")
print(df['population']) # affiche la colonne population

print(" \n Methode 2 : ")
print(df.population) # affiche la même chose

Methode 1 : 
Paris        2187526
Marseille     863310
Lyon          516092
Toulouse      479553
Nice          340017
Name: population, dtype: int64
 
 Methode 2 : 
Paris        2187526
Marseille     863310
Lyon          516092
Toulouse      479553
Nice          340017
Name: population, dtype: int64


**On peut accéder aux lignes d’un DataFrame par leur index, en utilisant la méthode loc[]. Par exemple :**

In [20]:
print(df.loc['Paris']) # affiche la ligne correspondant à Paris

population    2187526.0
area              105.4
Name: Paris, dtype: float64


**On peut aussi accéder aux lignes d’un DataFrame par leur position, en utilisant la méthode iloc[]. Par exemple :**

In [22]:
print(df.iloc[0]) # affiche la première ligne du DataFrame

population    2187526.0
area              105.4
Name: Paris, dtype: float64


**On peut accéder à un élément spécifique d’un DataFrame en utilisant la méthode at[]. Par exemple :**

In [24]:
print(df.at['Paris', 'population']) # affiche 2187526

2187526


# 4. Créer un DataFrame à partir de différentes sources

## À partir d'une liste de listes
>Ce code crée un DataFrame avec trois lignes et trois colonnes, à partir d’une liste de listes. On spécifie les index et les colonnes avec les paramètres index et columns. Le résultat affiché est :

In [2]:
data = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]
df = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['x', 'y', 'z'])
print(df)

   x  y  z
a  1  2  3
b  4  5  6
c  7  8  9


## À partir d’un dictionnaire de listes :
> Ce code crée un DataFrame avec trois lignes et trois colonnes, à partir d’un dictionnaire de listes. Les clés du dictionnaire deviennent les noms des colonnes, et les valeurs du dictionnaire deviennent les données des colonnes. On spécifie les index avec le paramètre index. Le résultat affiché est le même que le précédent.

In [4]:
import pandas as pd
data = {'x': [1, 4, 7], 'y': [2, 5, 8], 'z': [3, 6, 9]}
df = pd.DataFrame(data, index=['a', 'b', 'c'])
print(df)

   x  y  z
a  1  2  3
b  4  5  6
c  7  8  9


## À partir d’un array NumPy :
>Ce code crée un DataFrame avec trois lignes et trois colonnes, à partir d’un array NumPy. On spécifie les index et les colonnes avec les paramètres index et columns. Le résultat affiché est le même que les précédents.

In [5]:
import pandas as pd
import numpy as np
data = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
df = pd.DataFrame(data, index=['a', 'b', 'c'], columns=['x', 'y', 'z'])
print(df)

   x  y  z
a  1  2  3
b  4  5  6
c  7  8  9


## creation des Fichiers

In [8]:
import csv
import json
import xml.etree.ElementTree as ET
import sqlite3

# Exemple de données pour les PC
ensemble_de_pc = [
    {"id": 1, "nom": "PC1", "marque": "Dell", "ram": 8, "processeur": "Intel i5"},
    {"id": 2, "nom": "PC2", "marque": "HP", "ram": 16, "processeur": "AMD Ryzen 7"},
    # Ajoutez d'autres PC au besoin
]

# Générer le fichier CSV
with open('pc.csv', 'w', newline='') as csvfile:
    fieldnames = ensemble_de_pc[0].keys()
    writer = csv.DictWriter(csvfile, fieldnames=fieldnames)
    
    writer.writeheader()
    for pc in ensemble_de_pc:
        writer.writerow(pc)

# Générer le fichier JSON
with open('pc.json', 'w') as jsonfile:
    json.dump(ensemble_de_pc, jsonfile, indent=2)

# Générer le fichier XML
root = ET.Element("pcs")
for pc in ensemble_de_pc:
    pc_element = ET.SubElement(root, "pc")
    for key, value in pc.items():
        ET.SubElement(pc_element, key).text = str(value)

tree = ET.ElementTree(root)
tree.write('pc.xml')

# Générer le fichier SQLite (fichier .db)
conn = sqlite3.connect('pc.db')
cursor = conn.cursor()

cursor.execute('''
    CREATE TABLE PC (
        id INTEGER PRIMARY KEY,
        nom TEXT,
        marque TEXT,
        ram INTEGER,
        processeur TEXT
    )
''')

for pc in ensemble_de_pc:
    cursor.execute('''
        INSERT INTO PC (nom, marque, ram, processeur)
        VALUES (?, ?, ?, ?)
    ''', (pc['nom'], pc['marque'], pc['ram'], pc['processeur']))

conn.commit()
conn.close()

## À partir d’un fichier CSV :
> Ce code crée un DataFrame à partir d’un fichier CSV, qui est un format courant pour stocker des données tabulaires. Le fichier CSV doit avoir une ligne d’en-tête avec les noms des colonnes, et des lignes de données séparées par des virgules. Par exemple, le fichier data.csv pourrait contenir 

In [9]:
import pandas as pd
df = pd.read_csv('pc.csv')
print(df)

   id  nom marque  ram   processeur
0   1  PC1   Dell    8     Intel i5
1   2  PC2     HP   16  AMD Ryzen 7


## À partir d’un fichier JSON :
>Ce code crée un DataFrame à partir d’un fichier JSON, qui est un format courant pour stocker des données structurées. Le fichier JSON doit avoir un objet avec des paires clé-valeur, où les clés sont les noms des colonnes, et les valeurs sont des listes de données.

In [11]:
import pandas as pd
df = pd.read_json('pc.json')
print(df)

   id  nom marque  ram   processeur
0   1  PC1   Dell    8     Intel i5
1   2  PC2     HP   16  AMD Ryzen 7


## À partir d’une base de données :
>Ce code crée un DataFrame à partir d’une base de données SQLite, qui est un système de gestion de base de données relationnelle. On utilise le module sqlite3 pour se connecter à la base de données, et la méthode pd.read_sql() pour exécuter une requête SQL et renvoyer le résultat sous forme de DataFrame.

In [15]:
import pandas as pd
import sqlite3
conn = sqlite3.connect('pc.db')
df = pd.read_sql('SELECT * FROM pc', conn)
print(df)

   id  nom marque  ram   processeur
0   1  PC1   Dell    8     Intel i5
1   2  PC2     HP   16  AMD Ryzen 7


# 4. Créer un DataFrame à partir de différentes sources

In [16]:
#DATA
population_dict = {'Paris': 2187526, 'Marseille': 863310, 'Lyon': 516092, 'Toulouse': 479553, 'Nice': 340017}

population = pd.Series(population_dict)

area_dict = {'Paris': 105.4, 'Marseille': 240.6, 'Lyon': 47.9, 'Toulouse': 118.3, 'Nice': 71.9}

area = pd.Series(area_dict)

df = pd.DataFrame({'population': population, 'area': area})

print(df)

           population   area
Paris         2187526  105.4
Marseille      863310  240.6
Lyon           516092   47.9
Toulouse       479553  118.3
Nice           340017   71.9


## 4-1- Accéder a des colonnes et des lignes

### Accéder à une colonne:

In [17]:
df['population']  # ou df.population

Paris        2187526
Marseille     863310
Lyon          516092
Toulouse      479553
Nice          340017
Name: population, dtype: int64

### Accéder à plusieurs colonnes:

In [18]:
df[['population', 'area']]

Unnamed: 0,population,area
Paris,2187526,105.4
Marseille,863310,240.6
Lyon,516092,47.9
Toulouse,479553,118.3
Nice,340017,71.9


### Accéder à une ligne:

In [19]:
df.loc['Paris']

population    2187526.0
area              105.4
Name: Paris, dtype: float64

### Accéder à plusieurs lignes:

In [20]:
df.loc[['Paris', 'Marseille']]


Unnamed: 0,population,area
Paris,2187526,105.4
Marseille,863310,240.6


### Accéder à un élément spécifique:

In [21]:
df.at['Paris', 'population']

2187526