## PANDAS NOTEBOOK

In [1]:
# importation des librairies
import numpy as np
import pandas as pd

#### Définitions:
##### ----> Base de données : ensemble d'informations structurées et regroupées dans plusieurs variables
##### ----> Dataframe: une structure de données à 2 dimensions (ligne et colonne)

### Partie I - Création de dataframe et fonctions 

In [2]:
# - A partir d'un array numpy
numpy_array = np.array([
    [1.1, 2, 3.3, 4], 
    [2.7, 10, 5.4, 7], 
    [5.3, 9, 1.5, 15]])
df_1 = pd.DataFrame(numpy_array, index = ['a1', 'a2', 'a3'], columns = ['A', 'B', 'C', 'D'])
df_1

Unnamed: 0,A,B,C,D
a1,1.1,2.0,3.3,4.0
a2,2.7,10.0,5.4,7.0
a3,5.3,9.0,1.5,15.0


In [3]:
# A partir d'un dictionnaire (nuance ==> les données seront disposées en suivant la colonne)
dico = {
    'A': [1.1, 2.7, 5.3], 
    'B': [2, 10, 9], 
    'C': [3.3, 5.4, 1.5], 
    'D': [4, 7, 15]
}
df_2 = pd.DataFrame(dico, index = ['a1', 'a2', 'a3'])
df_2

Unnamed: 0,A,B,C,D
a1,1.1,2,3.3,4
a2,2.7,10,5.4,7
a3,5.3,9,1.5,15


In [4]:
# - df.info() : imprime des infos sur le dataframe : les noms et types des colonnes, le nombre de valeurs non nulles et la place occupée.
df_1.info()

<class 'pandas.core.frame.DataFrame'>
Index: 3 entries, a1 to a3
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   A       3 non-null      float64
 1   B       3 non-null      float64
 2   C       3 non-null      float64
 3   D       3 non-null      float64
dtypes: float64(4)
memory usage: 120.0+ bytes


### - df.head(), df.tail() : les 5 premières ou les 5 dernières.

### - df.columns : les noms des colonnes, par exemple Index(['A', 'B', 'C', 'D'], dtype='object'). Ou encore df.columns.values (array numpy)

### - df.index : les noms des lignes (individus), par exemple Index(['a1', 'a2', 'a3'], dtype='object'). Ou encore df.index.values

### - df.values : pour récupérer le dataframe sous forme d'array numpy 2d.

- df.describe() : renvoie un dataframe donnant des statistiques sur les valeurs (nombres de valeurs, moyenne, écart-type, ...), mais uniquement sur les colonnes numériques
- faire df.describe(include = 'all') pour avoir toutes les colonnes


- df.shape: dimension du dataframe

- del df['A'] : permet de supprimer la colonne A.

- df.drop(['a', 'c'], inplace = True) : supprime les lignes d'index 'a' et 'c'

- df.drop(['A', 'C'], axis = 1, inplace = True) : permet de détruire plusieurs colonnes en même temps.

- df.drop(columns = ['A', 'C'], inplace = True) : alternative à l'indication de l'axis.

- df.drop(index = ['a', 'c'], inplace = True) : alternative à l'indication de l'axis (destruction de lignes).

- df.astype({'A': int, 'B': numpy.float64}) : renvoie un dataframe avec les colonnes A et B converties selon les types indiqués.

- df[colonne][condition] = nouvelle valeur: modifier les valeurs d'une colonne 
- En plus avancé, on peut écrire df['A'] = df['A'].apply(lambda x: 0 if x < 2 else x) on peut egalement préciser l'axis (1 = ligne, 0 = colonne)


- df.dropna() : renvoie le dataframe avec les lignes contenant au moins une valeur NaN supprimée.

- df.dropna(how = 'all') : : supprime les lignes où toutes les valeurs sont NaN.

- df.fillna(0) : renvoie un dataframe avec toutes les valeurs NaN remplacées par 0

- df['A'].fillna(0, inplace = True) : remplace tous les NA de la colonne A par 0

- df.isnull() : renvoie un dataframe de booléens, avec True dans toutes les cellules non définies.

- df = df.replace(numpy.inf, 99) : remplace les valeurs infinies par 99 (on peut utiliser inplace = True)

- Utilisation de iloc pour sélectionner une valeur dans un dataframe
df.iloc[ligne, colonne]

- On pourrait se dire que serait possible en faisant df["nom_colonne"][ligne_a_selectionner]. Et oui ça va marcher mais avec un retour de warning. Ce qui veut dire que ce format n'est plus vraiment supporté sous les dataframes

- selection de la première ligne --> df_1.iloc[0]
- selection de la première colonne --> df_1.iloc[:,0]
- df_1["A"] --> marche mais avec warning

In [16]:
df_1.iloc[0, 0]
df_1.iloc[0]
df_1["A"]

a1    1.1
a2    2.7
a3    5.3
Name: A, dtype: float64

- loc est utilisé pour l'indexation basée sur les étiquettes au lieu de l'indexation basée sur les entiers

In [None]:
df_1.loc[:, "B"], df_1["B"]

- pour concaténer 2 dataframes (ou plus) ayant les mêmes colonnes les uns en dessous des autres :

In [19]:
df1 = pd.DataFrame({'A': [3, 5], 'B': [1, 2]}, index = [0, 1])
df2 = pd.DataFrame({'A': [6, 7], 'B': [4, 9]}, index = [2, 3])
pd.concat([df1, df2])

Unnamed: 0,A,B
0,3,1
1,5,2
2,6,4
3,7,9


<h2 style="color: orange; text-align: center;"> Partie II - traitement de fichier externe </h2>

In [None]:
# lecture d'un fichier csv
df = pd.read_csv('myFile.csv')

# lecture d'un fichier excel
df = pd.read_excel('myFile.xlsx')

# lecture d'un fichier txt
df = pd.read_text('myFile.txt')

# lecture d'un fichier clipbord
df = pd.read_clipboard()

In [20]:
# importation de données csv
data = pd.read_csv('laptops.csv')

In [21]:
data.head()

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,Screen,CPU,RAM,Storage,GPU,Operating System,Operating System Version,Weight,Price
0,Apple,MacBook Pro,Ultrabook,"""13.3""""""",IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,,1.37kg,11912523.48
1,Apple,Macbook Air,Ultrabook,"""13.3""""""",1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,,1.34kg,7993374.48
2,HP,250 G6,Notebook,"""15.6""""""",Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,,1.86kg,5112900.0
3,Apple,MacBook Pro,Ultrabook,"""15.4""""""",IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,,1.83kg,22563005.4
4,Apple,MacBook Pro,Ultrabook,"""13.3""""""",IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,,1.37kg,16037611.2


In [22]:
data.describe()

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,Screen,CPU,RAM,Storage,GPU,Operating System,Operating System Version,Weight,Price
count,977,977,977,977,977,977,977,977,977,977,841,977,977
unique,19,488,7,19,39,107,9,37,99,8,5,167,639
top,Dell,XPS 13,Notebook,"""15.6""""""",Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,Windows,10,2.2kg,9772308
freq,232,22,548,493,396,151,483,318,225,836,818,98,12


In [23]:
data.columns

Index(['Manufacturer', 'Model Name', 'Category', 'Screen Size', 'Screen',
       'CPU', 'RAM', 'Storage', 'GPU', 'Operating System',
       'Operating System Version', 'Weight', 'Price'],
      dtype='object')

In [25]:
data.loc[:, "Price"]

0      11912523.48
1       7993374.48
2          5112900
3       22563005.4
4       16037611.2
          ...     
972       24897600
973       10492560
974     18227710.8
975        8705268
976        8909784
Name: Price, Length: 977, dtype: object

In [27]:
data

Unnamed: 0,Manufacturer,Model Name,Category,Screen Size,Screen,CPU,RAM,Storage,GPU,Operating System,Operating System Version,Weight,Price
0,Apple,MacBook Pro,Ultrabook,"""13.3""""""",IPS Panel Retina Display 2560x1600,Intel Core i5 2.3GHz,8GB,128GB SSD,Intel Iris Plus Graphics 640,macOS,,1.37kg,11912523.48
1,Apple,Macbook Air,Ultrabook,"""13.3""""""",1440x900,Intel Core i5 1.8GHz,8GB,128GB Flash Storage,Intel HD Graphics 6000,macOS,,1.34kg,7993374.48
2,HP,250 G6,Notebook,"""15.6""""""",Full HD 1920x1080,Intel Core i5 7200U 2.5GHz,8GB,256GB SSD,Intel HD Graphics 620,No OS,,1.86kg,5112900
3,Apple,MacBook Pro,Ultrabook,"""15.4""""""",IPS Panel Retina Display 2880x1800,Intel Core i7 2.7GHz,16GB,512GB SSD,AMD Radeon Pro 455,macOS,,1.83kg,22563005.4
4,Apple,MacBook Pro,Ultrabook,"""13.3""""""",IPS Panel Retina Display 2560x1600,Intel Core i5 3.1GHz,8GB,256GB SSD,Intel Iris Plus Graphics 650,macOS,,1.37kg,16037611.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...
972,Dell,Alienware 17,Gaming,"""17.3""""""",Full HD 1920x1080,Intel Core i7 6700HQ 2.6GHz,32GB,256GB SSD + 1TB HDD,Nvidia GeForce GTX 1070,Windows,10,4.42kg,24897600
973,Toshiba,Tecra A40-C-1DF,Notebook,"""14.0""""""",Full HD 1920x1080,Intel Core i5 6200U 2.3GHz,8GB,256GB SSD,Intel HD Graphics 520,Windows,10,1.95kg,10492560
974,Asus,Rog Strix,Gaming,"""17.3""""""",Full HD 1920x1080,Intel Core i7 7700HQ 2.8GHz,16GB,256GB SSD + 1TB HDD,Nvidia GeForce GTX 1060,Windows,10,2.73kg,18227710.8
975,HP,Probook 450,Notebook,"""15.6""""""",IPS Panel Full HD 1920x1080,Intel Core i5 7200U 2.70GHz,8GB,128GB SSD + 1TB HDD,Nvidia GeForce 930MX,Windows,10,2.04kg,8705268


In [29]:
data.isnull().sum()

Manufacturer                  0
Model Name                    0
Category                      0
Screen Size                   0
Screen                        0
CPU                           0
RAM                           0
Storage                       0
GPU                           0
Operating System              0
Operating System Version    136
Weight                        0
Price                         0
dtype: int64

In [33]:
data.fillna(0, inplace = True)

In [34]:
data.isnull().sum()

Manufacturer                0
Model Name                  0
Category                    0
Screen Size                 0
Screen                      0
CPU                         0
RAM                         0
Storage                     0
GPU                         0
Operating System            0
Operating System Version    0
Weight                      0
Price                       0
dtype: int64

In [26]:
data["Price"]

0      11912523.48
1       7993374.48
2          5112900
3       22563005.4
4       16037611.2
          ...     
972       24897600
973       10492560
974     18227710.8
975        8705268
976        8909784
Name: Price, Length: 977, dtype: object

In [None]:
# Nous allons maintenant appliquer quelques fonctions étudiées sur notre fichier importé dans la variable data

# Analyse d'un fichier

supprimer les colonnes avec moins de n valeurs non nulles
>>> df.dropna(axis=1,thresh=n)

Le fichier unicef_enfants.csv contient des données sur plusieurs années compilées par l’unicef sur les mariages des filles avant l’age de 15 ou 18 ans
1. Inspecter les données du fichier et les nettoyer si nécessaire.
2. En 2018, dans quel pays y a-t-il eu le plus de filles mariées avant l’age 18
ans ?
3. Afficher les données récoltées en 2018 où le nombre de filles mariées avant
l’age de 18 ans représente plus de 5% du nombre total des filles. Les classer
par ordre décroissant selon le nombre de filles mariées avant l’age de 18
ans.
4. Ajouter une colonne (booléen) qui dit si la ligne contient des données dans
la colonne ‘Married_15’

In [60]:
data = pd.read_csv("unicef_enfants.csv", sep=";", encoding="latin1")
data.head()

Unnamed: 0,Pays,Avant_15,Avant_18,Annee
0,Afghanistan,4,28,2017.0
1,Albania,1,12,2018.0
2,Algeria,0,4,2019.0
3,Andorra,,,
4,Angola,8,30,2016.0


In [62]:
df = data.copy()

In [35]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202 entries, 0 to 201
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pays      202 non-null    object 
 1   Avant_15  202 non-null    object 
 2   Avant_18  202 non-null    object 
 3   Annee     131 non-null    float64
dtypes: float64(1), object(3)
memory usage: 6.4+ KB


In [63]:
for col in ["Avant_15", "Avant_18"]:
    df[col] = pd.to_numeric(df[col], errors="coerce").astype("Int64")
df.head()

Unnamed: 0,Pays,Avant_15,Avant_18,Annee
0,Afghanistan,4.0,28.0,2017.0
1,Albania,1.0,12.0,2018.0
2,Algeria,0.0,4.0,2019.0
3,Andorra,,,
4,Angola,8.0,30.0,2016.0


In [64]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202 entries, 0 to 201
Data columns (total 4 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Pays      202 non-null    object 
 1   Avant_15  128 non-null    Int64  
 2   Avant_18  131 non-null    Int64  
 3   Annee     131 non-null    float64
dtypes: Int64(2), float64(1), object(1)
memory usage: 6.8+ KB


In [65]:
df["Pays"][df["Avant_18"].isna() | df["Avant_15"].isna()]

3                                 Andorra
5                                Anguilla
6                     Antigua and Barbuda
7                               Argentina
9                               Australia
                      ...                
186              Turks and Caicos Islands
190                  United Arab Emirates
191                        United Kingdom
193                         United States
197    Venezuela (Bolivarian Republic of)
Name: Pays, Length: 74, dtype: object

0      False
1       True
2      False
3      False
4      False
       ...  
197    False
198    False
199    False
200     True
201    False
Name: Annee, Length: 202, dtype: bool

In [80]:
df18 = df[df["Annee"] == 2018]

In [83]:
maxsd = df18['Avant_18'].max()

In [84]:
maxsd

54

In [85]:
df18[df18["Avant_18"] == maxsd]

Unnamed: 0,Pays,Avant_15,Avant_18,Annee
109,Mali,16,54,2018.0


In [86]:
df[df["Annee"] == 2018][df["Avant_18"] == maxsd]

  df[df["Annee"] == 2018][df["Avant_18"] == maxsd]


Unnamed: 0,Pays,Avant_15,Avant_18,Annee
109,Mali,16,54,2018.0


In [90]:
df[(df["Annee"] == 2018) & (df["Avant_18"] == df["Avant_18"][df["Annee"] == 2018].max())]

Unnamed: 0,Pays,Avant_15,Avant_18,Annee
109,Mali,16,54,2018.0


In [97]:
url = "https://raw.githubusercontent.com/cs109/2014_data/master/countries.csv"
df = pd.read_csv(url)
df["Region"].value_counts()

Region
AFRICA           54
EUROPE           47
ASIA             44
NORTH AMERICA    23
OCEANIA          14
SOUTH AMERICA    12
Name: count, dtype: int64

In [None]:
import sqlite3
import pandas as pd

# Connexion au fichier SQLite (téléchargé ou uploadé sur Replit)
conn = sqlite3.connect("Chinook_Sqlite.sqlite")
conn.cursor.

# Exécuter une requête SQL
query = "SELECT * FROM Artist LIMIT 5"
df = pd.read_sql_query(query, conn)

# Afficher les résultats
print(df)

# Fermer la connexion
conn.close()

DatabaseError: Execution failed on sql 'SELECT * FROM Artist LIMIT 5': no such table: Artist