In [2]:
import pandas as pd

In [6]:
# Exemple de données
data = {
    'Spé1': ['A', 'C', 'B', 'A', 'B'],
    'Spé2': ['B', 'A', 'C', 'D', 'D'],
    'Total': [10, 20, 30, 40, 25]
}

# Créer un DataFrame
df = pd.DataFrame(data)

In [7]:
df

Unnamed: 0,Spé1,Spé2,Total
0,A,B,10
1,C,A,20
2,B,C,30
3,A,D,40
4,B,D,25


In [8]:
# Trier les valeurs de 'Spé1' et 'Spé2' pour chaque ligne
df[['Spé1', 'Spé2']] = pd.DataFrame(
    df.apply(lambda row: sorted([row['Spé1'], row['Spé2']]), axis=1).tolist(),
    index=df.index
)

In [9]:
df

Unnamed: 0,Spé1,Spé2,Total
0,A,B,10
1,A,C,20
2,B,C,30
3,A,D,40
4,B,D,25


In [10]:
# Supprimer les doublons en conservant la première occurrence
df_unique = df.drop_duplicates(subset=['Spé1', 'Spé2'])

In [11]:
df_unique

Unnamed: 0,Spé1,Spé2,Total
0,A,B,10
1,A,C,20
2,B,C,30
3,A,D,40
4,B,D,25


## Spliter une colonne de data frame avec le caractère ',' en délimiteur

In [2]:
# Exemple de données
data = {
    'Matière': [
        'Histoire-Géographie, Géopolitique et Sciences politiques',
        'Mathématiques, Physique',
        'Histoire-Géographie, Géopolitique',
        'Physique, Chimie'
    ],
    'Total': [10, 20, 30, 40]
}

# Créer un DataFrame
df_test = pd.DataFrame(data)

In [3]:
df_test

Unnamed: 0,Matière,Total
0,"Histoire-Géographie, Géopolitique et Sciences ...",10
1,"Mathématiques, Physique",20
2,"Histoire-Géographie, Géopolitique",30
3,"Physique, Chimie",40


In [4]:
# Diviser la colonne 'Matière' en utilisant la virgule comme délimiteur
split_columns = df_test['Matière'].str.split(', ', expand=True)

# Renommer les nouvelles colonnes
split_columns.columns = [f'Matière_{i+1}' for i in split_columns.columns]

# Concaténer les nouvelles colonnes avec le DataFrame original
df_test = pd.concat([df_test, split_columns], axis=1)

In [5]:
# Afficher le DataFrame modifié
df_test

Unnamed: 0,Matière,Total,Matière_1,Matière_2
0,"Histoire-Géographie, Géopolitique et Sciences ...",10,Histoire-Géographie,Géopolitique et Sciences politiques
1,"Mathématiques, Physique",20,Mathématiques,Physique
2,"Histoire-Géographie, Géopolitique",30,Histoire-Géographie,Géopolitique
3,"Physique, Chimie",40,Physique,Chimie


## J'ai 4 colonnes d'un dataframe 'Année', 'Spé', 'Formation', 'Nb_Admis'. Je veux créer une nouvelle colonne 'rang' qui classe par 'Année', 'Formation', les 'Spé' en fonction du 'Nb_Admis'

In [6]:
# Exemple de DataFrame
data = {
    'Année': [2020, 2020, 2021, 2021, 2020, 2021,2020],
    'Spé': ['A', 'B', 'A', 'B', 'C', 'C','D'],
    'Formation': ['X', 'X', 'X', 'X', 'Y', 'Y', 'X'],
    'Nb_Admis': [100, 150, 200, 250, 300, 350, 125]
}

df_test = pd.DataFrame(data)

# Classer les spécialités par 'Année', 'Formation' en fonction de 'Nb_Admis'
df_test['rang'] = df_test.groupby(['Année', 'Formation'])['Nb_Admis'].rank(ascending=False, method='first')

In [7]:
df_test

Unnamed: 0,Année,Spé,Formation,Nb_Admis,rang
0,2020,A,X,100,3.0
1,2020,B,X,150,1.0
2,2021,A,X,200,2.0
3,2021,B,X,250,1.0
4,2020,C,Y,300,1.0
5,2021,C,Y,350,1.0
6,2020,D,X,125,2.0


## Calcul de %age d'acceptation par rapport à Année/Formation/Spé

In [11]:
import pandas as pd

# Exemple de DataFrame
data = {
    'Année': [2020, 2020, 2021, 2021, 2020, 2021],
    'Spé': ['A', 'B', 'A', 'B', 'A', 'B'],
    'Formation': ['X', 'X', 'X', 'X', 'Y', 'Y'],
    'nb_acceptation': [100, 150, 200, 250, 300, 350]
}

df = pd.DataFrame(data)

# Calculer le total des nb_acceptation par Année et Formation
totals = df.groupby(['Année', 'Formation'])['nb_acceptation'].transform('sum')

# Calculer le pourcentage de nb_acceptation par Spé au sein de chaque groupe Année, Formation
df['pourcentage_acceptation'] = (df['nb_acceptation'] / totals) * 100

In [12]:
df

Unnamed: 0,Année,Spé,Formation,nb_acceptation,pourcentage_acceptation
0,2020,A,X,100,40.0
1,2020,B,X,150,60.0
2,2021,A,X,200,44.444444
3,2021,B,X,250,55.555556
4,2020,A,Y,300,100.0
5,2021,B,Y,350,100.0


In [13]:
totals

0    250
1    250
2    450
3    450
4    300
5    350
Name: nb_acceptation, dtype: int64