Importation des modules utiles pour l'étude

In [3]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

Affichage des informations du tableau de données

In [10]:
data = pd.read_csv('formulaire.csv')
print(data.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 10 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Q1      21 non-null     object
 1   Q2      21 non-null     object
 2   Q3      21 non-null     int64 
 3   Q4      21 non-null     object
 4   Q5      21 non-null     int64 
 5   Q6      21 non-null     object
 6   Q7      21 non-null     int64 
 7   Q8      21 non-null     object
 8   Q9      21 non-null     object
 9   Q10     21 non-null     object
dtypes: int64(3), object(7)
memory usage: 1.8+ KB
None


On organise les données en ajoutant un identifiant

In [18]:
data['ID'] = range(1, len(data) + 1)

data.to_csv('new_formulaire.csv', index=False)

Affichage et vérification du tableau de données

In [22]:
data_subset = data.head(3)

styled_table = data_subset.style.set_table_styles(
    [{'selector': 'th', 'props': [('border', '1px solid black')]},
     {'selector': 'td', 'props': [('border', '1px solid black')]}]
)

# Affichage du tableau
styled_table

Unnamed: 0,Q1,Q2,Q3,Q4,Q5,Q6,Q7,Q8,Q9,Q10,ID
0,Masculin,Science de Données,4,Passion pour le domaine,4,"Oui, mais il manque certains aspects pratiques",4,Devenir employé en grandes entreprises,Je suis indécis pour le moment.,"Si une meilleure opportunité se présente, je quitte l'informatique pour changer de domaine.",1
1,Feminin,Science de Données,4,Programme de la spécialité jugé meilleur que les autres,3,"Non, pas suffisamment",2,Recherche scientifique,Je préfère continuer mon parcours à l'étranger.,Je veux rester dans l'informatique toute ma carrière.,2
2,Masculin,Sécurité Informatique,3,Opportunités de carrière,2,"Non, pas suffisamment",2,Devenir employé en grandes entreprises,Je préfère continuer mon parcours à l'étranger.,Je veux rester dans l'informatique toute ma carrière.,3


Création du tableau de codage
On doit d'abord connaître l'emplacement de chaque variable

In [133]:
data = pd.read_csv('new_formulaire.csv')

# Fonction pour afficher les valeurs uniques
def display_unique_values(column_name, start_index):
    print(f"{column_name} :")
    for i, value in enumerate(data[column_name].unique()):
        print(f"V{start_index + i} :", value)  # V1, V2, V3, etc.
    print()  # Ligne vide pour la lisibilité

# Afficher les valeurs uniques pour chaque colonne d'intérêt
print("Noms des colonnes et valeurs uniques :")
display_unique_values('Q1', 1)  # Q1 commence à V1
display_unique_values('Q2', 3)  # Q2 commence à V3
display_unique_values('Q4', 11)  # Q4 commence à V11
display_unique_values('Q6', 21)  # Q6 commence à V21
display_unique_values('Q8', 30)  # Q8 commence à V30
display_unique_values('Q9', 37)  # Q9 commence à V37
display_unique_values('Q10', 40)  # Q10 commence à V40

new_data = pd.DataFrame()

Noms des colonnes et valeurs uniques :
Q1 :
V1 : Masculin
V2 : Feminin

Q2 :
V3 : Science de Données
V4 : Sécurité Informatique
V5 : Intelligence Artificielle

Q4 :
V11 : Passion pour le domaine
V12 : Programme de la spécialité jugé meilleur que les autres
V13 : Opportunités de carrière
V14 : Recommandations de proches ou d'enseignants
V15 : Choix par défaut ou manque d'autres options

Q6 :
V21 : Oui, mais il manque certains aspects pratiques
V22 : Non, pas suffisamment
V23 : Non, pas du tout
V24 : Oui, complètement

Q8 :
V30 : Devenir employé en grandes entreprises
V31 : Recherche scientifique
V32 : Je ne sais pas encore
V33 : Créer une start-up
V34 : Domaine commerciale (par exemple, vente de produits, de formations etc..)
V35 : Travailler en freelance

Q9 :
V37 : Je suis indécis pour le moment.
V38 : Je préfère continuer mon parcours à l'étranger.
V39 : Je pense que l'Algérie est ou sera un bon pays pour l'informatique.

Q10 :
V40 : Si une meilleure opportunité se présente, je quitt

Créons maintenant le tableau de codage :

In [122]:
# Charger le fichier CSV
data = pd.read_csv('new_formulaire.csv')

new_data = pd.DataFrame()

# Ajouter la colonne ID au nouveau DataFrame
new_data['ID'] = data['ID']

# Q1 : Sexe
dummies_q1 = pd.get_dummies(data['Q1'], prefix='', prefix_sep='')

# Renommer les colonnes pour Q1
dummies_q1.columns = ['V1', 'V2']

# Ajouter les colonnes V1 et V2 à new_data
new_data['V1'] = dummies_q1['V1'] 
new_data['V2'] = dummies_q1['V2']

# Q2 : Spécialité
dummies_q2 = pd.get_dummies_q1dummies(data['Q2'], prefix='', prefix_sep='')
# Renommer les colonnes pour Q2
dummies_q2.columns = ['V3', 'V4', 'V5']  # Assurez-vous que ces noms correspondent à vos spécialités
# Ajouter les colonnes V3, V4 et V5 à new_data
new_data['V3'] = dummies_q2['V3']  # IA
new_data['V4'] = dummies_q2['V4']  # DS
new_data['V5'] = dummies_q2['V5']  # Sécurité

# Q3
def create_dummy_columns(value):
    return [1 if i < value else 0 for i in range(5)]
dummy_columns = data['Q3'].apply(create_dummy_columns).tolist()
dummy_df = pd.DataFrame(dummy_columns, columns=['V6', 'V7', 'V8', 'V9', 'V10'])
new_data = pd.concat([new_data, dummy_df], axis=1)

# Q4
dummies_q4 = pd.get_dummies(data['Q4'], prefix='', prefix_sep='')
# Renommer les colonnes pour Q4
dummies_q4.columns = ['V11', 'V12', 'V13', 'V14', 'V15'] 
new_data['V11'] = dummies_q4.get('V11', 0)  # Utiliser .get() pour éviter une KeyError
new_data['V12'] = dummies_q4.get('V12', 0)
new_data['V13'] = dummies_q4.get('V13', 0)
new_data['V14'] = dummies_q4.get('V14', 0)
new_data['V15'] = dummies_q4.get('V15', 0)

# Q5 
dummy_columns = data['Q5'].apply(create_dummy_columns).tolist()
dummy_df = pd.DataFrame(dummy_columns, columns=['V16', 'V17', 'V18', 'V19', 'V20'])
new_data = pd.concat([new_data, dummy_df], axis=1)

# Q6
dummies_q6 = pd.get_dummies(data['Q6'], prefix='', prefix_sep='')
# Renommer les colonnes pour Q4
dummies_q6.columns = ['V21', 'V22', 'V23', 'V24'] 
new_data['V21'] = dummies_q6.get('V21', 0)  # Utiliser .get() pour éviter une KeyError
new_data['V22'] = dummies_q6.get('V22', 0)
new_data['V23'] = dummies_q6.get('V23', 0)
new_data['V24'] = dummies_q6.get('V24', 0)

# Q7 
dummy_columns = data['Q7'].apply(create_dummy_columns).tolist()
dummy_df = pd.DataFrame(dummy_columns, columns=['V25', 'V26', 'V27', 'V28', 'V29'])
new_data = pd.concat([new_data, dummy_df], axis=1)

# Q8
dummies_q8 = pd.get_dummies(data['Q8'], prefix='', prefix_sep='')
dummies_q8.columns = ['V30', 'V31', 'V32', 'V33', 'V34', 'V35']
new_data['V30'] = dummies_q8.get('V30', 0) 
new_data['V31'] = dummies_q8.get('V31', 0)
new_data['V32'] = dummies_q8.get('V32', 0)
new_data['V33'] = dummies_q8.get('V33', 0)
new_data['V34'] = dummies_q8.get('V34', 0)
new_data['V35'] = dummies_q8.get('V35', 0)

# Q9
dummies_q9 = pd.get_dummies(data['Q9'], prefix='', prefix_sep='')
dummies_q9.columns = ['V37', 'V38', 'V39']  # Assurez-vous que ces noms correspondent à vos réponses
new_data['V37'] = dummies_q9.get('V37', 0)  # Utiliser .get() pour éviter une KeyError
new_data['V38'] = dummies_q9.get('V38', 0)
new_data['V39'] = dummies_q9.get('V39', 0)

# Q10
dummies_q10 = pd.get_dummies(data['Q10'], prefix='', prefix_sep='')
dummies_q10.columns = ['V40', 'V41', 'V42']
new_data['V40'] = dummies_q10.get('V40', 0)  
new_data['V41'] = dummies_q10.get('V41', 0)
new_data['V42'] = dummies_q10.get('V42', 0)

# Transformer tous les booléens en 1 et 0
new_data = new_data.astype(int)

# Sauvegarder le nouveau DataFrame dans un nouveau fichier CSV
new_data.to_csv('CODING_TABLE.csv', index=False)

# Afficher le nouveau DataFrame
print(new_data)


    ID  V1  V2  V3  V4  V5  V6  V7  V8  V9  ...  V32  V33  V34  V35  V37  V38  \
0    1   0   1   0   1   0   1   1   1   1  ...    0    0    0    0    0    0   
1    2   1   0   0   1   0   1   1   1   1  ...    0    0    1    0    0    1   
2    3   0   1   0   0   1   1   1   1   0  ...    0    0    0    0    0    1   
3    4   0   1   0   0   1   1   0   0   0  ...    0    1    0    0    0    0   
4    5   1   0   0   0   1   1   1   1   0  ...    0    0    0    0    0    0   
5    6   0   1   0   1   0   1   1   1   1  ...    0    0    0    0    0    1   
6    7   0   1   0   1   0   1   1   1   1  ...    0    0    1    0    0    0   
7    8   0   1   1   0   0   1   1   1   1  ...    1    0    0    0    0    0   
8    9   0   1   0   1   0   1   1   1   1  ...    0    0    0    1    0    1   
9   10   0   1   1   0   0   1   1   1   0  ...    0    0    0    1    0    0   
10  11   0   1   0   1   0   1   1   1   1  ...    0    0    0    0    0    1   
11  12   0   1   0   0   1  

affichage du tableau de codage

In [125]:
data_subset = new_data.head(10)

styled_table = data_subset.style.set_table_styles(
    [{'selector': 'th', 'props': [('border', '1px solid black')]},
     {'selector': 'td', 'props': [('border', '1px solid black')]}]
)

# Affichage du tableau
styled_table

Unnamed: 0,ID,V1,V2,V3,V4,V5,V6,V7,V8,V9,V10,V11,V12,V13,V14,V15,V16,V17,V18,V19,V20,V21,V22,V23,V24,V25,V26,V27,V28,V29,V30,V31,V32,V33,V34,V35,V37,V38,V39,V40,V41,V42
0,1,0,1,0,1,0,1,1,1,1,0,0,0,1,0,0,1,1,1,1,0,0,0,0,1,1,1,1,1,0,0,1,0,0,0,0,0,0,1,0,0,1
1,2,1,0,0,1,0,1,1,1,1,0,0,0,0,1,0,1,1,1,0,0,0,1,0,0,1,1,0,0,0,0,0,0,0,1,0,0,1,0,0,1,0
2,3,0,1,0,0,1,1,1,1,0,0,0,1,0,0,0,1,1,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,0,0,0,1,0,0,1,0
3,4,0,1,0,0,1,1,0,0,0,0,0,0,0,1,0,1,0,0,0,0,1,0,0,0,1,0,0,0,0,0,0,0,1,0,0,0,0,1,0,0,1
4,5,1,0,0,0,1,1,1,1,0,0,0,0,1,0,0,1,1,0,0,0,0,1,0,0,1,1,1,1,0,1,0,0,0,0,0,0,0,1,0,1,0
5,6,0,1,0,1,0,1,1,1,1,1,0,1,0,0,0,1,1,1,0,0,0,0,0,1,1,1,1,1,0,0,1,0,0,0,0,0,1,0,0,0,1
6,7,0,1,0,1,0,1,1,1,1,1,0,1,0,0,0,1,1,1,0,0,0,0,0,1,1,1,1,1,0,0,0,0,0,1,0,0,0,1,0,0,1
7,8,0,1,1,0,0,1,1,1,1,0,0,0,0,0,1,1,1,1,1,0,0,0,0,1,1,1,0,0,0,0,0,1,0,0,0,0,0,1,1,0,0
8,9,0,1,0,1,0,1,1,1,1,0,0,0,0,1,0,1,1,0,0,0,0,0,0,1,1,1,0,0,0,0,0,0,0,0,1,0,1,0,0,1,0
9,10,0,1,1,0,0,1,1,1,0,0,1,0,0,0,0,1,1,0,0,0,0,0,0,1,1,1,1,0,0,0,0,0,0,0,1,0,0,1,0,1,0


In [None]:
tab_distance = pd.read_csv('CODING_TABLE.csv')

print(tab_distance)

: 