# Fusion de fichiers

In [1]:
import pandas as pd

data_without_contrib = pd.read_csv("data_final.csv")
data_contrib = pd.read_csv("contributeurs.csv", index_col=0)
data = pd.merge(data_without_contrib, data_contrib, left_index=True, right_index=True)
data.to_csv("data.csv")
data.head()

Unnamed: 0,name,full_name,url,description,stars,created_at,language,forks,updated_at,topics,license,type_of_owner,contributors
0,HyperDbg,HyperDbg/HyperDbg,https://github.com/HyperDbg/HyperDbg,State-of-the-art native debugging tool,2173,2020-01-01 12:34:32+00:00,C,317,2023-06-23 10:17:49+00:00,"['debug', 'debugger', 'ept', 'hook', 'hyperdbg...","{'key': 'gpl-3.0', 'name': 'GNU General Public...",Organization,"{'src_repository': 'HyperDbg/HyperDbg', 'contr..."
1,octo4a,feelfreelinux/octo4a,https://github.com/feelfreelinux/octo4a,Use your old Android device as an OctoPrint se...,1265,2020-01-01 17:00:11+00:00,Kotlin,123,2023-06-21 22:24:04+00:00,"['3d-printing', 'android', 'octoprint']","{'key': 'agpl-3.0', 'name': 'GNU Affero Genera...",User,"{'src_repository': 'feelfreelinux/octo4a', 'co..."
2,VIMKiller,caseykneale/VIMKiller,https://github.com/caseykneale/VIMKiller,Exiting VIM is hard; sometimes we need to take...,1159,2020-01-01 01:31:29+00:00,Julia,13,2023-06-21 16:37:23+00:00,[],"{'key': 'mit', 'name': 'MIT License', 'spdx_id...",User,"{'src_repository': 'caseykneale/VIMKiller', 'c..."
3,OpenSeeFace,emilianavt/OpenSeeFace,https://github.com/emilianavt/OpenSeeFace,Robust realtime face and facial landmark track...,1105,2020-01-01 12:49:35+00:00,Python,134,2023-06-23 11:37:45+00:00,"['cpu', 'csharp', 'depth-estimation', 'detecti...","{'key': 'bsd-2-clause', 'name': 'BSD 2-Clause ...",User,"{'src_repository': 'emilianavt/OpenSeeFace', '..."
4,react-typescript-web-extension-starter,aeksco/react-typescript-web-extension-starter,https://github.com/aeksco/react-typescript-web...,:desktop_computer: Web Extension starter kit b...,805,2020-01-01 01:14:35+00:00,JavaScript,73,2023-06-18 12:59:14+00:00,"['brave', 'chrome-extension', 'eslint', 'exten...","{'key': 'mit', 'name': 'MIT License', 'spdx_id...",User,{'src_repository': 'aeksco/react-typescript-we...


In [2]:
import pandas as pd

# Assuming data is your DataFrame
data['created_at']=pd.to_datetime(data['created_at']).dt.strftime('%Y-%m-%d')
data["updated_at"] = pd.to_datetime(data["updated_at"]).dt.strftime('%Y-%m-%d')

# Modèle Conceptuel de Données (MCD)

Cette étape va consister à définir les entités importantes dans le cadre de notre projet et les associations inhérentes. Les entités que nous avons trouvées sont les suivantes:

Projet (Project)

- Attributs :
- project_id (identifiant unique)
- name (nom du projet)
- full_name (nom complet du projet)
- url (URL du projet)
- description (description du projet)
- stars (nombre d'étoiles du projet)
- created_at (date de création du projet)
- forks (nombre de forks du projet)
- updated_at (date de dernière mise à jour du projet)
- type_of_owner (type de propriétaire du projet)

Langage (Language)
- Attributs
-  language_id (identifiant unique)
-  language_name (nom du langage).

Contributeur (Contributor)
- Attributs :
- contributor_id (identifiant unique)
- name (nom du contributeur)

Licence (License)
- Attributs :
-   license_id (identifiant unique)
-   license_name (nom de la licence)

Sujet (Topic)
- Attributs :
-   topic_id (identifiant unique)
-   topic_name (nom du sujet ou mot-clé)

# Modèle Logique des Données (MLD)

Cette étape va consiter à définir le type de relation entre les différents concepts.

Relations :

- Projet (Project) a plusieurs Contributors (Contributeurs)et unncontributeur peut participe à plusieurs Projects  [Relation "plusieurs à plusieurs" via la table Participation]
- Projet (Project) est lié à une seule Licence (License) mais une licence peut être associée à plusieurs projets.[Relation "1 à plusieurs"]
- Projet (Project) peut être associé à plusieurs Sujets (Topics) [Relation "plusieurs à plusieurs" via la table Projet_Sujet]
- Projet (Project) est lié à un seul Langage (Language) mais un langage peut etre associé à plusieurs projets [Relation "1 à plusieurs" via la clé étrangère language_id]

Sur la base de ces relations, nous allons établir le Modèle Logique de Données à travers un Diagramme d'entité relation. De nouvelles entités voient le jour pour implémenter les relations "plusieurs-à-plusieurs". Ces nouvelles entités sont les suivantes:

Participation (Participation) :

- Attributs :
-  project_id (clé étrangère vers l'entité Projet)
-  contributor_id (clé étrangère vers l'entité Contributor)

Projet_Sujet (Project_Topic) :
- Attributs :
-  project_id (clé étrangère vers l'entité Projet)
-  topic_id (clé étrangère vers l'entité Sujet)

Ce qui nous a permis au fianle de générer cet ERD (diagramme d'entité relation)

![GitHub_ERD-6.png](attachment:GitHub_ERD-6.png)

# Modèle Physique de Données (MPD)

Cette étape va consister à faire des scripts créer et gérer la base de données

In [3]:
import pyodbc

connexion = pyodbc.connect(
    Trusted_Connection='Yes',
    Driver='{ODBC Driver 17 for SQL Server}',
    Server='LAPTOP-L0N961TQ\SQLEXPRESS',
    Database='GitHub_Database'
)

# Langage de Définition (LDD) (voir le fichier .sql associé)

# Langage de Manipultion de Données

In [21]:
data.head(2)

Unnamed: 0,name,full_name,url,description,stars,created_at,language,forks,updated_at,topics,license,type_of_owner,contributors
0,HyperDbg,HyperDbg/HyperDbg,https://github.com/HyperDbg/HyperDbg,State-of-the-art native debugging tool,2173,2020-01-01 12:34:32+00:00,C,317,2023-06-23 10:17:49+00:00,"['debug', 'debugger', 'ept', 'hook', 'hyperdbg...","{'key': 'gpl-3.0', 'name': 'GNU General Public...",Organization,"{'src_repository': 'HyperDbg/HyperDbg', 'contr..."
1,octo4a,feelfreelinux/octo4a,https://github.com/feelfreelinux/octo4a,Use your old Android device as an OctoPrint se...,1265,2020-01-01 17:00:11+00:00,Kotlin,123,2023-06-21 22:24:04+00:00,"['3d-printing', 'android', 'octoprint']","{'key': 'agpl-3.0', 'name': 'GNU Affero Genera...",User,"{'src_repository': 'feelfreelinux/octo4a', 'co..."


In [25]:
# import pyodbc
# import pandas as pd
# from datetime import datetime

# # Établir la connexion à la base de données SQL Server
# connexion = pyodbc.connect(
#     Trusted_Connection='Yes',
#     Driver='{ODBC Driver 17 for SQL Server}',
#     Server='LAPTOP-L0N961TQ\\SQLEXPRESS',
#     Database='GitHub_Database'
# )

# # Créer un curseur
# cursor = connexion.cursor()

# # Read the CSV data into a DataFrame
# data_file_path = "data.csv"
# dataset = pd.read_csv(data_file_path)

# for row in dataset.itertuples(index=False):
#     cursos.execute("Insert INTO Projet (project_id, nom, full_name, url_link, descriptif, stars, created_at, language_id, forks, updated_at, license_id, type_of_owner) VALUES(?,?,?,?,?,?,?,?,?,?,?,?)",
#                   row.)

# # def insert_data_into_tables(dataset):
# #     for _, data in dataset.iterrows():
# #         nom = data[1]
# #         full_name = data[2]
# #         url_link = data[3]
# #         descriptif = data[4]
# #         stars = int(data[5])
# #         created_at = datetime.strptime(data[6], '%Y-%m-%dT%H:%M:%SZ').date()
# #         language_name = data[7]
# #         forks = int(data[8])
# #         updated_at = datetime.strptime(data[9], '%Y-%m-%dT%H:%M:%SZ').date()
# #         topics = eval(data[10])
# #         license_name = eval(data[11])["name"]
# #         type_of_owner = data[12]
# #         contributor_data = eval(data[13])
# #         contributor_name = contributor_data["contributor"]
# #         number_of_contributions = contributor_data["number_of_contributions"]

#             # Requête d'insertion des données dans la table Licence
#         query_license = "INSERT INTO Licence (license_name) VALUES (?)"
#         cursor.execute(query_license, (license_name,))
#         license_id = cursor.execute("SELECT SCOPE_IDENTITY()").fetchone()[0]

#             # Requête d'insertion des données dans la table Langage
#         query_language = "INSERT INTO Langage (language_name) VALUES (?)"
#         cursor.execute(query_language, (language_name,))
#         language_id = cursor.execute("SELECT SCOPE_IDENTITY()").fetchone()[0]

#             # Requête d'insertion des données dans la table Contributeur
#         query_contributor = "INSERT INTO Contributeur (contributor_name) VALUES (?)"
#         cursor.execute(query_contributor, (contributor_name,))
#         contributor_id = cursor.execute("SELECT SCOPE_IDENTITY()").fetchone()[0]


#             # Requête d'insertion des données dans la table Projet
#         query_projet = "INSERT INTO Projet (project_id, nom, full_name, url_link, descriptif, stars, created_at, language_id, forks, updated_at, type_of_owner, license_id) VALUES (?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?, ?)"
#         cursor.execute(query_projet, (project_id, nom, full_name, url_link, descriptif, stars, created_at, language_id, forks, updated_at, type_of_owner, license_id))

#             # Requête d'insertion des données dans la table Participation
#         query_participation = "INSERT INTO Participation (project_id, contributor_id, number_of_contributions) VALUES (?, ?)"
#             cursor.execute(query_participation, (project_id, contributor_id))

#             # Insérer les données dans la table Projet_Sujet (s'il y a des sujets associés au projet)
#         if topics:
#             for topic in topics:
#                 # Requête d'insertion des données dans la table Sujet
#                 query_sujet = "INSERT INTO Sujet (topic_name) VALUES (?)"
#                 cursor.execute(query_sujet, (topic,))
#                 topic_id = cursor.execute("SELECT SCOPE_IDENTITY()").fetchone()[0]

#                 # Requête d'insertion des données dans la table Projet_Sujet
#                 query_projet_sujet = "INSERT INTO Projet_Sujet (project_id, topic_id) VALUES (?, ?)"
#                 cursor.execute(query_projet_sujet, (project_id, topic_id))


# # Call the function to insert data into tables
# insert_data_into_tables(dataset)

# # Valider les changements dans la base de données
# connexion.commit()

# # Fermeture du curseur et de la connexion à la base de données
# cursor.close()
# connexion.close()

In [26]:
import pyodbc
import pandas as pd
from datetime import datetime

# Établir la connexion à la base de données SQL Server
connexion = pyodbc.connect(
    Trusted_Connection='Yes',
    Driver='{ODBC Driver 17 for SQL Server}',
    Server='LAPTOP-L0N961TQ\\SQLEXPRESS',
    Database='GitHub_Database'
)

# Créer un curseur
cursor = connexion.cursor()

# Read the CSV data into a DataFrame
data_file_path = "data.csv"
dataset = pd.read_csv(data_file_path)

In [None]:
# Insertion dans la table Projet
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO Langage (language_id, nom, full_name, url_link, descriptif, stars, created_at, language_id, forks, updated_at, license_id, type_of_owner) VALUES(?,?,?,?,?,?,?,?,?,?,?,?)",
                  row.index, row.name, row.full_name, row.url, row.description, row.stars, row.created_at, row.langage, row.forks, row.updated_at, row.licence, row.type_of_owner)

In [None]:
# Insertion dans la table Langage
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO Projet (project_id, language_name) VALUES(?,?)",
                  row.langage_id, row.language)

In [None]:
# Insertion dans la table License
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO License (license_id, license_name) VALUES(?,?)",
                  row.license_id, row.license["name"])

In [None]:
# Insertion dans la table Contributeur
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO Contributeur (contributor_id, contributor_name) VALUES(?,?)",
                  row.license_id, row.contributor)

In [None]:
# Insertion dans la table Sujet
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO Sujet (topic_id, topic_name) VALUES(?,?)",
                  row.topic_id, row.topics)

In [None]:
# Insertion dans la table Participation
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO Participation (project_id, contributor_id) VALUES(?,?)",
                  row.project_id, row.topics)

In [None]:
# Insertion dans la table Projet_Sujet
for row in dataset.itertuples(index=False):
    cursos.execute("Insert INTO Projet_Sujet (project_id, topic_id) VALUES(?,?)",
                  row.index, row.topic_id)