In [1]:
import pandas as pd

In [2]:
df = pd.read_csv("./games.csv", sep=",", encoding="utf-8")

In [12]:
# Réessayer de charger le fichier avec ';' et, si besoin, convertir le fichier en remplaçant les ',' par ';'
# Certains fichiers peuvent contenir des lignes malformées : on gère les ParserError et on propose des alternatives.
try:
    df_try = pd.read_csv("./games.csv", sep=';', encoding='utf-8')
except pd.errors.ParserError:
    # Premier fallback : essayer la virgule comme séparateur
    try:
        df_try = pd.read_csv("./games.csv", sep=',', encoding='utf-8')
        df_try.to_csv("./games2.csv", index=False, sep=';', encoding='utf-8')
        print("Parsed with ',' separator and converted to './games2.csv'.")
    except pd.errors.ParserError:
        # Deuxième fallback : utiliser l'engine 'python' et sauter les lignes malformées
        try:
            df_try = pd.read_csv("./games.csv", sep=';', encoding='utf-8', engine='python', on_bad_lines='skip')
            print("Parsed with engine='python' and skipped malformed lines.")
        except Exception as e:
            # Si tout échoue, remonter l'erreur pour debug
            print("Failed to parse './games.csv' with multiple strategies:", e)
            raise
# Si le fichier semble être un CSV à une seule colonne (mauvais séparateur détecté), retenter avec la virgule
if df_try.shape[1] == 1:
    df = pd.read_csv("./games.csv", sep=',', encoding='utf-8')
    df.to_csv("./games2.csv", index=False, sep=';', encoding='utf-8')
    print("Converted './games.csv' from comma to semicolon separators.")
else:
    df = df_try
    print("Loaded data into df (detected separator semantics).")

Parsed with ',' separator and converted to './games2.csv'.
Loaded data into df (detected separator semantics).


In [13]:
# Chargement robuste de "./game_sales_data.csv" (même logique que pour "./games.csv")
try:
    df_sales_try = pd.read_csv("./game_sales_data.csv", sep=';', encoding='utf-8')
except pd.errors.ParserError:
    # Premier fallback : essayer la virgule comme séparateur
    try:
        df_sales_try = pd.read_csv("./game_sales_data.csv", sep=',', encoding='utf-8')
        df_sales_try.to_csv("./game_sales_data2.csv", index=False, sep=';', encoding='utf-8')
        print("Parsed with ',' separator and converted to './game_sales_data2.csv'.")
    except pd.errors.ParserError:
        # Deuxième fallback : utiliser l'engine 'python' et sauter les lignes malformées
        try:
            df_sales_try = pd.read_csv("./game_sales_data.csv", sep=';', encoding='utf-8', engine='python', on_bad_lines='skip')
            print("Parsed with engine='python' and skipped malformed lines.")
        except Exception as e:
            print("Failed to parse './game_sales_data.csv' with multiple strategies:", e)
            raise

# Si le fichier semble être un CSV à une seule colonne (mauvais séparateur détecté), retenter avec la virgule
if df_sales_try.shape[1] == 1:
    df_game_sales = pd.read_csv("./game_sales_data.csv", sep=',', encoding='utf-8')
    df_game_sales.to_csv("./game_sales_data2.csv", index=False, sep=';', encoding='utf-8')
    print("Converted './game_sales_data.csv' from comma to semicolon separators.")
else:
    df_game_sales = df_sales_try
    print("Loaded data into df_game_sales (detected separator semantics).")

Parsed with ',' separator and converted to './game_sales_data2.csv'.
Loaded data into df_game_sales (detected separator semantics).


In [48]:
print(df.columns)

Index(['Identifiant de mutation (Etalab)', 'Date de la mutation',
       'Numéro de disposition', 'Nature de la mutation', 'Valeur foncière',
       'Numéro de voie', 'Suffixe du numéro (bis/ter)', 'Nom de la voie',
       'Code Fantoir/Rivoli de la voie', 'Code postal',
       'Code INSEE de la commune', 'Nom de la commune',
       'Code INSEE du département', 'Ancien code de la commune',
       'Ancien nom de la commune', 'Identifiant de la parcelle cadastrale',
       'Ancien identifiant de la parcelle cadastrale', 'Numéro du volume',
       'Numéro du lot 1', 'Surface Carrez du lot 1', 'Numéro du lot 2',
       'Surface Carrez du lot 2', 'Numéro du lot 3', 'Surface Carrez du lot 3',
       'Numéro du lot 4', 'Surface Carrez du lot 4', 'Numéro du lot 5',
       'Surface Carrez du lot 5', 'Nombre de lots', 'Code du type de local',
       'Type de local', 'Surface réelle du bâti',
       'Nombre de pièces principales', 'Code de la nature de culture',
       'Nature de culture', 'Code 

In [49]:
df = df.dropna(subset=["Valeur foncière", "Longitude", "Latitude", "Code postal", 'Type de local'])

In [50]:
df_bordeaux = df[df["Nature de la mutation"] == "Vente"]

In [51]:
df_bordeaux = df[df["Nom de la commune"] == "Bordeaux"]
# print(df_bordeaux)

In [52]:
colonnes_a_garder = ['Date de la mutation', 'Valeur foncière', 'Numéro de voie', 'Suffixe du numéro (bis/ter)', 'Nom de la voie', 'Code postal', 'Nombre de lots', 'Code du type de local',
       'Type de local', 'Surface réelle du bâti', 'Nombre de pièces principales', 'Surface du terrain', 'Longitude', 'Latitude', ]
df_bordeaux = df_bordeaux[colonnes_a_garder]

In [53]:
df_bordeaux.to_csv('./db/Bordeaux.csv', index=False, sep=';')

In [54]:
df_etabl = pd.read_csv("./db/fr-en-annuaire-education.csv", sep=";", encoding="utf-8")

df_etabl_bordeaux = df_etabl[df_etabl['Nom_commune'] == "Bordeaux"]
df_etabl_bordeaux.to_csv('./db/educ_bordeaux.csv', index=False, sep=';')

  df_etabl = pd.read_csv("./db/fr-en-annuaire-education.csv", sep=";", encoding="utf-8")


In [55]:
df_etabl_bordeaux = pd.read_csv("./db/educ_bordeaux.csv", sep=";", encoding="utf-8")
print(df_etabl_bordeaux.columns)

Index(['Identifiant_de_l_etablissement', 'Nom_etablissement',
       'Type_etablissement', 'Statut_public_prive', 'Adresse_1', 'Adresse_2',
       'Adresse_3', 'Code_postal', 'Code_commune', 'Nom_commune',
       'Code_departement', 'Code_academie', 'Code_region', 'Ecole_maternelle',
       'Ecole_elementaire', 'Voie_generale', 'Voie_technologique',
       'Voie_professionnelle', 'Telephone', 'Fax', 'Web', 'Mail',
       'Restauration', 'Hebergement', 'ULIS', 'Apprentissage', 'Segpa',
       'Section_arts', 'Section_cinema', 'Section_theatre', 'Section_sport',
       'Section_internationale', 'Section_europeenne', 'Lycee_Agricole',
       'Lycee_militaire', 'Lycee_des_metiers', 'Post_BAC',
       'Appartenance_Education_Prioritaire', 'GRETA', 'SIREN_SIRET',
       'Nombre_d_eleves', 'Fiche_onisep', 'position', 'Type_contrat_prive',
       'Libelle_departement', 'Libelle_academie', 'Libelle_region',
       'coordX_origine', 'coordY_origine', 'epsg_origine',
       'nom_circonscription',

In [56]:
df_commerce = pd.read_csv("./db/fi_etabl_p.csv", sep=";", encoding="utf-8")

df_commerce_bordeaux = df_commerce[df_commerce['nom'] == "Bordeaux"]
df_commerce_bordeaux.to_csv('./db/entreprise_bordeaux.csv', index=False, sep=';')

  df_commerce = pd.read_csv("./db/fi_etabl_p.csv", sep=";", encoding="utf-8")


In [57]:
# df_paris = df[df['code_departement'] == 75]
# # print(df_paris)
# df_paris.to_csv('Paris.csv', index=False)

In [58]:
# df_toulouse = df[df['code_departement'] == 31]
# # print(df_toulouse)
# df_toulouse.to_csv('Toulouse.csv', index=False)

In [59]:
# df_nantes = df[df['code_commune'] == 44109]
# # print(df_nantes)
# df_nantes.to_csv('Nantes.csv', index=False)

In [60]:
# df_angouleme = df[df['code_commune'] == 16015]
# # print(df_angouleme)
# df_angouleme.to_csv('Angouleme.csv', index=False)