Import of the library

In [127]:
import pandas as pd
import numpy as np
from deepface import DeepFace
import re
import requests
import time
from geopy.geocoders import Nominatim
import geopandas as gpd
from shapely.geometry import Point
import random
from faker import Faker
from datetime import datetime
from textblob import TextBlob
import pgeocode
import os
from transformers import pipeline

In [92]:
def get_iris_code_from_coordinates(latitude, longitude):
    # URL de l'API avec les coordonnées passées en paramètres
    api_url = f"https://pyris.datajazz.io/api/coords?lat={latitude}&lon={longitude}"
    try:
        # Effectuer la requête GET vers l'API
        response = requests.get(api_url)
        
        # Vérifier si la requête a réussi (code de statut 200)
        if response.status_code == 200:
            # Extraire les données JSON de la réponse
            data = response.json()
            
            # Extraire le code IRIS
            iris_code = data.get("complete_code")
            
            if iris_code:
                return iris_code
            else:
                return "Code IRIS non trouvé dans la réponse API."
        else:
            return f"Erreur de requête : {response.status_code}"
    except Exception as e:
        return f"Erreur lors de la requête API : {str(e)}"

In [93]:
def estimer_poids(taille_cm, imc_cible=22):
    """
    Estime le poids en kilogrammes basé sur la taille en centimètres et un IMC cible.

    :param taille_cm: Taille en centimètres
    :param imc_cible: Indice de masse corporelle cible (par défaut 22)
    :return: Poids estimé en kilogrammes
    """
    taille_m = taille_cm / 100  # Convertir la taille en mètres
    poids_estime = imc_cible * (taille_m ** 2)
    return poids_estime

In [94]:
age_data = {
    "25-29 ans": {"Femme": 1897867, "Homme": 1887312},
    "30-34 ans": {"Femme": 2045742, "Homme": 1980053},
    "35-39 ans": {"Femme": 2180469, "Homme": 2065743},
    "40-44 ans": {"Femme": 2220320, "Homme": 2112390},
    "45-49 ans": {"Femme": 2097799, "Homme": 2043531},
    "50-54 ans": {"Femme": 2297423, "Homme": 2241191},
    "55-59 ans": {"Femme": 2267692, "Homme": 2159384}
}

def extract_age_range(age_group):
    # Extrait les bornes de l'intervalle d'âge
    start_age, end_age = age_group.split('-')
    start_age = int(start_age)
    end_age = int(end_age.split(' ')[0])
    return start_age, end_age

def find_random_age_by_gender(gender):
    # Vérification de la validité du sexe
    if gender not in ["Femme", "Homme"]:
        return "Sexe non valide"

    # Calculer les poids pour chaque tranche d'âge
    weights = [data[gender] for data in age_data.values()]
    
    # Choisir une tranche d'âge aléatoire en fonction des poids
    chosen_age_group = random.choices(list(age_data.keys()), weights=weights, k=1)[0]
    
    # Extraire l'intervalle d'âge et générer un âge aléatoire dans cet intervalle
    start_age, end_age = extract_age_range(chosen_age_group)
    random_age = random.randint(start_age, end_age)

    return random_age, chosen_age_group

In [95]:
basecouple = pd.read_excel("data//base-ic-couples-familles-menages-2020.xlsx", sheet_name="IRIS")
basecouple = basecouple.drop(index=0)

In [96]:
datacouple = pd.read_excel("data//ip1774.xls", sheet_name="Figure 1")
datacouple = datacouple.dropna()

In [97]:
personnevivantseul = pd.read_excel("data//demo-couple-pers-seul-log-age.xlsx")

In [98]:
def choose_iris_weighted(iris_data):
    iris_list = iris_data['IRIS'].tolist()
    weights = iris_data['Pop Ménages en 2020 (compl)'].tolist()
    chosen_iris = random.choices(iris_list, weights=weights, k=1)
    return chosen_iris[0]

# Sélectionner un IRIS de manière aléatoire pondérée


chosen_iris = choose_iris_weighted(basecouple)
print(chosen_iris)

060880902


In [99]:
def age_to_interval(age_str):
    try:
        # Utiliser des expressions régulières pour extraire les nombres
        numbers = re.findall(r'\d+', age_str)
        if age_str == "Ensemble" or "en millions" in age_str:
            return None
        if "plus" in age_str:
            # Gérer les cas comme "65 ans ou plus"
            return (int(numbers[0]), float(150))
        elif len(numbers) >= 2:
            # Gérer les cas avec deux nombres, comme "15 à 19 ans"
            return (int(numbers[0]), int(numbers[1]))
        else:
            raise ValueError("Format d'âge non reconnu")
    except ValueError as e:
        print(f"Erreur avec l'entrée : '{age_str}' - {e}")
        raise
if not isinstance(personnevivantseul['Age'].iloc[0], pd.Interval):
    personnevivantseul['Age Range'] = personnevivantseul['Age'].apply(age_to_interval)

if not isinstance(datacouple['Age'].iloc[0], pd.Interval):
    datacouple['Age Range'] = datacouple['Age'].apply(age_to_interval)


In [100]:

def find_age_interval(age, df):
    for interval in df['Age Range']:
        if interval != None and interval[0] <= age and age <= interval[1]:
            return interval
    return "Âge non trouvé dans les intervalles"

In [101]:
def get_proportion(age, gender, df):
    # Trouver l'intervalle d'âge
    interval = find_age_interval(age, df)
    if interval == "Âge non trouvé dans les intervalles":
        return interval
    
    # Sélectionner la ligne correspondante à l'intervalle d'âge
    row = df[df['Age Range'] == interval]
    
    # Sélectionner la colonne en fonction du sexe
    if gender.lower() == 'femme':
        proportion = row['Femmes'].values[0]
    elif gender.lower() == 'homme':
        proportion = row['Hommes'].values[0]
    else:
        return "Sexe non reconnu"
    
    # Construire la phrase récapitulative
    return proportion

In [102]:
def statcouple(IRIS):
    populationtotal = basecouple[basecouple["IRIS"] == IRIS]["Pop Ménages en 2020 (compl)"]
    populationtotal = populationtotal[populationtotal.index[0]]
    proba_statuts = {}
    unionlibre = basecouple[basecouple["IRIS"] == IRIS]["Pop 15 ans ou plus en concubinage ou union libre en 2020 (princ)"]
    unionlibre = unionlibre[unionlibre.index[0]]/populationtotal
    proba_statuts["unionlibre"] = unionlibre
    pacsée = basecouple[basecouple["IRIS"] == IRIS]["Pop 15 ans ou plus pacsée en 2020 (princ)"]
    pacsée = pacsée[pacsée.index[0]]/populationtotal
    proba_statuts["pacsée"] = pacsée
    marier = basecouple[basecouple["IRIS"] == IRIS]["Pop 15 ans ou plus mariée en 2020 (princ)"]
    marier = marier[marier.index[0]]/populationtotal
    proba_statuts["marier"] = marier
    popu_veuf = basecouple[basecouple["IRIS"] == IRIS]["Pop 15 ans ou plus veuves ou veufs en 2020 (princ)"]
    popu_veuf = popu_veuf[popu_veuf.index[0]]/populationtotal
    proba_statuts["veuf"] = popu_veuf
    popu_divorce = basecouple[basecouple["IRIS"] == IRIS]["Pop 15 ans ou plus divorcée en 2020 (princ)"]
    popu_divorce = popu_divorce[popu_divorce.index[0]]/populationtotal
    proba_statuts["divorce"] = popu_divorce
    popu_celib = basecouple[basecouple["IRIS"] == IRIS]["Pop 15 ans ou plus célibataire en 2020 (princ)"]
    popu_celib = popu_celib[popu_celib.index[0]]/populationtotal
    proba_statuts["celib"] = popu_celib
    inconnu = 1 - unionlibre - pacsée - marier - popu_veuf - popu_divorce - popu_celib
    proba_statuts["inconnu"] = inconnu
    return proba_statuts

def random_status(proba_statuts):
    statuts = list(proba_statuts.keys())
    probabilités = list(proba_statuts.values())
    statut_choisi = random.choices(statuts, weights=probabilités, k=1)[0]
    return statut_choisi

def random_with_proba(probability):
    """Renvoie True avec la probabilité indiquée, sinon False."""
    return random.random() < (round(float(probability)) / 100)

def education_famille(data_for_gender):
    output = {}
    # Déterminons si la personne fait partie d'un couple de même sexe
    
    output["couple_meme_sexe"] = random_with_proba(data_for_gender[data_for_gender.index[0]])

    # Déterminons le niveau d'éducation de la personne
    # On suppose que l'éducation est indépendante du fait d'être en couple de même sexe ou non
    output["education_bac_plus_3"] = False
    output["education_bac"] = random_with_proba(data_for_gender[data_for_gender.index[2]]) if output["couple_meme_sexe"] \
                    else random_with_proba(data_for_gender[data_for_gender.index[3]])
    if output["education_bac"]:
        output["education_bac_plus_3"] = random_with_proba(data_for_gender[data_for_gender.index[4]]) if output["couple_meme_sexe"] \
                            else random_with_proba(data_for_gender[data_for_gender.index[5]])

    # On suppose ici que le fait d'avoir un enfant est indépendant du niveau d'éducation et du type de couple
    output["enfant"] = random_with_proba(data_for_gender[data_for_gender.index[-1]]) if output["couple_meme_sexe"] \
            else False  # Nous n'avons pas de données pour les couples de sexe différent avec enfants
    return output

def get_data_couple_age(age, gender, df):
    # Adjust the filter to account for both singular and plural forms of "Homme/Hommes"
    gender_str = 'Homme' if gender.lower() == 'homme' else 'Femme'
    
    # Find the age interval
    interval = find_age_interval(age, df)
    if interval == "Âge non trouvé dans les intervalles":
        return interval
    
    # Select the row corresponding to the age interval
    row = df[df['Age Range'] == interval]
    
    # Filter the columns based on gender, allowing for both 'Homme' and 'Hommes'
    gender_columns = [col for col in df.columns if gender_str in col]
    
    # Select only the columns that match the gender
    gender_data = row[gender_columns].iloc[0]  # Use iloc[0] to select the first (and only) row as a Series
    
    return gender_data  # Convert to dictionary for easier readability


Analyse Social/Bar


In [103]:
datasetbar = pd.read_excel("data//fichier_bars-cafes-discotheques.xlsx")
datasetbar

Unnamed: 0,siren,nic,siret,statutDiffusionEtablissement,dateCreationEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,activitePrincipaleRegistreMetiersEtablissement,dateDernierTraitementEtablissement,etablissementSiege,...,codePaysEtranger2Etablissement,libellePaysEtranger2Etablissement,etatAdministratifEtablissement,enseigne1Etablissement,enseigne2Etablissement,enseigne3Etablissement,denominationUsuelleEtablissement,activitePrincipaleEtablissement,nomenclatureActivitePrincipaleEtablissement,caractereEmployeurEtablissement
0,6150148,10,615014800010,O,1961-01-01,01,2020.0,,2022-08-29T09:00:22,True,...,,,A,,,,,56.30Z,NAFRev2,O
1,6474167,19,647416700019,O,1964-01-01,NN,,,2019-11-14T14:00:38,True,...,,,A,,,,,56.30Z,NAFRev2,N
2,6910079,18,691007900018,O,1972-12-31,NN,,,2019-11-14T14:01:00,True,...,,,A,,,,,56.30Z,NAFRev2,N
3,7241078,26,724107800026,O,1988-01-02,NN,,,2008-01-04T17:54:26,True,...,,,A,,,,,56.30Z,NAFRev2,N
4,7241078,34,724107800034,O,2002-04-09,NN,,,2008-01-04T17:54:26,False,...,,,A,,,,,56.30Z,NAFRev2,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
50190,987011640,16,98701164000016,O,1970-01-01,NN,,,2008-01-05T03:39:39,True,...,,,A,,,,,56.30Z,NAFRev2,N
50191,987312220,13,98731222000013,O,1973-01-01,NN,,,2023-07-26T08:32:10,True,...,,,A,,,,,56.30Z,NAFRev2,O
50192,997241161,14,99724116100014,O,1972-01-01,NN,,,2008-01-05T03:39:46,True,...,,,A,,,,,56.30Z,NAFRev2,N
50193,998036511,25,99803651100025,O,1976-04-01,02,2020.0,,2022-08-29T10:50:41,True,...,,,A,LE MAJESTY,,,,56.30Z,NAFRev2,O


In [104]:
datasetbar = datasetbar.replace("[ND]", np.nan)
datasetbar = datasetbar.dropna(subset=['codePostalEtablissement'])


In [105]:
datasetbar[datasetbar['codePostalEtablissement']=="[ND]"]

Unnamed: 0,siren,nic,siret,statutDiffusionEtablissement,dateCreationEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,activitePrincipaleRegistreMetiersEtablissement,dateDernierTraitementEtablissement,etablissementSiege,...,codePaysEtranger2Etablissement,libellePaysEtranger2Etablissement,etatAdministratifEtablissement,enseigne1Etablissement,enseigne2Etablissement,enseigne3Etablissement,denominationUsuelleEtablissement,activitePrincipaleEtablissement,nomenclatureActivitePrincipaleEtablissement,caractereEmployeurEtablissement


In [106]:
file_path = "data//StockEtablissement_utf8.csv"
data = pd.read_csv(file_path,nrows=1000)
data

Unnamed: 0,siren,nic,siret,statutDiffusionEtablissement,dateCreationEtablissement,trancheEffectifsEtablissement,anneeEffectifsEtablissement,activitePrincipaleRegistreMetiersEtablissement,dateDernierTraitementEtablissement,etablissementSiege,...,libellePaysEtranger2Etablissement,dateDebut,etatAdministratifEtablissement,enseigne1Etablissement,enseigne2Etablissement,enseigne3Etablissement,denominationUsuelleEtablissement,activitePrincipaleEtablissement,nomenclatureActivitePrincipaleEtablissement,caractereEmployeurEtablissement
0,325175,16,32517500016,O,2000-09-26,,,3212ZZ,2015-03-18T00:58:59,False,...,,2009-05-27,F,,,,,32.12Z,NAFRev2,N
1,325175,24,32517500024,O,2008-05-20,,,,2011-12-12T09:40:04,False,...,,2011-10-21,F,TAHITI PERLES CREATIONS,,,,47.89Z,NAFRev2,N
2,325175,32,32517500032,O,2009-05-27,,,,2014-07-08T00:10:21,False,...,,2011-10-21,F,TAHITI PERLES CREATIONS,,,,32.12Z,NAFRev2,N
3,325175,40,32517500040,O,2011-10-21,,,3212ZZ,2015-03-18T00:58:59,False,...,,2014-01-07,F,TAHITI PERLES CREATION,,,,32.12Z,NAFRev2,N
4,325175,57,32517500057,O,2014-01-07,,,,2018-07-10T14:17:15,False,...,,2018-02-07,F,TAHITI PERLES CREATION,,,,32.12Z,NAFRev2,N
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,5742028,29,574202800029,O,2002-01-01,NN,,,2013-12-11T08:50:11,False,...,,2011-12-31,F,,,,,01.11Z,NAFRev2,N
996,5742036,14,574203600014,O,,,,,,True,...,,1984-12-25,F,,,,,69.22,NAP,N
997,5742093,15,574209300015,O,,,,,2019-08-25T12:02:35,True,...,,1984-12-25,F,,,,,62.43,NAP,N
998,5742101,16,574210100016,O,1900-01-01,NN,,,2019-11-14T14:00:14,True,...,,1992-03-24,F,,,,,,,N


In [132]:
# Analyse de sentiment simple avec TextBlob
def analyze_sentiment_textblob(text):
    blob = TextBlob(text)
    sentiment = blob.sentiment
    return {
        "polarity": sentiment.polarity,
        "subjectivity": sentiment.subjectivity
    }

# Analyse de sentiment avancée avec Hugging Face Transformers
def analyze_sentiment_transformers(text):
    classifier = pipeline('sentiment-analysis')
    return classifier(text)

# Analyse de thèmes/domaines avec Hugging Face Transformers
def analyze_domain(text):
    # Utiliser un modèle spécifique pour la classification de thème
    classifier = pipeline('zero-shot-classification', model='facebook/bart-large-mnli')

    # Définissez une liste étendue des thèmes/domaines potentiels
    candidate_labels = [
        "santé", "économie", "sport", "technologie", "politique", "éducation", "environnement",
        "art et culture", "science", "société", "histoire", "loisirs", "psychologie",
        "droit et législation", "mode et beauté", "religion et spiritualité", "actualités et médias",
        "littérature et écriture", "entreprise et management", "voyage et tourisme"
    ]

    # Appliquer le modèle de classification
    return classifier(text, candidate_labels)

def trouver_lieux(lat, lng, type_lieu, api_key="AIzaSyAuz6HCelEoLHELYGFA6HeNC9CAMB3XKmE"):
    """
    Trouve des lieux d'un type spécifique dans une zone donnée en utilisant l'API Google Places.

    Args:
    - lat (float): Latitude du centre de la zone de recherche.
    - lng (float): Longitude du centre de la zone de recherche.
    - type_lieu (str): Type de lieu à rechercher (par exemple, "bar" ou "night_club").
    - api_key (str): Clé API pour Google Places.

    Returns:
    - list: Liste des lieux trouvés.
    """

    url = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"
    params = {
        'location': f'{lat},{lng}',
        'radius': 2000,  # Rayon de recherche en mètres
        'type': type_lieu,
        'key': api_key
    }
    reponse = requests.get(url, params=params)
    resultats = reponse.json()

    if resultats.get("status") == "OK":
        lieux = resultats.get("results")
        noms_lieux = [lieu.get("name") for lieu in lieux]
        return noms_lieux
    else:
        return []

In [108]:
with open('Biotinder.txt', encoding='utf-8') as f:
    text = [line.strip() for line in f.readlines()]
text

['Amateur de randonnées et de couchers de soleil en montagne. Cherche partenaire pour partager des moments magiques en pleine nature.',
 "Passionné de voyages, à la recherche de quelqu'un avec qui explorer le monde et créer des souvenirs inoubliables.",
 'Épris de la mer et des vagues, cherche sirène pour nager sous les étoiles.',
 'Amateur de livres, de jazz et de conversations profondes. Cherche âme curieuse pour des soirées cosy et inspirantes.',
 "Artiste dans l'âme, je peins, je dessine et j'admire la beauté dans les petites choses. Cherche muse et complice.",
 "Passionné d'histoire et de culture, cherche compagnon pour explorer musées et galeries d'art.",
 "Expert en blagues nulles, cherche quelqu'un pour rire et partager des moments de joie.",
 'Amoureux des animaux, surtout quand ils font des choses stupides. Cherche partenaire pour rire et aimer.',
 'Je suis comme un livre ouvert avec des illustrations amusantes. Venez lire une page ou deux !',
 "Marathonien dans l'âme, je cou

In [109]:
# Configuration de Faker pour la génération de données
fake = Faker('fr_FR')


if not isinstance(personnevivantseul['Age'].iloc[0], pd.Interval):
            personnevivantseul['Age Range'] = personnevivantseul['Age'].apply(age_to_interval)
else:
            personnevivantseul['Age Range'] = personnevivantseul['Age']
personnevivantseul = personnevivantseul.dropna()

In [147]:
nomi = pgeocode.Nominatim('fr')
# Nombre de défunt à générer
num_defunts = 50

# Création d'une liste pour stocker les données
defunts_data = []
#JOB DE LA PERSONNE
#LOCALISATION DES BARS ET BOITE A PROXIMITER DE CHEZ ELLE


# Définition de l'URL de base pour les chemins fictifs des photos et vidéos
base_path = ""
class Person:
    def __init__(self,id, nom, prenom, age, sexe, taille, photo,long,lat,bio):
        self.id = id
        self.nom = nom
        self.prenom = prenom
        self.bio = bio
        self.age = age
        self.sexe = sexe
        
        #sentiment_textblob = analyze_sentiment_textblob(bio)
        #domain_analysis = analyze_domain(bio)
        #domaine_analysis_bio = domain_analysis['labels'][:3]
        #subjectivity_bio = sentiment_textblob['subjectivity']
        #self.subjectivity = subjectivity_bio
        #self.domaine_analysis_bio = domaine_analysis_bio
        self.taille = taille
        self.photo = photo
        emotions = {
            'angry': 0.10,   # 10% de chances d'être en colère
            'disgust': 0.05,  # 5% de chances d'être dégoûté
            'fear': 0.10,    # 10% de chances d'avoir peur
            'happy': 0.40,   # 40% de chances d'être heureux
            'sad': 0.20,     # 20% de chances d'être triste
            'surprise': 0.10, # 10% de chances d'être surpris
            'neutral': 0.05   # 5% de chances d'être neutre
        }
        
        
        pourcentage_seul = get_proportion(age, sexe, personnevivantseul)
        
        if not isinstance(datacouple['Age'].iloc[0], pd.Interval):
            datacouple['Age Range'] = datacouple['Age'].apply(age_to_interval)
        else:
            # Si "Age" est déjà une colonne d'intervalles, utilisez-la directement
            datacouple['Age Range'] = datacouple['Age']
        self.seul = random.random() < ((pourcentage_seul+20) / 100)
        self.emotion = random.choices(list(emotions.keys()), weights=emotions.values(), k=1)[0]
        races = ['asian', 'indian', 'black', 'white', 'middle eastern', 'latino hispanic']
        # Poids basés sur une estimation de la répartition démographique en France
        weights = [0.05, 0.02, 0.03, 0.85, 0.03, 0.02]  # Ces valeurs sont des exemples
        self.race = random.choices(races, weights=weights, k=1)[0]
        taille_m = taille / 100  # Convertir la taille en mètres
        self.poids = estimer_poids(taille)
        data_for_gender = get_data_couple_age(age,  sexe, datacouple)

        result = education_famille(data_for_gender)
        self.couple_meme_sexe = result["couple_meme_sexe"]
        self.enfant = result["enfant"]
        self.education_bac = result["education_bac"]
        self.education_bac_plus_3 = result["education_bac_plus_3"]
    
        self.IRIScode = choose_iris_weighted(basecouple)
        self.address = basecouple[basecouple["IRIS"] == self.IRIScode]["Libellé commune ou ARM"][basecouple[basecouple["IRIS"] == self.IRIScode]["Libellé commune ou ARM"].index[0]]
        if(long == 0 and lat==0):
            try:
                data = nomi.query_location(self.address,top_k=1)
                
                # Extraction des coordonnées de base
                lat_base = data['latitude'].values[0]  # Pour obtenir la première valeur de la Series latitude
                lng_base = data['longitude'].values[0]  # Pour obtenir la première valeur de la Series longitude
                # Ajout d'une petite variation aléatoire pour rendre les coordonnées uniques
                lat = lat_base + random.uniform(-0.0005, 0.0005)
                lng = lng_base + random.uniform(-0.0005, 0.0005)
                self.lat = round(lat, 7)
                self.long = round(lng, 7)
                self.IRIScode = get_iris_code_from_coordinates(self.lat, self.long)
                self.address = basecouple[basecouple["IRIS"] == self.IRIScode]["Libellé commune ou ARM"][basecouple[basecouple["IRIS"] == self.IRIScode]["Libellé commune ou ARM"].index[0]]
            except:
                self.lat = 0
                self.long = 0
        else:
            self.lat = lat
            self.long = long    
        proba_statuts = statcouple(self.IRIScode) 
        self.bars = trouver_lieux(self.lat, self.long, "bar")
        time.sleep(0.001)
        self.boites_de_nuit = trouver_lieux(self.lat, self.long, "night_club")
        self.statut_relationnel = random_status(proba_statuts)
    def __str__(self):
        return pd.DataFrame({'Id':[self.id],'Nom': [self.nom], 'Prénom': [self.prenom], 'Age': [self.age], 'Sexe': [self.sexe], 'Taille': [self.taille], 'Photo': [self.photo], 
                             'Emotion': [self.emotion], 'Race': [self.race], 'Poids': [self.poids],'Vivre seul' : [self.seul],
                             'IRIS:':[self.IRIScode],"statut relationnelle : ":[self.statut_relationnel], "couple_meme_sexe":[self.couple_meme_sexe],
                             "enfant":[self.enfant],"education_bac":[self.education_bac],"Bars a proximité : ":[self.bars],"Boite de nuit : ":[self.boites_de_nuit],"adress : ":[self.address]
                             ,"Bac + 3":[self.education_bac_plus_3],"bio : ":[self.bio],"longitude : ":[self.long],"Latitude : ":[self.lat]
                             }).to_string(index=False)
    def to_dict(self):
        return vars(self)

In [148]:


# Génération des données fictives pour les défunts
personne = []
compteur_erreur = 0
id = 100000
for _ in range(num_defunts):
    prenom = fake.first_name()
    nom = fake.last_name()
    nationalite = "Française"
    id = id + 1
    sexe = random.choice(["Homme", "Femme"])
    if sexe == "Homme":
        taille = np.random.normal(175, 7)
    else:
        taille = np.random.normal(162, 7)
    try:
        age, age_group = find_random_age_by_gender(sexe)
        age = int(round(age,0))
    except:
        age = fake.random_int(25, 55)
        
    
    photo = "" 
    
    latitude = 0
    longitude = 0
    personne.append(Person(id,nom, prenom, age, sexe, taille, "",longitude,latitude,str(text[_])))


defunts_data = [p.to_dict() for p in personne]

# Création du DataFrame
df_defunts = pd.DataFrame(defunts_data)

# Affichage du DataFrame
print(df_defunts)




IndexError: index 0 is out of bounds for axis 0 with size 0

In [139]:
print(compteur_erreur)
for i in personne[:4]:
    print(i)

0
    Id     Nom Prénom  Age  Sexe     Taille Photo Emotion  Race     Poids  Vivre seul     IRIS: statut relationnelle :   couple_meme_sexe  enfant  education_bac Bars a proximité :  Boite de nuit :  adress :   Bac + 3                                                                                                                              bio :   longitude :   Latitude : 
100001 Tessier Roland   49 Homme 182.537353           sad white 73.303748        True 131170103                 inconnu             False   False          False                  []               [] Vitrolles    False Amateur de randonnées et de couchers de soleil en montagne. Cherche partenaire pour partager des moments magiques en pleine nature.      5.948964    44.434907
    Id   Nom Prénom  Age  Sexe     Taille Photo Emotion  Race     Poids  Vivre seul     IRIS: statut relationnelle :   couple_meme_sexe  enfant  education_bac                                                                                        

Export data

In [135]:
# Exportation en Excel
df_defunts.to_excel("France_Data_gouv.xlsx", index=False)

CECI EST LA PARTIE PERMETTANT DE SAVOIR SI UNE PERSONNE EST PROCHE OU PAS D'UNE AUTRE

In [144]:
random_people = Person(100051,"Serano","Henri",21,"Homme",175,"",2.235621,48.8958945,"Jeune entrepreneur")
print(random_people)    

    Id    Nom Prénom  Age  Sexe  Taille Photo Emotion  Race  Poids  Vivre seul     IRIS: statut relationnelle :   couple_meme_sexe  enfant  education_bac                                                                                                                                                                                                                                                                                                                                                    Bars a proximité :                                                                                                                                                                                           Boite de nuit :  adress :   Bac + 3             bio :   longitude :   Latitude : 
100051 Serano  Henri   21 Homme     175       neutral white 67.375       False 330630103                 inconnu             False   False           True [L'Olympique 1924, Le Paradis du Fruit, Le Cadre, Zig-Zag, Sharky'