In [5]:
import pandas as pd
import numpy as np
from deepface import DeepFace
import re
import requests
import time
from geopy.geocoders import Nominatim
import geopandas as gpd
from shapely.geometry import Point
import random
from faker import Faker
from datetime import datetime
from textblob import TextBlob
import pgeocode
import os
from transformers import pipeline

In [None]:
def analyze_sentiment_textblob(text):
    blob = TextBlob(text)
    sentiment = blob.sentiment
    return {
        "polarity": sentiment.polarity,
        "subjectivity": sentiment.subjectivity
    }
def get_iris_code_from_coordinates(latitude, longitude):
    # URL de l'API avec les coordonnées passées en paramètres
    api_url = f"https://pyris.datajazz.io/api/coords?lat={latitude}&lon={longitude}"
    try:
        # Effectuer la requête GET vers l'API
        response = requests.get(api_url)
        
        # Vérifier si la requête a réussi (code de statut 200)
        if response.status_code == 200:
            # Extraire les données JSON de la réponse
            data = response.json()
            
            # Extraire le code IRIS
            iris_code = data.get("complete_code")
            
            if iris_code:
                return iris_code
            else:
                return "Code IRIS non trouvé dans la réponse API."
        else:
            return f"Erreur de requête : {response.status_code}"
    except Exception as e:
        return f"Erreur lors de la requête API : {str(e)}"

# %%
def estimer_poids(taille_cm, imc_cible=22):
    """
    Estime le poids en kilogrammes basé sur la taille en centimètres et un IMC cible.

    :param taille_cm: Taille en centimètres
    :param imc_cible: Indice de masse corporelle cible (par défaut 22)
    :return: Poids estimé en kilogrammes
    """
    taille_m = taille_cm / 100  # Convertir la taille en mètres
    poids_estime = imc_cible * (taille_m ** 2)
    return poids_estime
def extract_age_range(age_group):
    # Extrait les bornes de l'intervalle d'âge
    start_age, end_age = age_group.split('-')
    start_age = int(start_age)
    end_age = int(end_age.split(' ')[0])
    return start_age, end_age

def find_random_age_by_gender(gender):
    # Vérification de la validité du sexe
    if gender not in ["Femme", "Homme"]:
        return "Sexe non valide"

    # Calculer les poids pour chaque tranche d'âge
    weights = [data[gender] for data in age_data.values()]
    
    # Choisir une tranche d'âge aléatoire en fonction des poids
    chosen_age_group = random.choices(list(age_data.keys()), weights=weights, k=1)[0]
    
    # Extraire l'intervalle d'âge et générer un âge aléatoire dans cet intervalle
    start_age, end_age = extract_age_range(chosen_age_group)
    random_age = random.randint(start_age, end_age)

    return random_age, chosen_age_group
def choose_iris_weighted(iris_data):
    iris_list = iris_data['IRIS'].tolist()
    weights = iris_data['Pop Ménages en 2020 (compl)'].tolist()
    chosen_iris = random.choices(iris_list, weights=weights, k=1)
    return chosen_iris[0]
# Analyse de sentiment avancée avec Hugging Face Transformers
def analyze_sentiment_transformers(text):
    classifier = pipeline('sentiment-analysis')
    return classifier(text)

# Analyse de thèmes/domaines avec Hugging Face Transformers
def analyze_domain(text):
    # Utiliser un modèle spécifique pour la classification de thème
    classifier = pipeline('zero-shot-classification', model='facebook/bart-large-mnli')

    # Définissez une liste étendue des thèmes/domaines potentiels
    candidate_labels = [
        "santé", "économie", "sport", "technologie", "politique", "éducation", "environnement",
        "art et culture", "science", "société", "histoire", "loisirs", "psychologie",
        "droit et législation", "mode et beauté", "religion et spiritualité", "actualités et médias",
        "littérature et écriture", "entreprise et management", "voyage et tourisme"
    ]

    # Appliquer le modèle de classification
    return classifier(text, candidate_labels)

def trouver_lieux(lat, lng, type_lieu, api_key="AIzaSyAuz6HCelEoLHELYGFA6HeNC9CAMB3XKmE"):
    """
    Trouve des lieux d'un type spécifique dans une zone donnée en utilisant l'API Google Places.

    Args:
    - lat (float): Latitude du centre de la zone de recherche.
    - lng (float): Longitude du centre de la zone de recherche.
    - type_lieu (str): Type de lieu à rechercher (par exemple, "bar" ou "night_club").
    - api_key (str): Clé API pour Google Places.

    Returns:
    - list: Liste des lieux trouvés.
    """

    url = "https://maps.googleapis.com/maps/api/place/nearbysearch/json"
    params = {
        'location': f'{lat},{lng}',
        'radius': 2000,  # Rayon de recherche en mètres
        'type': type_lieu,
        'key': api_key
    }
    reponse = requests.get(url, params=params)
    resultats = reponse.json()

    if resultats.get("status") == "OK":
        lieux = resultats.get("results")
        noms_lieux = [lieu.get("name") for lieu in lieux]
        return noms_lieux
    else:
        return []

In [None]:
class Person:
    def __init__(self,id, nom, prenom, age, sexe, taille, photo,long,lat,bio):
        self.id = id
        self.nom = nom
        self.prenom = prenom
        self.bio = bio
        self.age = age
        self.sexe = sexe
        
        #sentiment_textblob = analyze_sentiment_textblob(bio)
        #domain_analysis = analyze_domain(bio)
        #domaine_analysis_bio = domain_analysis['labels'][:3]
        #subjectivity_bio = sentiment_textblob['subjectivity']
        #self.subjectivity = subjectivity_bio
        #self.domaine_analysis_bio = domaine_analysis_bio
        self.taille = taille
        self.photo = photo
        emotions = {
            'angry': 0.10,   # 10% de chances d'être en colère
            'disgust': 0.05,  # 5% de chances d'être dégoûté
            'fear': 0.10,    # 10% de chances d'avoir peur
            'happy': 0.40,   # 40% de chances d'être heureux
            'sad': 0.20,     # 20% de chances d'être triste
            'surprise': 0.10, # 10% de chances d'être surpris
            'neutral': 0.05   # 5% de chances d'être neutre
        }
        
        
        pourcentage_seul = get_proportion(age, sexe, personnevivantseul)
        
        if not isinstance(datacouple['Age'].iloc[0], pd.Interval):
            datacouple['Age Range'] = datacouple['Age'].apply(age_to_interval)
        else:
            # Si "Age" est déjà une colonne d'intervalles, utilisez-la directement
            datacouple['Age Range'] = datacouple['Age']
        self.seul = random.random() < ((pourcentage_seul+20) / 100)
        self.emotion = random.choices(list(emotions.keys()), weights=emotions.values(), k=1)[0]
        races = ['asian', 'indian', 'black', 'white', 'middle eastern', 'latino hispanic']
        # Poids basés sur une estimation de la répartition démographique en France
        weights = [0.05, 0.02, 0.03, 0.85, 0.03, 0.02]  # Ces valeurs sont des exemples
        self.race = random.choices(races, weights=weights, k=1)[0]
        taille_m = taille / 100  # Convertir la taille en mètres
        self.poids = estimer_poids(taille)
        data_for_gender = get_data_couple_age(age,  sexe, datacouple)

        result = education_famille(data_for_gender)
        self.couple_meme_sexe = result["couple_meme_sexe"]
        self.enfant = result["enfant"]
        self.education_bac = result["education_bac"]
        self.education_bac_plus_3 = result["education_bac_plus_3"]
    
        self.IRIScode = choose_iris_weighted(basecouple)
        self.address = basecouple[basecouple["IRIS"] == self.IRIScode]["Libellé commune ou ARM"][basecouple[basecouple["IRIS"] == self.IRIScode]["Libellé commune ou ARM"].index[0]]
        if(long == 0 and lat==0):
            try:
                data = nomi.query_location(self.address,top_k=1)
                
                # Extraction des coordonnées de base
                lat_base = data['latitude'].values[0]  # Pour obtenir la première valeur de la Series latitude
                lng_base = data['longitude'].values[0]  # Pour obtenir la première valeur de la Series longitude
                # Ajout d'une petite variation aléatoire pour rendre les coordonnées uniques
                lat = lat_base + random.uniform(-0.0005, 0.0005)
                lng = lng_base + random.uniform(-0.0005, 0.0005)
                self.lat = round(lat, 7)
                self.long = round(lng, 7)
            except:
                self.lat = 0
                self.long = 0
        else:
            self.lat = lat
            self.long = long    
        proba_statuts = statcouple(self.IRIScode) 
        self.bars = trouver_lieux(self.lat, self.long, "bar")
        time.sleep(0.001)
        self.boites_de_nuit = trouver_lieux(self.lat, self.long, "night_club")
        self.statut_relationnel = random_status(proba_statuts)
    def __str__(self):
        return pd.DataFrame({'Id':[self.id],'Nom': [self.nom], 'Prénom': [self.prenom], 'Age': [self.age], 'Sexe': [self.sexe], 'Taille': [self.taille], 'Photo': [self.photo], 
                             'Emotion': [self.emotion], 'Race': [self.race], 'Poids': [self.poids],'Vivre seul' : [self.seul],
                             'IRIS:':[self.IRIScode],"statut relationnelle : ":[self.statut_relationnel], "couple_meme_sexe":[self.couple_meme_sexe],
                             "enfant":[self.enfant],"education_bac":[self.education_bac],"Bars a proximité : ":[self.bars],"Boite de nuit : ":[self.boites_de_nuit],"adress : ":[self.address]
                             ,"Bac + 3":[self.education_bac_plus_3],"bio : ":[self.bio],"longitude : ":[self.long],"Latitude : ":[self.lat]
                             }).to_string(index=False)
    def to_dict(self):
        return vars(self)

In [2]:
data = pd.read_excel('France_Data_gouv.xlsx')
data

Unnamed: 0,id,nom,prenom,bio,age,sexe,taille,photo,seul,emotion,...,enfant,education_bac,education_bac_plus_3,IRIScode,address,lat,long,bars,boites_de_nuit,statut_relationnel
0,100001,Carlier,Inès,Amateur de randonnées et de couchers de soleil...,25,Homme,172.635944,,False,happy,...,False,True,False,673650103,Ostwald,48.543347,7.710805,"[""Hôtel restaurant d'Alsace The Originals Bout...",['Rock Shop café'],celib
1,100002,Giraud,Daniel,"Passionné de voyages, à la recherche de quelqu...",51,Homme,180.696972,,True,fear,...,False,False,False,930480801,Montreuil,48.863732,2.442799,"['Villa9Trois - Restaurant Gastronomique', 'Al...","['Strandbar/Biergarten Velove', 'Papouille', '...",marier
2,100003,Carlier,Isaac,"Épris de la mer et des vagues, cherche sirène ...",49,Femme,171.520185,,True,sad,...,False,False,False,830500101,Draguignan,43.536523,6.464501,"['Les 1000 Colonnes', 'Le Jardin', 'Au Bureau ...",[],celib
3,100004,Millet,Olivie,"Amateur de livres, de jazz et de conversations...",36,Homme,180.419067,,False,sad,...,False,True,False,452720000,Saint-Cyr-en-Val,47.831798,1.967196,[],[],celib
4,100005,Roussel,Andrée,"Artiste dans l'âme, je peins, je dessine et j'...",32,Femme,178.288316,,False,angry,...,False,True,False,704550000,Roye,47.463973,5.424503,[],[],pacsée
5,100006,Perrier,Nicole,"Passionné d'histoire et de culture, cherche co...",56,Homme,166.280377,,True,sad,...,False,False,False,590170402,Armentières,48.97774,3.02091,[],[],celib
6,100007,Letellier,Hugues,"Expert en blagues nulles, cherche quelqu'un po...",58,Homme,167.77128,,False,happy,...,False,False,False,130270104,Châteaurenard,43.881652,4.854949,"['Hôtel Restaurant Le Central', 'Lou Simbeu', ...",[],celib
7,100008,Chauvin,Véronique,"Amoureux des animaux, surtout quand ils font d...",51,Homme,167.713671,,True,sad,...,False,False,False,250350000,Les Auxons,47.300975,5.972669,[],[],celib
8,100009,Munoz,Agnès,Je suis comme un livre ouvert avec des illustr...,59,Homme,181.134539,,True,surprise,...,False,True,False,974160601,Saint-Pierre,48.26739,2.67989,[],[],marier
9,100010,Pottier,Caroline,"Marathonien dans l'âme, je cours vers l'aventu...",56,Femme,172.379168,,True,happy,...,False,False,False,160150402,Angoulême,45.650349,0.153399,"['Mercure Angoulême - Hôtel de France', ""Resta...","['Le Select', 'LE DUPLEX', 'hello', 'Le FRESH ...",pacsée


In [None]:
100050	Perret	Simone	Ami fidèle, cherche complice pour construire d...	28	Femme	167.168252	NaN	False	disgust	...	False	True	True	972272702	Sainte-Luce	47.254780	-1.482492	[]	[]	marier
persontostudy = Generationpopulationfr.Person()