-
Notifications
You must be signed in to change notification settings - Fork 0
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Large coclusterings #36
Comments
Par rapport à l’affichage des coclustering volumineux, j’ai mieux identifié comment fonctionnait l’ancien outil.
o Si ce nombre total de clusters est < à 15 * le nombre de dimensions, on affiche le coclustering le plus fin Pour l’algorithme que tu souhaiterais pour coder la fonctionnalité Unfold hierarchy, je vais te préparer cela.
|
J’ai tenté de reproduire le comportement de l’ancienne version de Khiops CO dans le cas de très gros fichier, ça fonctionne plutôt bien pour des fichiers pas trop gros, par exemple 4Mo, Je suis un peu coincé là car à mon avis on arrive aux limites du javascript qui n’est pas un langage optimisé pour faire tant de calculs. |
branch in progress : unfold-at-start |
Les jeux de données que je t'ai fournis Url1 , Url8, LargeCoclustering n'étaient pas adaptés car ils étaient générés à partir d'une ancienne version de Khiops sans le champ "hierarchicalRank". La valeur de ce champ était toujours à 0 ce qui perturbe le repliement. Je te propose de clore cet issue et je vais en ouvrir une autre avec des jeux de données synthétiques pour travailler sur le temps de l'algo dans le cas de fichiers volumineux en fonction de la variation du nombre de modalités, ou de la taille des modalités. |
ok, n'hésite pas à me fournir d'autres jeux de données que je teste ce que j'avais commencé à optimiser |
mis en place
|
Il s’agit de 2 jeux de données dont aucun ne s’ouvrait avec l’ancienne version.
Le message affiché était : « The application will use more than 1 Go of memory. The data can’t be loaded”.
Les fichiers de données sont en effet volumineux et quasiment identiques
mais dans le 1er cas le coclustering est de dimensions faibles (5 et 6)
alors que dans le 2nd cas le coclustering est de dimensions élevées (1045 et 594).
Avec la nouvelle version de KCV, le 1er coclustering s’affiche bien mais pas le second.
Il doit donc y avoir une limite à fixer qui porte plus sur la taille du coclustering que sur le volume des données à afficher
(ou peut être les deux).
Voici les lien de téléchargement :
Url 1 : taille importante du fichier de données mais taille réduite des dimensions du coclustering (5 et 6)
Dimensions 2
Name Type Parts Initial parts Values Typicality Description
id_cookie Symbol 5 5 1475486 1
url Symbol 6 6 1819466 1
https://tf.orange.com/f/329ad051b46e4d3f9a80/?dl=1
URL 8 : taille importante du fichier de données et taille élevée des dimensions du coclustering (1045 et 594)
Dimensions 2
Name Type Parts Initial parts Values Typicality Description
id_cookie Symbol 1045 1045 1475486 1
url Symbol 594 594 1819466 1
https://tf.orange.com/f/d39a613af83e404d898f/?dl=1
Il faudrait pour cela avoir une taille limite de coclustering que l’on peut afficher et afficher un coclustering replié sinon.
On pourrait partir sur une valeur limite du produit des dimensions.
Tu disais que jusqu’à 100 par 100 tout était OK. Cela pourrait déjà être un seuil ?
The text was updated successfully, but these errors were encountered: