/
projet.txt
118 lines (84 loc) · 4.05 KB
/
projet.txt
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
TOOLKIT PROJET PYTHON
qué corpus?
literario -> estilistica? (patterns, polaridad, puntuacion, vocabulario mas comun, palabras especificas (loi hypergeometrique, lafon), tf idf...)
periodistico -> si periodistico, analisis tematico y polaridad
INPUT:
tree tagger
Otros logiciels; web theatre classique (pb sur les stats, pas de saillance donc rien intéressant), TXM
LITERARIO: amplitud del vocabulario log(numero palabras distintas)/log(numero total de palabras), funcionalidad para comparar textos? dos inputs?, estadisticas sobre el contexto de una palabra en el corpus (con una ventana a definir, como en lexico pero haciendo ya las estadisticas), crear sous corpus para mejorar las estadisticas, segments répétés (expresiones recurrentes) O patrones sintaxicos recurrentes.
SUGERENCIA DEL PROFE: hacer algo adaptable segun el proyecto, no un bloque de cosas. Que se pueda elegir lo que se quiere hacer. (y si ponemos una cajita de sugestiones?) El recomienda que se puedan utilizar las regex para hacer requêtes personnalisées.
campo: sparador entre documentos que dice el utilizador para segmentar en documentos.
estadisticas morfologia sobre taggings
lexicos: polaridad, tematicos?
matriz tfidf, TF, (cosine? semantic similarity?)
lemmes mas corrientes? <-> lexicos
frequency
ajustar croissant/décroissant
indice de spécificité
patterns mas frecuentes morfologicos
negaciones, puntuacion?
preguntar si contar stopwords: cuando se utilizan y cuando no? -->parametro recurrente o no?
VIZ
INTERFACE:
flask?
TODOLIST
2) constituir corpus
3) tree tagging
1) buscar lexicos que puedan ser utiles en francés
concatenar archivos entre ellos
vectorisation: TF-IDF, TF
indice de spécificité
______________________________________________________________________________________________________________________________________________
REMARQUES
Besoin d'écrire clairement ce que fait le script avec quoi. Ordre des étapes.
On garde tout pour le projet? ou on établit une pipeline déterminée? plus pauvre mais plus ouverte à divers formats?
si on fait word2vec, càd entrainement d'un modèle avec le corpus donné? dans quel but? construire un lexique?
polarité OU theme
(OU intent: RASA intent classifiers https://medium.com/bhavaniravi/intent-classification-demystifying-rasanlu-part-4-685fc02f5c1d,
ou https://towardsdatascience.com/multi-label-intent-classification-1cdd4859b93)
prendre en compte l'arborescence de l'utilisateur
__________________________________________________________________________________________________________________________________________
qué corpus?
literario, periodistico, redes sociales
INPUT:
tree tagger
FUNCIONALIDADES:
estadisticas morfologia sobre taggings
lexicos: polaridad, tematicos?
matriz tfidf, TF
lemmes mas corrientes? <-> lexicos
frequency
ajustar croissant/décroissant
indice de spécificité
patterns mas frecuentes morfologicos
negaciones, puntuacion?
VIZ
INTERFACE:
flask?
TODOLIST
constituir corpus
tree tagging
concatenar archivos entre ellos
vectorisation: TF-IDF, TF
indice de spécificité
_______________________________________________________________________________________________________________________________________________
QUESTIONS SUR LE CODE
___Codes
rescrotal?
tsv != conll? (que doit contenir le conllu exactement?)
5 scripts de vectorisation: redondances? actualisations? chacun a une fonction? --> dernier fichier est le plus actualisé et le plus pertinents
seg to vec? --> documento del corpus = segment
fusion annotation segment? corpus annoté
dictionary = vocabulaire du corpus? nbres = comptage?
___Construction corpus tabulaire
appartenance lexique x3
SEM? (logiciel?) --> benchmarking de tous. tree tagger spoken french = le meilleur
aussi scripts de vectorisation. Pourquoi autant?
div1...8? --> divisiones del corpus en varias partes
___Lexiques
les lexiques créés par toi ou proposés par le stage?
diff entre lexique et dump lexique (dump pas important)
creerlexique.py cree un lexique
___TF-IDF
se calcula con una libreria
viz clustering? qu'est-ce qu'elle représente? --> apres unsupervised