<details>
<summary><strong>📘 Complete Feature Dictionary (English)</strong></summary>

<br>

#### Group 1: Bibliographic Features (The "What" and "When")
1.  **doi**:
    *   **Meaning:** The unique identifier of the article.
    *   **Importance:** Not a feature for the model, but the primary key to join all our data.
2.  **publication_year**:
    *   **Meaning:** The year the article was published.
    *   **Importance:** Provides temporal context. Publishing and retraction practices change over time.
    *   **Hypothesis:** The retraction rate may have increased in recent years due to better detection tools or the pressure to publish.
3.  **article_type**:
    *   **Meaning:** The type of publication (e.g., 'article', 'conference', 'review').
    *   **Importance:** Essential for comparing "apples to apples." The standards of rigor are different for each type.
4.  **is_open_access**:
    *   **Meaning:** A boolean (1/0) indicating if the article is open access.
    *   **Importance:** Represents the journal's business model.
    *   **Hypothesis:** Predatory journals often use a "pay-to-publish" open-access model, which could correlate with a higher retraction rate. That is, is there a correlation between the access model (and its potential lack of rigor in some cases) and retractions?

### Group 2: Authorship Features (The "Who")
1.  **author_count**:
    *   **Meaning:** Total number of authors.
    *   **Importance:** Measures the size of the research team.
    *   **Hypothesis:** Anomalous numbers (very high or very low) could be a sign of "paper mills" or fraudulent authorships.
2.  **institution_count**:
    *   **Meaning:** Number of unique research institutions involved.
    *   **Importance:** Measures the diversity of the collaboration.
3.  **country_count**:
    *   **Meaning:** Number of unique countries involved.
    *   **Importance:** Similar to the previous one, but at a geopolitical level.
4.  **first_author_country**:
    *   **Meaning:** The country of the first author.
    *   **Importance:** A strong contextual signal, as the first author usually leads the research.
    *   **Hypothesis:** Certain national scientific policies could correlate with higher retraction rates.
5.  **is_international_collaboration**:
    *   **Meaning:** A boolean (1/0) if more than one country is involved.
    *   **Importance:** A simple and powerful feature that summarizes international collaboration.

### Group 3: Publication Venue Features (The "Where")
1.  **journal_name**:
    *   **Meaning:** Name of the journal or conference.
    *   **Importance:** Useful for exploratory analysis and for understanding the model's results.
2.  **publisher**:
    *   **Meaning:** The publishing organization of the journal (e.g., 'Elsevier', 'Hindawi').
    *   **Importance:** A very powerful feature. As we saw, a few publishers account for a large number of retractions.
    *   **Hypothesis:** The business model and review standards of certain publishers are key predictors of retraction risk.
3.  **is_publisher_missing**:
    *   **Meaning:** A boolean flag (1/0) that is 1 (True) if a publisher could not be identified for the article, and 0 (False) if it was found.
    *   **Importance:** Acts as a proxy for the "legitimacy" of the source. Serious, well-indexed publications almost always have a clear publisher. Its absence is a red flag.
    *   **Hypothesis:** The lack of an identifiable publisher (a value of 1) correlates with a higher risk of retraction, as it may indicate that the article comes from a less-established source, a dubious conference, or a predatory journal.
4.  **source_id**:
    *   **Meaning:** The unique OpenAlex ID for the journal/source.
    *   **Importance:** Not for the current model, but it's an investment for the future. We save it to be able to enrich the dataset later if we find a reliable source of journal metrics.

### Group 4: Content Features (The "How" - NLP)
1.  **title** and **abstract**:
    *   **Meaning:** The text of the title and abstract (cleaned of retraction notices).
    *   **Importance:** They are the raw material for creating more complex NLP features (like embeddings).
2.  **is_abstract_missing**:
    *   **Meaning:** A boolean flag (1/0) that is 1 (True) if the article does not have a real, clean abstract, and 0 (False) if it does.
    *   **Importance:** Measures the "completeness" of the article's record. A serious research paper almost always includes an abstract.
    *   **Hypothesis:** The absence of an abstract is an anomalous characteristic and could be associated with lower-quality works, conference summaries, or fraudulent articles that avoid giving a clear summary of their methods and results.
3.  **title_length** and **abstract_length**:
    *   **Meaning:** The number of characters in the title and in the actual abstract.
    *   **Importance:** Simple measures of text structure.
    *   **Hypothesis:** Fraudulent or low-quality works might have abnormally short or long abstracts or titles.
4.  **n_concepts**:
    *   **Meaning:** The number of topics or concepts that OpenAlex associates with the article.
    *   **Importance:** Measures thematic breadth.
    *   **Hypothesis:** "Topic stuffing." An article that claims to cover too many things could be a sign of a lack of focus or an attempt to deceive.
5.  **top_concept_level**:
    *   **Meaning:** The level of specificity of the main concept (0=very general, 5=very specific).
    *   **Importance:** Measures the depth of the topic.
    *   **Hypothesis:** It might be easier to publish fraudulent works on very general and vague topics (low level) than on very specific and technical topics (high level).

### Group 5: Impact Features (The "So What")
1.  **n_references**:
    *   **Meaning:** The number of articles this work cites in its bibliography.
    *   **Importance:** A proxy for the background research work.
    *   **Hypothesis:** Anomalous numbers (very few or very many) could be a sign of a careless or fraudulent work.
2.  **citations_in_first_2_years**:
    *   **Meaning:** An integer representing the total citations an article received during its first two years of life (the year of publication and the following one).
    *   **Importance:** It is a measure of early impact that is temporally controlled, which prevents data leakage by not counting citations that occurred after an article was retracted. It is methodologically much more robust than the total citation count.
    *   **Hypothesis:** High-quality (and low-risk) articles tend to accumulate citations in a healthy and steady manner from the beginning. Problematic articles might show anomalous citation patterns: either zero impact (no one cites them) or, in cases of organized fraud, a suspicious peak of self-citations in the initial phase.

### Features We Don't Have Yet
1.  **journal_h_index**:
    *   **Meaning:** A metric that combines the productivity and impact of a journal. A high number indicates greater prestige.
    *   **Importance (Theoretical):** It was our best feature to numerically measure the "rigor" of a journal.
    *   **Hypothesis (Strong but unverified):** A low H-Index correlates strongly with a higher risk of retraction.
    *   **Current Status:** Discarded for now due to the difficulty of obtaining it reliably and scalably, but we are keeping it on our "radar" thanks to saving the `source_id`.
2.  **avg_author_works_count**:
    *   **Meaning:** The average of the total number of publications for each author of the article. It measured the average "experience" or "productivity" of the team.
    *   **Importance (Theoretical):** It was a numerical proxy for the history and reputation of the author team.
    *   **Hypothesis:** Retracted articles might be written by teams with a significantly lower average of previous publications (novice or fraudulent authors).
    *   **Reason for Discarding:** Computational Infeasibility. The OpenAlex API does not provide the author's `works_count` in the article query. Obtaining it would require an extra API call for each author of each article (~250,000+ additional calls), which is too costly and slow for the value it provides.

### Features We Initially Planned to Use But Ultimately Discarded
1.  **is_abstract_retraction_notice**:
    *   **Meaning:** A boolean (1/0) indicating if the abstract field contained a retraction notice.
    *   **Importance:** It is a meta-feature about data quality.
    *   **Hypothesis:** The fact that the publisher replaces the abstract is a strong signal, although it occurs after the retraction (which is why we discarded it). For the model, it could capture subtle patterns about how different publishers handle retractions.

The next two were replaced by `citations_in_first_2_years` to avoid data leakage.

2.  **citation_count_total**:
    *   **Meaning:** The total number of times the article has been cited.
    *   **Importance:** A classic measure of impact.
3.  **citations_per_year**:
    *   **Meaning:** Total citations divided by the "age" of the article.
    *   **Importance:** A much fairer, normalized measure of impact. It measures the "speed" at which an article accumulates citations.
    *   **Hypothesis:** Fraudulent articles might have an initial peak of citations that then drops off quickly, or simply a very low citation speed.

---

### From the `df_retraction` after cleaning, we have these 21 columns and 56,046 rows:

```
Index(['record_id', 'title', 'subject', 'institution', 'journal', 'publisher',
'country', 'author', 'urls', 'article_type', 'retraction_date',
'retraction_doi', 'retraction_pub_med_id', 'original_paper_date',
'original_paper_doi', 'original_paper_pub_med_id', 'retraction_nature',
'reason', 'paywalled', 'notes', 'year'],
dtype='object')
```

### Columns We DID Use (Directly or Indirectly)
*   **`original_paper_doi`**:
    *   **Usage:** Fundamental. It's our "master key," the shopping list of DOIs we use to query the OpenAlex API and enrich the data.
*   **`title`, `subject`, `institution`, `journal`, `publisher`, `country`, `author`, `article_type`, `original_paper_date (year)`**:
    *   **Usage:** Inspiration and Validation. We don't use their data directly for the model (because we prefer the clean data from the API), but they were crucial for:
        1.  **Formulating hypotheses:** Analyzing these columns helped us decide which features were important (publisher, country, etc.).
        2.  **Validating the extraction:** We compared the data from these columns with what we get from the API to ensure our extractor works correctly.
*   **`paywalled`**:
    *   **Usage:** Inspiration. It led us to create the `is_open_access` feature from the API, which is a more reliable and standardized version.

### Columns We WILL Add to the Final Dataset
*   **`retraction_nature`**:
    *   **Usage:** Target Definition. We use it to filter and keep only the cases that are "Retraction" or "Expression of concern," thus defining what a "bad" event we want to predict is.
*   **`reason`**:
    *   **Usage:** The Crown Jewel. Although not a direct predictive feature, it is crucial for post-model analysis. Once the model identifies a paper as "high risk," we can look at this column in our training data to understand why similar articles were retracted (e.g., "Fake Peer Review," "Paper Mill"). It inspires feature engineering and enriches the project's narrative.

### Columns We DID NOT Use (and why)
*   **`record_id`**:
    *   **Reason:** It's an internal identifier for Retraction Watch. It has no predictive value and is not a useful key for joining with other databases.
*   **`urls`**:
    *   **Reason:** Too heterogeneous and unstructured. The DOI URL already gives us the canonical link to the article.
*   **`retraction_date`**:
    *   **Reason:** Data Leakage. This is the date the event occurred. We cannot use information from the future to predict the past. Our model must predict the risk of retraction at the time of publication, when this date does not yet exist.
*   **`retraction_doi`, `retraction_pub_med_id`**:
    *   **Reason:** They are the identifiers of the retraction notice, not the original paper. They are not relevant for analyzing the characteristics of the article itself.
*   **`original_paper_pub_med_id`**:
    *   **Reason:** Redundant. The `original_paper_doi` is the universal identifier we have chosen as our primary key.
*   **`notes`**:
    *   **Reason:** Unstructured free text. It contains valuable information for manual investigation but is very difficult to process into a quantitative feature useful for the model. We discarded it for pragmatic reasons.

</details>

<details>
<summary><strong>📘 Diccionario completo de features (Español)</strong></summary>

<br>

#### Grupo 1: Características Bibliográficas (El "Qué" y "Cuándo")
1. doi:
- Significado: El identificador único del artículo.
- Importancia: No es una feature para el modelo, sino la llave primaria para unir todos nuestros datos.
2. publication_year:
- Significado: Año en que se publicó el artículo.
- Importancia: Aporta contexto temporal. Las prácticas de publicación y retractación cambian con el tiempo.
- Hipótesis: La tasa de retractaciones puede haber aumentado en los últimos años debido a mejores herramientas de detección o a la presión por publicar.
3. article_type:
- Significado: El tipo de publicación (ej: 'article', 'conference', 'review').
- Importancia: Esencial para comparar "manzanas con manzanas". Los estándares de rigor son diferentes para cada tipo.
4. is_open_access:
- Significado: Booleano (1/0) que indica si el artículo es de acceso abierto.
- Importancia: Representa el modelo de negocio de la revista.
- Hipótesis: Las revistas depredadoras a menudo usan un modelo "paga por publicar" de acceso abierto, lo que podría correlacionarse con una mayor tasa de retractación. Es decir, ¿existe una correlación entre el modelo de acceso (y su posible falta de rigor en algunos casos) y las retractaciones?
### Grupo 2: Características de Autoría (El "Quién")
1. author_count:
- Significado: Número total de autores.
- Importancia: Mide el tamaño del equipo de investigación.
- Hipótesis: Números anómalos (muy altos o muy bajos) podrían ser una señal de "paper mills" o autorías fraudulentas.
2. institution_count:
- Significado: Número de instituciones de investigación únicas involucradas.
- Importancia: Mide la diversidad de la colaboración.
3. country_count:
- Significado: Número de países únicos involucrados.
- Importancia: Similar al anterior, pero a nivel geopolítico.
4. first_author_country:
- Significado: El país del primer autor.
- Importancia: Fuerte señal contextual, ya que el primer autor suele liderar la investigación.
- Hipótesis: Ciertas políticas científicas nacionales podrían correlacionarse con mayores tasas de retractación.
5. is_international_collaboration:
- Significado: Booleano (1/0) si hay más de un país involucrado.
- Importancia: Feature simple y potente que resume la colaboración internacional.
### Grupo 3: Características del Lugar de Publicación (El "Dónde")
1. journal_name:
. Significado: Nombre de la revista o conferencia.
- Importancia: Útil para el análisis exploratorio y para entender los resultados del modelo.
2. publisher:
- Significado: La editorial que publica la revista (ej: 'Elsevier', 'Hindawi').
- Importancia: Feature potentísima. Como vimos, unas pocas editoriales concentran un gran número de retractaciones.
- Hipótesis: El modelo de negocio y los estándares de revisión de ciertas editoriales son un predictor clave del riesgo de retractación.
3. is_publisher_missing:
- Significado: Un flag booleano (1/0) que es 1 (Verdadero) si no se pudo identificar un editor para el artículo, y 0 (Falso) si sí se encontró.
- Importancia: Actúa como un proxy de la "legitimidad" de la fuente. Las publicaciones serias y bien indexadas casi siempre tienen un editor claro. Su ausencia es una señal de alerta.
- Hipótesis: La falta de un editor identificable (un valor de 1) se correlaciona con un mayor riesgo de retractación, ya que puede indicar que el artículo proviene de una fuente poco establecida, una conferencia dudosa o una revista depredadora.
3. source_id:
- Significado: El ID único de OpenAlex para la revista/fuente.
- Importancia: No es para el modelo actual, pero es una inversión de futuro. La guardamos para poder enriquecer el dataset más adelante si encontramos una fuente fiable de métricas de revistas.
### Grupo 4: Características de Contenido (El "Cómo" - NLP)
1. title y abstract:
- Significado: El texto del título y del resumen (limpio de avisos de retractación).
- Importancia: Son la materia prima para crear features de NLP más complejas (como embeddings).
2. is_abstract_missing:
- Significado: Un flag booleano (1/0) que es 1 (Verdadero) si el artículo no tiene un resumen (abstract) real y limpio, y 0 (Falso) si lo tiene.
- Importancia: Mide la "completitud" del registro del artículo. Un trabajo de investigación serio casi siempre incluye un abstract.
- Hipótesis: La ausencia de un abstract es una característica anómala y podría estar asociada con trabajos de menor calidad, resúmenes de conferencias, o artículos fraudulentos que evitan dar un resumen claro de sus métodos y resultados.
3. title_length y abstract_length:
- Significado: El número de caracteres en el título y en el abstract real.
- Importancia: Medidas simples de la estructura del texto.
- Hipótesis: Trabajos fraudulentos o de baja calidad podrían tener abstracts o títulos anormalmente cortos o largos.
4. n_concepts:
- Significado: Número de temas o conceptos que OpenAlex asocia al artículo.
- Importancia: Mide la amplitud temática.
- Hipótesis: "Topic stuffing". Un artículo que dice tratar sobre demasiadas cosas podría ser una señal de falta de enfoque o de intento de engaño.
5. top_concept_level:
- Significado: El nivel de especificidad del concepto principal (0=muy general, 5=muy específico).
- Importancia: Mide la profundidad del tema.
- Hipótesis: Podría ser más fácil publicar trabajos fraudulentos sobre temas muy generales y vagos (nivel bajo) que sobre temas muy específicos y técnicos (nivel alto).
### Grupo 5: Características de Impacto (El "Y Qué")
1. n_references:
- Significado: El número de artículos que este trabajo cita en su bibliografía.
- Importancia: Proxy del trabajo de investigación de fondo.
- Hipótesis: Números anómalos (muy pocos o muchísimos) podrían ser una señal de un trabajo descuidado o fraudulento.
2. citations_in_first_2_years:
- Significado: Un número entero que representa el total de citas que un artículo recibió durante sus primeros dos años de vida (el año de publicación y el siguiente).
- Importancia: Es una medida de impacto temprano que está controlada temporalmente, lo que evita la fuga de datos (data leakage) al no contar citas que ocurrieron después de que un artículo fuera retractado. Es metodológicamente mucho más robusta que el conteo total de citas.
- Hipótesis: Los artículos de alta calidad (y bajo riesgo) tienden a acumular citas de forma saludable y constante desde el principio. Los artículos problemáticos podrían mostrar patrones de citación anómalos: o bien un impacto nulo (nadie los cita) o, en casos de fraude organizado, un pico de auto-citaciones sospechoso en la fase inicial.

### Features que todavía no tenemos
1. journal_h_index:
- Significado: Métrica que combina la productividad y el impacto de una revista. Un número alto indica mayor prestigio.
- Importancia (Teórica): Era nuestra mejor feature para medir numéricamente el "rigor" de una revista.
- Hipótesis (Fuerte pero no verificada): Un H-Index bajo se correlaciona fuertemente con un mayor riesgo de retractación.
- Estado Actual: Descartada por ahora debido a la dificultad de obtenerla de forma fiable y escalable, pero la conservamos en nuestro "radar" gracias a que guardamos el source_id.
2. avg_author_works_count:
- Significado: La media del número total de publicaciones de cada autor del artículo. Medía la "experiencia" o "productividad" promedio del equipo.
- Importancia (Teórica): Era un proxy numérico del historial y la reputación del equipo de autores.
- Hipótesis: Los artículos retractados podrían ser escritos por equipos con una media de publicaciones previas significativamente menor (autores novatos o fraudulentos).
- Razón del Descarte: Inviabilidad Computacional. La API de OpenAlex no proporciona el works_count del autor en la consulta del artículo. Obtenerlo requeriría una llamada extra a la API por cada autor de cada artículo (~250,000+ llamadas adicionales), lo cual es demasiado costoso y lento para el valor que aporta.

### Features que inicilamente ibamos a usar pero han acabado descartadas
1. is_abstract_retraction_notice:
- Significado: Booleano (1/0) que indica si el campo del abstract contenía un aviso de retractación.
- Importancia: Es una feature meta sobre la calidad del dato.
- Hipótesis: El hecho de que el editor reemplace el abstract es una señal fuerte, aunque ocurre después de la retractación (por eso la descartamos). Para el modelo, podría capturar patrones sutiles sobre cómo diferentes editoriales manejan las retractaciones.

Las siguientes dos, se reemplazaron por citatioins_in_first_2_years para evitar fuga de datos

2. citation_count_total:
- Significado: El número total de veces que el artículo ha sido citado.
- Importancia: Medida clásica de impacto.
3. citations_per_year:
- Significado: Citas totales divididas por la "edad" del artículo.
- Importancia: Una medida de impacto normalizada y mucho más justa. Mide la "velocidad" a la que un artículo acumula citas.
- Hipótesis: Los artículos fraudulentos podrían tener un pico inicial de citas que luego decae rápidamente, o simplemente una velocidad de citación muy baja.

---

### Del df_retraction después de limpiarlo, tenemos estas 21 columnas y 56046 filas:

Index(['record_id', 'title', 'subject', 'institution', 'journal', 'publisher',
'country', 'author', 'urls', 'article_type', 'retraction_date',
'retraction_doi', 'retraction_pub_med_id', 'original_paper_date',
'original_paper_doi', 'original_paper_pub_med_id', 'retraction_nature',
'reason', 'paywalled', 'notes', 'year'],
dtype='object')

### Columnas que SÍ usamos (Directa o Indirectamente)
- original_paper_doi:
    - Uso: Fundamental. Es nuestra "llave maestra", la lista de la compra de DOIs que usamos para consultar la API de OpenAlex y enriquecer los datos.
- title, subject, institution, journal, publisher, country, author, article_type, original_paper_date (year):
    - Uso: Inspiración y Validación. No usamos sus datos directamente para el modelo (porque preferimos los datos limpios de la API), pero han sido cruciales para:
        1. Formular hipótesis: Analizar estas columnas nos ayudó a decidir qué features eran importantes (publisher, country, etc.).
        2. Validar la extracción: Comparamos los datos de estas columnas con los que obtenemos de la API para asegurarnos de que nuestro extractor funciona correctamente.
- paywalled:
    - Uso: Inspiración. Nos llevó a crear la feature is_open_access a partir de la API, que es una versión más fiable y estandarizada.
### Columnas que SÍ añadiremos al Dataset Final
- retraction_nature:
    - Uso: Definición del Target. La usamos para filtrar y quedarnos solo con los casos que son "Retraction" o "Expression of concern", definiendo así qué es un evento "malo" que queremos predecir.
- reason:
    - Uso: La Joya de la Corona. Aunque no es una feature predictiva directa, es crucial para el análisis post-modelo. Una vez que el modelo identifica un paper como de "alto riesgo", podemos mirar esta columna en nuestros datos de entrenamiento para entender por qué artículos similares fueron retractados (ej. "Fake Peer Review", "Paper Mill"). Inspira la ingeniería de features y enriquece la narrativa del proyecto.
### Columnas que NO usamos (y por qué)
- record_id:
    - Motivo: Es un identificador interno de Retraction Watch. No tiene valor predictivo ni es una clave útil para unir con otras bases de datos.
- urls:
    - Motivo: Demasiado heterogéneo y poco estructurado. La URL del DOI ya nos da el enlace canónico al artículo.
- retraction_date:
    - Motivo: Fuga de Datos (Data Leakage). Esta es la fecha en que el evento ocurrió. No podemos usar información del futuro para predecir el pasado. Nuestro modelo debe predecir el riesgo de retractación en el momento de la publicación, cuando esta fecha aún no existe.
- retraction_doi, retraction_pub_med_id:
    - Motivo: Son los identificadores del aviso de retractación, no del paper original. No son relevantes para analizar las características del artículo en sí.
- original_paper_pub_med_id:
    - Motivo: Redundante. El original_paper_doi es el identificador universal que hemos elegido como nuestra clave principal.
- notes:
    - Motivo: Texto libre no estructurado. Contiene información valiosa para una investigación manual, pero es muy difícil de procesar para convertirlo en una feature cuantitativa útil para el modelo. Lo descartamos por pragmatismo.

</details>