# 1. Introducción a los datos

José Luis Aguilera Luzania

## Contenido
**1.1 introducción**

- ¿Qué es la detección de noticias falsas? (*Fake news*)
- Objetivo de la libreta

**1.2 Información de los datos**

- Información general
- ¿Cómo se etiquetaron los datos?
- Temas de las noticias
- Estructura de los datos

**1.3 Análisis de los datos**

- Librerías
- Conjuntos de datos
- Información del conjunto de datos.
- ¿Cuáles son las fuentes?

## 1.1 Introducción

**¿Qué es la detección de noticias falsas? (*Fake News*)**
La detección de noticias falsas (Fake News) es la tarea de evaluar la veracidad de las afirmaciones en las noticias. Este es un problema crítico en el Procesamiento del Lenguaje Natural (PLN) porque tanto en medios de noticias tradicionales como en medios digitales las Fake News generan un gran impacto social y político en cada individuo. Por ejemplo, la exposición a las Fake News puede generar actitudes de ineficacia, alienación y cinismo hacia ciertos candidatos políticos (Balmas, 2014).

**Objetivo de la libreta**
El objetivo de esta libreta es proporcionar un análisis de los datos, su estructura e información básica.

## 1.2 Información de los datos

**Información general**
- Se obtuvieron del repositorio de Github "FakeNewsCorpusSpanish" de J.P.Posadas. ([jpposadas](https://github.com/jpposadas/FakeNewsCorpusSpanish))
- Las noticias fueron recolectadas de enero a julio del 2018.
- Todas las noticias están escritas en el idioma español.
- El *corpus* contiene 971 noticias divididas en:
    - 491 noticias reales.
    - 480 noticias falsas.

**¿Cómo se etiquetaron los datos?**
El proceso de etiquetación de las noticias fue manual y se tomaron en cuenta los siguientes aspectos:

1. Una noticia es etiquetada como verdadera si hay evidencia de que fue publicada en sitios de confianza, periódicos establecidos o en páginas de periodistas renombrados.
2. Una noticia es etiquetada como falsa si había noticias publicadas en sitios confiables o especializados en detección de contenido engañoso como VerificadoMX que contradicen la información o si no se encontró otra evidencia sobre la noticia.
3. La correlación entre las noticias se mantuvo, recolectando un par Verdadera-Falsa de cada evento.
4. Se buscó incluir la fuente original de cada noticia.

**Temas de las noticias**
El *corpus* cubre noticias de 9 temas diferentes.

1. Ciencia.
2. Deportes.
3. Economía.
4. Entretenimiento.
5. Educación.
6. Política.
7. Salud.
8. Seguridad.
9. Sociedad

**Estructura de los datos**
- Id: Identificador de cada instancia.
- Category: Categoría de la noticia (True o False).
- Topic: Tema relacionado con la noticia.
- Source: Nombre de la fuente.
- Headline: Titulo de la noticia.
- Text: Texto de la noticia	.
- Link: URL de la fuente.


## 1.3 Análisis de los datos

**Librerías**
Manipulación de datos:
- `pandas`: Librería para manipular los datos de forma tabular.
- `cmd`: Librería para controlar el formato de impresión en la consola.
- `unicode`: Librería para eliminar acentos de las palabras.
- `re`: Librería para utilizar expresiones regulares.

In [1]:
import pandas as pd
import cmd
import unidecode
import re

**Conjunto de datos**
Los datos están divididos en dos conjuntos de datos en los archivos `train.xlsx` y `development.xlsx`, con 80% para entrenamiento y 20% para pruebas respectivamente.

Para realizar un primer acercamiento al análisis de los datos, los conjuntos se combinarán un solo.

In [2]:
df_entrenamiento = pd.read_excel('Datos/train.xlsx')
df_pruebas = pd.read_excel('Datos/development.xlsx')

df_datos = pd.concat([df_entrenamiento, df_pruebas])
df_datos.head()

Unnamed: 0,Id,Category,Topic,Source,Headline,Text,Link
0,1,Fake,Education,El Ruinaversal,"RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...","RAE INCLUIRÁ LA PALABRA ""LADY"" EN EL DICCIONAR...",http://www.elruinaversal.com/2017/06/10/rae-in...
1,2,Fake,Education,Hay noticia,"La palabra ""haiga"", aceptada por la RAE","La palabra ""haiga"", aceptada por la RAE La Rea...",https://haynoticia.es/la-palabra-haiga-aceptad...
2,3,Fake,Education,El Ruinaversal,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,YORDI ROSADO ESCRIBIRÁ Y DISEÑARÁ LOS NUEVOS L...,http://www.elruinaversal.com/2018/05/06/yordi-...
3,4,True,Education,EL UNIVERSAL,UNAM capacitará a maestros para aprobar prueba...,UNAM capacitará a maestros para aprobar prueba...,http://www.eluniversal.com.mx/articulo/nacion/...
4,5,Fake,Education,Lamula,pretenden aprobar libros escolares con conteni...,Alerta: pretenden aprobar libros escolares con...,https://redaccion.lamula.pe/2018/06/19/memoria...


In [3]:
print(f'Noticias, Columnas: {df_datos.shape}')
print(f'Columnas: {list(df_datos.columns)}')
print('Noticias verdaderas: {}'.format(df_datos.groupby('Category').size()[0]))
print('Noticias falsas: {}'    .format(df_datos.groupby('Category').size()[1]))

Noticias, Columnas: (971, 7)
Columnas: ['Id', 'Category', 'Topic', 'Source', 'Headline', 'Text', 'Link']
Noticias verdaderas: 480
Noticias falsas: 491


**¿Cuáles son las fuentes?**

Los datos no siempre se encuentran limpios y ordenados, a veces es necesario procesar los datos antes de poder aplicar un método que solucione el problema, el obtener una lista de todas las fuentes parece ser una tarea sencilla, sin embargo, no lo es.

Para intentar obtener las fuentes se realizan estos pasos:
1. Obtener todos los valores de la columna *Source*.
2. Eliminar todas las fuentes repetidas.
3. Imprimir las primeras 15 fuentes.

In [4]:
# Paso 1.
fuentes_ls = df_datos['Source'].to_list()

# Paso 2.
fuentes_ls = list(sorted(set(fuentes_ls)))
print(f'Número de fuentes: {len(fuentes_ls)}')

# Paso 3.
cli = cmd.Cmd()
cli.columnize(fuentes_ls[:15], displaywidth=130)

Número de fuentes: 167
20 Minutos     ABC Noticias       ARGUMENTO POLÍTICO  Animal Politico   Argumento Político
ABC            ABC sociedad       Actualidad RT       Animal Político   Aristegui Noticias
ABC EL RECREO  ANONYMOUS  AZTECA  Alerta digital      Animal político   Aristegui noticias


**Eliminar fuentes repetidas**

Se puede observar que existen fuentes repetidas en la lista como 'Animal Político' o 'Aristegui Noticias' porque no se escribieron de la misma manera, sin embargo, son la misma fuente de información. Para resolver este problema es necesario crear una función que procese el texto de las fuentes.

La función que nos permite procesar el texto sigue estas reglas:
1. Convierte todo el texto en minúsculas.
2. Elimina los acentos de las palabras.
3. Elimina todos los símbolos que no son letras, para obtener solo las palabras del texto.

In [5]:
def procesar_fuentes(texto):
    """
    Input:
        texto: una cadena de texto.

    Output:
        texto: una cadena de texto formada solo por las palabras del texto original, sin acentos, caracteres especiales o espacios extra.
    """
    # 1. Convertir el texto en minúsculas.
    texto = texto.lower()

    # 2. Eliminar acentos.
    texto = unidecode.unidecode(texto)

    # 3. Eliminar todo lo que no sea una palabra.
    texto = re.findall(r'\w+', texto)
    texto = ' '.join(texto)

    return texto

**Procesar todas las fuentes**

Con la función `procesar_fuentes` y utilizando el método `apply()` de la estructura `DataFrame`, se aplica la función a cada uno de las fuentes del conjunto de datos, después se obtiene la lista de las fuentes como se hizo anteriormente pero ahora se imprimirán  todas las fuentes.

Para obtener la lista de fuentes real se realizan los siguientes pasos:
1. Aplicar la función `procesar_fuentes`.
2. Obtener todos los valores de la columna *Source*.
3. Eliminar todas las fuentes repetidas.
4. Imprimir las primeras 15 fuentes.

In [6]:
# Paso 1.
fuentes_procesadas = df_datos['Source'].apply(procesar_fuentes)

# Paso 2.
fuentes_procesadas_ls = fuentes_procesadas.to_list()

# Paso 3.
fuentes_procesadas_ls = list(sorted(set(fuentes_procesadas_ls)))
print(f'Número de fuentes: {len(fuentes_procesadas_ls)}')

# Paso 4.
cli.columnize(fuentes_procesadas_ls, displaywidth=130)

Número de fuentes: 147
20 minutos                 dos mundos                 facebook el senor lopez  la verdad es           razon                  
abc                        eco portal                 facebook unico noticias  la voz popular         record                 
abc el recreo              eje central                fifa                     lamula                 resumen latinoamericano
abc noticias               el buen tono               fisgon politico          lo que calla la tv     retroceso              
abc sociedad               el clarin                  forbes                   los replicantes        rey misterios          
actualidad rt              el coleccionista de datos  frentes politicos        marca                  sabor a merengue       
alerta digital             el dizque                  grandes medios           medio tiempo           sdp noticias           
animal politico            el economista              grupo formula            mediterraneo dig

**La importancia de limpiar los datos**

La primera vez se obtuvieron 167 fuentes en total, después de ser procesadas se obtuvieron 147 fuentes. Esto quiere decir que 20 fuentes se encontraban repetidas, esto puede afectar el análisis de los datos incluyendo 20 fuentes que se tomarían como fuentes distintas.

En las siguientes libretas se aborda el tema de la limpieza, análisis y transformación de los datos.