## Introducción a la MasterClass de Python

¡Bienvenidos! En esta MasterClass exploraremos cómo Python puede ser una herramienta poderosa y versátil para realizar consultas y análisis sobre un dataset de testimonios en el marco de la **Unidad de Búsqueda de Personas Dadas por Desaparecidas (UBPD)**. La idea central de esta sesión es comprender cómo aprovechar el potencial de Python para extraer información clave, procesar datos textuales y generar resultados útiles en el contexto de investigaciones complejas.

Los testimonios que analizaremos están estructurados en un **dataset de relatos sintéticos**, que simula los tipos de datos y narrativas que podrían encontrarse en un entorno real de trabajo en la UBPD. A lo largo de esta MasterClass, trabajaremos en los siguientes aspectos:

- **Comprensión y exploración del dataset**: Veremos cómo iniciar una exploración detallada del dataset, obteniendo una visión general de los datos y preparando el contenido para consultas más avanzadas.
- **Consultas y filtrado de información**: Python nos permitirá realizar búsquedas específicas en los testimonios, identificando rápidamente aquellos relatos que contienen palabras clave de interés o que responden a ciertas categorías.
- **Extracción de patrones y visualización**: Exploraremos cómo analizar patrones en el texto y visualizar los resultados para obtener una interpretación más profunda de los datos.
- **Reconocimiento de entidades**: En una sección avanzada, implementaremos un modelo de Reconocimiento de Entidades Nombradas (NER), que puede ayudarnos a identificar personas, lugares y eventos mencionados en los testimonios.

Python será nuestro aliado para demostrar cómo un análisis bien estructurado puede generar **insights valiosos**, ofreciendo una base sólida para la toma de decisiones informada en contextos sensibles y críticos como el de la UBPD.

**Objetivo**: Explorar el uso de Python para realizar consultas y análisis en un dataset de testimonios en el contexto de la UBPD.

**Dataset**: El dataset de relatos sintéticos se encuentra en el archivo `dataset-testimonios-sinteticos.csv`.

In [None]:
# Importamos las librerías necesarias
import pandas as pd

# Cargamos el dataset
data = pd.read_csv('../datos/dataset_testimonios_sinteticos.csv')

# Exploramos las primeras filas del dataset
data.head()


### Observaciones Iniciales sobre los Datos

1. **Columnas Presentes**: El dataset contiene 6 columnas:
   - `id`: Identificador único.
   - `nombre`: Nombre del testigo.
   - `cedula`: Número de cédula del testigo.
   - `ciudad`: Ciudad de residencia o donde ocurrió el evento.
   - `categoria`: Clasificación del tipo de testimonio (por ejemplo, "Desaparición forzada", "Minas antipersona").
   - `testimonio`: Texto del relato del testigo.

2. **Tipos de Datos**:
   - Dos columnas (`id` y `cedula`) son de tipo `int64`, mientras que las demás son de tipo `object` (texto).
   - La columna `cedula` podría contener valores que se consideran identificadores, pero analizar su validez puede ser relevante para asegurarse de que no existan datos duplicados.

3. **Valores Faltantes**:
   - No se encontraron valores faltantes en ninguna columna, lo cual facilita el análisis inicial, pero es importante verificar posibles inconsistencias en los datos.

4. **Distribución de Datos Numéricos**:
   - La columna `cedula` tiene un amplio rango de valores, lo que sugiere que corresponde a una serie de números de identificación únicos.
   - No hay estadísticas descriptivas relevantes para las columnas de tipo `object` en esta exploración inicial, pero esto se puede complementar con otras herramientas.

---


## Descripción del dataset

La descripción general del datset se puede hacer de la siguiente forma:


In [None]:
# Descripción general de los datos
data.info()

In [None]:
# Resumen estadístico (si es relevante para algunas columnas numéricas)
data.describe()

In [None]:
# Visualizamos valores nulos
data.isnull().sum()

### Preguntas para Guiar el Análisis y Uso de Herramientas de Pandas

1. **¿Cuántas categorías únicas existen en el campo `categoria` y cuáles son las más frecuentes?**
   - Esto invita a usar `value_counts` para comprender mejor la distribución de los tipos de testimonios.

In [None]:
# Pregunta 1: ¿Cuántas categorías únicas existen en el campo `categoria` y cuáles son las más frecuentes?
categoria_counts = data['categoria'].value_counts()
print("Distribución de las categorías:")
print(categoria_counts)

2. **¿Existen ciudades que aparezcan con mayor frecuencia y cuál es su distribución?**
   - Usar `groupby` y `value_counts` para analizar la concentración de testimonios en ciertas ciudades puede ayudar a entender patrones geográficos.

In [None]:
# Pregunta 2: ¿Existen ciudades que aparezcan con mayor frecuencia y cuál es su distribución?
ciudad_counts = data['ciudad'].value_counts()
print("\nDistribución de testimonios por ciudad:")
print(ciudad_counts)

3. **¿Es posible que algunos valores de `cedula` estén duplicados o presenten inconsistencias?**
   - Aplicar `duplicated` en la columna `cedula` ayuda a identificar posibles entradas duplicadas.

In [None]:
# Pregunta 3: ¿Es posible que algunos valores de `cedula` estén duplicados o presenten inconsistencias?
cedula_duplicates = data['cedula'].duplicated().sum()
print("\nNúmero de cédulas duplicadas:", cedula_duplicates)

4. **¿Cuáles son las palabras más comunes en los testimonios?**
   - Utilizar `apply` en combinación con una función personalizada para tokenizar y contar palabras comunes en los textos podría ser un análisis interesante.

In [None]:
## Una función en python ¿Qué hacen?
## Las funciones en Python son bloques de código que se pueden reutilizar en diferentes partes de un programa.

## Ejemplo

def texto_en_mayusculas(texto):
    return texto.upper()

texto = "Hola Mundo!"

texto_en_mayusculas(texto)

In [None]:
### Aplicar la función a una columna de un DataFrame

data['categoria_mayusculas'] = data['categoria'].apply(texto_en_mayusculas)

In [None]:
### También hay funciones de paquetes, por ejemplo Counter
### O metodos de las clases, por ejemplo split

from collections import Counter

texto_ejemplo = """En el monte de la china, una china se perdió y como yo era un perdido nos encontramos los dos"""

palabras = texto_ejemplo.split()

contador_palabras = Counter(palabras)

print(contador_palabras)

In [None]:
from collections import Counter
# Pregunta 4: ¿Cuáles son las palabras más comunes en los testimonios?
# Concatenamos todos los testimonios en una sola cadena de texto
all_text = ' '.join(data['testimonio'].dropna().values)
# Tokenizamos y contamos la frecuencia de cada palabra
word_counts = Counter(all_text.lower().split())
most_common_words = word_counts.most_common(10)
print("\nPalabras más comunes en los testimonios:")
for word, freq in most_common_words:
    print(f"{word}: {freq}")

5. **¿Existen testimonios de longitud considerablemente mayor o menor que otros?**
   - Esto sugiere usar `apply(len)` en la columna `testimonio` y visualizar la longitud promedio y su dispersión, ayudando a identificar testimonios que podrían requerir una revisión adicional.

In [None]:
data['testimonio_length'] = data['testimonio'].apply(len)
testimonio_length_stats = data['testimonio_length'].describe()
print("\nEstadísticas de longitud de los testimonios:")
print(testimonio_length_stats)

### Preguntas rápidas que se solucionan con pandas

*¿Búsqueda de cédulas específicas en el dataset usando pandas?*


In [None]:
# Definimos la cédula que queremos buscar
cedula_buscada = 2615872530

# Filtramos el dataset para encontrar la fila correspondiente
resultado_cedula = data[data['cedula'] == cedula_buscada]
resultado_cedula


*¿Cómo filtrar testimonios por una categoría específica, como "Desaparición forzada"?*

In [None]:
# Definimos la categoría que queremos buscar
categoria_buscada = "Desaparición forzada"

# Filtramos el dataset para mostrar solo los testimonios en esa categoría
resultado_categoria = data[data['categoria'] == categoria_buscada]
resultado_categoria[['nombre', 'ciudad', 'testimonio']].head()

*¿Búsqueda de todos los testimonios relacionados con una palabra clave, como "violencia"?*

In [None]:
# Definimos la palabra clave a buscar
palabra_clave = "violencia"

# Filtramos el dataset para buscar la palabra en la columna de testimonios
resultado_palabra = data[data['testimonio'].str.contains(palabra_clave, case=False, na=False)]
resultado_palabra[['nombre', 'categoria', 'testimonio']].head()


*¿Cuántos testimonios corresponden a cada ciudad?*

In [None]:
# Contamos la cantidad de testimonios por ciudad
testimonios_por_ciudad = data['ciudad'].value_counts()
testimonios_por_ciudad

*¿Cuáles son las categorías más frecuentes y cuántos testimonios tiene cada una?*

In [None]:
# Contamos la cantidad de testimonios en cada categoría
testimonios_por_categoria = data['categoria'].value_counts()
testimonios_por_categoria

*¿Cómo buscar todos los testimonios de una ciudad específica, como "Bogotá"?*

In [None]:
# Definimos la ciudad que queremos buscar
ciudad_buscada = "Bogotá"

# Filtramos el dataset para mostrar los testimonios de esa ciudad
resultado_ciudad = data[data['ciudad'] == ciudad_buscada]
resultado_ciudad[['nombre', 'categoria', 'testimonio']].head()

*¿Cómo encontrar los nombres de los testigos que aparecen más de una vez en el dataset?*

In [None]:
# Contamos las ocurrencias de cada nombre y mostramos los que aparecen más de una vez
testigos_duplicados = data['nombre'].value_counts()
testigos_duplicados[testigos_duplicados > 1]

## Tratamiento de Datos Textuales

El tratamiento de datos textuales es un aspecto clave en el análisis de testimonios, ya que permite extraer información relevante y descubrir patrones ocultos en el texto. Algunas técnicas comunes para el procesamiento de datos textuales incluyen:

- **Convertir a minúsculas**: Para asegurar la consistencia en el análisis y evitar problemas de distinción entre mayúsculas y minúsculas.
- **Eliminar caracteres especiales**: Para limpiar el texto y facilitar la tokenización.
- **Remover números**: Si los números no son relevantes para el análisis, es común eliminarlos para centrarse en el contenido textual.
- **Tokenización**: Dividir el texto en palabras o tokens
- **Filtrado de stopwords**: Eliminar palabras comunes que no aportan información relevante al análisis.
- **Stemming o lematización**: Reducir las palabras a su raíz o forma base para simplificar el análisis y mejorar la precisión.

*¿Cómo convertir el texto a minúsculas para una mayor consistencia?*

In [None]:
# Convertimos todos los textos de la columna 'testimonio' a minúsculas
data['testimonio_limpio'] = data['testimonio'].str.lower()
data[['testimonio', 'testimonio_limpio']].head()

*¿Cómo eliminar caracteres especiales y puntuación en los testimonios?*


In [None]:
import re

# Eliminamos caracteres especiales, dejando solo letras y espacios
data['testimonio_limpio'] = data['testimonio_limpio'].apply(lambda x: re.sub(r'\W+', ' ', str(x)))
data[['testimonio', 'testimonio_limpio']].head()

*¿Cómo remover números que no aportan valor semántico en el texto?*

In [None]:
# Eliminamos números de los testimonios
data['testimonio_limpio'] = data['testimonio_limpio'].apply(lambda x: re.sub(r'\d+', '', x))
data[['testimonio', 'testimonio_limpio']].head()

*¿Cómo eliminar espacios extras que puedan haber quedado tras la limpieza?*

In [None]:
# Eliminamos espacios en exceso al inicio, final y entre palabras
data['testimonio_limpio'] = data['testimonio_limpio'].str.strip()
data['testimonio_limpio'] = data['testimonio_limpio'].replace(r'\s+', ' ', regex=True)
data[['testimonio', 'testimonio_limpio']].head()

*¿Cómo remover stopwords en español (palabras comunes sin relevancia)?*

In [None]:
import nltk
from nltk.corpus import stopwords

# Aseguramos la descarga de las stopwords en español
nltk.download('stopwords')
stop_words = set(stopwords.words('spanish'))

# Eliminamos las stopwords
data['testimonio_limpio'] = data['testimonio_limpio'].apply(lambda x: ' '.join([word for word in x.split() if word not in stop_words]))
data[['testimonio', 'testimonio_limpio']].head()

*¿Cómo aplicar stemming para reducir las palabras a sus raíces?*

In [None]:
from nltk.stem import SnowballStemmer

# Inicializamos el stemmer en español
stemmer = SnowballStemmer('spanish')

# Aplicamos stemming a cada palabra del texto
data['testimonio_limpio'] = data['testimonio_limpio'].apply(lambda x: ' '.join([stemmer.stem(word) for word in x.split()]))
data[['testimonio', 'testimonio_limpio']].head()

*¿Cómo combinar todos los pasos anteriores en una sola función de limpieza?*

In [None]:
# Definimos una función completa para limpiar el texto
def limpiar_texto(texto):
    texto = texto.lower()  # Convertir a minúsculas
    texto = re.sub(r'\W+', ' ', texto)  # Eliminar caracteres especiales
    texto = re.sub(r'\d+', '', texto)  # Eliminar números
    texto = texto.strip()  # Eliminar espacios al inicio y final
    texto = ' '.join([word for word in texto.split() if word not in stop_words])  # Eliminar stopwords
    texto = ' '.join([stemmer.stem(word) for word in texto.split()])  # Aplicar stemming
    return texto

# Aplicamos la función a la columna 'testimonio'
data['testimonio_limpio'] = data['testimonio'].apply(limpiar_texto)
data[['testimonio', 'testimonio_limpio']].head()