# Procesamiento de Lenguaje Natural para Ciencias Sociales
## Sesión 1: Introducción a Python para NLP

**Fecha:** 5 de mayo de 2025  
**Instructor:** Daniel Otero


¡Bienvenidos al curso de "Procesamiento de Lenguaje Natural para Ciencias Sociales"! Durante las próximas 5 semanas, aprenderemos cómo utilizar técnicas computacionales para analizar textos y descubrir patrones, sentimientos, temas y otras estructuras lingüísticas relevantes para la investigación social.

**Objetivos del curso:**
- Aprender los fundamentos de Python necesarios para análisis textual
- Comprender la evolución y el estado actual del NLP
- Aplicar técnicas modernas de NLP a problemas de ciencias sociales
- Desarrollar un proyecto de investigación utilizando las herramientas aprendidas

**Estructura del curso:**
- Sesiones teórico-prácticas (lunes y miércoles)
- Ejercicios semanales
- Proyecto final

## 1. Introducción a Python

Python se ha convertido en el lenguaje de programación dominante para análisis de datos y NLP debido a su sintaxis clara, facilidad de aprendizaje y amplio ecosistema de bibliotecas. Google Colab nos permite trabajar con Python sin necesidad de instalaciones complicadas.

### 1.1 ¿Qué es Python?

Python es un lenguaje de programación interpretado, de alto nivel y propósito general. Sus características incluyen:

- Sintaxis legible y expresiva
- Tipado dinámico (no necesitas declarar tipos de variables)
- Orientado a objetos
- Gran comunidad y abundantes recursos de aprendizaje
- Amplio ecosistema de bibliotecas, especialmente para ciencia de datos y NLP

### 1.2 Primeros pasos en Python

Para ejecutar cualquier celda de código en este notebook, haz clic en la celda y presiona el botón de reproducción o usa el atajo de teclado Shift+Enter.

In [1]:
# Este es un comentario en Python
# Los comentarios son ignorados por el intérprete

# Imprimir un mensaje simple
print("¡Hola, mundo!")

¡Hola, mundo!


In [4]:
# Operaciones matemáticas básicas
print(2 + 3)  # Suma
print(5 - 2)  # Resta
print(4 * 3)  # Multiplicación
print(10 / 2)  # División
print(10 // 3)  # División entera
print(10 % 3)  # Módulo (resto de la división)
print(2 ** 3)  # Potencia

5
3
12
5.0
3
1
8


### 1.3 Variables y tipos de datos básicos

En Python, no es necesario declarar el tipo de una variable. El tipo se asigna automáticamente según el valor.


In [6]:
# Variables y tipos de datos básicos
nombre = "Ana"  # String (cadena de texto)
edad = 25  # Integer (número entero)
altura = 1.65  # Float (número decimal)
es_estudiante = True  # Boolean (valor lógico: True o False)

In [7]:
# Imprimir variables
print(nombre)
print(edad)
print(altura)
print(es_estudiante)

Ana
25
1.65
True


In [8]:
# Verificar el tipo de una variable con type()
print(type(nombre))
print(type(edad))
print(type(altura))
print(type(es_estudiante))

<class 'str'>
<class 'int'>
<class 'float'>
<class 'bool'>


#### Strings (cadenas de texto)

Los strings son uno de los tipos de datos más importantes para el NLP.

In [9]:
# Operaciones con strings
nombre = "Ana"
apellido = "García"

In [15]:
# Concatenación
nombre_completo = nombre + " " + apellido
print(nombre_completo)

Ana García


In [16]:
# Longitud de un string
print(len(nombre_completo))

10


In [20]:
# Acceso a caracteres individuales (indexación)
# En Python, los índices comienzan en 0
print(nombre_completo[0])  # Primer carácter
print(nombre_completo[2])  # Tercer carácter

A
a


In [21]:
# Slicing (extracción de subcadenas)
print(nombre_completo[0:3])  # Caracteres del 0 al 2
print(nombre_completo[4:])   # Desde el carácter 4 hasta el final
print(nombre_completo[:3])   # Desde el inicio hasta el carácter 2

Ana
García
Ana


In [23]:
#Métodos útiles para strings
print(nombre_completo.upper())  # Convertir a mayúsculas
print(nombre_completo.lower())  # Convertir a minúsculas
print(nombre_completo.split())  # Dividir por espacios en blanco

ANA GARCÍA
ana garcía
['Ana', 'García']


In [26]:
#Formatted strings (f-strings) - muy útiles para formatear texto
edad = 25
mensaje = f"{nombre} tiene {edad} años."
print(mensaje)

Ana tiene 25 años.


In [35]:
nombre="Alberto"
edad = 60
#mensaje = f"{nombre} tiene {edad} años."
print(f"{nombre} tiene {edad} años.")

Alberto tiene 60 años.


### 1.4 Estructuras de datos

Python tiene varias estructuras de datos incorporadas que serán útiles para NLP.

#### Listas

Las listas son colecciones ordenadas y modificables que permiten elementos duplicados.


In [None]:
# Creación de listas
frutas = ["manzana", "banana", "cereza"]
print(frutas)

In [None]:
# Acceso a elementos
print(frutas[0])  # Primer elemento
print(frutas[-1])  # Último elemento

In [None]:
# Modificar elementos
frutas[1] = "pera"
print(frutas)

In [None]:
# Añadir elementos
frutas.append("naranja")
print(frutas)

In [None]:
# Longitud de una lista
print(len(frutas))

In [None]:
# Eliminar elementos
frutas.remove("cereza")
print(frutas)

In [None]:
# Iterar sobre una lista
print("Lista de frutas:")
for fruta in frutas:
    print(fruta)

#### Diccionarios

Los diccionarios almacenan pares clave-valor y son muy útiles para representar datos estructurados.


In [None]:
# Creación de diccionarios
estudiante = {
    "nombre": "Ana",
    "edad": 25,
    "cursos": ["Historia", "Sociología", "Economía"]
}
print(estudiante)

{'nombre': 'Ana', 'edad': 25, 'cursos': ['Historia', 'Sociología', 'Economía']}


In [None]:
# Acceso a valores
print(estudiante["nombre"])
print(estudiante["cursos"])

Ana
['Historia', 'Sociología', 'Economía']


In [None]:
# Modificar valores
estudiante["edad"] = 26
print(estudiante)

{'nombre': 'Ana', 'edad': 26, 'cursos': ['Historia', 'Sociología', 'Economía']}


In [None]:
# Añadir nuevos pares clave-valor
estudiante["universidad"] = "Universidad Nacional"
print(estudiante)

{'nombre': 'Ana', 'edad': 26, 'cursos': ['Historia', 'Sociología', 'Economía'], 'universidad': 'Universidad Nacional'}


In [None]:
# Verificar si una clave existe
if "nombre" in estudiante:
    print("El diccionario contiene la clave 'nombre'")

El diccionario contiene la clave 'nombre'


In [None]:
# Iterar sobre claves y valores
for clave, valor in estudiante.items():
    print(f"{clave}: {valor}")

nombre: Ana
edad: 26
cursos: ['Historia', 'Sociología', 'Economía']
universidad: Universidad Nacional


### 1.5 Estructuras de control

#### Condicionales (if-elif-else)

In [None]:
# Estructuras condicionales
edad = 20

if edad < 18:
    print("Menor de edad")
elif edad >= 18 and edad < 65:
    print("Adulto")
else:
    print("Adulto mayor")

# Operadores de comparación
# == (igualdad), != (desigualdad), > (mayor que), < (menor que), >= (mayor o igual), <= (menor o igual)

# Operadores lógicos
# and, or, not

Adulto


#### Bucles (for, while)

In [None]:
#Bucle for
print("Números del 1 al 5:")
for i in range(1, 6):  # range(inicio, fin) - fin no incluido
    print(i)

Números del 1 al 5:
1
2
3
4
5


In [None]:
# Iteración sobre una lista
frutas = ["manzana", "banana", "cereza"]
print("Lista de frutas:")
for fruta in frutas:
    print(fruta)

Lista de frutas:
manzana
banana
cereza


In [None]:
# Bucle while
print("Cuenta regresiva:")
contador = 5
while contador > 0:
    print(contador)
    contador -= 1  # Equivalente a: contador = contador - 1

Cuenta regresiva:
5
4
3
2
1


### 1.6 Funciones

Las funciones permiten organizar el código en bloques reutilizables.

In [None]:
# Definición de funciones
def saludar(nombre):
    """Esta función saluda a la persona especificada."""
    return f"Hola, {nombre}!"

In [None]:
# Llamada a la función
mensaje = saludar("Ana")
print(mensaje)

Hola, Ana!


In [None]:
# Función con múltiples parámetros y valor por defecto
def calcular_promedio(numeros, redondear=False):
    """Calcula el promedio de una lista de números."""
    promedio = sum(numeros) / len(numeros)
    if redondear:
        return round(promedio)
    else:
        return promedio

In [None]:
# Llamadas a la función
notas = [85, 90, 78, 92, 88]
print(f"Promedio sin redondear: {calcular_promedio(notas)}")
print(f"Promedio redondeado: {calcular_promedio(notas, redondear=True)}")

Promedio sin redondear: 86.6
Promedio redondeado: 87


## 2. Aplicación a textos simples

Ahora que conocemos los fundamentos de Python, podemos aplicarlos a tareas básicas con textos.

### 2.1 Manipulación básica de textos

In [None]:
# Un texto de ejemplo (un párrafo del discurso "I Have a Dream" de Martin Luther King Jr.)
texto = """I have a dream that one day this nation will rise up and live out the true meaning of its creed:
'We hold these truths to be self-evident, that all men are created equal.'
I have a dream that one day on the red hills of Georgia, the sons of former slaves and
the sons of former slave owners will be able to sit down together at the table of brotherhood."""

In [None]:
# Dividir el texto en oraciones (de manera simplificada)
oraciones = texto.split(".")
print(f"Número de oraciones: {len(oraciones)}")
for i, oracion in enumerate(oraciones):
    if oracion.strip():  # Verificar que la oración no esté vacía
        print(f"Oración {i+1}: {oracion.strip()}")

Número de oraciones: 3
Oración 1: I have a dream that one day this nation will rise up and live out the true meaning of its creed: 
'We hold these truths to be self-evident, that all men are created equal
Oración 2: ' 
I have a dream that one day on the red hills of Georgia, the sons of former slaves and 
the sons of former slave owners will be able to sit down together at the table of brotherhood


In [None]:
# Dividir el texto en palabras
palabras = texto.split()
print(f"\nNúmero de palabras: {len(palabras)}")
print(f"Primeras 10 palabras: {palabras[:10]}")


Número de palabras: 71
Primeras 10 palabras: ['I', 'have', 'a', 'dream', 'that', 'one', 'day', 'this', 'nation', 'will']


In [None]:
# Contar la frecuencia de cada palabra
from collections import Counter

# Convertir todas las palabras a minúsculas y eliminar puntuación simple
import string
palabras_limpias = [palabra.lower().strip(string.punctuation) for palabra in palabras]

# Contar la frecuencia
contador_palabras = Counter(palabras_limpias)
print("\nPalabras más frecuentes:")
for palabra, frecuencia in contador_palabras.most_common(5):
    print(f"'{palabra}': {frecuencia} veces")


Palabras más frecuentes:
'the': 5 veces
'of': 5 veces
'that': 3 veces
'i': 2 veces
'have': 2 veces


### 2.2 Análisis básico de textos

In [None]:
# Algunas estadísticas básicas del texto
num_caracteres = len(texto)
num_palabras = len(palabras)
num_oraciones = len([o for o in oraciones if o.strip()])

longitud_promedio_palabras = sum(len(palabra) for palabra in palabras_limpias) / len(palabras_limpias)

In [None]:
print(f"Número de caracteres: {num_caracteres}")
print(f"Número de palabras: {num_palabras}")
print(f"Número de oraciones: {num_oraciones}")
print(f"Longitud promedio de palabras: {longitud_promedio_palabras:.2f} caracteres")

Número de caracteres: 356
Número de palabras: 71
Número de oraciones: 2
Longitud promedio de palabras: 3.89 caracteres


In [None]:
# Calcular la diversidad léxica (número de palabras únicas / número total de palabras)
palabras_unicas = set(palabras_limpias)
diversidad_lexica = len(palabras_unicas) / len(palabras_limpias)
print(f"Número de palabras únicas: {len(palabras_unicas)}")
print(f"Diversidad léxica: {diversidad_lexica:.2f}")

Número de palabras únicas: 49
Diversidad léxica: 0.69


In [None]:
print(palabras_unicas)

{'day', 'its', 'i', 'of', 'to', 'table', 'former', 'that', 'the', 'a', 'nation', 'true', 'at', 'live', 'we', 'these', 'slave', 'truths', 'hills', 'rise', 'up', 'owners', 'able', 'all', 'together', 'on', 'will', 'down', 'be', 'men', 'equal', 'brotherhood', 'slaves', 'are', 'hold', 'self-evident', 'out', 'dream', 'creed', 'sons', 'sit', 'and', 'georgia', 'meaning', 'have', 'created', 'one', 'red', 'this'}
