# Procesamiento de Lenguaje Natural para Ciencias Sociales
## Sesión 2: Introducción a Python para NLP II

**Fecha:** 7 de mayo de 2025  
**Instructor:** Daniel Otero

---

## Repaso de la sesión anterior

Antes de comenzar con los nuevos contenidos, repasemos brevemente lo que aprendimos en la primera sesión:
- Fundamentos de Python: variables, tipos de datos, operadores
- Estructuras de datos: listas y diccionarios
- Estructuras de control: condicionales y bucles
- Funciones
- Manipulación básica de textos


## 1. Manipulación de datos con NumPy

NumPy (Numerical Python) es una biblioteca fundamental para la computación científica en Python. Proporciona soporte para vectores y matrices multidimensionales, junto con una amplia colección de funciones matemáticas para operar con ellos.

### 1.1 Instalación y primeros pasos

En Google Colab, NumPy ya viene instalado. Si estuvieras en un entorno local, podrías instalarlo con `pip install numpy`.


In [2]:
import numpy as np

In [3]:
# Crear un array unidimensional (vector)
vector = np.array([1, 2, 3, 4, 5])
print("Vector:", vector)
print("Tipo:", type(vector))
print("Forma:", vector.shape)
print("Dimensiones:", vector.ndim)

Vector: [1 2 3 4 5]
Tipo: <class 'numpy.ndarray'>
Forma: (5,)
Dimensiones: 1


In [4]:
# Crear un array bidimensional (matriz)
matriz = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
print("\nMatriz:")
print(matriz)
print("Forma:", matriz.shape)
print("Dimensiones:", matriz.ndim)


Matriz:
[[1 2 3]
 [4 5 6]
 [7 8 9]]
Forma: (3, 3)
Dimensiones: 2


### 1.2 Operaciones básicas con NumPy

In [5]:
# Operaciones aritméticas básicas
print("Vector original:", vector)
print("Vector + 2:", vector + 2)
print("Vector * 2:", vector * 2)
print("Vector ^ 2:", vector ** 2)

Vector original: [1 2 3 4 5]
Vector + 2: [3 4 5 6 7]
Vector * 2: [ 2  4  6  8 10]
Vector ^ 2: [ 1  4  9 16 25]


In [6]:
# Operaciones entre arrays
vector2 = np.array([5, 4, 3, 2, 1])
print("\nVector 1:", vector)
print("Vector 2:", vector2)
print("Suma:", vector + vector2)
print("Producto elemento a elemento:", vector * vector2)
print("Producto escalar (dot):", np.dot(vector, vector2))


Vector 1: [1 2 3 4 5]
Vector 2: [5 4 3 2 1]
Suma: [6 6 6 6 6]
Producto elemento a elemento: [5 8 9 8 5]
Producto escalar (dot): 35


In [7]:
# Estadísticas descriptivas
print("\nMedia:", np.mean(vector))
print("Mediana:", np.median(vector))
print("Desviación estándar:", np.std(vector))
print("Valor mínimo:", np.min(vector))
print("Valor máximo:", np.max(vector))


Media: 3.0
Mediana: 3.0
Desviación estándar: 1.4142135623730951
Valor mínimo: 1
Valor máximo: 5


### 1.3 Indexación y rebanado (slicing)

In [8]:
# Acceder a elementos individuales
print("Primer elemento del vector:", vector[0])
print("Último elemento del vector:", vector[-1])

Primer elemento del vector: 1
Último elemento del vector: 5


In [9]:
# Acceder a elementos de la matriz
print("\nElemento en la fila 1, columna 2 de la matriz:", matriz[1, 2])
print("Primera fila de la matriz:", matriz[0])
print("Segunda columna de la matriz:", matriz[:, 1])


Elemento en la fila 1, columna 2 de la matriz: 6
Primera fila de la matriz: [1 2 3]
Segunda columna de la matriz: [2 5 8]


In [10]:
# Slicing (rebanado)
print("\nPrimeros 3 elementos del vector:", vector[:3])
print("Elementos del vector desde el índice 1 hasta el 3:", vector[1:4])
print("Submatriz 2x2 de la esquina superior izquierda:")
print(matriz[:2, :2])


Primeros 3 elementos del vector: [1 2 3]
Elementos del vector desde el índice 1 hasta el 3: [2 3 4]
Submatriz 2x2 de la esquina superior izquierda:
[[1 2]
 [4 5]]


### 1.4 Funciones y operaciones útiles

In [13]:
# Crear arrays con valores específicos
zeros = np.zeros((3, 3))  # Matriz 3x3 de ceros
print("Matriz de ceros:")
print(zeros)

Matriz de ceros:
[[0. 0. 0.]
 [0. 0. 0.]
 [0. 0. 0.]]


In [12]:
ones = np.ones((2, 4))  # Matriz 2x4 de unos
print("\nMatriz de unos:")
print(ones)


Matriz de unos:
[[1. 1. 1. 1.]
 [1. 1. 1. 1.]]


In [None]:
identity = np.eye(3)  # Matriz identidad 3x3
print("\nMatriz identidad:")
print(identity)

In [14]:
# Generar secuencias
secuencia = np.arange(0, 10, 2)  # Secuencia desde 0 hasta 10 (exclusivo) con paso 2
print("\nSecuencia con arange:", secuencia)

linspace = np.linspace(0, 1, 5)  # 5 números equidistantes entre 0 y 1
print("Secuencia con linspace:", linspace)


Secuencia con arange: [0 2 4 6 8]
Secuencia con linspace: [0.   0.25 0.5  0.75 1.  ]


In [15]:
# Reshaping (cambiar la forma de un array)
vector_largo = np.arange(12)
print("\nVector largo:", vector_largo)

matriz_reshaped = vector_largo.reshape(3, 4)
print("\nVector convertido a matriz 3x4:")
print(matriz_reshaped)


Vector largo: [ 0  1  2  3  4  5  6  7  8  9 10 11]

Vector convertido a matriz 3x4:
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


### 1.5 Aplicación de NumPy en procesamiento de texto

Aunque NumPy se usa principalmente para operaciones numéricas, también puede ser útil en NLP para representar y manipular características textuales numéricas.

In [16]:
# Ejemplo: Representación numérica simple de palabras
palabras = ["casa", "perro", "gato", "árbol", "flor"]
longitudes = np.array([len(palabra) for palabra in palabras])
print("Palabras:", palabras)
print("Longitudes:", longitudes)
print("Palabra más larga:", palabras[np.argmax(longitudes)])
print("Palabra más corta:", palabras[np.argmin(longitudes)])
print("Longitud promedio:", np.mean(longitudes))

Palabras: ['casa', 'perro', 'gato', 'árbol', 'flor']
Longitudes: [4 5 4 5 4]
Palabra más larga: perro
Palabra más corta: casa
Longitud promedio: 4.4


In [17]:
# Ejemplo: Contar vocales en cada palabra
def contar_vocales(palabra):
    return sum(1 for letra in palabra.lower() if letra in 'aeiouáéíóúü')

vocales = np.array([contar_vocales(palabra) for palabra in palabras])
print("\nNúmero de vocales en cada palabra:", vocales)
print("Palabra con más vocales:", palabras[np.argmax(vocales)])


Número de vocales en cada palabra: [2 2 2 2 1]
Palabra con más vocales: casa


In [18]:
# Crear una matriz de características básicas para cada palabra
# [longitud, n_vocales, n_consonantes]
caracteristicas = np.zeros((len(palabras), 3))
for i, palabra in enumerate(palabras):
    n_vocales = contar_vocales(palabra)
    longitud = len(palabra)
    n_consonantes = longitud - n_vocales
    caracteristicas[i] = [longitud, n_vocales, n_consonantes]

print("\nMatriz de características de las palabras:")
print(caracteristicas)


Matriz de características de las palabras:
[[4. 2. 2.]
 [5. 2. 3.]
 [4. 2. 2.]
 [5. 2. 3.]
 [4. 1. 3.]]


In [None]:
# Normalizar las características (importante en ML)
caracteristicas_norm = (caracteristicas - np.mean(caracteristicas, axis=0)) / np.std(caracteristicas, axis=0)
print("\nMatriz de características normalizada:")
print(caracteristicas_norm)

## 2. Manipulación de datos con Pandas

Pandas es una biblioteca de Python que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fáciles de usar.

### 2.1 Series y DataFrames

In [None]:
# Importar pandas
import pandas as pd

In [None]:
# Crear una Series (array unidimensional etiquetado)
serie = pd.Series([10, 20, 30, 40, 50], index=['a', 'b', 'c', 'd', 'e'])
print("Serie:")
print(serie)

In [None]:
# Acceder a valores
print("\nValor en el índice 'c':", serie['c'])
print("Valores entre 'b' y 'd':")
print(serie['b':'d'])

In [None]:
# Crear un DataFrame (tabla bidimensional)
datos = {
    'nombre': ['Ana', 'Juan', 'María', 'Carlos', 'Elena'],
    'edad': [25, 30, 22, 35, 28],
    'ciudad': ['Madrid', 'Barcelona', 'Sevilla', 'Valencia', 'Madrid'],
    'puntuacion': [85, 90, 78, 92, 88]