# **Introducción a la lingüística computacional con Python**
### Javier Vera Zúñiga, jveraz@pucp.edu.pe

## Clase 1

En este taller, nos dedicaremos a dar **respuestas parciales** (pero no menos interesantes) a las siguientes **preguntas** mediante **Python**:

1. ¿De qué forma podemos implementar un programa que sea capaz de transformar números enteros en palabras de una lengua peruana, por ejemplo 57 en pichqa chunka qanchis-ni-yuq?
2. ¿Cómo podemos contar la cantidad de veces que aparece una palabra en un texto? ¿Qué nos dice estos sobre la forma en que se organizan las frecuencias de palabras?

Para responder estas preguntas, necesitamos introducir elementos de programación tales como:

- la forma en que Python nombra elementos, **variables, enteros, strings**
- algunas estructuras que nos permitan guardar información, **listas**
- formas de recorrer estas estructuras, **ciclos for**
- maneras de expresar condiciones del tipo si-entonces, **if-else**

Para este taller, la **lingüística computacional** se entenderá como la disciplina que surge a partir de las interacciones, interferencias y cuestionamientos entre computación y lingüística. Un aspecto fundamental es que estos cruces no solo son importantes para los linguistas (o los informáticos), sino que para cualquier persona interesada en **procesar** información lingüística. Esto nos abre dos caminos interrelacionados. Primero, el taller mostrará elementos de programación en Python que podrían ser utilizados en problemas de lingüística computacional. Segundo (y quizás lo más importante), el taller busca abrir la mirada hacia nuevas preguntas que surjan desde las nociones básicas de programación en **Python**. 

### Contenidos!

**Clase 1** - jueves 29 de septiembre

- **Ideas** sobre **lingüística computacional**
- **Preguntas** que abordaremos en el taller: 
    - ¿De qué forma podemos implementar un programa que sea capaz de transformar números enteros en palabras de una lengua peruana, por ejemplo **57** en **pichqa chunka qanchis-ni-yuq**? [link](https://javiervz-quechua-quechua-zkxp9n.streamlitapp.com/)
    - ¿Cómo podemos contar la cantidad de veces que aparece una palabra en un texto? ¿Qué nos dice esto sobre la existencia de patrones de frecuencias de palabras?
- **Variables:** 
    - ¿Qué es un número?
    - ¿Qué es un string?
    - operaciones básicas con números y strings

**Clase 2** - jueves 6 de octubre

- **Listas:** 
    - relaciones entre filas de supermercado y textos
    - ¿Cómo almacenamos las palabras de un texto? ¿Cómo almacenamos números?
    - operaciones básicas con listas (y con textos)
    
    
**Clase 3** - jueves 13 de octubre

- **Ciclo for**
    - relaciones entre listas y ciclos for
    - ciclos for como listas: ejemplos básicos
    - ¿Cómo encontramos las palabras únicas de un texto?
    - listas y el problema de asociar un número entero con su expresión en palabras
    
    
**Clase 4** - jueves 20 de octubre

- **Nociones de lógica en Python**
    - lógica básica y reglas morfológicas
    - condiciones if-else
    - ¿Cuántas palabras tiene un texto?
    - condiciones if-else en la expresión de números en Quechua
    
    
**Clase 5** - jueves 27 de octubre

* ¿Cómo construimos un generador de números en Quechua?
* ¿De qué forma se pueden analizar los patrones de frecuencias de palabras de un texto?

## ¿Dónde programamos en **Python**?
- En otro computador [colab!](https://colab.research.google.com/)
- En mi computador propio [anaconda!](https://www.anaconda.com/products/distribution)

¿Cuál opción es mejor?

## ¿Cómo aprendemos a programar en **Python**?
- PROGRAMANDO! :)
- Equivocándose
- Buscando en internet
- Viendo videos de youtube
- Teniendo un propósito definido
- Preguntando

En resumen!!! hay que tener una postura activa, que busque resolver problemas simples (que sumados resuelven problemas más complejos)

## (Jupyter) notebooks y tipos de celdas
Existen celdas de texto o markdown, como esta misma, en donde podemos escribir texto (e incluso código como texto). 

In [1]:
## y celdas de código, como esta otra. En las celdas de código el signo "#" indica un comentario. Los comentarios son algo
## MUY importante en programación: 
#### - permiten comentar qué estamos haciendo; y por sobre todo
#### - cómo lo estamos haciendo
## El ideal es que cada línea de código tenga un comentario!

## una pequeña porción de código de ejemplo: a vale 1
a = 1

In [2]:
a

1

## Variables en Python

### Asuntos básicos de variables
En la expresiones
```python
palabra = 'Lima'
```
y 

```python
numero = 57
```

el contenido _Lima_ y _57_ se asigna a nombres específicos, que llamaremos **variables.**

In [3]:
## definimos las variables en una celda de código!

## variable tipo string
palabra = 'Lima'

## variable tipo número (entero)
numero = 57

In [4]:
## vemos qué hay adentro de la variable "palabra"

palabra

'Lima'

In [5]:
## vemos qué hay adentro de la variable "numero"

numero

57

Las **variables** (ya sean números, strings o listas (como veremos)) tienen características poderosas:

* Son **variables**, es decir, pueden variar en su contenido
* El **tipo de variable** cambia el significado de las oraciones. Aquí hay un poco de magia.  
* La **asignación ocurre de derecha a izquierda:** el signo "=" **NO** indica igualdad, sino que el hecho de que se está asignando lo que está a la derecha en la variable de la izquierda

y algunas **recomendaciones:**

* elijan nombres informativos, breves y que indiquen alguna información sobre el tipo de variable: NO elijan 837383838aux o variable o var
* respeten cuidadosamente los espacios, eso facilita la lectura
* usen comentarios cada vez que definan una variable: qué es, qué contiene

In [6]:
## ¿en qué sentido son variables? Asignemos nuevamente las variables palabra y numero

## nueva asignación de la variable tipo string
palabra = 'Santiago'

## nueva asignación de la variable tipo número (entero)
numero = 34

In [7]:
## pregunta: ¿Cuánto "valen" estas variables?

## vemos qué hay adentro de la (nueva asignación de la) variable "numero"

numero

34

In [8]:
## vemos qué hay adentro de la (nueva asignación de la) variable "palabra"

palabra

'Santiago'

¿Qué podemos **concluir**? Las variables se quedan con su **última asignación de contenido**

### Las operaciones entre variables dependen del contexto

Pensemos en dos preguntas muy simples: ¿Cómo podemos pegar (concatenar) strings? ¿Cómo sumamos números? El contenido (el **string**) 'Lima' se asigna a la variable "palabra". Ya sabemos que la variable "palabra" tiene como valor el que asignamos en su última asignación. Si tenemos dos strings, por ejemplo,

In [9]:
## asignación de un string a una variable

palabra1 = 'Lima'

## asignación de un string a una variable

palabra2 = 'Santiago'

In [10]:
palabra1, palabra2

('Lima', 'Santiago')

In [11]:
## podemos concatenarlos (pegarlos) usando

## concatenación de dos strings
'Lima' + 'Santiago'

'LimaSantiago'

In [12]:
## o bien

## concatenación de dos variables tipo string
palabra1 + palabra2

'LimaSantiago'

In [13]:
## o bien!

## asignación en la variable3 de la concatenación de dos variables tipo string
palabra3 = palabra1 + palabra2

In [14]:
palabra3

'LimaSantiago'

¿Cuál es la diferencia? ¿Qué hace el operador "+"? Si tenemos dos números, por ejemplo,

In [15]:
## asignación de un string a una variable

numero1 = 34

## asignación de un string a una variable

numero2 = 16

In [16]:
## podemos sumarlos usando

## suma de dos números
34 + 16

50

In [17]:
## podemos concatenarlos (pegarlos) usando

## concatenación de dos strings
numero1 + numero2

50

In [18]:
## o bien!

## asignación en numero3 de la suma de dos variables tipo número
numero3 = numero1 + numero2

In [19]:
numero3

50

In [20]:
## ¿Qué ocurre si "sumamos" números con strings?

numero1 + palabra1

TypeError: unsupported operand type(s) for +: 'int' and 'str'

¿Qué es **+** de acuerdo a los ejemplos anteriores? Una conclusión fundamental es:
    
* El operador **+** depende del contexto: números o strings!
* Solo podemos operar entre variables del mismo tipo!

### Un poco más sobre strings

Idea importante! todas las asignaciones ocurren de derecha a izquierda :O

In [21]:
## ejemplo: número 21 en Quechua

## asignamos un string a la variable string_numero
string_numero = 'iskay chunka huk-ni-yuq'

In [22]:
## tiene un largo que equivale al número de caracteres. Esto incluye, por supuesto, los espacios en blanco!

n = len(string_numero)

In [23]:
n

23

In [24]:
## todos los caracteres en mayúscula

string_mayuscula = string_numero.upper()

In [25]:
string_mayuscula

'ISKAY CHUNKA HUK-NI-YUQ'

In [26]:
## todos los caracteres en minúscula

string_minuscula = string_mayuscula.lower()

In [27]:
string_minuscula

'iskay chunka huk-ni-yuq'

In [28]:
## ¿Cuántas veces aparece un caracter?

## usamos count

numero_veces = string_numero.count('k')

In [29]:
numero_veces

3

In [30]:
## cambiemos partes de un string
## usamos replace: el viejo por el nuevo

string_nueva_version_numero = string_numero.replace('iskay', 'kimsa' )

In [31]:
string_nueva_version_numero

'kimsa chunka huk-ni-yuq'

In [32]:
## transformaciones de número a string

string_desde_numero = str(31)

In [33]:
string_desde_numero

'31'

In [34]:
## largo de este nuevo string

n = len(string_desde_numero)

In [35]:
n

2

### Desafíos!

In [36]:
## Encuentre el número de veces que aparece cada caracter de string_numero
## Sume todas las veces que aparece cada caracter de string_numero
## ¿A qué equivale esta suma?

In [37]:
## 31 se escribe kimsa chunka huk-ni-yuq
## 33 se escribe kimsa chunka kimsa-yuq
## Reemplace caracteres para transformar un string en el otro

In [38]:
## intente explicar el siguiente código

string_numero_nuevo = string_numero[:4] + string_numero[4:]

In [39]:
string_numero_nuevo

'iskay chunka huk-ni-yuq'

In [40]:
## Encuentre el número de dígitos que tiene un número entero. Por ejemplo, 34 tiene 2 dígitos; 345 tiene tres dígitos. 

In [41]:
## Explique con sus propias palabras qué significan las siguientes líneas de código
## Agregue comentarios que expliquen cada línea
## ¿Qué es el signo "="?

numero = 10

numero = numero + 2

In [42]:
string = 'hola'

string = string + '-chao'