
# Lectura distante y minería de corpus textuales con Python

## Introducción a Python, Jupyter Notebooks y al trabajo con textos

---
---
Romina De León

CONICET

[rdeleon@conicet.gov.ar](rdeleon@conicet.gov.ar)

---
---

### ¿Qué es Pyhton?
<div style="text-align: center;">
    <img src="https://www.python.org/static/img/python-logo.png" alt="Logo de Python" title="Logo de Python" style="width: 300px; height: auto;">
</div>

Python es un **lenguaje de programación potente y fácil de aprender**, tiene estructuras de datos de alto nivel, eficientes y un simple, pero efectivo sistema de programación orientado a objetos. 

Posee una elegante sintaxis, tipado dinámico, que junto a su naturaleza interpretada lo convierten en un lenguaje ideal para scripting y desarrollo de aplicaciones en diversas áreas, para la mayoría de plataformas.

La extensión de archivos para correr un programa escrito en Python es `.py`. Asimismo en lugar de este tipo de archivos utilizaremos cuadernos (**notebooks**) que permiten las combinación textos y códigos, que se organizan en *celdas*, facilitando pruebas y documentación del código. Para ello utilizaremos **Jupyter Notebooks**. 

---

Más información sobre Python se encuentra en el siguiente [tutorial](https://python-docs-es.readthedocs.io/es/3.12/tutorial/index.html) 

---
---

### ¿Qué es Jupyter Notebooks?
<div style="text-align: center;">
    <img src="https://jupyter.org/assets/homepage/main-logo.svg" alt="Logo de Jupyter Notebooks" title="Logo de Jupyter Notebooks" style="width: 150px; height: auto;">
</div>

Es una de las aplicaciones para programar en Python, facilita la creación de documentos que permiten combinar código con otros elementos tales como texto enriquecido, imágenes, enlaces, etc. Estas características lo han covertido en uno de los formatos más elegidos por la comunidad de Data Science. Además permite trabajar en las Notebooks localmente en navegadores de internet aún sin conexión.

Estos ficheros (notebooks) poseen extensión `.ipynb`, y pueden abrirse desde la misma aplicación [Jupyter Notebook](https://jupyter-notebook.readthedocs.io/en/stable/), así como desde [Visual Studio Code](https://code.visualstudio.com/docs/datascience/jupyter-notebooks).

Jupyter Notebook consta de dos componentes:

- Kernel, encargado de ejecutar el código que contiene la notebook. El kernel por defecto ejecuta código Python, aunque se pueden instalar otros kernels para distintos lenguajes.
- Dashboard, nos muestra las notebooks de nuestra computadora, y se usa también para gestionar los kernels.


---

Tutoriales recomendados sobre para iniciar el trabajo con Jupyter Notebooks:
- [Tutorial para principiantes con Jupyter Notebook](https://jupyter-notebook.readthedocs.io/en/stable/notebook.html)
- [Otro tutorial para principiantes](https://www.dataquest.io/blog/jupyter-notebook-tutorial/)
- [Tutorial en español interactivo](https://interactivechaos.com/es/manual/tutorial-de-python/jupyter)

---
---
<div style="text-align: center;">
    <img src="https://camo.githubusercontent.com/210aaa21e63d8094b8b31c5cef8783803fc6612dada5d92cc114319f233d9135/68747470733a2f2f696d67732e786b63642e636f6d2f636f6d6963732f707974686f6e2e706e67" alt="Python" title="Python" style="width: 300px; height: auto;">
</div>

### Introducción a Jupyter notebook

#### Celdas de textos

Las *celdas* son donde se escribe el texto, las *celdas de texto* utilizan 'Markdown', un lenguaje de marcado sencillo. Aquí hay una guía rápida de [Markdown](https://www.markdownguide.org/cheat-sheet/). Es decir, se puede editar y luego ejecutar las celdas para producir un resultado (`CTRL o COMANDO + Enter` o haciendo `click` en la barra de herramientas), y se reproducirá texto con formato. Algunos [atajos de teclado](https://www.notion.so/es-la/help/keyboard-shortcuts) para Markdown.

---

> Ejercicio de ejemplo: Al hacer doble-click sobre esta celda, se podrá editar la misma.

<div style="text-align: center;">
    <img src="https://raw.githubusercontent.com/rominicky/materiales/main/img/ejecutar-notebook.png" alt="Click en el botón de Run para correr la celda" title="Click en el botón de Run para correr la celda" style="width: 450px; height: auto;">
</div>


---

#### Celdas de código

En ellas se puede escribir código y ejecutar órdenes de la misma manera que la de textos. Se ejecuta el código en la celda (**`In [1]:`**) el resultado se revela en (**`Out [1]:`**). Dentro de dichas celdas, se pueden añadir comentarios con el siguiente formato: `# Este es un comentario en una celda de código. Al ejecutar la celda, este será ignorada y no hará nada.`

<div style="text-align: center;">
    <video width="600" controls>
        <source src="img/ejecutar-celda.mp4" type="video/mp4">
    </video>
</div>

---

> Ejercicio: Ejecutar la celda de código a continuación para evaluar el código Python. Probar con otros valores para obtener un resultado diferente.

---

In [None]:
23 + 8 #este será un comentario para presentar como realizar una simple suma en Python, al ejecutar la celda realizará el cálculo

### **ATENCIÓN**

Al ejecutar celdas de código se debe hacer en orden, de arriba hacia abajo de la *notebook*, debido a que cada celda toma el resultado de las anteriores. Si no están estos resultados, devolverá **error**.

Si se quiere correr todas las celdas y en orden, se deberá hacer desde **RUN** en la barra de herramientas, y seleccionar **Run all cells**. Para borrar los resultados (*outputs*) de todas las celdas, en la barra de herramientas en **Edit** seleccione **Clear Outputs of All Cells** o sino en una celda hacer click con el botón derecho y seleccionar lo mismo.

---
---

### Manipulación de textos en Python

Los datos textuales se representan en Python, y en la mayoría de los lenguajes de programación, con objetos de tipo **string** o **str** (cadena).

Un *string* es una *secuencia de caracteres* simple: `ruido` se representa con la siguiente secuencia de caracteres individuales `r` `u` `i` `d` `o`.

***
***
#### Conocimientos básicos para crear y manipular cadenas en Python. 

Esto será a modo introductorio para la minería de texto.

#### Creación y almacenamiento de Strings con nombres

La creación de cadenas es sencillo, solo se debe escribir caracteres intre comillas (simples `'` o dobles `"`).

Se puede probar con la siguiente celda:

In [None]:
'La discoteca clausurada.'

In [None]:
"Está lloviendo en Mar del Plata."

Para poder almacenar y luego reutilizar una cadena, o imprimirla, se debe utilizar el *operador de asignación* `=` (signo de igual). Lo que figure a la derecha del `=` se almacena en _nombre_ a la izquierda. Es decir, que al _nombre_ se le asigna el valor, como una etiqueta que se adhiere, y se puede utilizar luego. En otros lenguajes de programación se denomina *variable*.

El código es:

`nombre = valor`

Corre la celda que sigue:

In [None]:
my_sentence = 'La discoteca clausurada'

Se observa que no imprime nada como *output*. Esto es porque se almacenó la cadena y no la imprimió. Para poder ver `my_sentence`, solo se debe escribir `my_sentence` en una celda de código, ejecutarlo y se imprimirá. Prueba ejecutar la siguiente celda.

In [None]:
my_sentence

---
> Ejercicio: Trata de crear tu propia cada en la celda que sigue con el nombre `my_string`. Luego añadir, otra línea de código para imprimirla. Es decir, deberá haber dos líneas de código debajo.

---


In [None]:
# Escribe aquí el código

#### Concatenación de cadenas

Si se suman dos (o más) cadenas con el signo (`+`), se encontrarán concatenadas, es decir, las secuencias de caracteres se unen.
Por ejemplo, correr la siguiente celda:

In [None]:
sentence2 = my_sentence + ' estaba llena de gente.' #dejar espacio antes del primer carácter para que no quede pegada a my_sentence
sentence2

In [None]:
# Escribe aquí una concatenación de tres cadenas.

#### Manipulación de cadenas completas

Python posee varios métodos que permiten manipular cadenas en su totalidad. Estos se aplican utilizando la notación de punto. Es decir, primero se escribre el nombre de la cadena, seguido de un punto `.`, y luego el nombre del método, terminando con un par de paréntesis `()`, que indican a Python que deberá ejecutar esa orden.

Ejemplo de ello sería:

`my_string.method_name()`

Se podría realizar operaciones como cambiar mayúsculas y/o minúsculas. 

---
**Es importante** destacar que estos métodos no modifican la cadena original, sino que devuelven una nueva cadena con las modificaciones solicitadas. 


In [None]:
my_sentence.lower()

In [None]:
my_sentence.upper()

> ¿Cómo podrías guardar algunas de esas dos nuevas cadenas?>

In [None]:
#escribe aquí tu solución

#### Realizar algunos test con cadenas

Es posible realizar diversas pruebas en una cadena para comprobar si cumple con ciertas condiciones. Por ejemplo, se puede verificar si la cadena contiene únicamente caracteres alfabéticos.


In [None]:
my_sentence.isalpha()

---
---
Existen diferentes métodos disponibles para manipular cadenas. A continuación, se ofrece una guía con detalles técnicos en la [Documentación de Pyhton](https://docs.python.org/es/3/library/stdtypes.html#string-methods) sobre los métodos de cadenas y otros módulos útiles para trabajar con textos. También se puede acceder a [Servicios de procesamiento de texto](https://docs.python.org/es/3/library/text.html#textservices), que incluyen expresiones regulares del módulo [re](https://docs.python.org/es/3/library/re.html#module-re). Estas son patrones que se utilizan para hacer coincidir combinaciones de caracteres en cadenas. 

---
---
> Ejercicio: Probar al menos tres métodos de cadena que recuperen de la documentación mencionada.
---


In [None]:
# Escribe aquí tu código

#### Acceder a caracteres individuales con un índice

Una cadena es una secuencia de caracteres, similar a una lista, lo que permite acceder a un carácter individual especificando su posición en la cadena. Para ello, se utiliza un *índice* numérico entre corchetes (`[]`). Por ejemplo:

In [None]:
my_sentence[1]

En el ejemplo, utilizamos el *index* `1`, por ello se podría esperar que devuelva el primer carácter de la cadena, ¿no? Sin embargo, hubo algo inesperado, nos devuelve `a` en lugar de `L`.

Esto ocurre porque, en muchos lenguajes de programación, incluida Pyhton, la numeración de índices comienza desde 0, lo que se denomina *numeración basada en cero*. Por lo tanto, cuando usamos el índice `1`, accedemos al *segundo* carácter de la cadena.

Para obtener el primer carácter, se debe especificar el índice `0`.

In [None]:
# Write code here to get the first character in the string

#### Rango de caracteres

Los objetos de tipo **range** o *rango* representan una secuencia inmutable de números. De manera similar, se puede seleccionar un rango de caracteres dentro de una cadena informando un índice para el inicio y otro para el final, separados por dos puntos `:`. Esta técnica se denomina *notación de segmento* o **slicing**.

Por ejemplo, si seleccionamos el rango desde el índice `0` (inicio  o *start*) hasta el índice `20` (fin o *stop*), obtendremos todos los caracteres desde el primero hasta el carácter en el índice `19`, pues el índice de finalización `20` no se incluye en el segmento.


In [None]:
my_sentence[0:20]

In [None]:
# Escribir el código para acceder solo a los caracteres "La discoteca" de la cadena

También es posible realizar saltos dentro de una cadena al seleccionar un rango de caracteres. Para hacerlo, se debe especificar un valor adicional llamado *step* o *pasos*. 

La sintaxis:
    
`my_sentence[start:stop:step]`

Para realizar saltos de 3 en 3:

In [None]:
my_sentence[0:20:3]

#### Listas de *strings*

Otra utilidad importante de las cadenas es la posibilidad de almacenarlas en una *lista*. Por ejemplo, se puede almacenar diferentes oraciones como elementos individuales dentro de una lista.


In [None]:
my_list = ['La discoteca clausurada',
          'Hace unos años se cerró',
          'La música se apagó definitivamente']

In [None]:
# Escribe el código para imprimir la lista

***
**NOTA:** Los corchetes (`[]`) que se utilizan para crear listas son distintos de los que se emplean para indexar caracteres individuales.
***

Al igual que con los caracteres individuales en una cadena, se puede acceder a las string almacenadas en una lista mediante un índice.

In [None]:
my_list[2]

#### Rango de elementos en las cadenas en una lista 

De manera similar, se puede acceder a un rango de elementos dentro de una lista usando la notación de segmentos o slicing:

In [None]:
my_list[1:3]

Igual que con las cadenas se pueden realizar rangos con `steps`.

In [None]:
# Escribir el código para cortar `my_list`

Se puede acceder a la lista entera sin añadir índices.

In [None]:
my_list[:]

**También se podría recorrer la lista *hacia atrás* de la siguiente manera:**

In [None]:
my_list[::-1]

### Avanzado: Creación de listas de cadenas con Comprensión de listas

La comprensión de listas en Python es una poderosa herramienta que permite la creación de nuevas listas de forma concisa, a partir de iteraciones sobre secuencias existentes. Esta técnica combina lo aprendido sobre listas y manipulación de cadenas, y nos permite transformar y filtrar elementos de manera eficiente.

Por ejemplo, desde nuestra lista original `my_list` crearemos una nueva lista `new_list` recorriendo cada cadena de la lista:

In [None]:
# Crear una nueva lista con todas las cadenas en mayúsculas
new_list = [sentence.upper() + '.' if not sentence.endswith('.') else sentence.upper() for sentence in my_list]

print(new_list)

---
---

### Resumen

* Python es un lenguaje de programación de propósito general que es bueno para principiantes.
* Las Jupyter Notebooks tienen dos tipos de **celda** principales: **código** y **texto** (Markdown).
* Creación y almacenación de **cadenas** con **nombre** (también conocidas como variables).
* Manipulación de strings mediante:
    * **Concatenación** de dos o más cadenas;
    * Acceso a un carácter individual con un **índice**;
    * Acceso a un rango de caracteres con **segmentos** o **slicing**;
    * Reemplazo de cadenas completas o evaluación de características de la cadena.
* Creación y almacenamiento de **listas** de cadenas.
* Acceso a cadenas en una lista mediante índice y slicing.
* Comprensión de listas