<a href="https://colab.research.google.com/github/orlandxrf/escuela-verano/blob/main/2_Escuela_Verano_manipulacion_archivos.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<img src="https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/img/logos.png" height="100" />

<h1>Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales</h1>
Escuela de Verano, 25-28 de Junio de 2024
<hr>
<h2><strong>Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos<strong></h2>
<hr>

# Manipulación de archivos

Python ofrece potentes herramientas para trabajar con diferentes tipos de archivos, incluyendo texto, hojas de cálculo y archivos PDF. A continuación, se presenta un tutorial básico para la manipulación de archivos `.txt`, `.csv`, .`tsv`, `.xlsx` y `.pdf` utilizando Python.


> **NOTA**: Los archivos utilizados se pueden cargar de forma "local" en Google Colab. Sin embargo, Colab nos advierte cuando subimos archivos lo siguiente: **"Se borrarán los archivos del tiempo de ejecución cuando este finalice."**

## Obtener archivos

Para este taller se almacenan los archivos en [Github](https://github.com/orlandxrf/escuela-verano) adicional a todo el material usado.

Para evitar subir los archivos a Google Colab cada vez que se quiera trabajar con el Notebook, se realizará el proceso de forma automática. Para la descarga de los archivos se utiliza el comando `wget`

**Wget**, que significa "World Wide Web GET", es una utilidad de línea de comandos en sistemas operativos tipo Unix, como Linux, que se utiliza para descargar archivos de la web. Es una herramienta poderosa y versátil que permite descargar una amplia variedad de contenido.

La sintaxis para descargar un archivo es la siguiente:

```bash
!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/El_maravilloso_Mago_de_Oz.pdf
```

El resultado esperado por cada archivo descargado es similar al siguiente

```bash
--2024-06-22 18:35:06--  https://github.com/orlandxrf/escuela-verano/blob/main/data/El_maravilloso_Mago_de_Oz.pdf
Resolving github.com (github.com)... 140.82.121.3
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘data/El_maravilloso_Mago_de_Oz.pdf’

El_maravilloso_Mago     [ <=>                ] 241.79K  --.-KB/s    in 0.03s   

2024-06-22 18:35:06 (8.05 MB/s) - ‘data/El_maravilloso_Mago_de_Oz.pdf’ saved [247596]
```

Es importante señalar que si la carpeta donde se desea almacenar el archivo no existe, se crea. En caso de descargar el archivo cuando previamente existe, lo que ocurre es que se sobre escribe el archivo descargado, es decir el archivo descargado reemplaza al previo, siempre y cuando tengan el mismo nombre.

In [None]:
# descargar los archivos utilizando "wget"

!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Escuela_de_verano.txt
!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Los_Caudillos_de_1830.txt
!wget -P data/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/ia_tweets.csv
!wget -P data/fake_news/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/fake_news/dev.xlsx
!wget -P data/fake_news/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/fake_news/train.xlsx
!wget -P data/fake_news/ https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/fake_news/test.xlsx
!wget -P data/ https://github.com/orlandxrf/escuela-verano/blob/main/data/El_maravilloso_Mago_de_Oz.pdf

--2024-06-22 18:35:06--  https://github.com/orlandxrf/escuela-verano/blob/main/data/El_maravilloso_Mago_de_Oz.pdf
Resolving github.com (github.com)... 140.82.121.3
Connecting to github.com (github.com)|140.82.121.3|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘data/El_maravilloso_Mago_de_Oz.pdf’

El_maravilloso_Mago     [ <=>                ] 241.79K  --.-KB/s    in 0.03s   

2024-06-22 18:35:06 (8.05 MB/s) - ‘data/El_maravilloso_Mago_de_Oz.pdf’ saved [247596]



## Archivos `.txt`

Los archivos de texto que se usarán son:

* [Escuela de verano](https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Escuela_de_verano.txt)
* [Los Caudillos de 1830](https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/Los_Caudillos_de_1830.txt). por Pío Baroja


> Fuente: [Project Gutenberg](https://www.gutenberg.org/browse/languages/es)

### Lectura y escritura de archivos

Para leer archivos en Python se deben abrir el archivo con la instrucción `open`, `read` para obtener el contenido del archivo y `close` para cerrar correctamente el archvio abierto para la lectura.

Sin embargo, con el bloque `with` Python proporciona una forma segura y eficiente de **abrir** y **cerrar** archivos. Al utilizar `with`, no es necesario preocuparse por cerrar manualmente el archivo, ya que se cierra automáticamente al finalizar el bloque. Esto simplifica el código y reduce la posibilidad de errores.

La sintaxis empleada es:

```python
ruta_archivo = "ruta/al/archivo.txt"

with open(ruta_archivo, 'r') as archivo:
    # El código para leer el archivo se escribe dentro del bloque "with"
    pass
```

### Opciones para lectura de archivos

1. Dentro del bloque `with`, puedes utilizar el método `read()` del objeto archivo para leer **todo el contenido** del archivo como una cadena de texto.

  ```python
  with open(ruta_archivo, 'r') as archivo:
      contenido = archivo.read()
      print(contenido)
  ```

2. Si deseas leer el archivo **línea por línea**, puedes utilizar el método `readline()`. Este método devuelve cada línea del archivo como una cadena de texto.

  ```python
  with open(ruta_archivo, 'r') as archivo:
    linea = archivo.readline()
    while linea:
        print(linea)
        linea = archivo.readline()
  ```

3. Otra variante para leer un archivo **línea por línea** empleando un ciclo `for`. Esta opción de lectura es recomendable. La sintaxis es:

  ```python
  with open(ruta_archivo, 'r') as archivo:
    for linea in archivo:
        print(linea)
  ```

#### Práctica: Opción de lectura 1

In [None]:
ruta_archivo = "data/Escuela_de_verano.txt" # ruta del archivo local en Google Colab

with open(ruta_archivo, 'r') as archivo:
   contenido = archivo.read()
   print(contenido)

# salida esperada:
# Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales
# 25-28 de Junio de 2024
# Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos

Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales
25-28 de Junio de 2024
Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos




#### Práctica: Opción de lectura 2

In [None]:
ruta_archivo = "data/Escuela_de_verano.txt" # ruta del archivo local en Google Colab

with open(ruta_archivo, 'r') as archivo:
 linea = archivo.readline()
 while linea:
     print(linea)
     linea = archivo.readline()

# salida esperada:
# Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales
#
# 25-28 de Junio de 2024
#
# Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos

Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales

25-28 de Junio de 2024

Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos





#### Práctica: Opción de letura 3

In [None]:
ruta_archivo = "data/Escuela_de_verano.txt" # ruta del archivo local en Google Colab

with open(ruta_archivo) as f:
  for linea in f:
    print(linea)

# la salida esperada es la siguiente:
# Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales
#
# 25-28 de Junio de 2024
#
# Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos

Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales

25-28 de Junio de 2024

Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos





#### Ejercicios

1. Leer el archivo `Escuela_de_verano.txt`.
2. Almacenar el contenido en una lista. Cada renglón (línea) del archivo será un elemento de la lista.
3. Imprimir la lista con el contenido almacenado utilizando un ciclo `for`.

In [None]:
# Ejecicios
ruta_archivo = "data/Escuela_de_verano.txt" # ruta del archivo local en Google Colab
renglones = [] # la variable almacenará cada una de las líneas del archivo

with open(ruta_archivo) as f:
  # aqui va el código para leer el archivo (elegir cualquira de las opciones vistas)
  pass

# imprimir la cantidad de renglones almacenados en la lista "renglones"
print(len(renglones))
# salida esperada:
3

# iterar por medio de un bucle "for" la lista contenido e imprimir su contenido.
# for ...

# salida esperada
# Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales
# 25-28 de Junio de 2024
# Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos

3
Escuela de verano del Laboratorio de Estructuras y Dinámicas Sociales
25-28 de Junio de 2024
Descubre el poder del PLN: aprende a pre-procesar, analizar y extraer información de textos


### Opciones de escritura

Python ofrece métodos sencillos y eficientes para guardar información en archivos de texto plano. A continuación, se presentan opciones que describe los diferentes enfoques para lograr esto:

1. Escribir en un **archivo nuevo**. Para crear un archivo de texto nuevo y escribir contenido en él, se utiliza la función `open()` junto con el modo `"w"`:

```python
ruta_archivo = 'nuevos/mi_archivo.txt'

with open(ruta_archivo, 'w') as f:
  f.write('Esta es una línea de texto\n')
  f.write('Otra línea de texto\n')
```

2. Anexar contenido a un **archivo existente**. Para agregar información al final de un archivo existente, se utiliza el modo `"a"`:

```python
ruta_archivo = 'nuevos/mi_archivo.txt'

with open(ruta_archivo, 'a') as f:
  f.write('Más texto para agregar\n')

```

3. Escribir líneas de texto individualmente. Es posible escribir líneas de texto individuales utilizando el método `writelines()`:

```python
ruta_archivo = 'nuevos/mi_archivo.txt'

lineas = ['Primera línea\n', 'Segunda línea\n', 'Tercera línea\n']

with open(ruta_archivo, 'w') as f:
  f.writelines(lineas)

```

#### Práctica: Opción escritura 1

In [None]:
# Opción de escriura para un nuevo archivo

ruta_archivo_nuevo = "data/prueba_escritura.txt"

with open(ruta_archivo_nuevo, 'w') as f:
  # importante, agregar el carcater de nueva línea "\n" al final de cada renglón.
  f.write('Esta es la primera línea de texto.')
  f.write(' Esta línea pertenece a la primera, aquí se agrega el caracter de nueva línea.\n')
  f.write('Segunda línea de texto.\n')


#### Práctica: Opción escritura 2

In [None]:
# Opción de escriura para agregar datos a un archivo previamente creado

ruta_archivo_nuevo = "data/prueba_escritura.txt"

with open(ruta_archivo_nuevo, 'a') as f:
  f.write('Esta es la 3ra línea de texto.\n')
  f.write('\n') # esta es una línea en blanco
  f.write('5ta línea de texto.\n')


#### Práctica: Opción escritura 3

In [None]:
# Opción de escriura para un nuevo archivo

ruta_archivo_nuevo = "data/prueba_escritura.txt"

lineas = ['Primera línea\n', 'Segunda línea\n', 'Tercera línea\n']

with open(ruta_archivo_nuevo, 'w') as f:
  f.writelines(lineas)

## Archivos `.csv`

[Conjunto de datos de análisis de tweets de IA](https://raw.githubusercontent.com/orlandxrf/escuela-verano/main/data/ia_tweets.csv)

Para leer archivos

Fuente: [Zenodo](https://doi.org/10.5281/zenodo.10821485)

### Lectura y escritura de archivos `.csv` y `.tsv`

Para leer y escribir archivos con el formato `.csv` y `.tsv` se utiliza la biblioteca de Python `pandas`.

Pandas es una biblioteca de Python ampliamente utilizada para el análisis de datos. Permite trabajar con datos tabulares de forma eficiente, incluyendo la **lectura** y **escritura** de archivos CSV. Para realizar estas operaciones de forma sencilla se utilizan las funciones `read_csv()` y `to_csv()`.

### Instalar `pandas`

Para utilizar la biblioteca `pandas` es necesario instalar la biblioteca con el comando `pip` en la consola.



In [None]:
# utilizar el comando pip para realizar la instalación
# -U indica que se instale la versión más reciente

!pip install -U pandas

Collecting pandas
  Downloading pandas-2.2.2-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (13.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m13.0/13.0 MB[0m [31m39.3 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: pandas
  Attempting uninstall: pandas
    Found existing installation: pandas 2.0.3
    Uninstalling pandas-2.0.3:
      Successfully uninstalled pandas-2.0.3
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
cudf-cu12 24.4.1 requires pandas<2.2.2dev0,>=2.0, but you have pandas 2.2.2 which is incompatible.
google-colab 1.0.0 requires pandas==2.0.3, but you have pandas 2.2.2 which is incompatible.[0m[31m
[0mSuccessfully installed pandas-2.2.2


### Lectura de archivos

Para leer un archivo CSV o TSV y almacenarlo en un `DataFrame` de Pandas, se utiliza la función `read_csv()`. La sintaxis básica es la siguiente:

```python
import pandas as pd # importar la biblioteca pandas con el prefijo pd

# para leer un archivo en formato CSV
df_csv = pd.read_csv('nombre_archivo.csv')

# para leer un archivo en formato TSV
df_tsv = pd.read_csv('nombre_archivo.csv', sep='\t')
```

#### Práctica: Lectura de archivo

In [None]:
# Nota: la importación de bibliotecas debe realizarse sólo una vez,
# se recomienda importar todas las bibliotecas al inicio del Notebook

# importar la biblioteca pandas
import pandas as pd

ruta_archivo_csv = "data/ia_tweets.csv"

# leer el archivo CSV y almacenar el DataFrame en la variable df
df = pd.read_csv(ruta_archivo_csv)

# visualizarel contenido del archivo, escribiendo el nombre de la variable que contiene el DataFrame
# df

In [None]:
# mostrar el número de columnas del archivo y cuales son
print(df.columns)
print(f"\n{len(df.columns)} columnas en el archivo: {ruta_archivo_csv}")

Index(['ID', 'text', 'polarity', 'favorite_count', 'retweet_count',
       'user_followers_count', 'user_friends_count', 'user_favourites_count',
       'user_statuses_count', 'user_verified', 'user_has_extended_profile',
       'user_is_translator', 'user_protected', 'user_default_profile'],
      dtype='object')

14 columnas en el archivo: data/ia_tweets.csv


In [None]:
# conocer la cantidad de tweets y columnas del archivo
print(df.shape)
print(f"{df.shape[0]:,} tweets")
print(f"{df.shape[1]} columnas")

(4038, 14)
4,038 tweets
14 columnas


In [None]:
# conocer cuales son las polaridades (columna polarity) y la cantidad por cada una de ellas
polaridades = df['polarity'].value_counts()
print(polaridades)

polarity
NEU    2689
P       757
N       592
Name: count, dtype: int64


### Escritura de archivos

Para escribir un `DataFrame` en un archivo CSV, se utiliza el método `to_csv()` del `DataFrame`.

Un `DataFrame` de Pandas es una estructura de datos bidimensional similar a una hoja de cálculo de Excel. Está compuesto por filas y columnas, donde cada fila representa un registro de datos y cada columna representa una variable específica. Los `DataFrames` son una herramienta fundamental para el análisis y manipulación de datos en Python, ya que permiten almacenar, organizar y procesar grandes conjuntos de datos de manera eficiente.

Para escribir un archivo `csv` es necesario contar con un `DataFrame`. De la lista de `ciudades` y `poblaciones`:

```python
ciudades = ["Ciudad de México", "Guadalajara", "Monterrey"]
poblaciones = [22500000, 5346000, 1700000]
```

Se crea un `DataFrame` a partir de estas **listas**, utilizando la siguiente sintaxis:

```python
# Creación del DataFrame
df = pd.DataFrame({'Ciudad': ciudades, 'Población': poblaciones})

# visualizar el DataFrame creado
print(df)

# salida esperada:

#     Ciudad  Población
# 0  Ciudad de México  22500000
# 1      Guadalajara     5346000
# 2        Monterrey     1700000
```

En este ejemplo, se ha creado un `DataFrame` con dos columnas: `"Ciudad"` y `"Población"`, donde cada fila representa una ciudad y su población correspondiente.

También se puede crear un `DataFrame` a partir de un **diccionario** de Python. Ahora se tiene un diccionario donde cada clave es el nombre de una ciudad y su valor correspondiente es un diccionario con información adicional como la región y el país:

```python
datos_ciudades = {
    "Ciudad de México": {"Región": "Centro", "País": "México"},
    "Guadalajara": {"Región": "Occidente", "País": "México"},
    "Monterrey": {"Región": "Noreste", "País": "México"}
}
```

Para crear un `DataFrame` a partir de este diccionario, se puede utilizar la siguiente sintaxis:

```python
# Creación del DataFrame
df = pd.DataFrame(datos_ciudades)

# Visualización del DataFrame
print(df)

# salida esperada:

#                 Región        País
# Ciudad de México  Centro      México
# Guadalajara    Occidente    México
# Monterrey       Noreste    México
```

Una vez que se tiene un `DataFrame` creado, para escribir su contenido en un archivo CSV, se utiliza el método `to_csv()` del `DataFrame`. La sintaxis básica es la siguiente:


```python
# almacena un DataFrame en formato CSV
dataframe.to_csv('nombre_archivo.csv', index=False)

# almacena un DataFrame en formato TSV
dataframe.to_csv('nombre_archivo.tsv', sep='\t', index=False)
```



#### Práctica: Escritura de archivos

In [None]:
ruta_guardar_csv = "data/prueba_escritura.csv"

# listas con información
ciudades = ["Ciudad de México", "Guadalajara", "Monterrey"]
poblaciones = [22500000, 5346000, 1700000]

# crear el DataFrame
df = pd.DataFrame({'Ciudad': ciudades, 'Población': poblaciones})

# guardar el contenido del DataFrame
df.to_csv(ruta_guardar_csv, index=False)

print(f"Se guardó el DataFrame en el archivo: '{ruta_guardar_csv}'")


Se guardó el DataFrame en el archivo: 'data/prueba_escritura.csv'


## Archivos `.xlsx`

[El corpus español de noticias falsas](https://github.com/orlandxrf/escuela-verano/tree/main/data/fake_news)


> Fuente: [FakeNewsCorpusSpanish](https://github.com/jpposadas/FakeNewsCorpusSpanish)

`pandas` es una biblioteca de Python ampliamente utilizada para el análisis de datos. Si bien su enfoque principal es trabajar con datos tabulares en formato CSV, también permite leer y escribir archivos Excel (`.xlsx`) utilizando la extensión pandas-xlsx. Para realizar estas operaciones de forma sencilla se utilizan las funciones `read_excel()` y `to_excel()`.

### Lectura de archivos Excel

Para leer un archivo Excel y almacenarlo en un DataFrame de Pandas, se utiliza la función `read_excel()`. La sintaxis básica es la siguiente:

```python
# Lectura del archivo "data.xlsx"
dataframe = pd.read_excel('data.xlsx')
```

#### Práctica: Lectura de archivos

In [None]:
ruta_archivo_excel = "data/fake_news/dev.xlsx"

# lectura del archivo "data.xlsx" en la hoja por defecto
df = pd.read_excel(ruta_archivo_excel)

# lectura de una hoja específica por nombre
# df = pd.read_excel(ruta_archivo_excel, sheet_name='Hoja de datos') # 'Hoja1', 'Hoja2'

# lectura de una hoja por índice (posición)
# df = pd.read_excel(ruta_archivo_excel, sheet_name=0)

# print(df.head(5))

print(df.shape)
print(df.columns)

(295, 7)
Index(['Id', 'Category', 'Topic', 'Source', 'Headline', 'Text', 'Link'], dtype='object')


### Escritura de archivos Excel

Para escribir un DataFrame en un archivo Excel, se utiliza el método `to_excel()` del `DataFrame`. La sintaxis básica es la siguiente:

```python
dataframe.to_excel('nombre_archivo.xlsx', index=False)
```


#### Práctica: Escritura archivos

In [None]:
ruta_guardar_csv = "data/prueba_escritura.xlsx"

# listas con información
ciudades = ["Ciudad de México", "Guadalajara", "Monterrey"]
poblaciones = [22500000, 5346000, 1700000]

# crear el DataFrame
df = pd.DataFrame({'Ciudad': ciudades, 'Población': poblaciones})

# guardar el contenido del DataFrame por "default"
df.to_excel(ruta_guardar_csv, index=False)

# guardar el contenido del DataFrame en la hoja "nombre_hoja"
# df.to_excel(ruta_guardar_csv, index=False, sheet_name='nombre_hoja')

# adicionalmente se puedes escribir varios DataFrame al mismo archivo en diferentes hojas
# df1.to_excel('data/arhivo_multiple_hojas.xlsx', sheet_name='Hoja1')
# df2.to_excel('data/arhivo_multiple_hojas.xlsx', sheet_name='Hoja2')


print(f"Se guardó el DataFrame en el archivo: '{ruta_guardar_csv}'")

Se guardó el DataFrame en el archivo: 'data/prueba_escritura.xlsx'
