### Para este trabajo vamos a usar archivos tomados de [Kaggle](https://www.kaggle.com/rtatman/character-encoding-examples/activity)

#### Contiene una variedad de archivos .txt en diferente codificacion a UTF-8, la idea de este trabajo es transformarlos a todos a UTF-8

### Importamos las librerias necesarias

In [1]:
import pandas as pd
from chardet import detect
import os

# Los archivos transformados los guardamos en la carpeta input/utf-8
if not os.path.exists("input/utf-8"):
    os.mkdir("input/utf-8/")

In [2]:
# Leemos el archivo csv que nos da un par de informacion
archivos_df = pd.read_csv("input/file_guide.csv")
archivos_df

Unnamed: 0,File,Text,Author,Encoding,Language,Words
0,die_ISO-8859-1.txt,Die Fürstin,Kasimir Edschmid,ISO-8859-1,German,13314
1,harpers_ASCII.txt,"Harper's Round Table, October 8, 1895",Various,ASCII,English,29094
2,olaf_Windows-1251.txt,Olaf van Geldern,Pencho Slaveykov,Windows 1251,Bulgarian,2790
3,portugal_ISO-8859-1.txt,"Portugal enfermo por vicios, e abusos de ambos...",José Daniel Rodrigues da Costa,ISO-8859-1,Portuguese,14215
4,shisei_UTF-8.txt,Shisei,Junichiro Tanizaki,UTF-8,Japanese,4809
5,yan_BIG-5.txt,Yan shi jia xun,Yan Zhitui,BIG-5,Chinese,2538


In [3]:
# Creo una lista con los nombres de los archivos a transformar usando el DataFrame archivos_df
files = archivos_df.File.to_list()
# Agregamos el sufijo input/ que es el directorio donde tenemos los archivos
files = ["input/" + file for file in files]
print(files)

['input/die_ISO-8859-1.txt', 'input/harpers_ASCII.txt', 'input/olaf_Windows-1251.txt', 'input/portugal_ISO-8859-1.txt', 'input/shisei_UTF-8.txt', 'input/yan_BIG-5.txt']


In [21]:
# Esta lista la usamos para saber la codificacion de cada archivo
formatos = []

# Primero leemos cada archivo para adivinar su codificacion
for file in files:
    with open(file, mode="rb") as f:
        contenido = f.read()
        formato = detect(contenido)
        formatos.append(formato["encoding"])

# Ahora leemos de nuevo cada archivo con la codificacion correcta
for i in range(len(files)):
    file = files[i]
    codificacion = formatos[i]
    
    # Leemos el archivo y guardamos en utf-8
    with open(file, encoding=codificacion) as f:
        contenido = f.read()
        # file[:6] es el prefijo "input/"
        new_file = file[:6] + "utf-8/" + file[6:]
        
        with open(new_file, "w+", encoding="utf-8") as nf:
            nf.write(contenido)


In [22]:
# Cargamos una lista con los archivos en input/utf-8
files_to_read = archivos_df.File.to_list()
files_to_read = ["input/utf-8/" + file for file in files_to_read]
print(files)

['input/die_ISO-8859-1.txt', 'input/harpers_ASCII.txt', 'input/olaf_Windows-1251.txt', 'input/portugal_ISO-8859-1.txt', 'input/shisei_UTF-8.txt', 'input/yan_BIG-5.txt']


In [23]:
# Visualizamos los datos
for file in files_to_read:
    print(file)
    with open(file, mode="r", encoding="utf-8") as archivo:
        print(archivo.read(100))

input/utf-8/die_ISO-8859-1.txt
The Project Gutenberg EBook of Die Fürstin, by Kasimir Edschmid

This eBook is for the use of anyone
input/utf-8/harpers_ASCII.txt
Project Gutenberg's Harper's Round Table, October 8, 1895, by Various

This eBook is for the use of 
input/utf-8/olaf_Windows-1251.txt
The Project Gutenberg EBook of Olaf van Geldern, by Pencho Slaveykov
(#1 in our series by Pencho Sla
input/utf-8/portugal_ISO-8859-1.txt
The Project Gutenberg EBook of Portugal enfermo por vicios, e abusos de
ambos os sexos, by José Dani
input/utf-8/shisei_UTF-8.txt
The Project Gutenberg EBook of Shisei, by Junichiro Tanizaki

This eBook is for the use of anyone an
input/utf-8/yan_BIG-5.txt
The Project Gutenberg EBook of Yan shi jia xun, by Yan Zhitui
#4 in our series by Yan Zhitui

Copyri
