## Lectura y explicación de la estructura del archivo .txt
El Product Owner (de ahora en adelante, P.O.) nos hace llegar tres archivos (.xml, .txt y .sql) con el objetivo de fusionarlos en una única base de datos. Para ello, será necesario elaborar un programa que facilite la legibilidad de los datos tal y como nos solicita el P.O., además de automatizar el proceso de limpieza para futuros inputs que lleguen a la base de datos.

### Características del archivo .txt
Uno de los ficheros que recibimos es un archivo .txt (data_txt.txt). Después de una primera visualización del documento en un procesador de textos encontramos:

- Con relación a la estructura de los datos, estos están organizados en líneas, donde cada línea corresponde a una fila en la futura tabla.

- La primera línea del archivo corresponde a los nombres de las columnas de la futura tabla. Estos están separados por ";".

- En el resto de las filas, siguiendo la estructura de la primera línea, también se observa la separación en columnas por ";".

- Al principio de cada línea se observan los "indices_sql", contenidos en el archivo .sql (data_sql.sql). Estos índices relacionan cada fila del archivo .txt con la fila del mismo índice en el archivo .sql.

- En varias de las filas se observan algunos datos que están precedidos, o seguidos, de espacios extra (innecesarios).

- A lo largo del texto llama la atención el gran número de elementos "<" y "null" que el P.O. quiere sustituir por "under" y "NULL" respectivamente.


Por otra parte, al leer el contenido del archivo .txt en Python, se observa una lista de elementos que se corresponden con cada fila de la futura tabla. Al final de cada uno de los elementos de la lista nos encontramos con un salto de línea como "\n", que deberemos eliminar para trabajar con los datos.



### Limpieza del archivo .txt
Una vez observado todo lo tratado en el apartado anterior, procedemos a trabajar con el archivo .txt en Python. Para ello hemos de tener en cuenta los requerimientos del P.O.:
- Quitar los saltos de línea "\n".
- Sustituir los "<" por "under".
- Sustituir los "null" por "NULL".
- Eliminar los espacios innecesarios al principio y al final del contenido del cada columna.

Al abrir el archivo en Python se crea una lista. Debido a la larga extensión de la misma, comenzamos trabajando en uno de sus elementos. En este elemento realizamos las tareas de limpieza y sustitución y, tras comprobar que funcionan adecuadamente, extendimos esta función al resto del archivo.

In [None]:
# En primer lugar guardamos el contenido del archivo .txt en la variable "file_source".
with open('data_txt.txt','r') as file:
    file_source = file.readlines()

In [None]:
# Leemos el contenido de la variable. Y vemos que es una lista, donde cada elemento
#  es una fila de la futura tabla.
file_source

In [None]:
# Sacamos el primer string de la lista.
file_source[0]

In [None]:
# Quitamos los '\n' (saltos de línea) en un solo elemento de la lista.
frase=file_source[0]
frase_nueva=frase.replace("\n","")
print(frase_nueva)

In [None]:
# Creamos código para toda la lista(todo el txt), para quitar los saltos de linea(\n). 
lista_sin_saltos=[]
for i in file_source:
    elemento=i.replace("\n","")
    lista_sin_saltos.append(elemento)
print(lista_sin_saltos)

In [None]:
# Creamos la funcion para limpiar los saltos de línea en todo el .txt.
def quitar_saltos(lista_txt):
    # Función que sirve para quitar saltos de línea en elementos string de una lista con datos
    #  de un txt.
    lista_sin_saltos=[]
    for i in lista_txt:
        elemento=i.replace("\n","")
        lista_sin_saltos.append(elemento)
    return lista_sin_saltos
# Cuando ejecutemos la función sobre una lista de u txt, nos devolverá el resultado de esa lista
#  tras quitar los saltos.
# Para guardar ese resultado deberemos guardar eso dentro de una funcion, es decir:
#  variable = quitar_saltos(lista_txt)

In [None]:
# Ejecutamos la funcion creada sobre la variable que tiene el contenido del .txt.
quitar_saltos(file_source)

In [None]:
# Ahora que ya tenemos la funcion para los '\n', simplemente metemos en la funcion las
#  sustituciones de '<' por 'under' y los 'null' por 'NULL'.
def sustituir(lista_txt):
    # Esta función sirve para quitar saltos de línea(\n), cambiar '<' por 'under y 
    #  'null' por 'NULL', cuyo parámetro será una variable que almacene, en formato lista,
    #   el contenido de un .txt.
    lista_sustituida=[]
    for i in lista_txt:
        saltos=i.replace("\n","")
        menores=saltos.replace("<", "under")
        nules=menores.replace("null","NULL")
        lista_sustituida.append(nules)
    return lista_sustituida

In [None]:
# Ejecutamos la funcion creada sobre la variable que tiene el contenido del .txt.
file_source_sustituido = sustituir(file_source)
print(file_source_sustituido)

In [None]:
# Tras la limpieza previa, procedemos a eliminar los espacios extra. Para ello creamos
#  esta funcion para automatizar la eliminación de espacios extra en un archivo .txt.
def limpiar(archivo_txt):
    # Esta función sirve para eliminar los espacios innecesarios al principio y al final del
    #  contenido del cada columna. El parámetro será una variable que almacene, en formato lista,
    #  el contenido de un .txt.
    lista_espacio1=[]
    for entrada in archivo_txt:
        espacio1=entrada.split(";")
        lista_espacio1.append(espacio1)

    lista_espacio2=[]
    lista_espacio3=[]
    for columna in lista_espacio1:
        for elemento in columna:
            espacio2=elemento.strip()
            lista_espacio2.append(espacio2)
            if len(lista_espacio2)==len(columna):
                lista_espacio3.append(lista_espacio2)
                lista_espacio2=[]
            else:
                pass
    return lista_espacio3

In [None]:
# Ejecutamos la funcion creada sobre la variable que tiene el contenido del .txt, con
#  la limpieza previa ya hecha en este caso.
file_source_limpio=limpiar(file_source_sustituido)
print(file_source_limpio)

In [None]:
# Para poder desarrollar la función "limpiar()", primero convertimos los elementos
#  de la lista (strings) en listas dentro de esa lista.
lista_listas=[]
for strings in file_source:
    list_string=strings.split(';')
    lista_listas.append(list_string)

In [None]:
# Comprobamos que el segundo elemento de esta lista nueva es una lista. Donde
#  cada elemento, de cada lista contenida en la lista globlal, pertenece a los
#  datos de cada fila divididos por columnas.
print(lista_listas[1])

In [None]:
# Creamos el código necesario para eliminar los espacios innecesarios al
#  principio y al final del contenido del cada columna de la variable donde ya hemos realizado
#  la limpieza previa de saltos de línea(\n), el cambio de '<' por 'under y 'null' por 'NULL'. Y
#  comprobamos que la nueva variable con los datos limpios ha almacenado adecuadamente los datos.
lista_espacio1=[]
for entrada in file_source_sustituido:
    espacio1=entrada.split(";")
    lista_espacio1.append(espacio1)

lista_espacio2=[]
lista_espacio3=[]
for columna in lista_espacio1:
    for elemento in columna:
        espacio2=elemento.strip()
        lista_espacio2.append(espacio2)
        if len(lista_espacio2)==len(columna):
            lista_espacio3.append(lista_espacio2)
            lista_espacio2=[]
        else:
            pass
print(lista_espacio3)

In [None]:
# Ahora vamos a crear una clase donde incluiremos todas las funciones creadas.
# Primero definimos el nombre de nuestra clase.
class Txt:
    # Creamos el método constructor donde definimos los parámetros que estamos interesados.
    def __init__(self, archivo_txt):
        # Definimos la variable que almacena el contenido del archivo que queremos limpiar.
        self.archivo_txt= archivo_txt
    
    # Definimos el primer método para quitar saltos de línea(\n), cambiar '<' por 'under y 
    #  'null' por 'NULL', cuyo parámetro será una variable que almacene, en formato lista,
    #   el contenido de un .txt.
    def sustituir(self):
        lista_sustituida=[]
        for i in self.archivo_txt:
            saltos=i.replace("\n","")
            menores=saltos.replace("<", "under")
            nules=menores.replace("null","NULL")
            lista_sustituida.append(nules)
        return lista_sustituida
    
    # Definimos el segundo método para eliminar los espacios innecesarios al principio y al final del
    #  contenido del cada columna. El parámetro será una variable que almacene, en formato lista,
    #  el contenido de un .txt.
    def limpiar(self):
        lista_espacio1=[]
        for entrada in self.archivo_txt:
            espacio1=entrada.split(";")
            lista_espacio1.append(espacio1)
        lista_espacio2=[]
        lista_espacio3=[]
        for columna in lista_espacio1:
            for elemento in columna:
                espacio2=elemento.strip()
                lista_espacio2.append(espacio2)
                if len(lista_espacio2)==len(columna):
                    lista_espacio3.append(lista_espacio2)
                    lista_espacio2=[]
                else:
                    pass
        return lista_espacio3


In [None]:
limpio1=Txt(file_source)
limpio1

In [None]:
limpio2=limpio1.sustituir()
print(limpio2)

In [None]:
limpio2=Txt(file_source)
limpio2

In [None]:
limpio_final=limpio2.limpiar()
print(limpio_final)

In [None]:
# Ahora eliminamos la primera fila de la tabla donde almacenamos los nombres de las columnas
print(limpio_final.pop(0))


In [None]:
print(limpio_final)

In [None]:
# Insertar los datos limpios del archivo .txt en la base de datos creada "project1".

import mysql.connector
# Para manejar los posibles errores deberemos importar la siguiente librería.
from mysql.connector import errorcode

# Para evitar que nuestro código se pare utilizamos un try y except al hacer la conexión con
# la base de datos de "project1".
try:
  cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='project1')
except mysql.connector.Error as err:
  if err.errno == errorcode.ER_ACCESS_DENIED_ERROR:
    print("Ha habido un error al introducir el nombre de usuario o la contraseña")
  elif err.errno == errorcode.ER_BAD_DB_ERROR:
    print("La base de datos no existe")
  else:
    print(err)
else:
  cnx.close()

In [None]:
# Comprobamos que tenemos las tablas correctamente creadas en nuestra base de datos.
mydb = mysql.connector.connect(
                                user='root', password='AlumnaAdalab',
                                host='127.0.0.1',
                                database='project1'
                                )
# creamos el servidor
mycursor = mydb.cursor()

# ejecutamos la query para ver las tablas de la BBDD que hemos indicado en la conexión
mycursor.execute("SHOW TABLES")

for x in mycursor:
  print(x)

mycursor.close()
mydb.close()

In [None]:
# Realizamos de nuevo la conexión con la base de datos "project1".
import mysql.connector
cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                              host='127.0.0.1',
                              database='project1')

# Iniciamos el cursor.                               
cursor = cnx.cursor()

# Escribimos la query para introducir los datos del txt limpios en la tabla "data_txt".
query= ("""INSERT INTO data_txt (index_sql, q3, q4, q5, q6, q7, q8, q9, q11, q12, q13, q14, q15, q16, q17, q20, q21, q22, q23, q24, q25, q26, q32, q33, q34, q35, q41)
            VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s);""")

try:
  for elemento in limpio_final:
    fila=tuple(elemento)
    cursor.execute(query, fila)
  cnx.commit()
  print("Datos insertados correctamente")
except mysql.connector.Error as err:
    print(err)
    print("Error Code:", err.errno)
    print("SQLSTATE", err.sqlstate)
    print("Message", err.msg)


cursor.close()
cnx.close()

In [None]:
# En caso de no tener creada la tabla para insertar los datos del fichero txt, procedemos
#  a crear el código necesario para crear desde python la tabla para almacenar estos datos.

# import mysql.connector

#cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
#                              host='127.0.0.1', database='project1')

#cursor = cnx.cursor()
#try:
#    cursor.execute("""CREATE TABLE data_txt(
#                            index_txt INT AUTO_INCREMENT PRIMARY KEY,
#                            index_sql INT,
#                            q3 VARCHAR (500),
#                            q4 VARCHAR (500),
#                            q5 VARCHAR (500),
#                            q6 VARCHAR (500),
#                            q7 VARCHAR (500),
#                            q8 VARCHAR (500),
#                            q9 VARCHAR (500),
#                            q11 VARCHAR (500),
#                            q12 VARCHAR (500),
#                            q13 VARCHAR (500),
#                            q14 VARCHAR (500),
#                            q15 VARCHAR (500),
#                            q16 VARCHAR (500),
#                            q17 VARCHAR (1000),
#                            q20 VARCHAR (500),
#                            q21 VARCHAR (500),
#                            q22 VARCHAR (500),
#                            q23 VARCHAR (500),
#                            q24 VARCHAR (1000),
#                            q25 VARCHAR (500),
#                            q26 VARCHAR (500),
#                            q32 VARCHAR (1000),
#                            q33 VARCHAR (500),
#                            q34 VARCHAR (1000),
#                            q35 VARCHAR (500),
#                            q41 VARCHAR (500),
#                            CONSTRAINT fk_index_sql2 
#                                FOREIGN KEY (index_sql)
#                                REFERENCES data_sql(index_sql)
#                                ON UPDATE CASCADE)""")
#    print(cursor)
#except mysql.connector.Error as err:
#    print(err)
#    print("Error Code:", err.errno)
#    print("SQLSTATE", err.sqlstate)
#    print("Message", err.msg)
#
#cursor.close()
#cnx.close()


Posible funcion para meter dentro de la clase txt para insertar los datos.

def insertar_txt(self):
        import mysql.connector
        cnx = mysql.connector.connect(user='root', password='AlumnaAdalab',
                                    host='127.0.0.1',
                                    database='project1')

        # Iniciamos el cursor.                               
        cursor = cnx.cursor()

        # Escribimos la query para introducir los datos del txt limpios en la tabla "data_txt".
        query= ("""INSERT INTO data_txt (index_sql, q3, q4, q5, q6, q7, q8, q9, q11, q12, q13, q14, q15, q16, q17, q20, q21, q22, q23, q24, q25, q26, q32, q33, q34, q35, q41)
                    VALUES (%s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s, %s);""")

        try:
        for elemento in limpio_final:
            fila=tuple(elemento)
            cursor.execute(query, fila)
        cnx.commit()
        print("Datos insertados correctamente")
        except mysql.connector.Error as err:
            print(err)
            print("Error Code:", err.errno)
            print("SQLSTATE", err.sqlstate)
            print("Message", err.msg)

        cursor.close()
        cnx.close()
    return "Insercion de datos finalizada"