In [1]:
import os
import zipfile
import shutil
import xml.etree.ElementTree as ET
import pandas as pd
import openpyxl
from bs4 import BeautifulSoup
import re

# Ruta del directorio donde se encuentran los archivos .kmz
directorio_kmz = r'C:\Users\PC-LEON\Documents\GITHUB\programs\kmz_to_extract'

# Ruta donde se guardarán los archivos .kml extraídos
ruta_destino_kml = r'C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted'

#  Ruta donde se guardarán los archivos .kml extraídos
output_directory_path = r'C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted'




# Función para extraer y renombrar archivos .kml
def extraer_y_renombrar_kmz(archivo_kmz):
    # Abrir el archivo .kmz
    with zipfile.ZipFile(archivo_kmz, 'r') as zip_ref:
        # Extraer el archivo .kml
        for archivo in zip_ref.namelist():
            if archivo.endswith('.kml'):
                # Obtener el nombre del archivo .kmz sin la extensión
                nombre_kmz = os.path.splitext(os.path.basename(archivo_kmz))[0]
                # Ruta completa del nuevo archivo .kml
                ruta_nuevo_kml = os.path.join(ruta_destino_kml, f'{nombre_kmz}.kml')
                with zip_ref.open(archivo) as fuente, open(ruta_nuevo_kml, 'wb') as destino:
                    shutil.copyfileobj(fuente, destino)
                print(f'Se extrajo y guardó "{archivo}" como "{ruta_nuevo_kml}"')

# Iterar sobre los archivos .kmz en el directorio
for archivo_kmz in os.listdir(directorio_kmz):
    if archivo_kmz.endswith('.kmz'):
        ruta_completa_kmz = os.path.join(directorio_kmz, archivo_kmz)
        extraer_y_renombrar_kmz(ruta_completa_kmz)
print("sistema extraido")


Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065010605291 - AV. TORRES LANDA T1.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065010911804 - MEX-JAP Y CAM. A SMO.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065020720586 - BLVD. ALM.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065030260401 - CONSTITUYENTES T4.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065040961640 - GLORIETA DE LOS MUNDOS.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065040961652 - CARR. CELAYA-APASEO.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\GITHUB\programs\KML_extracted\065041157784- CAM. SAN JOSE DE GTO. T10.kml"
Se extrajo y guardó "doc.kml" como "C:\Users\\PC-LEON\Documents\G

In [2]:

# Función para analizar KML y crear un DataFrame
def kml_to_dataframe(kml_file_path):
    tree = ET.parse(kml_file_path)
    root = tree.getroot()

    # Namespace de KML
    ns = {'kml': 'http://www.opengis.net/kml/2.2'}

    # Extraer información de Placemark
    data = []
    for placemark in root.findall('.//kml:Placemark', ns):
        name = placemark.find('.//kml:name', ns).text if placemark.find('.//kml:name', ns) is not None else 'No Name'
        description = placemark.find('.//kml:description', ns).text if placemark.find('.//kml:description', ns) is not None else 'No Description'
        point = placemark.find('.//kml:Point', ns)
        coordinates = point.find('.//kml:coordinates', ns).text if point is not None else 'No Coordinates'
        data.append({'Name': name, 'Description': description, 'Coordinates': coordinates})

    # Convertir a DataFrame
    df = pd.DataFrame(data)
    return df


# Procesar cada archivo KML en el directorio
for filename in os.listdir(ruta_destino_kml):
    if filename.endswith('.kml'):
        full_path = os.path.join(ruta_destino_kml, filename)
        df = kml_to_dataframe(full_path)

        # Guardar el DataFrame en un archivo Excel con el nombre basado en el KML
        excel_file = os.path.join(output_directory_path, f'{os.path.splitext(filename)[0]}.xlsx')
        df.to_excel(excel_file, index=False)
        print(f'DataFrame guardado en {excel_file}')
print("todo funciono")

DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065010605291 - AV. TORRES LANDA T1.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065010911804 - MEX-JAP Y CAM. A SMO.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065020720586 - BLVD. ALM.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065030260401 - CONSTITUYENTES T4.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065040961640 - GLORIETA DE LOS MUNDOS.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065040961652 - CARR. CELAYA-APASEO.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065041157784- CAM. SAN JOSE DE GTO. T10.xlsx
DataFrame guardado en C:\Users\\PC-LEON\Documents\GITHUB\programs\xlsx_converted\065050309368 - AV. TECNOLO╠üGICO T1.xlsx
DataFrame guardado en C:\Users\\PC

In [3]:

archivos_xlsx = [archivo for archivo in os.listdir(output_directory_path) if archivo.endswith('.xlsx')]

# Lista para almacenar los DataFrames y sus nombres respectivos
lista_dataframes = []
for archivo in archivos_xlsx:
    ruta_completa = os.path.join(output_directory_path, archivo)
    # Leer el archivo Excel
    df = pd.read_excel(ruta_completa)
    # Agregar una columna con el nombre del archivo
    df['Nombre_Archivo'] = archivo  # Se agrega el nombre del archivo como nueva columna
    # Agregar este DataFrame a la lista
    lista_dataframes.append(df)

# Combinar todos los DataFrames en uno solo
df_final = pd.concat(lista_dataframes, ignore_index=True)


# Mostrar el DataFrame resultante
dataframe = df_final

dataframe

Unnamed: 0,Name,Description,Coordinates,Nombre_Archivo
0,13,<b>Luminaria: </b>LED SOLA BASIC 100W<b><br>Se...,"-100.8295128670956,20.53561096555499,0",065010605291 - AV. TORRES LANDA T1.xlsx
1,12,<b>Luminaria: </b>LED SOLA BASIC 100W<b><br>Se...,"-100.8292078587651,20.5355778708162,0",065010605291 - AV. TORRES LANDA T1.xlsx
2,11,<b>Luminaria: </b>LED SOLA BASIC 100W<b><br>Se...,"-100.8288061645781,20.5356038799156,0",065010605291 - AV. TORRES LANDA T1.xlsx
3,10,<b>Luminaria: </b>LED SOLA BASIC 100W<b><br>Se...,"-100.8284447066073,20.53561328913356,0",065010605291 - AV. TORRES LANDA T1.xlsx
4,9,<b>Luminaria: </b>LED SOLA BASIC 100W<b><br>Se...,"-100.8281689378945,20.53562987355047,0",065010605291 - AV. TORRES LANDA T1.xlsx
...,...,...,...,...
5967,32,LED ATP AIRE 7 196W,"-100.7755832476666,20.51356032384279,0",GLORIETA DE LOS MUNDOS.xlsx
5968,38,<b>Luminaria: </b>REF LEDVANCE 80W<b><br>Se ca...,"-100.7705459808282,20.51488452193321,0",GLORIETA DE LOS MUNDOS.xlsx
5969,39,<b>Luminaria: </b>REF LEDVANCE 80W<b><br>Se ca...,"-100.7705254709432,20.51481808519643,0",GLORIETA DE LOS MUNDOS.xlsx
5970,40,<b>Luminaria: </b>REF LEDVANCE 80W<b><br>Se ca...,"-100.7705068235824,20.51489952349169,0",GLORIETA DE LOS MUNDOS.xlsx


In [4]:
def clean_html(html_content):
    soup = BeautifulSoup(html_content, 'html.parser')
    
    # Elimina todas las etiquetas <b> y su contenido
    for tag in soup.find_all('b'):
        tag.decompose()
    
    # Opcional: quitar cualquier otra etiqueta HTML que desees
    for tag in soup.find_all(['br']):
        tag.replace_with('\n')  # reemplaza <br> por salto de línea

    # Elimina cualquier otra etiqueta HTML, manteniendo solo texto
    text_only = soup.get_text()
    
    # Opcional: limpiar espacios en blanco extra que puedan haber quedado
    text_only = ' '.join(text_only.split())
    
    return text_only


# Aplica la función a cada elemento en la columna 'Description'
dataframe['Description'] = dataframe['Description'].apply(clean_html)

# Opcional: eliminar etiquetas <br> si es necesario
dataframe['Description'] = dataframe['Description'].replace('<br>', '\n', regex=True)

# Ver el DataFrame modificado
dataframe



Unnamed: 0,Name,Description,Coordinates,Nombre_Archivo
0,13,LED SOLA BASIC 100WSIAV TORRESLANDA,"-100.8295128670956,20.53561096555499,0",065010605291 - AV. TORRES LANDA T1.xlsx
1,12,LED SOLA BASIC 100WSIAV TORRESLANDA,"-100.8292078587651,20.5355778708162,0",065010605291 - AV. TORRES LANDA T1.xlsx
2,11,LED SOLA BASIC 100WSIAV TORRESLANDA,"-100.8288061645781,20.5356038799156,0",065010605291 - AV. TORRES LANDA T1.xlsx
3,10,LED SOLA BASIC 100WSIAV TORRESLANDA,"-100.8284447066073,20.53561328913356,0",065010605291 - AV. TORRES LANDA T1.xlsx
4,9,LED SOLA BASIC 100WSIAV TORRESLANDA,"-100.8281689378945,20.53562987355047,0",065010605291 - AV. TORRES LANDA T1.xlsx
...,...,...,...,...
5967,32,LED ATP AIRE 7 196W,"-100.7755832476666,20.51356032384279,0",GLORIETA DE LOS MUNDOS.xlsx
5968,38,REF LEDVANCE 80WSIACCESO ORIENTEVIALIDADCELAYA,"-100.7705459808282,20.51488452193321,0",GLORIETA DE LOS MUNDOS.xlsx
5969,39,REF LEDVANCE 80WSIACCESO ORIENTEVIALIDADCELAYA,"-100.7705254709432,20.51481808519643,0",GLORIETA DE LOS MUNDOS.xlsx
5970,40,REF LEDVANCE 80WSIACCESO ORIENTEVIALIDADCELAYA,"-100.7705068235824,20.51489952349169,0",GLORIETA DE LOS MUNDOS.xlsx


In [5]:
dataframe['Description'] = dataframe['Description'].str.split('[Ww]', n=1, expand=True)[0]

# Ver el DataFrame modificado
dataframe.rename(columns={'Name': 'folio','Description': 'tipo','Coordinates': 'coords','Nombre_Archivo': 'kmz ubi',}, inplace=True)

dataframe.to_excel('makedir.xlsx', index=False, engine='openpyxl')

dataframe


Unnamed: 0,folio,tipo,coords,kmz ubi
0,13,LED SOLA BASIC 100,"-100.8295128670956,20.53561096555499,0",065010605291 - AV. TORRES LANDA T1.xlsx
1,12,LED SOLA BASIC 100,"-100.8292078587651,20.5355778708162,0",065010605291 - AV. TORRES LANDA T1.xlsx
2,11,LED SOLA BASIC 100,"-100.8288061645781,20.5356038799156,0",065010605291 - AV. TORRES LANDA T1.xlsx
3,10,LED SOLA BASIC 100,"-100.8284447066073,20.53561328913356,0",065010605291 - AV. TORRES LANDA T1.xlsx
4,9,LED SOLA BASIC 100,"-100.8281689378945,20.53562987355047,0",065010605291 - AV. TORRES LANDA T1.xlsx
...,...,...,...,...
5967,32,LED ATP AIRE 7 196,"-100.7755832476666,20.51356032384279,0",GLORIETA DE LOS MUNDOS.xlsx
5968,38,REF LEDVANCE 80,"-100.7705459808282,20.51488452193321,0",GLORIETA DE LOS MUNDOS.xlsx
5969,39,REF LEDVANCE 80,"-100.7705254709432,20.51481808519643,0",GLORIETA DE LOS MUNDOS.xlsx
5970,40,REF LEDVANCE 80,"-100.7705068235824,20.51489952349169,0",GLORIETA DE LOS MUNDOS.xlsx


In [10]:
dataframe["tipo"].unique()

array(['LED SOLA BASIC 100', 'Led Construlita 50', 'Ref Ledvance 100',
       'LED SOLA BASIC 100 ', 'Led Sola Basic 70', 'ATP LED AIRE 7 196',
       'Led Construlita 100', 'Led Construlita 70',
       'REF LED CONSTRULITA 540', 'LED ATP AIRE 7 196', 'REF LEDVANCE 80',
       'Led Construlita 270', 'Aditivo Metalico 400', 'LED SOLA BASIC 70',
       'Led Construlita 130', 'LED CONSTRULITA 70', 'No Description',
       'VAPOR DE SODIO 15020.54685050533353-100.76917480677365NOPROY. LOS OLIVOS IAV. PASEO DE LOS OLIVOSCELAYA',
       'VAPOR DE SODIO 15020.544633076589076-100.7701789587736NOPROY. LOS OLIVOS IAV. PASEO DE LOS OLIVOSCELAYA',
       'VAPOR DE SODIO 15020.544637471920687-100.77018599957228NOPROY. LOS OLIVOS IAV. PASEO DE LOS OLIVOSCELAYA',
       'LED ATP AIRE 7 - 150', 'Ref Led 100', 'Led Sola Basic 50',
       'LED SOLA BASIC 165', 'REF LED SOLA BASIC 100',
       'Led Dianming G5 80', 'Led Sola Basic 130', 'LED SOLA BASIC 130',
       'LED ATP ENUR 100',
       'VAPOR DE SO