### Scraping de webpage 
#### Empresas manufactureras Nuevo León

In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL base "state=19, que representa a todas las empresas de Nuevo León"
base_url = "https://mexicoindustry.com/busqueda-empresas.php?sector=0&country=0&state=19&page="
# Número total de páginas que cuentan con datos de empresas
total_pages = 33
# Lista para almacenar las empresas
empresas = []
cols = ['Razon_social', 'Direccion']
# Iterar sobre las páginas y realizar solicitudes HTTP
for page in range(1, total_pages + 1):
    url = base_url + str(page)
    response = requests.get(url)
    # Verificar si la solicitud fue exitosa (código de respuesta 200)
    if response.status_code == 200:
        # Parseo el contenido HTML de la página con BeautifulSoup
        soup = BeautifulSoup(response.text, 'html.parser')
        # Encontrar todos los elementos con la clase "item-legacy-company"
        company_items = soup.find_all(class_='item-legacy-company')
        # Iterar a través de los elementos de la lista de empresas
        for item in company_items:
            # Nombre de la empresa dentro de la etiqueta <h3>
            company_name = item.find('h3').text.strip()
            # Dirección de la empresa dentro de la etiqueta con clase "direction-empresa"
            company_address = item.find(class_='direction-empresa').find_all('p')[-1].text.strip()
            empresas.append((company_name, company_address))
    else:
        print(f'No se pudo acceder a la página web {url}')

# DataFrame
df_empresas_MIndustry_NL = pd.DataFrame(empresas, columns=cols)
df_empresas_MIndustry_NL

Unnamed: 0,Razon_social,Direccion
0,Chemtec Surface & Water Treatment,", , Abasolo, Nuevo León, México"
1,GRUPO PRODENSA,"Edificio Pabellón M., Av. Juárez #1102. Piso 3..."
2,TMH Consulting & Investment Group,"Garza Sada #3820, Piso 8, , Monterrey, Nuevo L..."
3,"A & A RADIOCOMUNICACIONES S.A.S,",", . ,, xxx, Abasolo, Nuevo León, México"
4,A0 SKYLUM,Calle Crecimiento 107-B Parque Industrial Las ...
...,...,...
490,VYNMSA,"Av. San Jerónimo #310, piso 12, Col. San Jerón..."
491,WassTech Group SA de CV,"SICILIA #1031. SANTA FE. CP:64540, 64540, Abas..."
492,Webmasters,"Tacubaya 1749 #1749. Monterrey. CP:64820, 6482..."
493,"Whirlpool México, S. de R.L. de C.V","Carretera Miguel Alemán Km. 16.13, 66634, Apod..."


#### Empresas Coahuila

In [2]:
# URL base "state=5, que representa a todas las empresas de Coahuila"
base_url = "https://mexicoindustry.com/busqueda-empresas.php?sector=0&country=0&state=5&page="

total_pages = 9
empresas = []
cols = ['Razon_social', 'Direccion']

for page in range(1, total_pages + 1):
    url = base_url + str(page)
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, 'html.parser')
        company_items = soup.find_all(class_='item-legacy-company')
        for item in company_items:
            company_name = item.find('h3').text.strip()
            company_address = item.find(class_='direction-empresa').find_all('p')[-1].text.strip()
            empresas.append((company_name, company_address))
    else:
        print(f'No se pudo acceder a la página web {url}')

df_empresas_MIndustry_Coah = pd.DataFrame(empresas, columns=cols)
df_empresas_MIndustry_Coah

Unnamed: 0,Razon_social,Direccion
0,Asociación Mexicana de Manufactura de Moldes y...,", , , Coahuila,"
1,Centro de Investigación y de Estudios Avanzado...,"Avenida Industria Metalúrgica #1062, Parque In..."
2,Ramos Arizpe,", , Ramos Arizpe, Coahuila, México"
3,Sanden Manufacturing México,", , Ramos Arizpe, Coahuila, México"
4,ABBAPACKAGING,"Aiera #210. Colonia 4. CP:25900, 25900, Ramos..."
...,...,...
126,Versatilidad industrial S.A de C.V,Blvd. Vito Alessio Robles #5830. Blvd. Vito Al...
127,"VIELMA BARAJAS INGENIERÍA Y OBRAS, S.A. DE C.V.","SIMON BOLIVAR #1066. MODERNA. CP:27170, 27170,..."
128,"VOSS Automotive Mexico, S. de RL de CV","Blvd. Campestre 208 Parque Industrial Server, ..."
129,Vuteq Industries Mexico SA de CV,Libramiento Oscar Flores Tapia #1905-3. Parqu...


In [3]:
# Unir dataframes
mex_industry = pd.concat([df_empresas_MIndustry_Coah,df_empresas_MIndustry_NL], ignore_index=True)
mex_industry

Unnamed: 0,Razon_social,Direccion
0,Asociación Mexicana de Manufactura de Moldes y...,", , , Coahuila,"
1,Centro de Investigación y de Estudios Avanzado...,"Avenida Industria Metalúrgica #1062, Parque In..."
2,Ramos Arizpe,", , Ramos Arizpe, Coahuila, México"
3,Sanden Manufacturing México,", , Ramos Arizpe, Coahuila, México"
4,ABBAPACKAGING,"Aiera #210. Colonia 4. CP:25900, 25900, Ramos..."
...,...,...
621,VYNMSA,"Av. San Jerónimo #310, piso 12, Col. San Jerón..."
622,WassTech Group SA de CV,"SICILIA #1031. SANTA FE. CP:64540, 64540, Abas..."
623,Webmasters,"Tacubaya 1749 #1749. Monterrey. CP:64820, 6482..."
624,"Whirlpool México, S. de R.L. de C.V","Carretera Miguel Alemán Km. 16.13, 66634, Apod..."


In [None]:
# Guardado del dataframe en un formato tipo csv
mex_industry.to_csv('emp_mex_industry.csv', index=False)
# Guardado del dataframe en un formato tipo json
mex_industry.to_json('emp_mex_industry.json',orient='records', force_ascii=False)