### **Adquisición de Coordenadas Geográficas de Estados: Un Enfoque Mediante Web Scraping desde Fuentes Oficiales de Censos**

Con el propósito de satisfacer la necesidad de obtener información actualizada sobre los diferentes estados del país, emprendimos un proceso de web scraping enfocado en una página oficial gubernamental de los Estados Unidos. Específicamente, nos dirigimos a la plataforma de censos del gobierno, donde encontramos datos pertinentes al estado actual de cada entidad en el país. A través de este proceso, logramos recolectar con éxito las coordenadas geográficas de cada uno de los estados, lo que nos brinda una valiosa fuente de información para nuestros análisis y proyectos en curso

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL del archivo HTML
url = 'https://tigerweb.geo.census.gov/tigerwebmain/Files/acs23/tigerweb_acs23_state_2023_bas23_us.html'

# Leer la tabla HTML y almacenarla en un DataFrame
dfs = pd.read_html(url)
df = dfs[0]  # La primera tabla en la página

# Mostrar los datos
df

Unnamed: 0,MTFCC,OID,GEOID,STATE,STATENS,BASENAME,NAME,LSADC,FUNCSTAT,AREALAND,AREAWATER,UR,REGION,DIVISION,STUSAB,CENTLAT,CENTLON,INTPTLAT,INTPTLON
0,G4000,2746365038753,1,1,1779775,Alabama,Alabama,0,A,131185049346,4582326383,,3,6.0,AL,32.743686,-86.846795,32.739579,-86.843447
1,G4000,2746345059742,2,2,1785533,Alaska,Alaska,0,A,1479016910296,245347100126,,4,9.0,AK,63.413064,-152.879287,63.347356,-152.839733
2,G4000,274631053753069,4,4,1779777,Arizona,Arizona,0,A,294366106734,854003932,,4,8.0,AZ,34.275099,-111.660531,34.203936,-111.606345
3,G4000,2746345148374,5,5,68085,Arkansas,Arkansas,0,A,134660466558,3122251184,,3,7.0,AR,34.894174,-92.441843,34.895526,-92.444626
4,G4000,2746318475066,6,6,1779778,California,California,0,A,403673296401,20291770234,,4,9.0,CA,37.154762,-119.527773,37.155177,-119.543418
5,G4000,2746386215995,8,8,1779779,Colorado,Colorado,0,A,268418756810,1185758065,,4,8.0,CO,38.997618,-105.547828,38.993767,-105.508712
6,G4000,27463331955805,9,9,1779780,Connecticut,Connecticut,0,A,12541750274,1816364426,,1,1.0,CT,41.575144,-72.739308,41.579864,-72.746657
7,G4000,27463331618368,10,10,1779781,Delaware,Delaware,0,A,5046703781,1399207462,,3,5.0,DE,38.993257,-75.45141,38.998566,-75.441644
8,G4000,27463331294090,11,11,1702382,District of Columbia,District of Columbia,0,A,158316184,18709787,,3,5.0,DC,38.904759,-77.016286,38.904247,-77.016517
9,G4000,2746346365780,12,12,294478,Florida,Florida,0,A,138963763779,45970528648,,3,5.0,FL,28.406203,-82.502212,28.398978,-82.514301


Primero, llevamos a cabo un proceso de filtrado para seleccionar únicamente las columnas pertinentes a nuestras necesidades. Luego, avanzamos hacia el siguiente paso, que implica la redefinición de los nombres de estas columnas. Este cambio estratégico tiene como objetivo facilitar la rápida identificación de la información que representan, agregando una capa de claridad a los datos que inicialmente podrían no ser tan reveladores. De esta manera, aseguramos que el conjunto de datos sea más comprensible y eficiente para nuestro análisis.

In [3]:
# Filtrar el DataFrame con las columnas deseadas
state = df[["NAME", "INTPTLAT", "INTPTLON"]]

# Cambiar los nombres de las columnas
state.columns = ["state", "latitude", "longitude"]

# Mostrar el DataFrame filtrado con los nombres de las columnas cambiados
state

Unnamed: 0,state,latitude,longitude
0,Alabama,32.739579,-86.843447
1,Alaska,63.347356,-152.839733
2,Arizona,34.203936,-111.606345
3,Arkansas,34.895526,-92.444626
4,California,37.155177,-119.543418
5,Colorado,38.993767,-105.508712
6,Connecticut,41.579864,-72.746657
7,Delaware,38.998566,-75.441644
8,District of Columbia,38.904247,-77.016517
9,Florida,28.398978,-82.514301


Finalmente, culminamos este proceso guardando los datos resultantes en formato CSV. Esta acción nos brinda la ventaja de contar con un archivo fácilmente accesible y transportable que contiene esta información específica. Dicho archivo se convertirá en un recurso fundamental para futuros análisis y será la base sobre la cual construiremos y desarrollaremos los siguientes dataframes en nuestras investigaciones.

In [4]:
# Ruta completa al archivo CSV
ruta_csv = r"Dataset de Google Maps\metadata.sitios\datos_estados_geograficos.csv"

# Guardar el DataFrame en formato CSV en la ubicación especificada
state.to_csv(ruta_csv, index=False)

print("DataFrame guardado como CSV en la ubicación especificada.")

DataFrame guardado como CSV en la ubicación especificada.
