## Population density

In [1]:
import pandas as pd
import os
# Directorio actual
current_dir = os.getcwd()
url_densidad_poblacion = os.path.join(current_dir, '../../data/raw/extractions/Densidad poblacion_y _Crecimiento_poblacional.xlsx')
# Abrir
df = pd.read_excel(url_densidad_poblacion, engine='openpyxl')
# Mostrar las primeras filas
print(df.head())

print(df.columns.tolist)

# Seleccionar columnas de estados y población 2018 (ajusta los nombres según tu archivo)
columnas_deseadas = ['table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)', 'Unnamed: 11']  # Ejemplo: 'State' para estados y '2018' para datos de ese año
df_filtrado = df[columnas_deseadas]
# Eliminar filas que no son estados
df_filtrado = df_filtrado[~df_filtrado['table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)'].str.contains('United States|Puerto Rico', na=False)]
df_final = df_filtrado.iloc[8:].reset_index(drop=True)
# Cambiar nombres de columnas
df_densidad_poblacion = df_final.rename(columns={
    'table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)': 'State',
    'Unnamed: 11': 'Population_2018'
})
## Guardar en CSV
# Path
df_densidad_poblacion_path = os.path.join(current_dir, '../../data/raw/macrodata')
# Crear un directorio si no existe
os.makedirs(df_densidad_poblacion_path, exist_ok=True)
# Archivo CSV
df_densidad_poblacion_data = os.path.join(df_densidad_poblacion_path, "population_density.csv")
# Guardar dataframe en CSV
df_densidad_poblacion.to_csv(df_densidad_poblacion_data, index=False)
# Mostrar resultado
df_densidad_poblacion.head()

  table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)  \
0  Table 1. Annual Estimates of the Resident Popu...                                                             
1                                    Geographic Area                                                             
2                                                NaN                                                             
3                                      United States                                                             
4                                          Northeast                                                             

            Unnamed: 1      Unnamed: 2                          Unnamed: 3  \
0                  NaN             NaN                                 NaN   
1  2010-04-01 00:00:00             NaN  Population Estimate (as of July 1)   
2               Census  Estimates Base                                2010   
3  

Unnamed: 0,State,Population_2018
0,.Arizona,7158024.0
1,.Arkansas,3009733.0
2,.California,39461588.0
3,.Colorado,5691287.0
4,.Connecticut,3571520.0


## Population growth

In [2]:
url_population_growth = os.path.join(current_dir, '../../data/raw/extractions/Densidad poblacion_y _Crecimiento_poblacional.xlsx')
df = pd.read_excel(url_population_growth, engine='openpyxl'  )
# Mostrar las primeras filas
print(df.head())

# Seleccionar columnas de estados y población 2018 (ajusta los nombres según tu archivo)
columnas_deseadas = ['table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)', 'Unnamed: 10', 'Unnamed: 11']  # Ejemplo: 'State' para estados y '2018' para datos de ese año
df_filtrado = df[columnas_deseadas]
# Eliminar filas que no son estados
df_filtrado = df_filtrado[~df_filtrado['table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)'].str.contains('United States|Puerto Rico', na=False)]
df_final = df_filtrado.iloc[8:].reset_index(drop=True)
# Cambiar nombres de columnas
df_crecimiento = df_final.rename(columns={
    'table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)': 'Estado',
    'Unnamed: 10': 'Poblacion_2017',
    'Unnamed: 11': 'Poblacion_2018'
})
# Calcular porcentaje de crecimiento
df_crecimiento['Crecimiento (%)'] = ((df_crecimiento['Poblacion_2018'] - df_crecimiento['Poblacion_2017']) / df_crecimiento['Poblacion_2017'] * 100).round(2)
## Guardar en CSV
# Path
df_crecimiento_path = os.path.join(current_dir, '../../data/raw/macrodata')
# Crear un directorio si no existe
os.makedirs(df_crecimiento_path, exist_ok=True)
# Archivo CSV
df_crecimiento_data = os.path.join(df_crecimiento_path, "population_growth.csv")
# Guardar dataframe en CSV
df_crecimiento.to_csv(df_crecimiento_data, index=False)
# Mostrar top 5
df_crecimiento.head()

  table with row headers in column A and column headers in rows 3 through 4. (leading dots indicate sub-parts)  \
0  Table 1. Annual Estimates of the Resident Popu...                                                             
1                                    Geographic Area                                                             
2                                                NaN                                                             
3                                      United States                                                             
4                                          Northeast                                                             

            Unnamed: 1      Unnamed: 2                          Unnamed: 3  \
0                  NaN             NaN                                 NaN   
1  2010-04-01 00:00:00             NaN  Population Estimate (as of July 1)   
2               Census  Estimates Base                                2010   
3  

Unnamed: 0,Estado,Poblacion_2017,Poblacion_2018,Crecimiento (%)
0,.Arizona,7044008.0,7158024.0,1.62
1,.Arkansas,3001345.0,3009733.0,0.28
2,.California,39358497.0,39461588.0,0.26
3,.Colorado,5611885.0,5691287.0,1.41
4,.Connecticut,3573297.0,3571520.0,-0.05
