In [1]:
import pandas as pd

# URL de la API
url = "https://api.census.gov/data/2021/pep/population?get=NAME,POP_2020,POP_2021,DENSITY_2020,DENSITY_2021,LASTUPDATE&for=state:*"

# Cargar los datos de la API
df_estados = pd.read_json(url)

### Para los estados, debemos calcular varias medias. Para esto tendremos en cuanta datos de 3 anios (2020, 2021, 2022)

In [2]:

df_estados.columns = ['estado', 'pobl_20', 'pobl_21', 'dens_20', 'dens_21', 'update', 'id_estado' ]

In [3]:
# Eliminamos un encabezado que se mezclo con los datos
df_estados = df_estados[df_estados['id_estado'] != 'state']
# Eliminamos PUERTO RICO, el cual no es de interes para nuestro analisis
df_estados = df_estados[df_estados['id_estado'] != '72']
# Definimos algunas columnas como tipo numerico
df_estados['id_estado'] = df_estados['id_estado'].astype(int)
df_estados['pobl_20'] = df_estados['pobl_20'].astype(int)
df_estados['pobl_21'] = df_estados['pobl_21'].astype(int)

In [4]:
df_estados.sort_values(by= 'estado')

Unnamed: 0,estado,pobl_20,pobl_21,dens_20,dens_21,update,id_estado
49,Alabama,5024803,5039877,99.212284138,99.509912915,"Dec. 21, 2021",1
52,Alaska,732441,732673,1.28268626,1.2830925496,"Dec. 21, 2021",2
46,Arizona,7177986,7276316,63.156937737,64.022113803,"Dec. 21, 2021",4
13,Arkansas,3012232,3025891,57.931985377,58.194678618,"Dec. 21, 2021",5
20,California,39499738,39237836,253.43475488,251.75436223,"Dec. 21, 2021",6
29,Colorado,5784308,5812069,55.813551891,56.081421447,"Dec. 21, 2021",8
40,Connecticut,3600260,3605597,743.45489875,744.55699104,"Dec. 21, 2021",9
24,Delaware,991886,1003384,509.03782433,514.93862029,"Dec. 21, 2021",10
10,District of Columbia,690093,670050,11289.744049,10961.845722,"Dec. 21, 2021",11
41,Florida,21569932,21781128,402.04391681,405.98041819,"Dec. 21, 2021",12


### Aqui sumamos los datos que nos faltaban para el analisis

In [5]:
# Lee el archivo xlsx y carga los datos en un DataFrame
df_mas_datos = pd.read_excel('estados2022.xlsx')
# Definimos algunas columnas como tipo numerico
df_mas_datos['id_estado'] = df_mas_datos['id_estado'].astype(int)
df_mas_datos['2022'] = df_mas_datos['2022'].astype(int)

In [6]:
df_mas_datos

Unnamed: 0,id_estado,estado,2022,income_percapita
0,1,Alabama,5074296,45248
1,2,Alaska *,733583,62277
2,4,Arizona,7359197,51248
3,5,Arkansas,3045637,46922
4,6,California,39029342,63133
5,8,Colorado,5839926,64815
6,9,Connecticut,3626205,67460
7,10,Delaware,1018396,54419
8,11,District of Columbia,671803,76603
9,12,Florida,22244823,55859


In [7]:
# Unificamos ambos set de datos teniendo en cuenta el id_estado.
df_estados = pd.merge(df_estados, df_mas_datos, on='id_estado')

In [8]:
df_estados.head(2)

Unnamed: 0,estado_x,pobl_20,pobl_21,dens_20,dens_21,update,id_estado,estado_y,2022,income_percapita
0,Oklahoma,3962031,3986639,57.758424364,58.117159393,"Dec. 21, 2021",40,Oklahoma,4019800,50958
1,Nebraska,1961455,1963692,25.533843535,25.56296437,"Dec. 21, 2021",31,Nebraska,1967923,56651


In [9]:
# Eliminamos columnas que se duplicaron o que no seran de ayuda para el analisis
df_estados = df_estados.drop(['estado_y', 'update'], axis=1)
# Renombramos columnas para diferenciarlas mejor
df_estados.columns = ['estado', 'pobl_20', 'pobl_21', 'dens_20', 'dens_21', 'id_estado', 'pobl_22', 'per_capita_income']
# Ordenamos el dataframe
df_estados = df_estados[['id_estado', 'estado', 'pobl_20', 'pobl_21', 'pobl_22', 'dens_20', 'dens_21', 'per_capita_income']]

In [10]:
df_estados.head(5)

Unnamed: 0,id_estado,estado,pobl_20,pobl_21,pobl_22,dens_20,dens_21,per_capita_income
0,40,Oklahoma,3962031,3986639,4019800,57.758424364,58.117159393,50958
1,31,Nebraska,1961455,1963692,1967923,25.533843535,25.56296437,56651
2,15,Hawaii,1451911,1441553,1440196,226.06892403,224.45613791,53085
3,46,South Dakota,887099,895376,909824,11.701667595,11.810848986,61641
4,47,Tennessee,6920119,6975218,7051339,167.83160237,169.16790214,52522


In [11]:
# Tasa de crecimiento = ((Poblacion_final - Poblacion_inicial) / Poblacion inicial​)×100
# Realizamos la tasa de crecimiento de un anio a otro y luego un promedio entre ambas.

df_estados['tasa_A'] = ((df_estados['pobl_21'] - df_estados['pobl_20']) / df_estados['pobl_20']) * 100
df_estados['tasa_b'] = ((df_estados['pobl_22'] - df_estados['pobl_21']) / df_estados['pobl_21']) * 100

df_estados['avg_pop_grow'] = ((df_estados['tasa_A'] + df_estados['tasa_b']) / 2)

In [12]:
df_estados.head(5)

Unnamed: 0,id_estado,estado,pobl_20,pobl_21,pobl_22,dens_20,dens_21,per_capita_income,tasa_A,tasa_b,avg_pop_grow
0,40,Oklahoma,3962031,3986639,4019800,57.758424364,58.117159393,50958,0.621096,0.831803,0.72645
1,31,Nebraska,1961455,1963692,1967923,25.533843535,25.56296437,56651,0.114048,0.215461,0.164755
2,15,Hawaii,1451911,1441553,1440196,226.06892403,224.45613791,53085,-0.713405,-0.094135,-0.40377
3,46,South Dakota,887099,895376,909824,11.701667595,11.810848986,61641,0.933041,1.613624,1.273333
4,47,Tennessee,6920119,6975218,7051339,167.83160237,169.16790214,52522,0.796215,1.091306,0.943761


In [13]:
# Eliminamos las columnas que funcionaron de intermedias
df_estados = df_estados.drop(['pobl_20', 'pobl_21','dens_20', 'dens_21','tasa_A', 'tasa_b' ], axis=1)

# Renombramos y ordenamos
df_estados.columns = ['id_estado', 'estado', 'avg_pop', 'per_capita_income', 'avg_pop_grow']
df_estados = df_estados[['id_estado', 'estado', 'avg_pop', 'avg_pop_grow', 'per_capita_income']]

In [14]:
# Guardar el DataFrame como un archivo JSON
df_estados.to_json('estados.json', orient='records', lines=True)