In [2]:
import pandas as pd
import os

### Este Notebook contiene un Censo Nacional de Población, Hogares y Viviendas 2022 realizado en Argentino, descargado desde: https://censo.gob.ar/index.php/datos_provisionales/  ---> Descargar cuadros de resultados provisionales del CENSO 2022 en xlsx, este archivo se descargo con el fin de saber la cantidad total de viviendas a la Ciudad Autónoma de Buenos Aires y las 24 provincias de la República Argentina, al igual que por Departamento/ partido/ comuna. 

- La estructura puede describirse de la siguiente manera:

    1. Provincias: Cada provincia es una división administrativa a nivel nacional.
    2. Departamentos: Muchas provincias dividen su territorio en departamentos. Cada departamento puede tener su propia administración y autoridades locales.
    3. Municipios/Comunas/Partidos: Dentro de los departamentos (o a nivel provincial, dependiendo de la provincia), se pueden encontrar subdivisiones adicionales. Estas subdivisiones pueden tener diferentes nombres. Por ejemplo:

        - Municipios: Muchas provincias tienen municipios como sus subdivisiones principales.
        - Comunas: Algunas provincias también tienen comunas como entidades locales, especialmente en las provincias que han adoptado el régimen de comunas.
        - Partidos: En la provincia de Buenos Aires, las subdivisiones principales son llamadas "partidos" en lugar de municipios.

##### Este Notebook tiene la finalidad de saber el total de población, viviendas por provincia 

In [3]:
# abrimos el excel que contiene los datos
df_jurisdiccion = pd.read_excel("../data/cnphv2022_resultados_provisionales-.xlsx", sheet_name="Cuadro 1", header = 2)
df_jurisdiccion

Unnamed: 0,Jurisdicción,Total de viviendas particulares,Total de viviendas colectivas,Total de población,Población en viviendas particulares,Población en viviendas colectivas (1),Población en situación de calle (vía pública)
0,Total,17780210.0,25501.0,46044703.0,45767858.0,273883.0,2962
1,Ciudad Autónoma de Buenos Aires,1638764.0,1946.0,3120612.0,3092942.0,26767.0,903
2,Buenos Aires,6695273.0,6535.0,17569053.0,17450899.0,117193.0,961
3,24 Partidos del Gran Buenos Aires,3714607.0,1383.0,10865182.0,10817508.0,46877.0,797
4,Resto de partidos de la Provincia\nde Buenos A...,2980666.0,5152.0,6703871.0,6633391.0,70316.0,164
5,Catamarca,158989.0,449.0,429556.0,427415.0,2139.0,2
6,Chaco,401658.0,443.0,1142963.0,1137027.0,5877.0,59
7,Chubut,236010.0,1123.0,603120.0,599568.0,3508.0,44
8,Córdoba,1630356.0,3548.0,3978984.0,3946235.0,32658.0,91
9,Corrientes,406480.0,555.0,1197553.0,1195538.0,1977.0,38


In [4]:
# Se elimina las filas que tienen datos vacios NaN
df_jurisdiccion = df_jurisdiccion.dropna()

In [5]:
# Se dejan las columnas necesarias
df_jurisdiccion =  df_jurisdiccion[['Jurisdicción','Total de viviendas particulares','Total de viviendas colectivas','Total de población']]

In [6]:
# Se crea columna nueva con el Total de las viviendas (particulas + colectivas )
df_jurisdiccion['Total Viviendas'] = df_jurisdiccion['Total de viviendas particulares'] + df_jurisdiccion['Total de viviendas colectivas']
df_jurisdiccion.head(3)

Unnamed: 0,Jurisdicción,Total de viviendas particulares,Total de viviendas colectivas,Total de población,Total Viviendas
0,Total,17780210.0,25501.0,46044703.0,17805711.0
1,Ciudad Autónoma de Buenos Aires,1638764.0,1946.0,3120612.0,1640710.0
2,Buenos Aires,6695273.0,6535.0,17569053.0,6701808.0


In [7]:
#Se eliminan las columnas sobrantes
df_jurisdiccion.drop(['Total de viviendas particulares','Total de viviendas colectivas'],axis =1, inplace=True)

In [8]:
df_jurisdiccion.head(3)

Unnamed: 0,Jurisdicción,Total de población,Total Viviendas
0,Total,46044703.0,17805711.0
1,Ciudad Autónoma de Buenos Aires,3120612.0,1640710.0
2,Buenos Aires,17569053.0,6701808.0


In [9]:
# La primera fila que tiene el total se decide poner de ultimas en el df 
ultima_fila = df_jurisdiccion.iloc[0] # se guarda la primera fila en una variable

df_jurisdiccion = df_jurisdiccion.iloc[1:] # se elimina la primera fila del DataFrame 

df_jurisdiccion = pd.concat([df_jurisdiccion, ultima_fila.to_frame().T], ignore_index=True) # Anexamos la variable 'ultilma_fila' al final del df 
df_jurisdiccion

Unnamed: 0,Jurisdicción,Total de población,Total Viviendas
0,Ciudad Autónoma de Buenos Aires,3120612.0,1640710.0
1,Buenos Aires,17569053.0,6701808.0
2,24 Partidos del Gran Buenos Aires,10865182.0,3715990.0
3,Resto de partidos de la Provincia\nde Buenos A...,6703871.0,2985818.0
4,Catamarca,429556.0,159438.0
5,Chaco,1142963.0,402101.0
6,Chubut,603120.0,237133.0
7,Córdoba,3978984.0,1633904.0
8,Corrientes,1197553.0,407035.0
9,Entre Ríos,1426426.0,560557.0


In [10]:
df_jurisdiccion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype 
---  ------              --------------  ----- 
 0   Jurisdicción        27 non-null     object
 1   Total de población  27 non-null     object
 2   Total Viviendas     27 non-null     object
dtypes: object(3)
memory usage: 780.0+ bytes


In [11]:
# Se convierte la columna 'Jurisdiccion' a variable categorica
df_jurisdiccion['Jurisdicción'] = df_jurisdiccion['Jurisdicción'].astype('category')

# Se convierte las demas columnas como int
df_jurisdiccion['Total de población'] = df_jurisdiccion['Total de población'].astype('int')
df_jurisdiccion['Total Viviendas'] = df_jurisdiccion['Total Viviendas'].astype('int')

In [12]:
df_jurisdiccion.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27 entries, 0 to 26
Data columns (total 3 columns):
 #   Column              Non-Null Count  Dtype   
---  ------              --------------  -----   
 0   Jurisdicción        27 non-null     category
 1   Total de población  27 non-null     int32   
 2   Total Viviendas     27 non-null     int32   
dtypes: category(1), int32(2)
memory usage: 1.6 KB


In [13]:
df_jurisdiccion

Unnamed: 0,Jurisdicción,Total de población,Total Viviendas
0,Ciudad Autónoma de Buenos Aires,3120612,1640710
1,Buenos Aires,17569053,6701808
2,24 Partidos del Gran Buenos Aires,10865182,3715990
3,Resto de partidos de la Provincia\nde Buenos A...,6703871,2985818
4,Catamarca,429556,159438
5,Chaco,1142963,402101
6,Chubut,603120,237133
7,Córdoba,3978984,1633904
8,Corrientes,1197553,407035
9,Entre Ríos,1426426,560557


Para efectos del estudio se tomaran las provincias que tengan una poblacion superior al 1.400.000 de población, dichas provincias seran las principales para realizar el EDA

In [14]:
df_top = df_jurisdiccion[(df_jurisdiccion['Total de población'] > 1400000) & (df_jurisdiccion['Jurisdicción'] != 'Total')]
df_top

Unnamed: 0,Jurisdicción,Total de población,Total Viviendas
0,Ciudad Autónoma de Buenos Aires,3120612,1640710
1,Buenos Aires,17569053,6701808
2,24 Partidos del Gran Buenos Aires,10865182,3715990
3,Resto de partidos de la Provincia\nde Buenos A...,6703871,2985818
7,Córdoba,3978984,1633904
9,Entre Ríos,1426426,560557
14,Mendoza,2014533,710098
18,Salta,1440672,479199
22,Santa Fe,3556522,1460580
25,Tucumán,1703186,555801


In [15]:
df_top['Jurisdicción'].unique()

['Ciudad Autónoma de Buenos Aires', 'Buenos Aires', '24 Partidos del Gran Buenos Aires', 'Resto de partidos de la Provincia\nde Buenos ..., 'Córdoba', 'Entre Ríos', 'Mendoza', 'Salta', 'Santa Fe', 'Tucumán']
Categories (27, object): ['24 Partidos del Gran Buenos Aires', 'Buenos Aires', 'Catamarca', 'Chaco', ..., 'Santiago del Estero', 'Tierra del Fuego, Antártida e Islas\ndel Atlá..., 'Total', 'Tucumán']

In [17]:
# Se procede a guardar todos los df en fomrato .csv
carpeta = '../data/censo/' # ruta de la carpeta donde se van almacenar los csv
nombre ='jurisdiccion.csv'

x = carpeta + nombre

df_top.to_csv(x, index=False)
