# Tablas de Datos

## Provincias
Esta tabla tendrá columnas de `Pais` | `Nombre` | `Superficie` | `Hogares` | `Poblacion 2010` | `Poblacion 2022` | `Latitud` | `Longitud` | `Ingresos` | `id_provincia`

Los datos de poblacion se obtienen de la web del INDEC: [link al .xlsx](https://www.indec.gob.ar/ftp/cuadros/poblacion/c2022_tp_est_c1.xlsx)

Los datos de hogares también se obtienen de la web del INDEC: [link al .xlsx](https://censo.gob.ar/wp-content/uploads/2024/07/c2022_tp_gobierno_local_c1.xlsx)

Los datos de superficie de sacan de wikipedia. [link1](https://es.wikipedia.org/wiki/Provincias_de_Argentina) y [link2](https://es.wikipedia.org/wiki/Buenos_Aires)

Los datos de los ingresos per cápita familiar se obtienen de la web del INDEC, corresponden la tercer trimestre del 2023: [link al .xlsx](https://www.indec.gob.ar/ftp/cuadros/sociedad/indicadores_eph_total_urbano_ingresos_3t_2023.xls)

Los datos de coordenadas se obtuvieron de [geodatos](https://www.geodatos.net/coordenadas/argentina)

In [1]:
import pandas as pd #type:ignore
import unicodedata
import numpy as np
import warnings

In [2]:
# URL de la página de Wikipedia
url = "https://es.wikipedia.org/wiki/Provincias_de_Argentina"

# Leer todas las tablas de la página
tablas = pd.read_html(url)

# Inspeccionar cuántas tablas hay
print(f"Se encontraron {len(tablas)} tablas.")

# Seleccionar la tabla que tiene los datos de superficie
tabla_provincias = tablas[1]  # Es la primer tabla que aparece en la web

# Mostrar los primeros registros de la tabla
tabla_provincias

Se encontraron 4 tablas.


Unnamed: 0_level_0,Provincia,Bandera,Abrev. IATA,Pobl. (censo 2022)[6]​[7]​,Pobl. (censo 2022)[6]​[7]​,Sup. (km²),Sup. (km²),Dens. de pobl. (hab/km²)[6]​,Capital,Declaración de autonomía
Unnamed: 0_level_1,Provincia,Bandera,Abrev. IATA,Absoluta,Porcentual,Sup. (km²),Sup. (km²),Dens. de pobl. (hab/km²)[6]​,Capital,Declaración de autonomía
Unnamed: 0_level_2,Provincia,Bandera,Abrev. IATA,Absoluta,Porcentual,Absolutos,Porcentual,Dens. de pobl. (hab/km²)[6]​,Capital,Declaración de autonomía
0,Provincia de Buenos Aires,,BA,17 523 996,41%,307 571,11%,573,La Plata,11 de febrero de 1820
1,Provincia de Catamarca,,CA,429 562,1%,102 602,4%,42,San Fernando del Valle de Catamarca,25 de agosto de 1821
2,Provincia del Chaco,,CH,1 129 606,3%,99 633,4%,113,Resistencia,8 de agosto de 1951
3,Provincia del Chubut,,CT,592 621,1%,224 686,8%,26,Rawson,15 de junio de 1955
4,Provincia de Córdoba,,CB,3 840 905,9%,165 321,6%,233,Córdoba,5 de enero de 1820
5,Provincia de Corrientes,,CR,1 212 696,3%,88 199,3%,136,Corrientes,20 de abril de 1814
6,Provincia de Entre Ríos,,ER,1 425 578,3%,78 781,3%,182,Paraná,23 de abril de 1814
7,Provincia de Formosa,,FO,607 419,1%,72 066,3%,80,Formosa,15 de junio de 1955
8,Provincia de Jujuy,,JY,811 611,2%,53 219,2%,152,San Salvador de Jujuy,17 de diciembre de 1836
9,Provincia de La Pampa,,LP,361 859,1%,143 440,5%,25,Santa Rosa,8 de agosto de 1951


In [3]:
# Aplanar las columnas del MultiIndex
tabla_provincias.columns = [' '.join(col).strip() for col in tabla_provincias.columns]


In [4]:
# Seleccionar las columnas de interés (Nombre y Sup.)
tabla_provincias = tabla_provincias.iloc[:, [0, 5]]  # Índices de las columnas relevantes


In [5]:
tabla_provincias.head()

Unnamed: 0,Provincia Provincia Provincia,Sup. (km²) Sup. (km²) Absolutos
0,Provincia de Buenos Aires,307 571
1,Provincia de Catamarca,102 602
2,Provincia del Chaco,99 633
3,Provincia del Chubut,224 686
4,Provincia de Córdoba,165 321


In [6]:
# Renombrar columnas a "Nombre" y "Superficie"
tabla_provincias.columns = ["Nombre", "Superficie"]

tabla_provincias.head()

Unnamed: 0,Nombre,Superficie
0,Provincia de Buenos Aires,307 571
1,Provincia de Catamarca,102 602
2,Provincia del Chaco,99 633
3,Provincia del Chubut,224 686
4,Provincia de Córdoba,165 321


### Normalizar la columna `Nombre`

In [7]:
# Normalizar la columna "Nombre" eliminando "Provincia de " y "Provincia del "
tabla_provincias.loc[:, 'Nombre'] = tabla_provincias['Nombre'] \
    .str.replace('Provincia de ', '', regex=False) \
    .str.replace('Provincia del ', '', regex=False)

# Convertir los datos de 'Nombre' a minúsculas, quitar acentos y luego a formato título
tabla_provincias.loc[:, 'Nombre'] = tabla_provincias['Nombre'] \
    .str.lower() \
    .apply(lambda x: unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('utf-8')) \
    .str.title()

# Reemplazar el nombre largo por "Tierra Del Fuego"
tabla_provincias.loc[:, 'Nombre'] = tabla_provincias['Nombre'].replace(
    'Tierra Del Fuego, Antartida E Islas Del Atlantico Sur', 'Tierra Del Fuego'
)

# Confirmar el cambio
print(tabla_provincias['Nombre'].unique())

['Buenos Aires' 'Catamarca' 'Chaco' 'Chubut' 'Cordoba' 'Corrientes'
 'Entre Rios' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja' 'Mendoza' 'Misiones'
 'Neuquen' 'Rio Negro' 'Salta' 'San Juan' 'San Luis' 'Santa Cruz'
 'Santa Fe' 'Santiago Del Estero' 'Tierra Del Fuego' 'Tucuman']


Agregar una columna que sea `pais` (porque en el mapa de visualización PowerBI, localiza algunas provincias, fuera de la Argentina, si no se lo aclara)

In [8]:
# Trabajar con una copia del DataFrame
tabla_provincias = tabla_provincias.copy() # Como es una vista de otro DataFrame, genera warnings

# Agregar la columna 'pais' con el valor 'Argentina'
tabla_provincias.loc[:, 'Pais'] = 'Argentina'

# Reorganizar las columnas en el orden deseado
tabla_provincias = tabla_provincias[['Pais', 'Nombre', 'Superficie']]

# Confirmar el cambio
print(tabla_provincias.head())


        Pais        Nombre Superficie
0  Argentina  Buenos Aires    307 571
1  Argentina     Catamarca    102 602
2  Argentina         Chaco     99 633
3  Argentina        Chubut    224 686
4  Argentina       Cordoba    165 321


### Normalizar la columna `Superficie`

In [9]:
# Paso 1: Eliminar cualquier texto adicional (como '[nota 2]') de la columna 'Superficie'
tabla_provincias.loc[:, 'Superficie'] = tabla_provincias['Superficie'].str.replace(r'\[.*\]', '', regex=True)

# Paso 2: Eliminar caracteres no numéricos y espacios no estándar
tabla_provincias.loc[:, 'Superficie'] = tabla_provincias['Superficie'].str.replace(r'\D', '', regex=True)

# Paso 3: Convertir la columna a tipo entero
tabla_provincias.loc[:, 'Superficie'] = tabla_provincias['Superficie'].astype(float).astype(int)

# Confirmar que la columna está limpia y en el formato correcto
tabla_provincias.tail()

Unnamed: 0,Pais,Nombre,Superficie
18,Argentina,Santa Cruz,243943
19,Argentina,Santa Fe,133007
20,Argentina,Santiago Del Estero,136351
21,Argentina,Tierra Del Fuego,21571
22,Argentina,Tucuman,22524


### Agregar la información de la población

In [10]:
# Cargar el archivo Excel
path = r'..\Datasets crudos\c2022_tp_est_c1.xlsx'
excel_data = pd.ExcelFile(path)

poblacion = pd.read_excel(path, sheet_name='Cuadro 1 ', skiprows=2, header=[0, 1])

In [11]:
poblacion

Unnamed: 0_level_0,Código,Jurisdicción,Población,Población,Variación absoluta,Variación relativa (%)
Unnamed: 0_level_1,Unnamed: 0_level_1,Unnamed: 1_level_1,2010,2022,Unnamed: 4_level_1,Unnamed: 5_level_1
0,,Total,40117096.0,45892285.0,5775189.0,14.4
1,02,Ciudad Autónoma de Buenos Aires,2890151.0,3121707.0,231556.0,8.0
2,06,Buenos Aires,15625084.0,17523996.0,1898912.0,12.2
3,,24 Partidos del Gran Buenos Aires,9916715.0,10849299.0,932584.0,9.4
4,,Resto de partidos de la Provincia de Buenos Aires,5708369.0,6674697.0,966328.0,16.9
5,10,Catamarca,367828.0,429562.0,61734.0,16.8
6,22,Chaco,1055259.0,1129606.0,74347.0,7.0
7,26,Chubut,509108.0,592621.0,83513.0,16.4
8,14,Córdoba,3308876.0,3840905.0,532029.0,16.1
9,18,Corrientes,992595.0,1212696.0,220101.0,22.2


Elimino las filas que contienen información que no necesito

In [12]:
# Dropear las filas específicas
poblacion = poblacion.drop([0, 3, 4, 27, 28], axis=0).reset_index(drop=True)

# Verificar el DataFrame después de eliminar las filas
poblacion


Unnamed: 0_level_0,Código,Jurisdicción,Población,Población,Variación absoluta,Variación relativa (%)
Unnamed: 0_level_1,Unnamed: 0_level_1,Unnamed: 1_level_1,2010,2022,Unnamed: 4_level_1,Unnamed: 5_level_1
0,2,Ciudad Autónoma de Buenos Aires,2890151.0,3121707.0,231556.0,8.0
1,6,Buenos Aires,15625084.0,17523996.0,1898912.0,12.2
2,10,Catamarca,367828.0,429562.0,61734.0,16.8
3,22,Chaco,1055259.0,1129606.0,74347.0,7.0
4,26,Chubut,509108.0,592621.0,83513.0,16.4
5,14,Córdoba,3308876.0,3840905.0,532029.0,16.1
6,18,Corrientes,992595.0,1212696.0,220101.0,22.2
7,30,Entre Ríos,1235994.0,1425578.0,189584.0,15.3
8,34,Formosa,530162.0,607419.0,77257.0,14.6
9,38,Jujuy,673307.0,811611.0,138304.0,20.5


Elimino todas las columnas que no utilizo, quedándome solo con las de población

In [13]:
# Seleccionar solo las columnas necesarias
poblacion = poblacion.iloc[:, [1, 2, 3]]

# Aplanar los encabezados
poblacion.columns = ['Nombre', 'Poblacion 2010', 'Poblacion 2022']

# Visualizar el resultado
poblacion

Unnamed: 0,Nombre,Poblacion 2010,Poblacion 2022
0,Ciudad Autónoma de Buenos Aires,2890151.0,3121707.0
1,Buenos Aires,15625084.0,17523996.0
2,Catamarca,367828.0,429562.0
3,Chaco,1055259.0,1129606.0
4,Chubut,509108.0,592621.0
5,Córdoba,3308876.0,3840905.0
6,Corrientes,992595.0,1212696.0
7,Entre Ríos,1235994.0,1425578.0
8,Formosa,530162.0,607419.0
9,Jujuy,673307.0,811611.0


Hay que cambiar 'Ciudad Autónoma de Buenos Aires' a 'Capital Federal' y dejar solo 'Tierra del Fuego'

In [14]:
# Reemplazar el nombre largo por "Tierra Del Fuego"
poblacion.loc[:, 'Nombre'] = poblacion['Nombre'].replace(
    'Tierra del Fuego, Antártida e Islas del Atlántico Sur (1)', 'Tierra Del Fuego'
)

# Reemplazar 'Ciudad Autónoma de Buenos Aires' por 'Capital Federal'
poblacion.loc[:, 'Nombre'] = poblacion['Nombre'].replace(
    'Ciudad Autónoma de Buenos Aires', 'Capital Federal'
)

# Verificar los cambios
print(poblacion['Nombre'].unique())


['Capital Federal' 'Buenos Aires' 'Catamarca' 'Chaco' 'Chubut' 'Córdoba'
 'Corrientes' 'Entre Ríos' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja'
 'Mendoza' 'Misiones' 'Neuquén' 'Río Negro' 'Salta' 'San Juan' 'San Luis'
 'Santa Cruz' 'Santa Fe' 'Santiago del Estero' 'Tierra Del Fuego'
 'Tucumán']


Aplicar la misma normalización que se viene utilizando hasta ahora en los nombres

In [15]:
# Convertir los datos de 'Nombre' en el DataFrame poblacion
poblacion.loc[:, 'Nombre'] = poblacion['Nombre'] \
    .str.lower() \
    .apply(lambda x: unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('utf-8') if isinstance(x, str) else x) \
    .str.title()

# Confirmar los cambios
print(poblacion['Nombre'].unique())

['Capital Federal' 'Buenos Aires' 'Catamarca' 'Chaco' 'Chubut' 'Cordoba'
 'Corrientes' 'Entre Rios' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja'
 'Mendoza' 'Misiones' 'Neuquen' 'Rio Negro' 'Salta' 'San Juan' 'San Luis'
 'Santa Cruz' 'Santa Fe' 'Santiago Del Estero' 'Tierra Del Fuego'
 'Tucuman']


In [16]:
poblacion

Unnamed: 0,Nombre,Poblacion 2010,Poblacion 2022
0,Capital Federal,2890151.0,3121707.0
1,Buenos Aires,15625084.0,17523996.0
2,Catamarca,367828.0,429562.0
3,Chaco,1055259.0,1129606.0
4,Chubut,509108.0,592621.0
5,Cordoba,3308876.0,3840905.0
6,Corrientes,992595.0,1212696.0
7,Entre Rios,1235994.0,1425578.0
8,Formosa,530162.0,607419.0
9,Jujuy,673307.0,811611.0


In [17]:
tabla_provincias

Unnamed: 0,Pais,Nombre,Superficie
0,Argentina,Buenos Aires,307571
1,Argentina,Catamarca,102602
2,Argentina,Chaco,99633
3,Argentina,Chubut,224686
4,Argentina,Cordoba,165321
5,Argentina,Corrientes,88199
6,Argentina,Entre Rios,78781
7,Argentina,Formosa,72066
8,Argentina,Jujuy,53219
9,Argentina,La Pampa,143440


### Obtener las columnas `latitud` y `longitud` 
Para la localización en el mapa

| Provincia             | Capital             | Latitud  | Longitud  |
|-----------------------|---------------------|----------|-----------|
| Buenos Aires          | La Plata            | -34.9214 | -57.9545  |
| Capital Federal       | Buenos Aires        | -34.6037 | -58.3816  |
| Catamarca             | Catamarca           | -28.4696 | -65.7852  |
| Chaco                 | Resistencia         | -27.4514 | -58.9867  |
| Chubut                | Rawson              | -43.3007 | -65.1023  |
| Córdoba               | Córdoba             | -31.4201 | -64.1888  |
| Corrientes            | Corrientes          | -27.4692 | -58.8306  |
| Entre Ríos            | Paraná              | -31.7319 | -60.5238  |
| Formosa               | Formosa             | -26.1849 | -58.1731  |
| Jujuy                 | San Salvador de Jujuy | -24.1858 | -65.2995  |
| La Pampa              | Santa Rosa          | -36.6206 | -64.2901  |
| La Rioja              | La Rioja            | -29.4135 | -66.8565  |
| Mendoza               | Mendoza             | -32.8895 | -68.8458  |
| Misiones              | Posadas             | -27.3625 | -55.9000  |
| Neuquén               | Neuquén             | -38.9516 | -68.0591  |
| Río Negro             | Viedma              | -40.8135 | -62.9967  |
| Salta                 | Salta               | -24.7821 | -65.4232  |
| San Juan              | San Juan            | -31.5375 | -68.5364  |
| San Luis              | San Luis            | -33.2950 | -66.3356  |
| Santa Cruz            | Río Gallegos        | -51.6230 | -69.2168  |
| Santa Fe              | Santa Fe            | -31.6239 | -60.6860  |
| Santiago del Estero   | Santiago del Estero | -27.7951 | -64.2615  |
| Tierra del Fuego      | Ushuaia             | -54.8019 | -68.3029  |
| Tucumán               | San Miguel de Tucumán | -26.8083 | -65.2176  |


In [18]:
# Crear el DataFrame a partir de los datos proporcionados
data = {
    "Nombre": [
        "Buenos Aires", "Catamarca", "Chaco", "Chubut", "Cordoba", "Corrientes", "Entre Rios",
        "Formosa", "Jujuy", "La Pampa", "La Rioja", "Mendoza", "Misiones", "Neuquen", "Rio Negro",
        "Salta", "San Juan", "San Luis", "Santa Cruz", "Santa Fe", "Santiago Del Estero",
        "Tierra Del Fuego", "Tucuman", "Capital Federal"
    ],
    "Latitud": [
        -34.9214, -28.4696, -27.4514, -43.3007, -31.4201, -27.4692, -31.7319, -26.1849, -24.1858,
        -36.6206, -29.4135, -32.8895, -27.3625, -38.9516, -40.8135, -24.7821, -31.5375, -33.2950,
        -51.6230, -31.6239, -27.7951, -54.8019, -26.8083, -34.6037
    ],
    "Longitud": [
        -57.9545, -65.7852, -58.9867, -65.1023, -64.1888, -58.8306, -60.5238, -58.1731, -65.2995,
        -64.2901, -66.8565, -68.8458, -55.9000, -68.0591, -62.9967, -65.4232, -68.5364, -66.3356,
        -69.2168, -60.6860, -64.2615, -68.3029, -65.2176, -58.3816
    ]
}

coordenadas = pd.DataFrame(data)
coordenadas


Unnamed: 0,Nombre,Latitud,Longitud
0,Buenos Aires,-34.9214,-57.9545
1,Catamarca,-28.4696,-65.7852
2,Chaco,-27.4514,-58.9867
3,Chubut,-43.3007,-65.1023
4,Cordoba,-31.4201,-64.1888
5,Corrientes,-27.4692,-58.8306
6,Entre Rios,-31.7319,-60.5238
7,Formosa,-26.1849,-58.1731
8,Jujuy,-24.1858,-65.2995
9,La Pampa,-36.6206,-64.2901


Obtener la columna `hogares`

In [19]:
# Cargar el archivo Excel
path = r'..\Datasets crudos\c2022_tp_gobierno_local_c1.xlsx'
excel_data = pd.ExcelFile(path)

hogares = pd.read_excel(path, sheet_name='Cuadro 1', header=3)

hogares.head()

Unnamed: 0,Código de jurisdicción,Jurisdicción,Código de gobierno local,Categoría,Gobierno local,Viviendas,Población,Viviendas\nparticulares,Población en\nviviendas\nparticulares,Viviendas\ncolectivas,Población\nen\nviviendas\ncolectivas,Población\nen situación\nde calle
0,,,Total,,,17794949.0,45892285.0,17783029.0,45618787.0,11920,267793,5705
1,2.0,Ciudad Autónoma de Buenos Aires,022007,CO,Comuna 1,130298.0,223554.0,130145.0,221001.0,153,2093,460
2,2.0,Ciudad Autónoma de Buenos Aires,022014,CO,Comuna 2,107544.0,161645.0,107498.0,160609.0,46,999,37
3,2.0,Ciudad Autónoma de Buenos Aires,022021,CO,Comuna 3,110368.0,196240.0,110264.0,193537.0,104,2455,248
4,2.0,Ciudad Autónoma de Buenos Aires,022028,CO,Comuna 4,100986.0,229240.0,100950.0,227024.0,36,1596,620


In [20]:
# Seleccionar solo las columnas necesarias
hogares = hogares.iloc[:, [1, 5]]

hogares.head()

Unnamed: 0,Jurisdicción,Viviendas
0,,17794949.0
1,Ciudad Autónoma de Buenos Aires,130298.0
2,Ciudad Autónoma de Buenos Aires,107544.0
3,Ciudad Autónoma de Buenos Aires,110368.0
4,Ciudad Autónoma de Buenos Aires,100986.0


In [21]:
hogares.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2294 entries, 0 to 2293
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Jurisdicción  2291 non-null   object 
 1   Viviendas     2292 non-null   float64
dtypes: float64(1), object(1)
memory usage: 36.0+ KB


In [22]:
# Dropear las filas con valores nulos en la columna "Jurisdicción"
hogares = hogares.dropna(subset=['Jurisdicción'])

# Confirmar el resultado
print(hogares.info())

<class 'pandas.core.frame.DataFrame'>
Index: 2291 entries, 1 to 2291
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Jurisdicción  2291 non-null   object 
 1   Viviendas     2291 non-null   float64
dtypes: float64(1), object(1)
memory usage: 53.7+ KB
None


In [23]:
hogares['Jurisdicción'].value_counts()

Jurisdicción
Córdoba                                                  428
Santa Fe                                                 365
Entre Ríos                                               241
Santiago del Estero                                      166
Buenos Aires                                             135
Tucumán                                                  113
La Pampa                                                  80
Misiones                                                  77
Corrientes                                                76
Río Negro                                                 75
Chaco                                                     70
San Luis                                                  68
Jujuy                                                     63
Salta                                                     60
Neuquén                                                   58
Chubut                                                    48
Formosa    

In [24]:
# Unificar en "Tierra del Fuego"
hogares['Jurisdicción'] = hogares['Jurisdicción'].replace(
    ['Tierra del Fuego, Antártida eIslas del Atlántico Sur', 'Tierra del Fuego, Antártida e Islas del Atlántico Sur'], 'Tierra del Fuego'
)

# Cambiar CABA a 'Capital Federal'
hogares['Jurisdicción'] = hogares['Jurisdicción'].replace(
    'Ciudad Autónoma de Buenos Aires', 'Capital Federal'
)

In [25]:
# Agrupar por "Jurisdicción" y sumar los valores de "Vivienda"
hogares = hogares.groupby('Jurisdicción', as_index=False)['Viviendas'].sum()

# Confirmar el resultado
print(len(hogares))

24


In [26]:
hogares

Unnamed: 0,Jurisdicción,Viviendas
0,Buenos Aires,6749094.0
1,Capital Federal,1615300.0
2,Catamarca,156412.0
3,Chaco,411396.0
4,Chubut,241242.0
5,Corrientes,408682.0
6,Córdoba,1616117.0
7,Entre Ríos,558566.0
8,Formosa,218678.0
9,Jujuy,266427.0


In [27]:
# Cambiar los encabezados
hogares.columns = ['Nombre', 'Hogares']

In [28]:
# Convertir los datos de 'Nombre' en el DataFrame hogares
hogares.loc[:, 'Nombre'] = hogares['Nombre'] \
    .str.lower() \
    .apply(lambda x: unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('utf-8') if isinstance(x, str) else x) \
    .str.title()

# Confirmar los cambios
print(hogares['Nombre'].unique())

['Buenos Aires' 'Capital Federal' 'Catamarca' 'Chaco' 'Chubut'
 'Corrientes' 'Cordoba' 'Entre Rios' 'Formosa' 'Jujuy' 'La Pampa'
 'La Rioja' 'Mendoza' 'Misiones' 'Neuquen' 'Rio Negro' 'Salta' 'San Juan'
 'San Luis' 'Santa Cruz' 'Santa Fe' 'Santiago Del Estero'
 'Tierra Del Fuego' 'Tucuman']


Obtener la columna `ingresos` 

In [29]:
# Cargar el archivo Excel
path = r'..\Datasets crudos\indicadores_eph_total_urbano_ingresos_3t_2023.xls'
excel_data = pd.ExcelFile(path)

ingresos = pd.read_excel(path, sheet_name='Cuadro 1', skiprows=3, header=[0, 1])
ingresos.head()

Unnamed: 0_level_0,Provincia,Provincia,Población,Población,Población,Población,Ingreso per cápita familiar,Ingreso per cápita familiar,Ingreso per cápita familiar,Ingreso per cápita familiar,Ingreso per cápita familiar,Ingreso per cápita familiar,Ingreso per cápita familiar
Unnamed: 0_level_1,Unnamed: 0_level_1,Unnamed: 1_level_1,Población (en miles),Población (en miles).1,Porcentaje de personas,Porcentaje de personas.1,Ingreso total por provincia (en miles),Ingreso total por provincia (en miles).1,Porcentaje del ingreso,Porcentaje del ingreso.1,Media,Media.1,Mediana
0,,,,,,,,,,,,,
1,Ciudad Autónoma de Buenos Aires,,3005.0,,7.1,,632179800.0,,12.7,,210376.0,,160000.0
2,Buenos Aires,,17467.0,,41.1,,2048469000.0,,41.1,,117278.0,,90500.0
3,Catamarca,,339.0,,0.8,,30329050.0,,0.6,,89532.0,,70429.0
4,Córdoba,,3488.0,,8.2,,410919200.0,,8.2,,117816.0,,90000.0


In [30]:
# Seleccionar solo las columnas necesarias
ingresos = ingresos.iloc[:, [0, 10]]

# Aplanar los encabezados
ingresos.columns = ['Nombre', 'Ingresos']

ingresos

Unnamed: 0,Nombre,Ingresos
0,,
1,Ciudad Autónoma de Buenos Aires,210376.0
2,Buenos Aires,117278.0
3,Catamarca,89532.0
4,Córdoba,117816.0
5,Corrientes,98616.0
6,Chaco,58294.0
7,Chubut,141400.0
8,Entre Ríos,100521.0
9,Formosa,74422.0


In [31]:
# Dropear las filas específicas
ingresos = ingresos.drop([0, 25, 26, 27], axis=0).reset_index(drop=True)

# Verificar el DataFrame después de eliminar las filas
ingresos

Unnamed: 0,Nombre,Ingresos
0,Ciudad Autónoma de Buenos Aires,210376.0
1,Buenos Aires,117278.0
2,Catamarca,89532.0
3,Córdoba,117816.0
4,Corrientes,98616.0
5,Chaco,58294.0
6,Chubut,141400.0
7,Entre Ríos,100521.0
8,Formosa,74422.0
9,Jujuy,83337.0


Normalizar los nombres

In [32]:
# Cambiar CABA a 'Capital Federal'
ingresos['Nombre'] = ingresos['Nombre'].replace(
    'Ciudad Autónoma de Buenos Aires', 'Capital Federal'
)

# Convertir los datos de 'Nombre' en el DataFrame hogares
ingresos.loc[:, 'Nombre'] = ingresos['Nombre'] \
    .str.lower() \
    .apply(lambda x: unicodedata.normalize('NFKD', x).encode('ascii', 'ignore').decode('utf-8') if isinstance(x, str) else x) \
    .str.title()

# Confirmar los cambios
print(ingresos['Nombre'].unique())

['Capital Federal' 'Buenos Aires' 'Catamarca' 'Cordoba' 'Corrientes'
 'Chaco' 'Chubut' 'Entre Rios' 'Formosa' 'Jujuy' 'La Pampa' 'La Rioja'
 'Mendoza' 'Misiones' 'Neuquen' 'Rio Negro' 'Salta' 'San Juan' 'San Luis'
 'Santa Cruz' 'Santa Fe' 'Santiago Del Estero' 'Tucuman'
 'Tierra Del Fuego']


In [33]:
# Merge entre tabla_provincias y hogares
provincia_hogares = pd.merge(
    tabla_provincias,      # Tabla con Nombre y Superficie
    hogares,               # Tabla con Nombre y Hogares
    on='Nombre',           # Clave de unión
    how='outer'            # Tipo de unión
)

# Merge del resultado con poblacion
provincia_hogares_poblacion = pd.merge(
    provincia_hogares,     # Resultado del primer merge
    poblacion,             # Tabla con Nombre, Población 2010 y 2022
    on='Nombre',           # Clave de unión
    how='outer'            # Tipo de unión
)

# Merge del resultado con poblacion
provincia_hogares_poblacion_coordenadas = pd.merge(
    provincia_hogares_poblacion,     # Resultado del segundo merge
    coordenadas,                     # Tabla con Nombre y coordenas
    on='Nombre',                     # Clave de unión
    how='outer'                      # Tipo de unión
)

# Merge del resultado con ingresos
provincia = pd.merge(
    provincia_hogares_poblacion_coordenadas,     # Resultado del tercer merge
    ingresos,                                    # Tabla con Nombre, ingresos
    on='Nombre',                                 # Clave de unión
    how='outer'                                  # Tipo de unión
)


# Confirmar el resultado
print(provincia.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 9 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   Pais            23 non-null     object 
 1   Nombre          24 non-null     object 
 2   Superficie      23 non-null     object 
 3   Hogares         24 non-null     float64
 4   Poblacion 2010  24 non-null     float64
 5   Poblacion 2022  24 non-null     float64
 6   Latitud         24 non-null     float64
 7   Longitud        24 non-null     float64
 8   Ingresos        24 non-null     float64
dtypes: float64(6), object(3)
memory usage: 1.8+ KB
None


Segun wikipedia (el link2), Capital Federal tiene una superfice de 203 km²

In [34]:
# Reemplazar el valor nulo de 'Superficie' con 203
provincia.loc[provincia['Superficie'].isna(), 'Superficie'] = 203

# Reemplazar el valor nulo de 'Pais' con 'Argentina'
provincia.loc[provincia['Pais'].isna(), 'Pais'] = 'Argentina'


In [None]:
provincia

Unnamed: 0,Pais,Nombre,Superficie,Hogares,Poblacion 2010,Poblacion 2022,Latitud,Longitud,Ingresos
0,Argentina,Buenos Aires,307571,6749094.0,15625084.0,17523996.0,-34.9214,-57.9545,117278.0
1,Argentina,Capital Federal,203,1615300.0,2890151.0,3121707.0,-34.6037,-58.3816,210376.0
2,Argentina,Catamarca,102602,156412.0,367828.0,429562.0,-28.4696,-65.7852,89532.0
3,Argentina,Chaco,99633,411396.0,1055259.0,1129606.0,-27.4514,-58.9867,58294.0
4,Argentina,Chubut,224686,241242.0,509108.0,592621.0,-43.3007,-65.1023,141400.0
5,Argentina,Cordoba,165321,1616117.0,3308876.0,3840905.0,-31.4201,-64.1888,117816.0
6,Argentina,Corrientes,88199,408682.0,992595.0,1212696.0,-27.4692,-58.8306,98616.0
7,Argentina,Entre Rios,78781,558566.0,1235994.0,1425578.0,-31.7319,-60.5238,100521.0
8,Argentina,Formosa,72066,218678.0,530162.0,607419.0,-26.1849,-58.1731,74422.0
9,Argentina,Jujuy,53219,266427.0,673307.0,811611.0,-24.1858,-65.2995,83337.0


In [36]:
# Agregar la columna 'id' con valores consecutivos comenzando desde 1
provincia['id_provincia'] = range(1, len(provincia) + 1)

# Confirmar el cambio
provincia.head()


Unnamed: 0,Pais,Nombre,Superficie,Hogares,Poblacion 2010,Poblacion 2022,Latitud,Longitud,Ingresos,id_provincia
0,Argentina,Buenos Aires,307571,6749094.0,15625084.0,17523996.0,-34.9214,-57.9545,117278.0,1
1,Argentina,Capital Federal,203,1615300.0,2890151.0,3121707.0,-34.6037,-58.3816,210376.0,2
2,Argentina,Catamarca,102602,156412.0,367828.0,429562.0,-28.4696,-65.7852,89532.0,3
3,Argentina,Chaco,99633,411396.0,1055259.0,1129606.0,-27.4514,-58.9867,58294.0,4
4,Argentina,Chubut,224686,241242.0,509108.0,592621.0,-43.3007,-65.1023,141400.0,5


In [37]:
provincia.to_csv(r'..\Datasets procesados\provincia.csv', index=False, encoding='utf-8')

# Tabla de fechas

In [38]:
# Crear un rango de años y trimestres
años = list(range(2014, 2025))  # Del 2014 al 2024
trimestres = [1, 2, 3, 4]

# Generar todas las combinaciones de Año y Trimestre
fecha = pd.DataFrame(
    [(año, trimestre) for año in años for trimestre in trimestres],
    columns=['Año', 'Trimestre']
)

# Agregar la columna 'Id' incremental
fecha['id_fecha'] = range(1, len(fecha) + 1)

In [39]:
# Mostrar la tabla resultante
fecha

Unnamed: 0,Año,Trimestre,id_fecha
0,2014,1,1
1,2014,2,2
2,2014,3,3
3,2014,4,4
4,2015,1,5
5,2015,2,6
6,2015,3,7
7,2015,4,8
8,2016,1,9
9,2016,2,10


In [40]:
fecha.to_csv(r'..\Datasets procesados\fecha.csv', index=False)