# Limpieza datos Censo Poblacion

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.formula.api as snf
import seaborn as sns

In [4]:
Poblacion = pd.read_csv("Poblacion.csv", delimiter= ";", encoding = "latin1")

Poblacion.columns = Poblacion.columns.str.strip()

In [6]:
Poblacion.head(5)

Unnamed: 0,Edad simple,Sexo,Provincias,Periodo,Total
0,Todas las edades,Total,02 Albacete,1 de enero de 2021,386.726
1,Todas las edades,Total,02 Albacete,1 de enero de 2020,387.838
2,Todas las edades,Total,02 Albacete,1 de enero de 2019,387.818
3,Todas las edades,Total,02 Albacete,1 de enero de 2018,388.948
4,Todas las edades,Total,02 Albacete,1 de enero de 2017,390.225


In [8]:
print(Poblacion.columns)

Index(['Edad simple', 'Sexo', 'Provincias', 'Periodo', 'Total'], dtype='object')


In [10]:
Poblacion.shape

(1560, 5)

In [12]:
Poblacion.dtypes

Edad simple    object
Sexo           object
Provincias     object
Periodo        object
Total          object
dtype: object

In [14]:
# Limpieza columna total 

Poblacion['Total'] = Poblacion['Total'].str.replace(r'[^\d]', '', regex=True)
Poblacion['Total'] = pd.to_numeric(Poblacion['Total'], errors='coerce').fillna(0).astype(int)


In [16]:
Poblacion = Poblacion.rename(columns={'Total':'Habitantes'})

In [18]:
Poblacion['Habitantes'].head(10)

0    386726
1    387838
2    387818
3    388948
4    390225
5    391865
6    394012
7    396017
8    399093
9    401590
Name: Habitantes, dtype: int32

In [20]:
Poblacion.dtypes

Edad simple    object
Sexo           object
Provincias     object
Periodo        object
Habitantes      int32
dtype: object

In [22]:
Poblacion['Periodo'].unique()

array(['1 de enero de 2021', '1 de enero de 2020', '1 de enero de 2019',
       '1 de enero de 2018', '1 de enero de 2017', '1 de enero de 2016',
       '1 de enero de 2015', '1 de enero de 2014', '1 de enero de 2013',
       '1 de enero de 2012'], dtype=object)

In [24]:
mapeo_periodo = {
    "1 de enero de 2021": 2021,
    "1 de enero de 2020": 2020,
    "1 de enero de 2019": 2019,
    "1 de enero de 2018": 2018,
    "1 de enero de 2017": 2017,
    "1 de enero de 2016": 2016,
    "1 de enero de 2015": 2015,
    "1 de enero de 2014": 2014,
    "1 de enero de 2013": 2013,
    "1 de enero de 2012": 2012
}
Poblacion['Periodo'] = Poblacion['Periodo'].map(mapeo_periodo)

In [26]:
Poblacion['Periodo'].head()

0    2021
1    2020
2    2019
3    2018
4    2017
Name: Periodo, dtype: int64

In [28]:
Poblacion['Periodo'] = pd.to_datetime(Poblacion['Periodo'], format='%Y')


In [30]:
Poblacion.dtypes

Edad simple            object
Sexo                   object
Provincias             object
Periodo        datetime64[ns]
Habitantes              int32
dtype: object

In [32]:
Poblacion = Poblacion.drop(columns=['Edad simple'])

In [34]:
Poblacion = Poblacion .rename(columns={'Periodo': 'Año'})


In [36]:
Poblacion['Año'] = pd.to_datetime(Poblacion['Año'], errors='coerce')
Poblacion['Año'] = Poblacion['Año'].dt.year


In [38]:
Poblacion.head()

Unnamed: 0,Sexo,Provincias,Año,Habitantes
0,Total,02 Albacete,2021,386726
1,Total,02 Albacete,2020,387838
2,Total,02 Albacete,2019,387818
3,Total,02 Albacete,2018,388948
4,Total,02 Albacete,2017,390225


In [40]:
columna_duplicada = Poblacion['Provincias']
if 'ColumnaDuplicada' in Poblacion.columns:
    Poblacion.drop(columns=['ColumnaDuplicada'], inplace=True)
Poblacion.insert(2, 'ColumnaDuplicada', columna_duplicada)

In [42]:
Poblacion.rename(
    columns = {'ColumnaDuplicada': 'Provincia_ID'},
    inplace = True
)

In [44]:
columna_fecha = Poblacion.pop('Año')
Poblacion.insert(0, 'Año', columna_fecha)

In [46]:
columna_Sexo = Poblacion.pop('Sexo')
Poblacion.insert(3, 'Sexo', columna_Sexo)

In [48]:
Poblacion.head(3)

Unnamed: 0,Año,Provincias,Provincia_ID,Sexo,Habitantes
0,2021,02 Albacete,02 Albacete,Total,386726
1,2020,02 Albacete,02 Albacete,Total,387838
2,2019,02 Albacete,02 Albacete,Total,387818


In [50]:
Poblacion.rename(columns= {'Provincias':'Provincia'}, inplace=True)

In [52]:
Poblacion.head(3)

Unnamed: 0,Año,Provincia,Provincia_ID,Sexo,Habitantes
0,2021,02 Albacete,02 Albacete,Total,386726
1,2020,02 Albacete,02 Albacete,Total,387838
2,2019,02 Albacete,02 Albacete,Total,387818


In [54]:
Poblacion['Provincia'].unique()

array(['02 Albacete', '03 Alicante/Alacant', '04 Almería',
       '01 Araba/Álava', '33 Asturias', '05 Ávila', '06 Badajoz',
       '07 Balears, Illes', '08 Barcelona', '48 Bizkaia', '09 Burgos',
       '10 Cáceres', '11 Cádiz', '39 Cantabria', '12 Castellón/Castelló',
       '13 Ciudad Real', '14 Córdoba', '15 Coruña, A', '16 Cuenca',
       '20 Gipuzkoa', '17 Girona', '18 Granada', '19 Guadalajara',
       '21 Huelva', '22 Huesca', '23 Jaén', '24 León', '25 Lleida',
       '27 Lugo', '28 Madrid', '29 Málaga', '30 Murcia', '31 Navarra',
       '32 Ourense', '34 Palencia', '35 Palmas, Las', '36 Pontevedra',
       '26 Rioja, La', '37 Salamanca', '38 Santa Cruz de Tenerife',
       '40 Segovia', '41 Sevilla', '42 Soria', '43 Tarragona',
       '44 Teruel', '45 Toledo', '46 Valencia/València', '47 Valladolid',
       '49 Zamora', '50 Zaragoza', '51 Ceuta', '52 Melilla'], dtype=object)

In [56]:
mapeo_provincias2 = {
    "01 Araba/Álava": "Álava",
    "02 Albacete": "Albacete",
    "03 Alicante/Alacant": "Alicante",
    "04 Almería": "Almería",
    "05 Ávila": "Ávila",
    "06 Badajoz": "Badajoz",
    "07 Balears, Illes": "Islas Baleares",
    "08 Barcelona": "Barcelona",
    "09 Burgos": "Burgos",
    "10 Cáceres": "Cáceres",
    "11 Cádiz": "Cádiz",
    "12 Castellón/Castelló": "Castellón",
    "13 Ciudad Real": "Ciudad Real",
    "14 Córdoba": "Córdoba",
    "15 Coruña, A": "A Coruña",
    "16 Cuenca": "Cuenca",
    "17 Girona": "Girona",
    "18 Granada": "Granada",
    "19 Guadalajara": "Guadalajara",
    "20 Gipuzkoa": "Gipuzkoa",
    "21 Huelva": "Huelva",
    "22 Huesca": "Huesca",
    "23 Jaén": "Jaén",
    "24 León": "León",
    "25 Lleida": "Lleida",
    "26 Rioja, La": "La Rioja",
    "27 Lugo": "Lugo",
    "28 Madrid": "Madrid",
    "29 Málaga": "Málaga",
    "30 Murcia": "Murcia",
    "31 Navarra": "Navarra",
    "32 Ourense": "Ourense",
    "33 Asturias": "Asturias",
    "34 Palencia": "Palencia",
    "35 Palmas, Las": "Islas Canarias",
    "36 Pontevedra": "Pontevedra",
    "37 Salamanca": "Salamanca",
    "38 Santa Cruz de Tenerife": "Islas Canarias",
    "39 Cantabria": "Cantabria",
    "40 Segovia": "Segovia",
    "41 Sevilla": "Sevilla",
    "42 Soria": "Soria",
    "43 Tarragona": "Tarragona",
    "44 Teruel": "Teruel",
    "45 Toledo": "Toledo",
    "46 Valencia/València": "Valencia",
    "47 Valladolid": "Valladolid",
    "48 Bizkaia": "Bizkaia",
    "49 Zamora": "Zamora",
    "50 Zaragoza": "Zaragoza",
    "51 Ceuta": "Ceuta",
    "52 Melilla": "Melilla"
}

Poblacion['Provincia'] = Poblacion['Provincia'].map(mapeo_provincias2)

In [58]:
mapeo_provinciasID = {
    "01 Araba/Álava": 1,
    "02 Albacete": 2,
    "03 Alicante/Alacant": 3,
    "04 Almería": 4,
    "05 Ávila": 5,
    "06 Badajoz": 6,
    "07 Balears, Illes": 7,
    "08 Barcelona": 8,
    "09 Burgos": 9,
    "10 Cáceres": 10,
    "11 Cádiz": 11,
    "12 Castellón/Castelló": 12,
    "13 Ciudad Real": 13,
    "14 Córdoba": 14,
    "15 Coruña, A": 15,
    "16 Cuenca": 16,
    "17 Girona": 17,
    "18 Granada": 18,
    "19 Guadalajara": 19,
    "20 Gipuzkoa": 20,
    "21 Huelva": 21,
    "22 Huesca": 22,
    "23 Jaén": 23,
    "24 León": 24,
    "25 Lleida": 25,
    "26 Rioja, La": 26,
    "27 Lugo": 27,
    "28 Madrid": 28,
    "29 Málaga": 29,
    "30 Murcia": 30,
    "31 Navarra": 31,
    "32 Ourense": 32,
    "33 Asturias": 33,
    "34 Palencia": 34,
    "35 Palmas, Las": 36,
    "36 Pontevedra": 37,
    "37 Salamanca": 38,
    "38 Santa Cruz de Tenerife": 38,
    "39 Cantabria": 39,
    "40 Segovia": 40,
    "41 Sevilla": 41,
    "42 Soria": 42,
    "43 Tarragona": 43,
    "44 Teruel": 44,
    "45 Toledo": 45,
    "46 Valencia/València": 46,
    "47 Valladolid": 47,
    "48 Bizkaia": 48,
    "49 Zamora": 49,
    "50 Zaragoza": 50,
    "51 Ceuta": 51,
    "52 Melilla": 52
}

Poblacion['Provincia_ID'] = Poblacion['Provincia_ID'].map(mapeo_provinciasID)

In [60]:
Poblacion.head(10)

Unnamed: 0,Año,Provincia,Provincia_ID,Sexo,Habitantes
0,2021,Albacete,2,Total,386726
1,2020,Albacete,2,Total,387838
2,2019,Albacete,2,Total,387818
3,2018,Albacete,2,Total,388948
4,2017,Albacete,2,Total,390225
5,2016,Albacete,2,Total,391865
6,2015,Albacete,2,Total,394012
7,2014,Albacete,2,Total,396017
8,2013,Albacete,2,Total,399093
9,2012,Albacete,2,Total,401590


In [63]:
Poblacion = Poblacion[Poblacion['Sexo'] != 'Total']

In [66]:
Poblacion = Poblacion.reset_index()

In [69]:
Poblacion.drop('index', axis=1, inplace=True)

In [72]:
Poblacion

Unnamed: 0,Año,Provincia,Provincia_ID,Sexo,Habitantes
0,2021,Albacete,2,Hombres,193487
1,2020,Albacete,2,Hombres,193913
2,2019,Albacete,2,Hombres,193806
3,2018,Albacete,2,Hombres,194405
4,2017,Albacete,2,Hombres,195065
...,...,...,...,...,...
1035,2016,Melilla,52,Mujeres,41749
1036,2015,Melilla,52,Mujeres,41451
1037,2014,Melilla,52,Mujeres,41006
1038,2013,Melilla,52,Mujeres,40479


In [76]:
Poblacion.to_csv('Censo.csv', index=False)