# Spain Population by region and year

Information coming from INE (https://www.ine.es/jaxiT3/Datos.htm?t=2915)

## Libraries import

In [1]:
# Ignore warnings
import warnings
warnings.filterwarnings('ignore')

# Imports
import pandas as pd

## Functions definition

In [2]:
# Read csv
def read_csv(path,sep_value,encoding_value):
    return pd.read_csv(path,sep=sep_value,encoding=encoding_value)

In [3]:
# Send data to csv
def send_to_csv(df,path):
    return df.to_csv(path)

In [4]:
# Row filter
def row_filter_limits(df, column,low_limit,high_limit):
    return df[(df[column]>=low_limit)&(df[column]<=high_limit)]

In [5]:
# Drop columns
def drop_columns(df,columns):
    return df.drop(columns, 1) 

In [6]:
# Replace values
def replace_values(df,column,old_value,new_value):
    return df[column].replace([old_value],[new_value])    

In [7]:
# Exclude 
def exclude(df,column,to_exclude):
    return df[~df[column].isin(to_exclude)]

## Data import

In [9]:
# Import dataframe
df_population=read_csv('../../data/SOTs/population/population.csv',';','latin-1')

# Filter period
df_population=row_filter_limits(df_population, 'Periodo',2015,2021)

# Simplify names
df_population['Comunidades y Ciudades Autónomas']=df_population['Comunidades y Ciudades Autónomas'].str[3:]

df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','al','Total')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Asturias, Principado de','Asturias')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Castilla - La Mancha','Castilla-La Mancha')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Comunitat Valenciana','Comunidad Valenciana')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Madrid, Comunidad de','Madrid')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Murcia, Región de','Murcia')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Navarra, Comunidad Foral de','Navarra')
df_population['Comunidades y Ciudades Autónomas'] = \
replace_values(df_population,'Comunidades y Ciudades Autónomas','Rioja, La','La Rioja')

# Exclude not needed regions
df_population=exclude(df_population,'Comunidades y Ciudades Autónomas',
                      ['Total','Balears, Illes','Canarias','Ceuta','Melilla'])

# Rename columns
df_population.rename(columns={'Comunidades y Ciudades Autónomas': 'Region', 
                               'Periodo': 'Year', 'Total': 'Population'}, inplace=True)

# Remove columns
df_population=drop_columns(df_population,'Tamaño de los municipios')

# Change data types
df_population['Population']=df_population['Population'].str.replace('.', '').astype(float)

# Send data to csv
send_to_csv(df_population,"../../data/raw_data/population.csv")

# Print info
df_population

Unnamed: 0,Region,Year,Population
26,Andalucía,2021,8472407.0
27,Andalucía,2020,8464411.0
28,Andalucía,2019,8414240.0
29,Andalucía,2018,8384408.0
30,Andalucía,2017,8379820.0
...,...,...,...
444,La Rioja,2019,316798.0
445,La Rioja,2018,315675.0
446,La Rioja,2017,315381.0
447,La Rioja,2016,315794.0
