# In this second cleaning notebook, I proceed with the cleaning of Spanish Q4 2020 unemployment and employment rates database.

## 1. Importing libraries that are used.

In [1]:
import pandas as pd
import numpy as np
import sys
sys.path.insert(0, '../src')
import unittest
from call import *

## 2. Importing database and data exploration

In [2]:
employment = pd.read_csv("../data/empleo.csv", encoding = "ISO-8859-1",sep = (";"), engine='python', error_bad_lines=False, warn_bad_lines=False)

In [3]:
employment.shape

(53, 5)

In [4]:
employment.head()

Unnamed: 0,Sexo,Provincias,Tasas,Periodo,Total
0,Ambos sexos,Total Nacional,Tasa de empleo de la población,2020T4,48.81
1,Ambos sexos,02 Albacete,Tasa de empleo de la población,2020T4,48.63
2,Ambos sexos,03 Alicante/Alacant,Tasa de empleo de la población,2020T4,45.92
3,Ambos sexos,04 Almería,Tasa de empleo de la población,2020T4,47.09
4,Ambos sexos,01 Araba/Álava,Tasa de empleo de la población,2020T4,49.6


In [5]:
employment.columns

Index(['Sexo', 'Provincias', 'Tasas', 'Periodo', 'Total'], dtype='object')

In [6]:
employment.dtypes

Sexo           object
Provincias     object
Tasas          object
Periodo        object
Total         float64
dtype: object

## 3. Cleaning database

### 3.1. Renaming information content of an specific column.

In [7]:
employment = employment.rename(columns={'Total': 'Employment rate'})

### 3.2. Spliting information conent in column named "Provincias".

In [8]:
provincias = employment["Provincias"].str.split(" ", n = 1, expand = True)

In [9]:
employment["Provincias"] = provincias[1]

In [10]:
employment["Provincias"].unique()

array(['Nacional', 'Albacete', 'Alicante/Alacant', 'Almería',
       'Araba/Álava', 'Asturias', 'Ávila', 'Badajoz', 'Balears. Illes',
       'Barcelona', 'Bizkaia', 'Burgos', 'Cáceres', 'Cádiz', 'Cantabria',
       'Castellón/Castelló', 'Ciudad Real', 'Córdoba', 'Coruña. A',
       'Cuenca', 'Gipuzkoa', 'Girona', 'Granada', 'Guadalajara', 'Huelva',
       'Huesca', 'Jaén', 'León', 'Lleida', 'Lugo', 'Madrid', 'Málaga',
       'Murcia', 'Navarra', 'Ourense', 'Palencia', 'Palmas. Las',
       'Pontevedra', 'Rioja. La', 'Salamanca', 'Santa Cruz de Tenerife',
       'Segovia', 'Sevilla', 'Soria', 'Tarragona', 'Teruel', 'Toledo',
       'Valencia/València', 'Valladolid', 'Zamora', 'Zaragoza', 'Ceuta',
       'Melilla'], dtype=object)

### 3.3. Replacing values.

#### 3.3.1. Replacing vowels

In [11]:
# Function imported from call.py
employment["Provincias"] = employment["Provincias"].apply(normalize)

#### 3.3.2. Replacing the names of the provinces with the names that appear in the restaurants' database

In [12]:
employment.loc[employment["Provincias"] == "Alicante/Alacant", "Provincias"] = "Alicante"
employment.loc[employment["Provincias"] == "Coruña, A", "Provincias"] = "La Coruna"
employment.loc[employment["Provincias"] == "Rioja, La", "Provincias"] = "La Rioja"
employment.loc[employment["Provincias"] == "Bizkaia", "Provincias"] = "Vizcaya"
employment.loc[employment["Provincias"] == "Araba/Alava", "Provincias"] = "Alava"
employment.loc[employment["Provincias"] == "Castellon/Castello", "Provincias"] = "Castellon"
employment.loc[employment["Provincias"] == "Lleida", "Provincias"] = "Lerida"
employment.loc[employment["Provincias"] == "Gipuzkoa", "Provincias"] = "Guipuzcua"
employment.loc[employment["Provincias"] == "Girona", "Provincias"] = "Gerona"
employment.loc[employment["Provincias"] == "Valencia/València", "Provincias"] = "Valencia"
employment.loc[employment["Provincias"] == "Balears, Illes", "Provincias"] = "Islas Baleares"
employment.loc[employment["Provincias"] == "Palmas, Las", "Provincias"] = "Las Palmas"

In [13]:
employment.Provincias.unique()

array(['Nacional', 'Albacete', 'Alicante', 'Almeria', 'Alava', 'Asturias',
       'Avila', 'Badajoz', 'Balears. Illes', 'Barcelona', 'Vizcaya',
       'Burgos', 'Caceres', 'Cadiz', 'Cantabria', 'Castellon',
       'Ciudad Real', 'Cordoba', 'Coruña. A', 'Cuenca', 'Guipuzcua',
       'Gerona', 'Granada', 'Guadalajara', 'Huelva', 'Huesca', 'Jaen',
       'Leon', 'Lerida', 'Lugo', 'Madrid', 'Malaga', 'Murcia', 'Navarra',
       'Ourense', 'Palencia', 'Palmas. Las', 'Pontevedra', 'Rioja. La',
       'Salamanca', 'Santa Cruz de Tenerife', 'Segovia', 'Sevilla',
       'Soria', 'Tarragona', 'Teruel', 'Toledo', 'Valencia', 'Valladolid',
       'Zamora', 'Zaragoza', 'Ceuta', 'Melilla'], dtype=object)

In [14]:
employment.shape

(53, 5)

### 3.4. Drop unnecessary column

In [15]:
employment = employment.drop(['Tasas','Periodo','Sexo'], axis=1)

In [16]:
employment.head()

Unnamed: 0,Provincias,Employment rate
0,Nacional,48.81
1,Albacete,48.63
2,Alicante,45.92
3,Almeria,47.09
4,Alava,49.6


## 4. Exporting cleaning data

In [17]:
employment = employment.reset_index(drop = True)

In [18]:
employment.head()

Unnamed: 0,Provincias,Employment rate
0,Nacional,48.81
1,Albacete,48.63
2,Alicante,45.92
3,Almeria,47.09
4,Alava,49.6


In [19]:
employment.to_csv("../output/employment.csv", index = False)