# In this second cleaning notebook, I proceed with the cleaning of Spanish Q4 2020 unemployment and employment rates database.

## 1. Importing libraries that are used.

In [1]:
import pandas as pd
import numpy as np

## 2. Import database and data exploration

In [2]:
tasas = pd.read_csv("../data/tasas.csv", encoding = "ISO-8859-1",sep = (";"), engine='python', error_bad_lines=False, warn_bad_lines=False)

In [3]:
tasas.shape

(106, 5)

In [4]:
tasas.head()

Unnamed: 0,Sexo,Provincias,Tasas,Periodo,Total
0,Ambos sexos,Total Nacional,Tasa de paro de la población,2020T4,1613
1,Ambos sexos,Total Nacional,Tasa de empleo de la población,2020T4,4881
2,Ambos sexos,02 Albacete,Tasa de paro de la población,2020T4,1744
3,Ambos sexos,02 Albacete,Tasa de empleo de la población,2020T4,4863
4,Ambos sexos,03 Alicante/Alacant,Tasa de paro de la población,2020T4,1941


In [5]:
tasas.columns

Index(['Sexo', 'Provincias', 'Tasas', 'Periodo', 'Total'], dtype='object')

In [6]:
tasas.dtypes

Sexo          object
Provincias    object
Tasas         object
Periodo       object
Total         object
dtype: object

## 3. Cleaning database

### 3.1. Renaming information content of an specific column.

In [7]:
tasas.loc[tasas["Tasas"] == "Tasa de paro de la población", "Tasas"] = "Paro"
tasas.loc[tasas["Tasas"] == "Tasa de empleo de la población", "Tasas"] = "Empleo"
tasas["Tasas"].value_counts()

Paro      53
Empleo    53
Name: Tasas, dtype: int64

### 3.2. Spliting information conent in column named "Provincias".

In [8]:
provincias = tasas["Provincias"].str.split(" ", n = 1, expand = True)

In [9]:
tasas["Provincias"] = provincias[1]

In [10]:
tasas["Provincias"].unique()

array(['Nacional', 'Albacete', 'Alicante/Alacant', 'Almería',
       'Araba/Álava', 'Asturias', 'Ávila', 'Badajoz', 'Balears, Illes',
       'Barcelona', 'Bizkaia', 'Burgos', 'Cáceres', 'Cádiz', 'Cantabria',
       'Castellón/Castelló', 'Ciudad Real', 'Córdoba', 'Coruña, A',
       'Cuenca', 'Gipuzkoa', 'Girona', 'Granada', 'Guadalajara', 'Huelva',
       'Huesca', 'Jaén', 'León', 'Lleida', 'Lugo', 'Madrid', 'Málaga',
       'Murcia', 'Navarra', 'Ourense', 'Palencia', 'Palmas, Las',
       'Pontevedra', 'Rioja, La', 'Salamanca', 'Santa Cruz de Tenerife',
       'Segovia', 'Sevilla', 'Soria', 'Tarragona', 'Teruel', 'Toledo',
       'Valencia/València', 'Valladolid', 'Zamora', 'Zaragoza', 'Ceuta',
       'Melilla'], dtype=object)

### 3.3. Replacing values.

#### 3.3.1. Replacing vowels

In [11]:
def normalize(s):
# Function to replace vowels accented by the same unaccented vowels.

    replacements = (
        ("á", "a"),
        ("é", "e"),
        ("í", "i"),
        ("ó", "o"),
        ("ú", "u")
    )
    for a, b in replacements:
        s = s.replace(a, b).replace(a.upper(), b.upper())
    return s

In [12]:
tasas["Provincias"] = tasas["Provincias"].apply(normalize)

#### 3.3.2. Replacingthe names of the provinces with the names that appear in the restaurants' database

In [13]:
tasas.loc[tasas["Provincias"] == "Alicante/Alacant", "Provincias"] = "Alicante"
tasas.loc[tasas["Provincias"] == "Coruña, A", "Provincias"] = "La Coruna"
tasas.loc[tasas["Provincias"] == "Rioja, La", "Provincias"] = "La Rioja"
tasas.loc[tasas["Provincias"] == "Bizkaia", "Provincias"] = "Vizcaya"
tasas.loc[tasas["Provincias"] == "Araba/Alava", "Provincias"] = "Alava"
tasas.loc[tasas["Provincias"] == "Castellon/Castello", "Provincias"] = "Castellon"
tasas.loc[tasas["Provincias"] == "Lleida", "Provincias"] = "Lerida"
tasas.loc[tasas["Provincias"] == "Gipuzkoa", "Provincias"] = "Guipuzcua"
tasas.loc[tasas["Provincias"] == "Girona", "Provincias"] = "Gerona"

In [14]:
tasas.Provincias.unique()

array(['Nacional', 'Albacete', 'Alicante', 'Almeria', 'Alava', 'Asturias',
       'Avila', 'Badajoz', 'Balears, Illes', 'Barcelona', 'Vizcaya',
       'Burgos', 'Caceres', 'Cadiz', 'Cantabria', 'Castellon',
       'Ciudad Real', 'Cordoba', 'La Coruna', 'Cuenca', 'Guipuzcua',
       'Gerona', 'Granada', 'Guadalajara', 'Huelva', 'Huesca', 'Jaen',
       'Leon', 'Lerida', 'Lugo', 'Madrid', 'Malaga', 'Murcia', 'Navarra',
       'Ourense', 'Palencia', 'Palmas, Las', 'Pontevedra', 'La Rioja',
       'Salamanca', 'Santa Cruz de Tenerife', 'Segovia', 'Sevilla',
       'Soria', 'Tarragona', 'Teruel', 'Toledo', 'Valencia/València',
       'Valladolid', 'Zamora', 'Zaragoza', 'Ceuta', 'Melilla'],
      dtype=object)

## 4. Exporting cleaning data

In [15]:
tasas = tasas.reset_index(drop = True)

In [16]:
tasas.head()

Unnamed: 0,Sexo,Provincias,Tasas,Periodo,Total
0,Ambos sexos,Nacional,Paro,2020T4,1613
1,Ambos sexos,Nacional,Empleo,2020T4,4881
2,Ambos sexos,Albacete,Paro,2020T4,1744
3,Ambos sexos,Albacete,Empleo,2020T4,4863
4,Ambos sexos,Alicante,Paro,2020T4,1941


In [17]:
tasas.to_csv("../output/tasas.csv", index = False)