# Preparación fichero superficie

## I. Importaciones

### I.1 Importación librerías

In [5]:
import pandas as pd

### I.2 Importación datos externos

Un webscraping no fue posible en este caso, por lo cual importamos por un formato csv puesto disponible en el mismo website de los datos.

fuente: https://bestat.statbel.fgov.be/bestat/crosstable.xhtml?view=a9d38c56-1d35-4d18-b1cc-00a43b17dfe7

In [7]:
superficie = pd.read_csv("TF_SUPERFICIE_arr.csv")
superficie.head()

Unnamed: 0,Gewest,Provincie,Arrondissement,Rubrieken niveau 1,Jaar,Totale oppervlakte
0,Vlaams Gewest,Provincie Antwerpen,Arrondissement Antwerpen,totale oppervlakte (6TOT),2021,100425.611
1,Vlaams Gewest,Provincie Antwerpen,Arrondissement Mechelen,totale oppervlakte (6TOT),2021,51182.994
2,Vlaams Gewest,Provincie Antwerpen,Arrondissement Turnhout,totale oppervlakte (6TOT),2021,136003.269
3,Vlaams Gewest,Provincie Vlaams-Brabant,Arrondissement Halle-Vilvoorde,totale oppervlakte (6TOT),2021,94910.94
4,Vlaams Gewest,Provincie Vlaams-Brabant,Arrondissement Leuven,totale oppervlakte (6TOT),2021,116924.252


## II. Preparación de los datos sobre la superficie para el análisis posterior

### II.1 Eliminación de las columnas no relevantes para nuestro propósito

In [8]:
superficie = superficie.drop(["Rubrieken niveau 1","Jaar"], axis = 1)
superficie.sample(5)

Unnamed: 0,Gewest,Provincie,Arrondissement,Totale oppervlakte
14,Vlaams Gewest,Provincie Oost-Vlaanderen,Arrondissement Dendermonde,34656.77
6,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Diksmuide,36502.695
11,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Tielt,33183.692
1,Vlaams Gewest,Provincie Antwerpen,Arrondissement Mechelen,51182.994
26,Waals Gewest,Provincie Henegouwen,Arrondissement Bergen,58843.733


### II.2 Layout: títulos columnas: adaptación de los nombres

In [9]:
#opción de dar nombre idéntico al nombre usado en otros dataframes (para facilitar operaciones entre ellos después)
superficie = superficie.rename(columns={"Gewest": "REGION", "Provincie": "PROV", "Arrondissement": "ADM_DSTR"})
superficie.sample(5)

Unnamed: 0,REGION,PROV,ADM_DSTR,Totale oppervlakte
3,Vlaams Gewest,Provincie Vlaams-Brabant,Arrondissement Halle-Vilvoorde,94910.94
33,Waals Gewest,Provincie Luik,Arrondissement Verviers,200960.159
27,Waals Gewest,Provincie Henegouwen,Arrondissement Zinnik,35760.683
21,Vlaams Gewest,Provincie Limburg,Arrondissement Tongeren,63311.687
4,Vlaams Gewest,Provincie Vlaams-Brabant,Arrondissement Leuven,116924.252


In [10]:
#igualar forma de todos los títulos a .upper(), abreviar título (sin patrón de modificación) y traducir título
superficie = superficie.rename(columns={"Totale oppervlakte": "TOT_SURFACE"})
superficie.sample(5)

Unnamed: 0,REGION,PROV,ADM_DSTR,TOT_SURFACE
15,Vlaams Gewest,Provincie Oost-Vlaanderen,Arrondissement Eeklo,33552.276
21,Vlaams Gewest,Provincie Limburg,Arrondissement Tongeren,63311.687
39,Waals Gewest,Provincie Luxemburg,Arrondissement Virton,77727.414
8,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Kortrijk,40614.255
18,Vlaams Gewest,Provincie Oost-Vlaanderen,Arrondissement Sint-Niklaas,47950.059


## II.3 Limpiar el dataframe de valores NaN

In [11]:
#limpiamos el dataframe de valores 0, basándonos en la argumentación más detallada ya llevado a cabo en d_pobl_2020
superficie['PROV'] = superficie['PROV'].fillna("Arr. Brussel-Hfdstad[no Prov]")
superficie

Unnamed: 0,REGION,PROV,ADM_DSTR,TOT_SURFACE
0,Vlaams Gewest,Provincie Antwerpen,Arrondissement Antwerpen,100425.611
1,Vlaams Gewest,Provincie Antwerpen,Arrondissement Mechelen,51182.994
2,Vlaams Gewest,Provincie Antwerpen,Arrondissement Turnhout,136003.269
3,Vlaams Gewest,Provincie Vlaams-Brabant,Arrondissement Halle-Vilvoorde,94910.94
4,Vlaams Gewest,Provincie Vlaams-Brabant,Arrondissement Leuven,116924.252
5,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Brugge,67324.492
6,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Diksmuide,36502.695
7,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Ieper,55371.56
8,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Kortrijk,40614.255
9,Vlaams Gewest,Provincie West-Vlaanderen,Arrondissement Oostende,30460.403


In [12]:
#después de la verificación visual, también por código:
superficie.isnull().sum()

REGION         0
PROV           0
ADM_DSTR       0
TOT_SURFACE    0
dtype: int64

Tenemos confirmación de que ya no hay ningún NaN.

## III. Preparación del dataframe relevante para su exportación

In [13]:
superficie.to_csv("Data_ACC/superficie.csv")