### Importo librerías.

In [1]:
# Importo librerías necesarias para el preprocesamiento.
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

### Leo el dataset con el que voy a trabajar en este notebook.

In [2]:
# Leo el dataset con los datos de las comunidades autónomas.
comunidades = pd.read_csv("/Users/angelpastorsanchez/Documents/VSCode/SAMPLEREPO/w_datasets/poblacion/preprocesamiento/datasets/comunidades.csv", sep = ";")

In [3]:
# Quiero obtener una vista previa del dataset. Descubro que contiene una serie temporal del 
# total nacional y otra por comunidades, desde 1998 hasta 2021.
comunidades.head(50)

Unnamed: 0,Comunidades y Ciudades AutÛnomas,TamaÒo de los municipios,Periodo,Total
0,Total,Total,2021,47.385.107
1,Total,Total,2020,47.450.795
2,Total,Total,2019,47.026.208
3,Total,Total,2018,46.722.980
4,Total,Total,2017,46.572.132
5,Total,Total,2016,46.557.008
6,Total,Total,2015,46.624.382
7,Total,Total,2014,46.771.341
8,Total,Total,2013,47.129.783
9,Total,Total,2012,47.265.321


In [4]:
# Cambio los nombres de algunas columnas para que me sea más fácil trabajar con ellas.
comunidades.rename(columns = {"Comunidades y Ciudades AutÛnomas": "CCAA",
                            "TamaÒo de los municipios": "Tamaño",
                            "Periodo": "Año",
                            }, inplace = True)

In [5]:
# Quiero saber los valores de la columna tamaño.
comunidades["Tamaño"].value_counts()

Total    480
Name: Tamaño, dtype: int64

In [6]:
# Elimino la columna tamaño porque solo tiene un valor, por lo que no me aporta nada.
comunidades.drop(["Tamaño"], axis = 1, inplace = True)

In [7]:
# Obtengo información sobre el dataframe.
comunidades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 480 entries, 0 to 479
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   CCAA    480 non-null    object
 1   Año     480 non-null    int64 
 2   Total   480 non-null    object
dtypes: int64(1), object(2)
memory usage: 11.4+ KB


In [8]:
# Quiero cambiar el total de object a integer, para ello antes debo eliminar los puntos de dicha columna.
comunidades["Total"] = comunidades["Total"].str.replace(".", "", regex = True)

In [9]:
# Cambio el tipo de dato de la columna Total.
comunidades["Total"] = pd.to_numeric(comunidades["Total"])

In [10]:
# Compruebo que he realizado bien el cambio de tipo.
comunidades.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 480 entries, 0 to 479
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   CCAA    480 non-null    object
 1   Año     480 non-null    int64 
 2   Total   480 non-null    int64 
dtypes: int64(2), object(1)
memory usage: 11.4+ KB


In [11]:
# Compruebo que he realizado bien los cambios hasta ahora.
comunidades

Unnamed: 0,CCAA,Año,Total
0,Total,2021,47385107
1,Total,2020,47450795
2,Total,2019,47026208
3,Total,2018,46722980
4,Total,2017,46572132
...,...,...,...
475,19 Melilla,2002,69184
476,19 Melilla,2001,68789
477,19 Melilla,2000,66263
478,19 Melilla,1999,56929


In [12]:
# Creo una copia del dataset que solo contenga los datos del total del pais.
españa = comunidades[comunidades["CCAA"] == "Total"].copy()

In [13]:
# Compruebo que lo he hecho bien.
españa

Unnamed: 0,CCAA,Año,Total
0,Total,2021,47385107
1,Total,2020,47450795
2,Total,2019,47026208
3,Total,2018,46722980
4,Total,2017,46572132
5,Total,2016,46557008
6,Total,2015,46624382
7,Total,2014,46771341
8,Total,2013,47129783
9,Total,2012,47265321


In [14]:
# Genero otra copia que solo contenga la serie anual de las diferentes comunidades.
comunidades_serie_anual = comunidades[comunidades["CCAA"] != "Total"].copy()

In [15]:
# Compruebo que lo he hecho bien.
comunidades_serie_anual

Unnamed: 0,CCAA,Año,Total
24,01 AndalucÌa,2021,8472407
25,01 AndalucÌa,2020,8464411
26,01 AndalucÌa,2019,8414240
27,01 AndalucÌa,2018,8384408
28,01 AndalucÌa,2017,8379820
...,...,...,...
475,19 Melilla,2002,69184
476,19 Melilla,2001,68789
477,19 Melilla,2000,66263
478,19 Melilla,1999,56929


In [16]:
# En la columna CCAA, el nombre de las comunidades aparece precedido por un número. Lo elimino.
comunidades_serie_anual["CCAA"] = comunidades_serie_anual["CCAA"].str.replace("\d+", "").str.strip()

  comunidades_serie_anual["CCAA"] = comunidades_serie_anual["CCAA"].str.replace("\d+", "").str.strip()


In [17]:
# Compruebo los valores de la columna para ver si he realizado bien el paso anterior.
comunidades_serie_anual["CCAA"].value_counts()

AndalucÌa               24
Extremadura             24
Ceuta                   24
La Rioja                24
PaÌs Vasco              24
Navarra                 24
Murcia                  24
Madrid                  24
Galicia                 24
Comunitat Valenciana    24
AragÛn                  24
CataluÒa                24
Castilla  La Mancha     24
Castilla y LeÛn         24
Cantabria               24
Canarias                24
Islas Baleares          24
Asturias                24
Melilla                 24
Name: CCAA, dtype: int64

### Leo dataset extra con información varia de las comunidades autónomas.

In [18]:
# Leo un dataset encontrado a última hora con información interesante sobre las comunidades autónomas.
# Mantendré el dataframe de las comunidades con la evolución a lo largo de los años por ser interesante,
# pero usaré este para el análisis actual por ser de 2022 (el otro es de 2021) y tener información complementaria.
comunidades_autonomas = pd.read_csv("/Users/angelpastorsanchez/Documents/VSCode/SAMPLEREPO/w_datasets/poblacion/preprocesamiento/datasets/comunidades_autonomas.csv", sep = ";")
comunidades_autonomas

Unnamed: 0.1,Unnamed: 0,Nombre,Capital (*de iure* o en su defecto *de facto*),Población,Porcentaje población,Densidad (hab./km²),Superficie (km²),Porcentaje superficie,Mapa,PIB per cápita en € (2021),Unnamed: 10,Unnamed: 11,Unnamed: 12
0,1,Andalucía,Sevilla,8 500 187,"17,87%",9705,87 599,"17,31%",,18 906,,,
1,2,Cataluña,Barcelona,7 792 611,"16,38%",23884,32 113,"6,35%",,29 942,,,
2,3,Madrid,Madrid,6 750 336,"14,24%",84115,8028,"1,59%",,34 821,,,
3,4,Comunidad Valenciana,Valencia,5 097 967,"10,67%",21698,23 255,"4,60%",,22 289,,,
4,5,Galicia,Santiago de Compostela,2 690 464,"5,68%",9119,29 575,"5,84%",,23 499,,,
5,6,Castilla y León,Valladolid[nota 1],2 372 640,"5,02%",2534,94 224,"18,62%",,24 428,,,
6,7,País Vasco,Vitoria[nota 1],2 208 174,"4,67%",30213,7234,"1,43%",,32 925,,,
7,8,Canarias,Las Palmas de Gran Canaria y Santa Cruz de Ten...,2 177 701,"4,58%",30139,7447,"1,47%",,18 990,,,
8,9,Castilla-La Mancha,Toledo,2 053 328,"4,32%",2579,79 461,"15,70%",,20 655,,,
9,10,Región de Murcia,Murcia,1 531 878,"3,20%",13374,11 314,"2,24%",,21 236,,,


In [19]:
# Obtengo información.
comunidades_autonomas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 13 columns):
 #   Column                                          Non-Null Count  Dtype  
---  ------                                          --------------  -----  
 0   Unnamed: 0                                      20 non-null     object 
 1   Nombre                                          20 non-null     object 
 2   Capital (*de iure* o en su defecto *de facto*)  20 non-null     object 
 3   Población                                       20 non-null     object 
 4   Porcentaje población                            20 non-null     object 
 5   Densidad (hab./km²)                             20 non-null     object 
 6   Superficie (km²)                                20 non-null     object 
 7   Porcentaje superficie                           20 non-null     object 
 8   Mapa                                            1 non-null      object 
 9   PIB per cápita en € (2021)                   

In [20]:
# Elimino los espacios entre los números de las columnas que lo requieran para poder transformar sus tipos.
comunidades_autonomas["Población"] = comunidades_autonomas["Población"].str.replace(" ", "", regex = True)
comunidades_autonomas["Superficie (km²)"] = comunidades_autonomas["Superficie (km²)"].str.replace(" ", "", regex = True)
comunidades_autonomas["PIB per cápita en € (2021)"] = comunidades_autonomas["PIB per cápita en € (2021)"].str.replace(" ", "", regex = True)

In [21]:
# Elimino las columnas que considero innecesarias.
comunidades_autonomas.drop(["Capital (*de iure* o en su defecto *de facto*)", "Unnamed: 0", "Mapa", "Unnamed: 10", "Unnamed: 11", "Unnamed: 12"], axis = 1, inplace = True)

In [22]:
# Cambio el tipo a las columnas que lo requieren.
comunidades_autonomas["Población"] = comunidades_autonomas["Población"].astype("int")
comunidades_autonomas["Superficie (km²)"] = comunidades_autonomas["Superficie (km²)"].astype("int")
comunidades_autonomas["PIB per cápita en € (2021)"] = comunidades_autonomas["PIB per cápita en € (2021)"].astype("int")

In [23]:
# Compruebo que he realizado bien el cambio.
comunidades_autonomas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 7 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   Nombre                      20 non-null     object
 1   Población                   20 non-null     int64 
 2   Porcentaje población        20 non-null     object
 3   Densidad (hab./km²)         20 non-null     object
 4   Superficie (km²)            20 non-null     int64 
 5   Porcentaje superficie       20 non-null     object
 6   PIB per cápita en € (2021)  20 non-null     int64 
dtypes: int64(3), object(4)
memory usage: 1.2+ KB


In [24]:
# Obtengo vista previa del dataframe para ver como ha quedado.
comunidades_autonomas

Unnamed: 0,Nombre,Población,Porcentaje población,Densidad (hab./km²),Superficie (km²),Porcentaje superficie,PIB per cápita en € (2021)
0,Andalucía,8500187,"17,87%",9705,87599,"17,31%",18906
1,Cataluña,7792611,"16,38%",23884,32113,"6,35%",29942
2,Madrid,6750336,"14,24%",84115,8028,"1,59%",34821
3,Comunidad Valenciana,5097967,"10,67%",21698,23255,"4,60%",22289
4,Galicia,2690464,"5,68%",9119,29575,"5,84%",23499
5,Castilla y León,2372640,"5,02%",2534,94224,"18,62%",24428
6,País Vasco,2208174,"4,67%",30213,7234,"1,43%",32925
7,Canarias,2177701,"4,58%",30139,7447,"1,47%",18990
8,Castilla-La Mancha,2053328,"4,32%",2579,79461,"15,70%",20655
9,Región de Murcia,1531878,"3,20%",13374,11314,"2,24%",21236


## Guardo los nuevos dataset.

In [25]:
# Genero los nuevos dataset que serán susceptibles de ser utilizados.
españa.to_csv("españa_poblacion.csv")
comunidades_serie_anual.to_csv("comunidades_serie_anual.csv")
comunidades_autonomas.to_csv("comunidades_autonomas.csv")