In [1]:
# importaciones básicas
import numpy as np
import pandas as pd

## Dataset de Vivienda
### Hogares por régimen de tenencia de la vivienda, discriminado por sexo y edad de la persona referenciada.
### Unidades: % hogares
Nota: la persona de referencia es la persona responsable de la vivienda

Fuente: Instituto Nacional de Estadística. Ref: 9994c

In [4]:
reg_tenencia = pd.read_csv('./data/dataset_regimen_tenencia.csv', sep=';')
reg_tenencia

Unnamed: 0,Sexo de la persona de referencia,Edad de la persona de referencia,Régimen de tenencia de la vivienda principal,Periodo,Total
0,Ambos sexos,Total,Propiedad,2021,758
1,Ambos sexos,Total,Propiedad,2020,752
2,Ambos sexos,Total,Propiedad,2019,759
3,Ambos sexos,Total,Propiedad,2018,761
4,Ambos sexos,Total,Propiedad,2017,767
...,...,...,...,...,...
535,Mujeres,65 y más años,Alquiler a precio de mercado,2008,42
536,Mujeres,65 y más años,Alquiler a precio de mercado,2007,39
537,Mujeres,65 y más años,Alquiler a precio de mercado,2006,45
538,Mujeres,65 y más años,Alquiler a precio de mercado,2005,43


In [5]:
reg_tenencia.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 540 entries, 0 to 539
Data columns (total 5 columns):
 #   Column                                        Non-Null Count  Dtype 
---  ------                                        --------------  ----- 
 0   Sexo de la persona de referencia              540 non-null    object
 1   Edad de la persona de referencia              540 non-null    object
 2   Régimen de tenencia de la vivienda principal  540 non-null    object
 3   Periodo                                       540 non-null    int64 
 4   Total                                         540 non-null    object
dtypes: int64(1), object(4)
memory usage: 21.2+ KB


### Por lo que veo, para tener una mejor manipulación de datos, aquí tendré que reasignar los datos de género, ya que me interesa conocer los datos agrupados por edad, más que por sexo, por lo que utilizaré sobre todo los datos de `Ambos sexos`. 

In [28]:
reg_tenencia.rename(columns={'Sexo de la persona de referencia':'Genero', 'Edad de la persona de referencia':'Edad','Régimen de tenencia de la vivienda principal':'Regimen'}, inplace=True)
reg_tenencia.head()

Unnamed: 0,Genero,Edad,Regimen,Periodo,Total
0,Ambos sexos,Total,Propiedad,2021,75.8
1,Ambos sexos,Total,Propiedad,2020,75.2
2,Ambos sexos,Total,Propiedad,2019,75.9
3,Ambos sexos,Total,Propiedad,2018,76.1
4,Ambos sexos,Total,Propiedad,2017,76.7


In [24]:
reg_tenencia['Regimen'].value_counts()

Propiedad                       270
Alquiler a precio de mercado    270
Name: Regimen, dtype: int64

In [8]:
reg_tenencia['Genero'].unique()


array(['Ambos sexos', 'Hombres', 'Mujeres'], dtype=object)

In [12]:
reg_tenencia['Total'] = reg_tenencia['Total'].str.replace(",",".")
reg_tenencia['Total']

0      75.8
1      75.2
2      75.9
3      76.1
4      76.7
       ... 
535     4.2
536     3.9
537     4.5
538     4.3
539     3.8
Name: Total, Length: 540, dtype: object

In [13]:
reg_tenencia['Total'] = reg_tenencia['Total'].astype(float)

In [15]:
reg_tenencia['Total'].dtype

dtype('float64')

In [22]:
reg_tenencia.head(10)

Unnamed: 0,Genero,Edad,Regimen,Periodo,Total
0,Ambos sexos,Total,Propiedad,2021,75.8
1,Ambos sexos,Total,Propiedad,2020,75.2
2,Ambos sexos,Total,Propiedad,2019,75.9
3,Ambos sexos,Total,Propiedad,2018,76.1
4,Ambos sexos,Total,Propiedad,2017,76.7
5,Ambos sexos,Total,Propiedad,2016,77.1
6,Ambos sexos,Total,Propiedad,2015,77.3
7,Ambos sexos,Total,Propiedad,2014,78.0
8,Ambos sexos,Total,Propiedad,2013,77.7
9,Ambos sexos,Total,Propiedad,2012,79.2


In [21]:
reg_tenencia.groupby('Genero')['Edad'].value_counts()

Genero       Edad           
Ambos sexos  65 y más años      36
             De 16 a 29 años    36
             De 30 a 44 años    36
             De 45 a 64 años    36
             Total              36
Hombres      65 y más años      36
             De 16 a 29 años    36
             De 30 a 44 años    36
             De 45 a 64 años    36
             Total              36
Mujeres      65 y más años      36
             De 16 a 29 años    36
             De 30 a 44 años    36
             De 45 a 64 años    36
             Total              36
Name: Edad, dtype: int64

In [42]:
propietarios = reg_tenencia[(reg_tenencia['Genero'] == 'Ambos sexos')&(reg_tenencia['Regimen'] == 'Propiedad')]
propietarios[propietarios['Edad'] == 'De 30 a 44 años']['Total']

72    58.0
73    59.3
74    59.4
75    60.7
76    63.8
77    64.4
78    65.3
79    68.6
80    67.9
81    71.1
82    72.8
83    73.7
84    73.8
85    73.7
86    74.3
87    72.7
88    72.5
89    71.1
Name: Total, dtype: float64

In [41]:
propietarios[propietarios['Edad'] == 'De 16 a 29 años']['Total']


36    32.5
37    31.8
38    25.5
39    29.6
40    26.5
41    28.4
42    34.2
43    34.2
44    38.5
45    42.5
46    46.4
47    46.9
48    50.0
49    54.9
50    58.1
51    56.1
52    53.6
53    47.7
Name: Total, dtype: float64

In [44]:
reg_tenencia.to_csv('./data/clean/v_reg_ten.csv', encoding='utf-8', index=False)