In [1]:
# Importación de las bibliotecas

import pandas as pd
import requests #Diccionario utilizable para acceder a fuentes externas
import datetime #Diccionario utilizable para fechas

# Función que toma un código del INE,
# conecta con el INE y 
# devuelve un json con los datos solicitados

def ine_request(ine_code, num_datos): #Definición de una funcion, toma parametros ine_code y num_datos

    path_template = 'http://servicios.ine.es/wstempus/js/ES/DATOS_SERIE/{cod_serie}?nult={n_ult_datos}'
    path = path_template.format(cod_serie = ine_code, n_ult_datos = num_datos)
    json_request = requests.get(path).json()
    
    # Para más info https://www.ine.es/dyngs/DataLab/manual.html?cid=45
    
    return json_request

# Lectura del archivo con los códigos de serie del INE
df_codigos = pd.read_excel('ine_codes.xlsx') # usecols = ['ine_code']

fecha_lista = [] 
valor_lista = list()
serie_lista = list() # []

# Recorro la serie del dataframe que contiene los códigos del INE
for codigo in df_codigos.ine_code:
    
    # Cargo en 'datos' el resultado de la función ine_request()
    datos = ine_request(codigo, 999)
    
    # Cargo en nombre_serie el nombre de la serie de datos 
    nombre_serie = datos['Nombre']
    
    # Toma los atributos de cada serie de datos
    for dato in datos['Data']:

        fecha = datetime.date.fromtimestamp(dato['Fecha'] // 1000)
        valor = dato['Valor']
        fecha_lista.append(fecha)
        valor_lista.append(valor)
        serie_lista.append(nombre_serie)
        

#  crea un dataframe con todas las listas de datos       
df = pd.DataFrame({
        'Fecha': fecha_lista,
        'Dato' : serie_lista,
        'Población' : valor_lista
    })


### DESARROLLAMOS

Vemos los datos que nos interesa en formato diccionario

In [2]:

import pandas as pd
import requests #Diccionario utilizable para acceder a fuentes externas
import datetime #Diccionario utilizable para fechas

def ine_request(ine_code, num_datos): #Definición de una funcion, toma parametros ine_code y num_datos

    path_template = 'http://servicios.ine.es/wstempus/js/ES/DATOS_SERIE/{cod_serie}?nult={n_ult_datos}'
    path = path_template.format(cod_serie = ine_code, n_ult_datos = num_datos)
    json_request = requests.get(path).json()
    
    # Para más info https://www.ine.es/dyngs/DataLab/manual.html?cid=45
    
    return json_request

In [3]:
ine_request('CP335',10)

{'COD': 'CP335',
 'Nombre': 'Total Nacional. Todas las edades. Total. Población. Número. ',
 'FK_Unidad': 3,
 'FK_Escala': 1,
 'Notas': [{'texto': 'https://www.ine.es/inebaseDYN/cp30321/cp_inicio.htm#~#https://www.ine.es/consul/serie.do?s=CP335&nult=100&TB_iframe=true&position=center&width=700&height=500&L=0&nocab=1',
   'Fk_TipoNota': 6,
   'textoTipo': None}],
 'Data': [{'Fecha': 1514761200000,
   'FK_TipoDato': 1,
   'FK_Periodo': 26,
   'Anyo': 2018,
   'Valor': 46658447.0,
   'Secreto': False},
  {'Fecha': 1530396000000,
   'FK_TipoDato': 1,
   'FK_Periodo': 27,
   'Anyo': 2018,
   'Valor': 46728814.0,
   'Secreto': False},
  {'Fecha': 1546297200000,
   'FK_TipoDato': 1,
   'FK_Periodo': 26,
   'Anyo': 2019,
   'Valor': 46937060.0,
   'Secreto': False},
  {'Fecha': 1561932000000,
   'FK_TipoDato': 1,
   'FK_Periodo': 27,
   'Anyo': 2019,
   'Valor': 47105358.0,
   'Secreto': False},
  {'Fecha': 1577833200000,
   'FK_TipoDato': 1,
   'FK_Periodo': 26,
   'Anyo': 2020,
   'Valor': 4

In [4]:
data = ine_request('CP335',999)

In [5]:
type(data)

dict

In [6]:
type(data['Data'])

list

In [7]:
data['Data'][0]

{'Fecha': 31532400000,
 'FK_TipoDato': 1,
 'FK_Periodo': 26,
 'Anyo': 1971,
 'Valor': 34040642.0,
 'Secreto': False}

In [8]:
data['Data'][0]['Valor']

34040642.0

#### Pregunta clave

¿Varía de la misma manera la serie masculina y la femenina?

Como debemos validar los tres datos encontrados en Excel, debemos de hacer la validación de ese archivo, debemos de disponer los códigos de linea, añadir otras series, entre otros.

In [9]:
df_codigos = pd.read_excel('ine_codes.xlsx') # usecols = ['ine_code']

fecha_lista = [] 
valor_lista = list()
serie_lista = list() # []

Bucle for toma cada uno de los Ine_code

In [10]:
datos = ine_request('CP335', 999)

In [11]:
datos

{'COD': 'CP335',
 'Nombre': 'Total Nacional. Todas las edades. Total. Población. Número. ',
 'FK_Unidad': 3,
 'FK_Escala': 1,
 'Notas': [{'texto': 'https://www.ine.es/inebaseDYN/cp30321/cp_inicio.htm#~#https://www.ine.es/consul/serie.do?s=CP335&nult=100&TB_iframe=true&position=center&width=700&height=500&L=0&nocab=1',
   'Fk_TipoNota': 6,
   'textoTipo': None}],
 'Data': [{'Fecha': 31532400000,
   'FK_TipoDato': 1,
   'FK_Periodo': 26,
   'Anyo': 1971,
   'Valor': 34040642.0,
   'Secreto': False},
  {'Fecha': 47170800000,
   'FK_TipoDato': 1,
   'FK_Periodo': 27,
   'Anyo': 1971,
   'Valor': 34216856.0,
   'Secreto': False},
  {'Fecha': 63068400000,
   'FK_TipoDato': 1,
   'FK_Periodo': 26,
   'Anyo': 1972,
   'Valor': 34408338.0,
   'Secreto': False},
  {'Fecha': 78793200000,
   'FK_TipoDato': 1,
   'FK_Periodo': 27,
   'Anyo': 1972,
   'Valor': 34595886.0,
   'Secreto': False},
  {'Fecha': 94690800000,
   'FK_TipoDato': 1,
   'FK_Periodo': 26,
   'Anyo': 1973,
   'Valor': 34800600.0,

Hay que procesar para que sean compatibles a un formato tabular

In [12]:
for elemento in datos['Data']:
    print (elemento['Valor'])

34040642.0
34216856.0
34408338.0
34595886.0
34800600.0
34980317.0
35177294.0
35363890.0
35569375.0
35750033.0
35946425.0
36127525.0
36329199.0
36506811.0
36694077.0
36868100.0
37035719.0
37194315.0
37346940.0
37493072.0
37635389.0
37764458.0
37881873.0
37987108.0
38090151.0
38160263.0
38252899.0
38325244.0
38407829.0
38467025.0
38531195.0
38571941.0
38638052.0
38682322.0
38731578.0
38764307.0
38802300.0
38821377.0
38853227.0
38860827.0
38881416.0
38941622.0
39051336.0
39147940.0
39264034.0
39356082.0
39458489.0
39547353.0
39639726.0
39718895.0
39808374.0
39884246.0
39971329.0
40049974.0
40143449.0
40214066.0
40303568.0
40369667.0
40470182.0
40554387.0
40665545.0
40766049.0
41035271.0
41423520.0
41827836.0
42196231.0
42547454.0
42859172.0
43296335.0
43662613.0
44009969.0
44360521.0
44784659.0
45236004.0
45668938.0
45983169.0
46239271.0
46367550.0
46486621.0
46562483.0
46667175.0
46736257.0
46818216.0
46766403.0
46727890.0
46593236.0
46512199.0
46455123.0
46449565.0
46410149.0
46440099.0

In [13]:
for elemento in datos['Data']:
    print (elemento['Fecha'])

31532400000
47170800000
63068400000
78793200000
94690800000
110329200000
126226800000
141861600000
157762800000
173397600000
189298800000
205020000000
220921200000
236556000000
252457200000
268092000000
283993200000
299628000000
315529200000
331250400000
347151600000
362786400000
378687600000
394322400000
410223600000
425858400000
441759600000
457480800000
473382000000
489016800000
504918000000
520552800000
536454000000
552088800000
567990000000
583711200000
599612400000
615247200000
631148400000
646783200000
662684400000
678319200000
694220400000
709941600000
725842800000
741477600000
757378800000
773013600000
788914800000
804549600000
820450800000
836172000000
852073200000
867708000000
883609200000
899244000000
915145200000
930780000000
946681200000
962402400000
978303600000
993938400000
1009839600000
1025474400000
1041375600000
1057010400000
1072911600000
1088632800000
1104534000000
1120168800000
1136070000000
1151704800000
1167606000000
1183240800000
1199142000000
1214863200000
123

In [14]:
# Recorro la serie del dataframe que contiene los códigos del INE
for codigo in df_codigos.ine_code: #['CP335, 'CP300335','CP300334']
    
    # Cargo en 'datos' el resultado de la función ine_request()
    datos = ine_request(codigo, 999)
    
    # Cargo en nombre_serie el nombre de la serie de datos 
    nombre_serie = datos['Nombre']
    
    # Toma los atributos de cada serie de datos
    for dato in datos['Data']:

        ## Formatos de fecha utilizando datarime

        fecha = datetime.date.fromtimestamp(dato['Fecha'] // 1000)
        valor = dato['Valor']
        fecha_lista.append(fecha)
        valor_lista.append(valor)
        serie_lista.append(nombre_serie)

In [15]:
#  crea un dataframe con todas las listas de datos       
df = pd.DataFrame({
        'Fecha': fecha_lista,
        'Dato' : serie_lista,
        'Población' : valor_lista
    })


In [16]:
df

Unnamed: 0,Fecha,Dato,Población
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0
...,...,...,...
307,2020-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0
308,2020-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0
309,2021-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0
310,2021-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0


Datos brutos sin información para poder validar la población, hay que empezar a realizar la exploración de datos.

In [17]:
df.rename(columns = {'Fecha':'fecha', 'Dato':'dato', 'Población':'poblacion'}, inplace = True)

Con el inplace, se guardan los resultados.

In [18]:
df

Unnamed: 0,fecha,dato,poblacion
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0
...,...,...,...
307,2020-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0
308,2020-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0
309,2021-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0
310,2021-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0


In [19]:
max(df.fecha)

datetime.date(2022, 6, 30)

In [20]:
min(df.fecha)

datetime.date(1970, 12, 31)

fromtimestamp es una marca temporal para fecha, la fecha es diferente por el uso horario, la conversion fecha no es la misma entre LATAM y España, a la tutora le dan una fecha antes de la presente.

Secuencia temporal:

In [21]:
max(df.fecha) - min(df.fecha)

datetime.timedelta(days=18809)

devuelve un formato en interacción de fechas.

In [22]:
2022 - 1971

51

Lapsus de 51 años

In [23]:
max(df.poblacion)

47615034.0

In [24]:
min(df.poblacion)

16641744.0

In [25]:
max(df.poblacion) - min(df.poblacion)

30973290.0

In [26]:
(max(df.poblacion) - min(df.poblacion))/1000000

30.97329

Se debe de diferenciar entre max y min por que estamos haciendo una consulta en TOTAL, MASCULINO Y FEMENINO, se debe de separar las consultas.

In [27]:
df.dato

0      Total Nacional. Todas las edades. Total. Pobla...
1      Total Nacional. Todas las edades. Total. Pobla...
2      Total Nacional. Todas las edades. Total. Pobla...
3      Total Nacional. Todas las edades. Total. Pobla...
4      Total Nacional. Todas las edades. Total. Pobla...
                             ...                        
307    Total Nacional. Todas las edades. Mujeres. Pob...
308    Total Nacional. Todas las edades. Mujeres. Pob...
309    Total Nacional. Todas las edades. Mujeres. Pob...
310    Total Nacional. Todas las edades. Mujeres. Pob...
311    Total Nacional. Todas las edades. Mujeres. Pob...
Name: dato, Length: 312, dtype: object

In [28]:
df.dato.unique()

array(['Total Nacional. Todas las edades. Total. Población. Número. ',
       'Total Nacional. Todas las edades. Hombres. Población. Número. ',
       'Total Nacional. Todas las edades. Mujeres. Población. Número. '],
      dtype=object)

In [29]:
df[df.dato == 'Total Nacional. Todas las edades. Total. Población. Número. ']

Unnamed: 0,fecha,dato,poblacion
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0
...,...,...,...
99,2020-06-30,Total Nacional. Todas las edades. Total. Pobla...,47355685.0
100,2020-12-31,Total Nacional. Todas las edades. Total. Pobla...,47398695.0
101,2021-06-30,Total Nacional. Todas las edades. Total. Pobla...,47331302.0
102,2021-12-31,Total Nacional. Todas las edades. Total. Pobla...,47432893.0


Modificar los datos de dato para que sea mas comprensible.

Se usa la función Split()

In [30]:
str.split??

[1;31mSignature:[0m [0mstr[0m[1;33m.[0m[0msplit[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [0msep[0m[1;33m=[0m[1;32mNone[0m[1;33m,[0m [0mmaxsplit[0m[1;33m=[0m[1;33m-[0m[1;36m1[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Return a list of the substrings in the string, using sep as the separator string.

  sep
    The separator used to split the string.

    When set to None (the default value), will split on any whitespace
    character (including \n \r \t \f and spaces) and will discard
    empty strings from the result.
  maxsplit
    Maximum number of splits.
    -1 (the default value) means no limit.

Splitting starts at the front of the string and works to the end.

Note, str.split() is mainly useful for data that has been intentionally
delimited.  With natural text that includes punctuation, consider using
the regular expression module.
[1;31mType:[0m      method_descriptor

Si quiero encontrar los atributos, funciones y métodos usar dir()

In [31]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'stri

In [32]:
'hola mundo'.split()

['hola', 'mundo']

In [33]:
'hola.mundo'.split('.')

['hola', 'mundo']

In [34]:
df.dato[0]

'Total Nacional. Todas las edades. Total. Población. Número. '

In [35]:
df.dato[0].split('.')

['Total Nacional', ' Todas las edades', ' Total', ' Población', ' Número', ' ']

In [36]:
# df.dato.split('.')

Podemos realizar lo siguiente para aplicar a cada uno de los datos en la columna.

In [37]:
df.dato.str.split('.')

0      [Total Nacional,  Todas las edades,  Total,  P...
1      [Total Nacional,  Todas las edades,  Total,  P...
2      [Total Nacional,  Todas las edades,  Total,  P...
3      [Total Nacional,  Todas las edades,  Total,  P...
4      [Total Nacional,  Todas las edades,  Total,  P...
                             ...                        
307    [Total Nacional,  Todas las edades,  Mujeres, ...
308    [Total Nacional,  Todas las edades,  Mujeres, ...
309    [Total Nacional,  Todas las edades,  Mujeres, ...
310    [Total Nacional,  Todas las edades,  Mujeres, ...
311    [Total Nacional,  Todas las edades,  Mujeres, ...
Name: dato, Length: 312, dtype: object

In [38]:
df.dato.str.split('.').str[2]

0         Total
1         Total
2         Total
3         Total
4         Total
         ...   
307     Mujeres
308     Mujeres
309     Mujeres
310     Mujeres
311     Mujeres
Name: dato, Length: 312, dtype: object

In [39]:
df['serie'] = df.dato.str.split('.').str[2]

In [40]:
df

Unnamed: 0,fecha,dato,poblacion,serie
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total
...,...,...,...,...
307,2020-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres
308,2020-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres
309,2021-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres
310,2021-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres


Ya podemos entonces empezar a hacer exploración.

In [41]:
df.serie == 'Total'

0      False
1      False
2      False
3      False
4      False
       ...  
307    False
308    False
309    False
310    False
311    False
Name: serie, Length: 312, dtype: bool

Encontramos que hay información en FALSE, 

In [42]:
df[df.serie == 'Total']

Unnamed: 0,fecha,dato,poblacion,serie


No encontramos los valores, por lo tanto, es posible que existe un error lógico asi que evidenciamos mediante:

In [43]:
df.serie.unique()

array([' Total', ' Hombres', ' Mujeres'], dtype=object)

Encontramos que Total tiene espacio

In [44]:
df.serie == ' Total'

0       True
1       True
2       True
3       True
4       True
       ...  
307    False
308    False
309    False
310    False
311    False
Name: serie, Length: 312, dtype: bool

In [45]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'stri

la función stripo ayuda a eliminar espacios de antes y despues de las palabras, se usa dentro de las serie de datos los ste

In [46]:
df.serie.str.strip()

0        Total
1        Total
2        Total
3        Total
4        Total
        ...   
307    Mujeres
308    Mujeres
309    Mujeres
310    Mujeres
311    Mujeres
Name: serie, Length: 312, dtype: object

In [47]:
df.serie = df.serie.str.strip()

Como ya existe, se usa el df.serie

In [48]:
df.serie.unique()

array(['Total', 'Hombres', 'Mujeres'], dtype=object)

Ya no muestran las palabras con espacios.

In [49]:
df[df.serie == 'Total']

Unnamed: 0,fecha,dato,poblacion,serie
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total
...,...,...,...,...
99,2020-06-30,Total Nacional. Todas las edades. Total. Pobla...,47355685.0,Total
100,2020-12-31,Total Nacional. Todas las edades. Total. Pobla...,47398695.0,Total
101,2021-06-30,Total Nacional. Todas las edades. Total. Pobla...,47331302.0,Total
102,2021-12-31,Total Nacional. Todas las edades. Total. Pobla...,47432893.0,Total


In [50]:
df[df.serie == 'Mujeres']

Unnamed: 0,fecha,dato,poblacion,serie
208,1970-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,17398898.0,Mujeres
209,1971-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,17485953.0,Mujeres
210,1971-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,17580397.0,Mujeres
211,1972-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,17672353.0,Mujeres
212,1972-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,17772628.0,Mujeres
...,...,...,...,...
307,2020-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres
308,2020-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres
309,2021-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres
310,2021-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres


In [51]:
df[df.serie == 'Hombres']

Unnamed: 0,fecha,dato,poblacion,serie
104,1970-12-31,Total Nacional. Todas las edades. Hombres. Pob...,16641744.0,Hombres
105,1971-06-30,Total Nacional. Todas las edades. Hombres. Pob...,16730904.0,Hombres
106,1971-12-31,Total Nacional. Todas las edades. Hombres. Pob...,16827942.0,Hombres
107,1972-06-30,Total Nacional. Todas las edades. Hombres. Pob...,16923533.0,Hombres
108,1972-12-31,Total Nacional. Todas las edades. Hombres. Pob...,17027972.0,Hombres
...,...,...,...,...
203,2020-06-30,Total Nacional. Todas las edades. Hombres. Pob...,23208782.0,Hombres
204,2020-12-31,Total Nacional. Todas las edades. Hombres. Pob...,23227282.0,Hombres
205,2021-06-30,Total Nacional. Todas las edades. Hombres. Pob...,23191275.0,Hombres
206,2021-12-31,Total Nacional. Todas las edades. Hombres. Pob...,23237152.0,Hombres


In [52]:
df[df.serie == 'Total'].max()

fecha                                               2022-06-30
dato         Total Nacional. Todas las edades. Total. Pobla...
poblacion                                           47615034.0
serie                                                    Total
dtype: object

In [53]:
df.poblacion[df.serie == 'Total'].max()

np.float64(47615034.0)

In [54]:
df.poblacion[df.serie == 'Total'].min()

np.float64(34040642.0)

In [55]:
df.poblacion[df.serie == 'Total'].max() - df.poblacion[df.serie == 'Total'].min()

np.float64(13574392.0)

In [56]:
(df.poblacion[df.serie == 'Total'].max() - df.poblacion[df.serie == 'Total'].min())/1000000

np.float64(13.574392)

Encontramos la relación entre el maximo y el mínimo y encontramos que la diferencia fue de 13.57 millones

Vamos a agrupar:

In [57]:
df.groupby('serie')

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x00000187E85748F0>

In [58]:
df.groupby('serie').poblacion.agg(['max','min'])

Unnamed: 0_level_0,max,min
serie,Unnamed: 1_level_1,Unnamed: 2_level_1
Hombres,23310627.0,16641744.0
Mujeres,24304407.0,17398898.0
Total,47615034.0,34040642.0


In [59]:
df.groupby('serie').poblacion.agg(['max','min','mean'])

Unnamed: 0_level_0,max,min,mean
serie,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Hombres,23310627.0,16641744.0,20202410.0
Mujeres,24304407.0,17398898.0,20945780.0
Total,47615034.0,34040642.0,41148190.0


Queremos identficiar si la media es relacionada con los valores poblacionales.

In [60]:
df.groupby('serie').poblacion.transform('mean')

0      4.114819e+07
1      4.114819e+07
2      4.114819e+07
3      4.114819e+07
4      4.114819e+07
           ...     
307    2.094578e+07
308    2.094578e+07
309    2.094578e+07
310    2.094578e+07
311    2.094578e+07
Name: poblacion, Length: 312, dtype: float64

In [61]:
df.groupby('serie').poblacion.transform('mean').apply(lambda x: format(x, '0.2f'))

0      41148193.47
1      41148193.47
2      41148193.47
3      41148193.47
4      41148193.47
          ...     
307    20945782.89
308    20945782.89
309    20945782.89
310    20945782.89
311    20945782.89
Name: poblacion, Length: 312, dtype: object

Se agrupa en serie, de población se saca la media en serie de datos (posición natural) se aplica función lambda para cambiar el formato ya que la media está en formato científico con solo dos decimales.

o podemos usar:

In [62]:
round(df.groupby('serie').poblacion.transform('mean'),2)

0      41148193.47
1      41148193.47
2      41148193.47
3      41148193.47
4      41148193.47
          ...     
307    20945782.89
308    20945782.89
309    20945782.89
310    20945782.89
311    20945782.89
Name: poblacion, Length: 312, dtype: float64

In [63]:
df['media_pob'] = round(df.groupby('serie').poblacion.transform('mean'),2)

In [64]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47
...,...,...,...,...,...
307,2020-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89
308,2020-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89
309,2021-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89
310,2021-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89


In [65]:
df['poblacion'] - df['media_pob']

0     -7107551.47
1     -6931337.47
2     -6739855.47
3     -6552307.47
4     -6347593.47
          ...    
307    3201120.11
308    3225630.11
309    3194244.11
310    3249958.11
311    3358624.11
Length: 312, dtype: float64

Relación entre la población y la media población.

Podriamos encontrar cuando la población ha sido menor a la media.

Si queremos transformar datos se usaria:

In [66]:
#df.media_pob.astype('float')

In [67]:
df['dif_pob_media'] = df['poblacion'] - df['media_pob']

In [68]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47
...,...,...,...,...,...,...
307,2020-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11
308,2020-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11
309,2021-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11
310,2021-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11


¿En que fechas la población es por debajo de la media?

In [69]:
df[df.dif_pob_media <= 0]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47
...,...,...,...,...,...,...
266,1999-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,20643843.0,Mujeres,20945782.89,-301939.89
267,2000-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,20685751.0,Mujeres,20945782.89,-260031.89
268,2000-12-31,Total Nacional. Todas las edades. Mujeres. Pob...,20741653.0,Mujeres,20945782.89,-204129.89
269,2001-06-30,Total Nacional. Todas las edades. Mujeres. Pob...,20793005.0,Mujeres,20945782.89,-152777.89


No hemos filtrado a la serie de datos:

In [70]:
df[(df.dif_pob_media <= 0) & (df.serie == 'Total')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47
...,...,...,...,...,...,...
58,1999-12-31,Total Nacional. Todas las edades. Total. Pobla...,40470182.0,Total,41148193.47,-678011.47
59,2000-06-30,Total Nacional. Todas las edades. Total. Pobla...,40554387.0,Total,41148193.47,-593806.47
60,2000-12-31,Total Nacional. Todas las edades. Total. Pobla...,40665545.0,Total,41148193.47,-482648.47
61,2001-06-30,Total Nacional. Todas las edades. Total. Pobla...,40766049.0,Total,41148193.47,-382144.47


¿como interpretamos esto?

In [71]:
pd.options.display.max_rows = 70

In [72]:
df[(df.dif_pob_media <= 0) & (df.serie == 'Total')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media
0,1970-12-31,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47
1,1971-06-30,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47
2,1971-12-31,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47
3,1972-06-30,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47
4,1972-12-31,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47
5,1973-06-30,Total Nacional. Todas las edades. Total. Pobla...,34980317.0,Total,41148193.47,-6167876.47
6,1973-12-31,Total Nacional. Todas las edades. Total. Pobla...,35177294.0,Total,41148193.47,-5970899.47
7,1974-06-30,Total Nacional. Todas las edades. Total. Pobla...,35363890.0,Total,41148193.47,-5784303.47
8,1974-12-31,Total Nacional. Todas las edades. Total. Pobla...,35569375.0,Total,41148193.47,-5578818.47
9,1975-06-30,Total Nacional. Todas las edades. Total. Pobla...,35750033.0,Total,41148193.47,-5398160.47


Para trabajar con fechas, revisamos que formato tiene,

In [73]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 312 entries, 0 to 311
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   fecha          312 non-null    object 
 1   dato           312 non-null    object 
 2   poblacion      312 non-null    float64
 3   serie          312 non-null    object 
 4   media_pob      312 non-null    float64
 5   dif_pob_media  312 non-null    float64
dtypes: float64(3), object(3)
memory usage: 14.8+ KB


para saber que tipo de dato es Object

In [74]:
df.fecha[0]

datetime.date(1970, 12, 31)

In [75]:
df.fecha[0].year

1970

In [76]:
#df.fecha.dt.year

AttributeError: Can only use .dt accessor with datetimelike values

No me deja usar, hay que cambiar el object a formato de fecha.

In [77]:
pd.to_datetime(df.fecha)

0     1970-12-31
1     1971-06-30
2     1971-12-31
3     1972-06-30
4     1972-12-31
         ...    
307   2020-06-30
308   2020-12-31
309   2021-06-30
310   2021-12-31
311   2022-06-30
Name: fecha, Length: 312, dtype: datetime64[ns]

In [78]:
df.fecha = pd.to_datetime(df.fecha)

In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 312 entries, 0 to 311
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   fecha          312 non-null    datetime64[ns]
 1   dato           312 non-null    object        
 2   poblacion      312 non-null    float64       
 3   serie          312 non-null    object        
 4   media_pob      312 non-null    float64       
 5   dif_pob_media  312 non-null    float64       
dtypes: datetime64[ns](1), float64(3), object(2)
memory usage: 14.8+ KB


In [80]:
df.fecha.dt.year

0      1970
1      1971
2      1971
3      1972
4      1972
       ... 
307    2020
308    2020
309    2021
310    2021
311    2022
Name: fecha, Length: 312, dtype: int32

como cambiar el formato temporal que aparece en PYTHON: timedelta, formato temporal que permite operar con fechas.

In [81]:
df.fecha

0     1970-12-31
1     1971-06-30
2     1971-12-31
3     1972-06-30
4     1972-12-31
         ...    
307   2020-06-30
308   2020-12-31
309   2021-06-30
310   2021-12-31
311   2022-06-30
Name: fecha, Length: 312, dtype: datetime64[ns]

apply ayuda a generar una funcion que no está definida en cada uno de los datos.

In [82]:
df.fecha.apply(lambda x: x + datetime.timedelta(1))

0     1971-01-01
1     1971-07-01
2     1972-01-01
3     1972-07-01
4     1973-01-01
         ...    
307   2020-07-01
308   2021-01-01
309   2021-07-01
310   2022-01-01
311   2022-07-01
Name: fecha, Length: 312, dtype: datetime64[ns]

In [83]:
datetime.timedelta??


[1;31mInit signature:[0m [0mdatetime[0m[1;33m.[0m[0mtimedelta[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
Difference between two datetime values.

timedelta(days=0, seconds=0, microseconds=0, milliseconds=0, minutes=0, hours=0, weeks=0)

All arguments are optional and default to 0.
Arguments may be integers or floats, and may be positive or negative.
[1;31mFile:[0m           d:\hanner\anaconda\envs\myanalystspace\lib\datetime.py
[1;31mType:[0m           type
[1;31mSubclasses:[0m     _Timedelta

In [84]:
df.fecha = df.fecha.apply(lambda x: x + datetime.timedelta(1))

In [85]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47
...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11


queremos sacar infor de fecha para tener una idea clara para establecer la diferencia entre medias y población, quermos aber si la secuencia de fecchas es consecutiva.

podemos la funciiones lamnda si con un valor individual nos permite aplicar cualquier filtro:

In [86]:
df.fecha[0].year

1971

In [87]:
df.fecha.apply(lambda x: x.year)

0      1971
1      1971
2      1972
3      1972
4      1973
       ... 
307    2020
308    2021
309    2021
310    2022
311    2022
Name: fecha, Length: 312, dtype: int64

Usar la modalidad mas eficiente ya que usando el apply, se tiene un int64

In [88]:
df.fecha.dt.year

0      1971
1      1971
2      1972
3      1972
4      1973
       ... 
307    2020
308    2021
309    2021
310    2022
311    2022
Name: fecha, Length: 312, dtype: int32

In [89]:
df['month'] = df.fecha.dt.month

In [90]:
df['year'] = df.fecha.dt.year

In [91]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973
...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022


In [92]:
df[(df.dif_pob_media <= 0) & (df.serie == 'Total')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973
5,1973-07-01,Total Nacional. Todas las edades. Total. Pobla...,34980317.0,Total,41148193.47,-6167876.47,7,1973
6,1974-01-01,Total Nacional. Todas las edades. Total. Pobla...,35177294.0,Total,41148193.47,-5970899.47,1,1974
7,1974-07-01,Total Nacional. Todas las edades. Total. Pobla...,35363890.0,Total,41148193.47,-5784303.47,7,1974
8,1975-01-01,Total Nacional. Todas las edades. Total. Pobla...,35569375.0,Total,41148193.47,-5578818.47,1,1975
9,1975-07-01,Total Nacional. Todas las edades. Total. Pobla...,35750033.0,Total,41148193.47,-5398160.47,7,1975


In [93]:
df[(df.dif_pob_media <= 0) & (df.serie == 'Total')].year.unique()

array([1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981,
       1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992,
       1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002],
      dtype=int32)

Devuelve los años que la población total ha tenido valor por debajo de la media.

In [94]:
len(df[(df.dif_pob_media <= 0) & (df.serie == 'Total')].year.unique())

32

In [95]:
df[(df.dif_pob_media >= 0) & (df.serie == 'Total')].year.unique()

array([2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012,
       2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022],
      dtype=int32)

El crecimiento de la población desde 1971 hasta 2022 y en el crecimiento primero con valores por debajo de la media y luego del 2022 hay un aumento del incremento poblacional.

In [96]:
len(df[(df.dif_pob_media >= 0) & (df.serie == 'Total')].year.unique())

21

La tasa de crecimiento no es constante.

In [97]:
df[(df.dif_pob_media <= 0) & (df.serie == 'Mujeres')].year.unique()

array([1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981,
       1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992,
       1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002],
      dtype=int32)

In [98]:
df[(df.dif_pob_media >= 0) & (df.serie == 'Mujeres')].year.unique()

array([2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012,
       2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022],
      dtype=int32)

In [99]:
df[(df.dif_pob_media <= 0) & (df.serie == 'Hombres')].year.unique()

array([1971, 1972, 1973, 1974, 1975, 1976, 1977, 1978, 1979, 1980, 1981,
       1982, 1983, 1984, 1985, 1986, 1987, 1988, 1989, 1990, 1991, 1992,
       1993, 1994, 1995, 1996, 1997, 1998, 1999, 2000, 2001, 2002],
      dtype=int32)

In [100]:
df[(df.dif_pob_media >= 0) & (df.serie == 'Hombres')].year.unique()

array([2002, 2003, 2004, 2005, 2006, 2007, 2008, 2009, 2010, 2011, 2012,
       2013, 2014, 2015, 2016, 2017, 2018, 2019, 2020, 2021, 2022],
      dtype=int32)

Encontramos que las tres series se comportan de la misma manera.

Se realizará un estudio de la variación de la población, ya que ha venido creciendo pero algo indica que el ritmo no es constante, se puede identificar el ritmo de crecimiento.

In [104]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973
...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022


Con las fechas, marcan intervalos constantes podemos restar entre una fecha a otra para identificar un ritmo de crecimiento entre esas dos fechas. Podemos validar si existe una función que apoye, podemos consultar la documentación. : dir(df)

In [105]:
dir(df)

['T',
 '_AXIS_LEN',
 '_AXIS_ORDERS',
 '_AXIS_TO_AXIS_NUMBER',
 '_HANDLED_TYPES',
 '__abs__',
 '__add__',
 '__and__',
 '__annotations__',
 '__array__',
 '__array_priority__',
 '__array_ufunc__',
 '__arrow_c_stream__',
 '__bool__',
 '__class__',
 '__contains__',
 '__copy__',
 '__dataframe__',
 '__dataframe_consortium_standard__',
 '__deepcopy__',
 '__delattr__',
 '__delitem__',
 '__dict__',
 '__dir__',
 '__divmod__',
 '__doc__',
 '__eq__',
 '__finalize__',
 '__floordiv__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__getitem__',
 '__getstate__',
 '__gt__',
 '__hash__',
 '__iadd__',
 '__iand__',
 '__ifloordiv__',
 '__imod__',
 '__imul__',
 '__init__',
 '__init_subclass__',
 '__invert__',
 '__ior__',
 '__ipow__',
 '__isub__',
 '__iter__',
 '__itruediv__',
 '__ixor__',
 '__le__',
 '__len__',
 '__lt__',
 '__matmul__',
 '__mod__',
 '__module__',
 '__mul__',
 '__ne__',
 '__neg__',
 '__new__',
 '__nonzero__',
 '__or__',
 '__pandas_priority__',
 '__pos__',
 '__pow__',
 '__r

In [106]:
df.shift??

[1;31mSignature:[0m
[0mdf[0m[1;33m.[0m[0mshift[0m[1;33m([0m[1;33m
[0m    [0mperiods[0m[1;33m:[0m [1;34m'int | Sequence[int]'[0m [1;33m=[0m [1;36m1[0m[1;33m,[0m[1;33m
[0m    [0mfreq[0m[1;33m:[0m [1;34m'Frequency | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m    [0maxis[0m[1;33m:[0m [1;34m'Axis'[0m [1;33m=[0m [1;36m0[0m[1;33m,[0m[1;33m
[0m    [0mfill_value[0m[1;33m:[0m [1;34m'Hashable'[0m [1;33m=[0m [1;33m<[0m[0mno_default[0m[1;33m>[0m[1;33m,[0m[1;33m
[0m    [0msuffix[0m[1;33m:[0m [1;34m'str | None'[0m [1;33m=[0m [1;32mNone[0m[1;33m,[0m[1;33m
[0m[1;33m)[0m [1;33m->[0m [1;34m'DataFrame'[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m
Shift index by desired number of periods with an optional time `freq`.

When `freq` is not passed, shift the index without realigning the data.
If `freq` is passed (in this case, the index must be date or datetime,
or it will raise a `NotImplementedError`),

In [110]:
df.poblacion

0      34040642.0
1      34216856.0
2      34408338.0
3      34595886.0
4      34800600.0
          ...    
307    24146903.0
308    24171413.0
309    24140027.0
310    24195741.0
311    24304407.0
Name: poblacion, Length: 312, dtype: float64

In [111]:
df.poblacion.shift(1)

0             NaN
1      34040642.0
2      34216856.0
3      34408338.0
4      34595886.0
          ...    
307    24133301.0
308    24146903.0
309    24171413.0
310    24140027.0
311    24195741.0
Name: poblacion, Length: 312, dtype: float64

In [112]:
df.poblacion - df.poblacion.shift(1)

0           NaN
1      176214.0
2      191482.0
3      187548.0
4      204714.0
         ...   
307     13602.0
308     24510.0
309    -31386.0
310     55714.0
311    108666.0
Name: poblacion, Length: 312, dtype: float64

para crear varias columnas al mismo tiempo se usa 

In [114]:
df.assign(valor_prev_pob = lambda x: x.poblacion.shift(1),
            incremento_pob = lambda x: x.poblacion - x.poblacion.shift(1))

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971,,
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971,34040642.0,176214.0
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972,34216856.0,191482.0
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972,34408338.0,187548.0
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973,34595886.0,204714.0
...,...,...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020,24133301.0,13602.0
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021,24146903.0,24510.0
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022,24140027.0,55714.0


vamos a guardarlo:

In [116]:
df = df.assign(valor_prev_pob = lambda x: x.poblacion.shift(1),
            incremento_pob = lambda x: x.poblacion - x.poblacion.shift(1))

In [117]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971,,
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971,34040642.0,176214.0
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972,34216856.0,191482.0
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972,34408338.0,187548.0
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973,34595886.0,204714.0
...,...,...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020,24133301.0,13602.0
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021,24146903.0,24510.0
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022,24140027.0,55714.0


In [118]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 312 entries, 0 to 311
Data columns (total 10 columns):
 #   Column          Non-Null Count  Dtype         
---  ------          --------------  -----         
 0   fecha           312 non-null    datetime64[ns]
 1   dato            312 non-null    object        
 2   poblacion       312 non-null    float64       
 3   serie           312 non-null    object        
 4   media_pob       312 non-null    float64       
 5   dif_pob_media   312 non-null    float64       
 6   month           312 non-null    int32         
 7   year            312 non-null    int32         
 8   valor_prev_pob  311 non-null    float64       
 9   incremento_pob  311 non-null    float64       
dtypes: datetime64[ns](1), float64(5), int32(2), object(2)
memory usage: 22.1+ KB


In [119]:
df.columns

Index(['fecha', 'dato', 'poblacion', 'serie', 'media_pob', 'dif_pob_media',
       'month', 'year', 'valor_prev_pob', 'incremento_pob'],
      dtype='object')

In [122]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Total')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
83,2012-07-01,Total Nacional. Todas las edades. Total. Pobla...,46766403.0,Total,41148193.47,5618209.53,7,2012,46818216.0,-51813.0
84,2013-01-01,Total Nacional. Todas las edades. Total. Pobla...,46727890.0,Total,41148193.47,5579696.53,1,2013,46766403.0,-38513.0
85,2013-07-01,Total Nacional. Todas las edades. Total. Pobla...,46593236.0,Total,41148193.47,5445042.53,7,2013,46727890.0,-134654.0
86,2014-01-01,Total Nacional. Todas las edades. Total. Pobla...,46512199.0,Total,41148193.47,5364005.53,1,2014,46593236.0,-81037.0
87,2014-07-01,Total Nacional. Todas las edades. Total. Pobla...,46455123.0,Total,41148193.47,5306929.53,7,2014,46512199.0,-57076.0
88,2015-01-01,Total Nacional. Todas las edades. Total. Pobla...,46449565.0,Total,41148193.47,5301371.53,1,2015,46455123.0,-5558.0
89,2015-07-01,Total Nacional. Todas las edades. Total. Pobla...,46410149.0,Total,41148193.47,5261955.53,7,2015,46449565.0,-39416.0
101,2021-07-01,Total Nacional. Todas las edades. Total. Pobla...,47331302.0,Total,41148193.47,6183108.53,7,2021,47398695.0,-67393.0


Encontramos que hay varios detrimento, los identificamos con las series masculinas yfemeninas

In [123]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Mujeres')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
208,1971-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,17398898.0,Mujeres,20945782.89,-3546884.89,1,1971,23310627.0,-5911729.0
291,2012-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23710682.0,Mujeres,20945782.89,2764899.11,7,2012,23719207.0,-8525.0
292,2013-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,23710132.0,Mujeres,20945782.89,2764349.11,1,2013,23710682.0,-550.0
293,2013-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23659486.0,Mujeres,20945782.89,2713703.11,7,2013,23710132.0,-50646.0
294,2014-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,23634738.0,Mujeres,20945782.89,2688955.11,1,2014,23659486.0,-24748.0
295,2014-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23615032.0,Mujeres,20945782.89,2669249.11,7,2014,23634738.0,-19706.0
297,2015-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23609285.0,Mujeres,20945782.89,2663502.11,7,2015,23623019.0,-13734.0
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0


In [124]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Hombres')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
104,1971-01-01,Total Nacional. Todas las edades. Hombres. Pob...,16641744.0,Hombres,20202410.58,-3560666.58,1,1971,47615034.0,-30973290.0
143,1990-07-01,Total Nacional. Todas las edades. Hombres. Pob...,19038475.0,Hombres,20202410.58,-1163935.58,7,1990,19039785.0,-1310.0
187,2012-07-01,Total Nacional. Todas las edades. Hombres. Pob...,23055722.0,Hombres,20202410.58,2853311.42,7,2012,23099009.0,-43287.0
188,2013-01-01,Total Nacional. Todas las edades. Hombres. Pob...,23017758.0,Hombres,20202410.58,2815347.42,1,2013,23055722.0,-37964.0
189,2013-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22933750.0,Hombres,20202410.58,2731339.42,7,2013,23017758.0,-84008.0
190,2014-01-01,Total Nacional. Todas las edades. Hombres. Pob...,22877461.0,Hombres,20202410.58,2675050.42,1,2014,22933750.0,-56289.0
191,2014-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22840091.0,Hombres,20202410.58,2637680.42,7,2014,22877461.0,-37370.0
192,2015-01-01,Total Nacional. Todas las edades. Hombres. Pob...,22826546.0,Hombres,20202410.58,2624135.42,1,2015,22840091.0,-13545.0
193,2015-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22800864.0,Hombres,20202410.58,2598453.42,7,2015,22826546.0,-25682.0
195,2016-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22805230.0,Hombres,20202410.58,2602819.42,7,2016,22807464.0,-2234.0


hemos introducido un fallo en los calculos utilizando el shift, ya que no hay datos anteriores de 1971, debería ser los primeros valores nulos ya que no existen, Cuando vamos a modificar un dato puntual en el dataset, vamos a usar df.loc permite nombrar las columbas con su nombre propio.

In [125]:
df.loc [104, ['valor_prev_pob', 'incremento_pob']]

valor_prev_pob    47615034.0
incremento_pob   -30973290.0
Name: 104, dtype: object

Son los valores a cambiar, con sustitución a NaN, inicia en 104 los índices HOMBRES

In [126]:
df[df.serie == 'Hombres']

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
104,1971-01-01,Total Nacional. Todas las edades. Hombres. Pob...,16641744.0,Hombres,20202410.58,-3560666.58,1,1971,47615034.0,-30973290.0
105,1971-07-01,Total Nacional. Todas las edades. Hombres. Pob...,16730904.0,Hombres,20202410.58,-3471506.58,7,1971,16641744.0,89160.0
106,1972-01-01,Total Nacional. Todas las edades. Hombres. Pob...,16827942.0,Hombres,20202410.58,-3374468.58,1,1972,16730904.0,97038.0
107,1972-07-01,Total Nacional. Todas las edades. Hombres. Pob...,16923533.0,Hombres,20202410.58,-3278877.58,7,1972,16827942.0,95591.0
108,1973-01-01,Total Nacional. Todas las edades. Hombres. Pob...,17027972.0,Hombres,20202410.58,-3174438.58,1,1973,16923533.0,104439.0
...,...,...,...,...,...,...,...,...,...,...
203,2020-07-01,Total Nacional. Todas las edades. Hombres. Pob...,23208782.0,Hombres,20202410.58,3006371.42,7,2020,23199313.0,9469.0
204,2021-01-01,Total Nacional. Todas las edades. Hombres. Pob...,23227282.0,Hombres,20202410.58,3024871.42,1,2021,23208782.0,18500.0
205,2021-07-01,Total Nacional. Todas las edades. Hombres. Pob...,23191275.0,Hombres,20202410.58,2988864.42,7,2021,23227282.0,-36007.0
206,2022-01-01,Total Nacional. Todas las edades. Hombres. Pob...,23237152.0,Hombres,20202410.58,3034741.42,1,2022,23191275.0,45877.0


In [127]:
df.loc [104, ['valor_prev_pob', 'incremento_pob']] = None

In [128]:
df.loc [104, ['valor_prev_pob', 'incremento_pob']]

valor_prev_pob    NaN
incremento_pob    NaN
Name: 104, dtype: object

In [129]:
df.loc [208, ['valor_prev_pob', 'incremento_pob']]

valor_prev_pob    23310627.0
incremento_pob    -5911729.0
Name: 208, dtype: object

In [130]:
df[df.serie == 'Mujeres']

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
208,1971-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,17398898.0,Mujeres,20945782.89,-3546884.89,1,1971,23310627.0,-5911729.0
209,1971-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,17485953.0,Mujeres,20945782.89,-3459829.89,7,1971,17398898.0,87055.0
210,1972-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,17580397.0,Mujeres,20945782.89,-3365385.89,1,1972,17485953.0,94444.0
211,1972-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,17672353.0,Mujeres,20945782.89,-3273429.89,7,1972,17580397.0,91956.0
212,1973-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,17772628.0,Mujeres,20945782.89,-3173154.89,1,1973,17672353.0,100275.0
...,...,...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020,24133301.0,13602.0
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021,24146903.0,24510.0
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022,24140027.0,55714.0


In [131]:
df.loc [208, ['valor_prev_pob', 'incremento_pob']] = None

In [132]:
df.loc [208, ['valor_prev_pob', 'incremento_pob']]

valor_prev_pob    NaN
incremento_pob    NaN
Name: 208, dtype: object

In [133]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Mujeres')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
291,2012-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23710682.0,Mujeres,20945782.89,2764899.11,7,2012,23719207.0,-8525.0
292,2013-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,23710132.0,Mujeres,20945782.89,2764349.11,1,2013,23710682.0,-550.0
293,2013-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23659486.0,Mujeres,20945782.89,2713703.11,7,2013,23710132.0,-50646.0
294,2014-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,23634738.0,Mujeres,20945782.89,2688955.11,1,2014,23659486.0,-24748.0
295,2014-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23615032.0,Mujeres,20945782.89,2669249.11,7,2014,23634738.0,-19706.0
297,2015-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,23609285.0,Mujeres,20945782.89,2663502.11,7,2015,23623019.0,-13734.0
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0


In [134]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Hombres')]

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
143,1990-07-01,Total Nacional. Todas las edades. Hombres. Pob...,19038475.0,Hombres,20202410.58,-1163935.58,7,1990,19039785.0,-1310.0
187,2012-07-01,Total Nacional. Todas las edades. Hombres. Pob...,23055722.0,Hombres,20202410.58,2853311.42,7,2012,23099009.0,-43287.0
188,2013-01-01,Total Nacional. Todas las edades. Hombres. Pob...,23017758.0,Hombres,20202410.58,2815347.42,1,2013,23055722.0,-37964.0
189,2013-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22933750.0,Hombres,20202410.58,2731339.42,7,2013,23017758.0,-84008.0
190,2014-01-01,Total Nacional. Todas las edades. Hombres. Pob...,22877461.0,Hombres,20202410.58,2675050.42,1,2014,22933750.0,-56289.0
191,2014-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22840091.0,Hombres,20202410.58,2637680.42,7,2014,22877461.0,-37370.0
192,2015-01-01,Total Nacional. Todas las edades. Hombres. Pob...,22826546.0,Hombres,20202410.58,2624135.42,1,2015,22840091.0,-13545.0
193,2015-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22800864.0,Hombres,20202410.58,2598453.42,7,2015,22826546.0,-25682.0
195,2016-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22805230.0,Hombres,20202410.58,2602819.42,7,2016,22807464.0,-2234.0
197,2017-07-01,Total Nacional. Todas las edades. Hombres. Pob...,22829748.0,Hombres,20202410.58,2627337.42,7,2017,22834227.0,-4479.0


In [135]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Hombres')].year.unique()

array([1990, 2012, 2013, 2014, 2015, 2016, 2017, 2021], dtype=int32)

In [136]:
df[(df.incremento_pob <= 0 ) & (df.serie == 'Mujeres')].year.unique()

array([2012, 2013, 2014, 2015, 2021], dtype=int32)

podemos revisar la info por décadas

In [137]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971,,
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971,34040642.0,176214.0
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972,34216856.0,191482.0
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972,34408338.0,187548.0
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973,34595886.0,204714.0
...,...,...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020,24133301.0,13602.0
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021,24146903.0,24510.0
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022,24140027.0,55714.0


Podemos categorizar y cortar al poner límites mediante pandas .cut() se relaciona un bins con limite inferior y superior, ademas podemos especificar la etiqueta para nombrar las filas

In [141]:
pd.cut(df.year, bins = [1970, 1979, 1989, 1999, 2009, 2019, 2022], 
        labels = ['setentas', 'ochentas', 'noventas', 'dosmil', 'dosmildiez',
                  'dosmilveinte'])

0          setentas
1          setentas
2          setentas
3          setentas
4          setentas
           ...     
307    dosmilveinte
308    dosmilveinte
309    dosmilveinte
310    dosmilveinte
311    dosmilveinte
Name: year, Length: 312, dtype: category
Categories (6, object): ['setentas' < 'ochentas' < 'noventas' < 'dosmil' < 'dosmildiez' < 'dosmilveinte']

genera serie de datos categóricas y ordinal

In [142]:
df['decadas'] = pd.cut(df.year, bins = [1970, 1979, 1989, 1999, 2009, 2019, 2022], 
        labels = ['setentas', 'ochentas', 'noventas', 'dosmil', 'dosmildiez',
                  'dosmilveinte'])

In [143]:
df

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob,decadas
0,1971-01-01,Total Nacional. Todas las edades. Total. Pobla...,34040642.0,Total,41148193.47,-7107551.47,1,1971,,,setentas
1,1971-07-01,Total Nacional. Todas las edades. Total. Pobla...,34216856.0,Total,41148193.47,-6931337.47,7,1971,34040642.0,176214.0,setentas
2,1972-01-01,Total Nacional. Todas las edades. Total. Pobla...,34408338.0,Total,41148193.47,-6739855.47,1,1972,34216856.0,191482.0,setentas
3,1972-07-01,Total Nacional. Todas las edades. Total. Pobla...,34595886.0,Total,41148193.47,-6552307.47,7,1972,34408338.0,187548.0,setentas
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973,34595886.0,204714.0,setentas
...,...,...,...,...,...,...,...,...,...,...,...
307,2020-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24146903.0,Mujeres,20945782.89,3201120.11,7,2020,24133301.0,13602.0,dosmilveinte
308,2021-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24171413.0,Mujeres,20945782.89,3225630.11,1,2021,24146903.0,24510.0,dosmilveinte
309,2021-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,24140027.0,Mujeres,20945782.89,3194244.11,7,2021,24171413.0,-31386.0,dosmilveinte
310,2022-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,24195741.0,Mujeres,20945782.89,3249958.11,1,2022,24140027.0,55714.0,dosmilveinte


con sample hacemos una validacion rapida

In [144]:
df.sample(15)

Unnamed: 0,fecha,dato,poblacion,serie,media_pob,dif_pob_media,month,year,valor_prev_pob,incremento_pob,decadas
22,1982-01-01,Total Nacional. Todas las edades. Total. Pobla...,37881873.0,Total,41148193.47,-3266320.47,1,1982,37764458.0,117415.0,ochentas
277,2005-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,22120648.0,Mujeres,20945782.89,1174865.11,7,2005,21961052.0,159596.0,dosmil
4,1973-01-01,Total Nacional. Todas las edades. Total. Pobla...,34800600.0,Total,41148193.47,-6347593.47,1,1973,34595886.0,204714.0,setentas
236,1985-01-01,Total Nacional. Todas las edades. Mujeres. Pob...,19558571.0,Mujeres,20945782.89,-1387211.89,1,1985,19514666.0,43905.0,ochentas
78,2010-01-01,Total Nacional. Todas las edades. Total. Pobla...,46486621.0,Total,41148193.47,5338427.53,1,2010,46367550.0,119071.0,dosmildiez
67,2004-07-01,Total Nacional. Todas las edades. Total. Pobla...,42859172.0,Total,41148193.47,1710978.53,7,2004,42547454.0,311718.0,dosmil
219,1976-07-01,Total Nacional. Todas las edades. Mujeres. Pob...,18422078.0,Mujeres,20945782.89,-2523704.89,7,1976,18333864.0,88214.0,setentas
66,2004-01-01,Total Nacional. Todas las edades. Total. Pobla...,42547454.0,Total,41148193.47,1399260.53,1,2004,42196231.0,351223.0,dosmil
34,1988-01-01,Total Nacional. Todas las edades. Total. Pobla...,38731578.0,Total,41148193.47,-2416615.47,1,1988,38682322.0,49256.0,ochentas
31,1986-07-01,Total Nacional. Todas las edades. Total. Pobla...,38571941.0,Total,41148193.47,-2576252.47,7,1986,38531195.0,40746.0,ochentas


Si quiero conocer el incremento poblacional que ha habido en las distintas décadas:

In [None]:
df.groupby(['serie', 'decadas']).incremento_pob.sum()

Encontramos el aumento desmesurado en los dosmil pero en los dosmildiez y dosmilveinte hay una frenada de creccimiento, relacionando el crecimiento negativo obtenido anteriormente validado. Podemos descartar que sea por causas naturales, existen procesos migratorios o procesos demográficos por analizar.

### CONEXION DE BASE DE DATOS AL EXTERIOR

In [147]:
!pip install mysql-connector-python



In [148]:
!pip install pymysql



In [149]:
!pip install sqlalchemy



1. Se valida que la base de datos de autorización para ingresar con credenciales de acceso
2. construimos un URL para conectar y establecer la conexión.
3. crear la conexión
4. 

In [156]:
from sqlalchemy import create_engine, text

# Configuración de la conexión:

# Define 'usuario', 'contraseña', 'localhost'
user = 'root' # usualmente 'root'
password = 'Tripleh15.'
host = 'localhost'   # usualmente 'localhost' o la dirección de tu servidor MySQL

# Crear la URL de conexión
connection_url = f'mysql+pymysql://{user}:{password}@{host}/'
engine = create_engine(connection_url)

# Consulta de las BBDD:
databases = []

try:
    # Creamos la conexión
    with engine.connect() as connection:
        
        # Usamos la conexión para solicitar el nombre de las BBDD
        result = connection.execute(text("SHOW DATABASES;"))
        
        # Imprimimos los resultados de la consulta
        print('Bases de datos disponibles:')
        
        for row in result:
            
            print('-', row[0])
        
except Exception as e:
    print(f'Error al conectar con MySQL: {e}')


Bases de datos disponibles:
- classicmodels
- companydb
- formula_unicorn
- information_schema
- mysql
- performance_schema
- raw_classicmodels
- sakila
- salesman
- sandia_clothing
- sys
- unicornburguer
- worldanalysis
