# Análisis gobiernos emperadores de Roma 

In [None]:
# Importamos las librerías necesarias
import pandas as pd
import numpy as np
from src import funciones_soporte as fs
import re

In [2]:
# Importamos el dataset de trabajo, en este caso el csv.
datos_emperadores = pd.read_csv("emperadores_romanos.csv", sep = ",")
datos_emperadores

Unnamed: 0,nombre,inicio,fin
0,AugustoGaius Iulius Caesar Augustus[a]​,16 de enero de27 a. C.,16 de enero de27 a. C.
1,TiberioTiberius Iulius Caesar,17 de septiembre de14,17 de septiembre de14
2,Calígula[d]​Gaius Iulius Caesar,16 de marzo de37,16 de marzo de37
3,ClaudioTiberius Claudius Caesar,24 de enero de41,24 de enero de41
4,NerónNero Claudius Caesar,13 de octubre de54,13 de octubre de54
...,...,...,...
87,Procopio AntemioProcopius Anthemius,12 de abril de467,12 de abril de467
88,Anicio OlibrioAnicius Olybrius,11 de julio – 2 de noviembre de472,11 de julio – 2 de noviembre de472
89,GlicerioGlicerius,3/5 de marzo de473,3/5 de marzo de473
90,Julio NepoteIulius Nepos,24 de junio de474,24 de junio de474


In [3]:
# Vemos la información general sobre los datos que tenemos en el dataset 
fs.info_df(datos_emperadores)

Unnamed: 0,Tipo_dato,numero_registros,Numero_nulos,%_nulos
nombre,object,92,0,0.0
inicio,object,92,0,0.0
fin,object,92,0,0.0


## **Análisis nombres emperadores de Roma**

In [4]:
# Vamos a ver el numero total de emperadores que ha habido en Roma
numero_emperadores = datos_emperadores["nombre"].count()
print(f"En la historia de Roma ha habido un total de {numero_emperadores} emperadores. \nEs necesario tener en cuenta que estamos en un periodo desde el establecimiento del Principado hasta la caída del Imperio romano de Occidente.")

En la historia de Roma ha habido un total de 92 emperadores. 
Es necesario tener en cuenta que estamos en un periodo desde el establecimiento del Principado hasta la caída del Imperio romano de Occidente.


In [5]:
# Observamos que hay una serie de nombres que contienen caracteres invisibles, coincidentes con \u200b. Comprobamos cuales emperadores lo contienen.
emperadores_corregir = datos_emperadores[datos_emperadores["nombre"].str.contains("\u200b")]
print(emperadores_corregir["nombre"])

0               AugustoGaius Iulius Caesar Augustus[a]​
2                       Calígula[d]​Gaius Iulius Caesar
22    Caracalla[o]​Lucius Septimius Bassianus(Marcus...
25    Heliogábalo[p]​Sex.Varius Avitus Bassianus(Mar...
51    Constancio I"Cloro"Marcus Flavius Valerius Con...
77         Constantino IIIFl. Claudius Constantinus[y]​
78                                    Constante II[aa]​
91                Rómulo AugústuloRomulus Augustus[ae]​
Name: nombre, dtype: object


In [6]:
fs.limpieza_caracteres(datos_emperadores, "nombre")

In [7]:
print(datos_emperadores["nombre"].iloc[56])

LicinioValerius Licinianus Licinus


In [8]:
# Los mismos elementos que contienen caracteres invisibles, contienen elementos con [] y una letra en su interior.
elementos = ["[a]", "[d]","[o]","[p]","[w]","[y]","[aa]","[ae]"] 
for emperador in datos_emperadores["nombre"]:
    for i in elementos:
        if i in emperador:
            # emperador = emperador.replace(i, "")
            print(emperador)

In [9]:
# Comprobamos que solo tenemos nombres de emperadores en la columna de nombre
datos_emperadores["nombre"].unique()

array(['AugustoGaius Iulius Caesar Augustus',
       'TiberioTiberius Iulius Caesar', 'CalígulaGaius Iulius Caesar',
       'ClaudioTiberius Claudius Caesar', 'NerónNero Claudius Caesar',
       'GalbaServius Sulpicius Galba', 'OtónMarcus Salvius Otho',
       'VitelioAulus Vitellius', 'VespasianoTitus Flavius Vespasianus',
       'TitoTitus Flavius Vespasianus',
       'DomicianoTitus Flavius Domitianus', 'NervaMarcus Cocceius Nerva',
       'TrajanoMarcus Ulpius Traianus', 'AdrianoPublius Aelius Hadrianus',
       'Antonino PíoTitus Aurelius Antoninus',
       'Lucio VeroLucius Aelius Commodus(Lucius Aurelius Verus)',
       'Marco AurelioMarcus Annius Verus(Marcus Aurelius Antoninus)',
       'CómodoLucius Aurelius Commodus',
       'PertinaxPublius Helvius Pertinax',
       'Didio JulianoMarcus Didius Iulianus',
       'Septimio SeveroLucius Septimius Severus',
       'GetaPublius Septimus Geta',
       'CaracallaLucius Septimius Bassianus(Marcus Aurelius Antoninus)',
       'Macri

## **Fechas inicio y fin gobernanza emperadores**


In [10]:
# Creamos nuevas columnas en las que realizaremos las modificaciones de las fechas para poder trabajar con ellas al final
datos_emperadores["inicio_gobernanza"] = datos_emperadores["inicio"]
datos_emperadores["fin_gobernanza"] = datos_emperadores["fin"]

In [11]:
datos_emperadores.head(2)

Unnamed: 0,nombre,inicio,fin,inicio_gobernanza,fin_gobernanza
0,AugustoGaius Iulius Caesar Augustus,16 de enero de27 a. C.,16 de enero de27 a. C.,16 de enero de27 a. C.,16 de enero de27 a. C.
1,TiberioTiberius Iulius Caesar,17 de septiembre de14,17 de septiembre de14,17 de septiembre de14,17 de septiembre de14


## Fechas inicio

In [12]:
datos_emperadores["inicio_gobernanza"].unique()

array(['16 de enero de27 a. C.', '17 de septiembre de14',
       '16 de marzo de37', '24 de enero de41', '13 de octubre de54',
       '8 de junio de 68', '15 de enero–16 de abril de 69',
       '19 de abril–20/22 de diciembre de 69', '1 de julio de69',
       '24 de junio de79', '14 de septiembre de81',
       '18 de septiembre de96', '28 de enero de98', '11 de agosto de117',
       '10 de julio de138', '7 de marzo de161', '17 de marzo de180',
       '31 de diciembre de 192', '28 de marzo–2 de junio de 193',
       '9 de abril de193[m]\u200b', '4 de febrero de211',
       '12 de abril de217', 'c.16 de mayo –c.8 de junio de 218',
       '16 de mayo de218', '13 de marzo de222', 'c. marzo de 235',
       'c.marzo – abril de 238', 'c. julio de 238', 'c. febrero de 244',
       'c. septbre de 249', 'c. junio de 251',
       'c. julio – septiembre de 253', '—', 'c. septiembre 253',
       'c. julio de 260', 'septiembre 268', '270', 'c. mayo 270',
       'c.270 – septiembre/octubre 275', 'c. 

Problemas encontrados en las fechas de inicio:
- Existencia de caracteres invisibles.
- Existencia de letras o expresiones como: .c, a.C., ¿?
- Hay fechas que contienen guiones, ya que hacen referencia al periodo de gobernanza entero.
- Caracteres "de" que tendremos que eliminar.
- Fechas en formato object, que habrá que modificar para poder trabajar con ellas.

A continuación realizamos la limpieza de esta columna para poder finalmente tranasformarla en tipo fecha. 

### Limpieza de caracteres

In [13]:
# Observamos que hay una serie de nombres que contienen caracteres invisibles, coincidentes con \u200b. Comprobamos que fechas lo contienen.
datos_emperadores[datos_emperadores["inicio_gobernanza"].str.contains("\u200b")]

Unnamed: 0,nombre,inicio,fin,inicio_gobernanza,fin_gobernanza
20,Septimio SeveroLucius Septimius Severus,9 de abril de193[m]​,9 de abril de193[m]​,9 de abril de193[m]​,9 de abril de193[m]​
85,MayorianoIulius Valerius Maiorianus,28 de diciembrede457[ab]​,28 de diciembrede457[ab]​,28 de diciembrede457[ab]​,28 de diciembrede457[ab]​


In [14]:
# Los mismos elementos que contienen caracteres invisibles, contienen elementos con [] y una letra en su interior.
elementos1 = ["[m]", "[ab]", "c.", "c. ", "¿", "?"]
for fecha in datos_emperadores["inicio_gobernanza"]:
    for i in elementos1:
        if i in fecha:
            # emperador = emperador.replace(i, "")
            print(fecha)

9 de abril de193[m]​
c.16 de mayo –c.8 de junio de 218
c. marzo de 235
c. marzo de 235
c.marzo – abril de 238
c. julio de 238
c. julio de 238
c. febrero de 244
c. febrero de 244
c. septbre de 249
c. septbre de 249
c. junio de 251
c. junio de 251
c. julio – septiembre de 253
c. julio – septiembre de 253
c. septiembre 253
c. septiembre 253
c. septiembre 253
c. septiembre 253
c. julio de 260
c. julio de 260
c. mayo 270
c. mayo 270
c.270 – septiembre/octubre 275
c. noviembre 275
c. noviembre 275
c. junio – septiembre 276
c. junio – septiembre 276
c. junio 276
c. junio 276
c. septiembre 282
c. septiembre 282
c. septiembre 283
c. septiembre 283
c. septiembre 283
c. septiembre 283
¿1 de mayo? de310
¿1 de mayo? de310
28 de diciembrede457[ab]​


In [15]:
fs.limpieza_caracteres(datos_emperadores, "inicio_gobernanza")

### Elementos "de"

In [16]:
fs.limpieza_fechas(datos_emperadores, "inicio_gobernanza")

## Fechas fin

In [17]:
datos_emperadores["fin_gobernanza"].unique()

array(['16 de enero de27 a. C.', '17 de septiembre de14',
       '16 de marzo de37', '24 de enero de41', '13 de octubre de54',
       '8 de junio de 68', '15 de enero–16 de abril de 69',
       '19 de abril–20/22 de diciembre de 69', '1 de julio de69',
       '24 de junio de79', '14 de septiembre de81',
       '18 de septiembre de96', '28 de enero de98', '11 de agosto de117',
       '10 de julio de138', '7 de marzo de161', '17 de marzo de180',
       '31 de diciembre de 192', '28 de marzo–2 de junio de 193',
       '9 de abril de193[m]\u200b', '4 de febrero de211',
       '12 de abril de217', 'c.16 de mayo –c.8 de junio de 218',
       '16 de mayo de218', '13 de marzo de222', 'c. marzo de 235',
       'c.marzo – abril de 238', 'c. julio de 238', 'c. febrero de 244',
       'c. septbre de 249', 'c. junio de 251',
       'c. julio – septiembre de 253', '—', 'c. septiembre 253',
       'c. julio de 260', 'septiembre 268', '270', 'c. mayo 270',
       'c.270 – septiembre/octubre 275', 'c. 

En las fechas de fin nos encontramos con los mismos problemas que en las fechas de inicio.A continuación tratamos estos problemas. 

### Limpieza caracteres

In [18]:
# Observamos que hay una serie de nombres que contienen caracteres invisibles, coincidentes con \u200b. Comprobamos que fechas lo contienen.
datos_emperadores[datos_emperadores["fin_gobernanza"].str.contains("\u200b")]

Unnamed: 0,nombre,inicio,fin,inicio_gobernanza,fin_gobernanza
20,Septimio SeveroLucius Septimius Severus,9 de abril de193[m]​,9 de abril de193[m]​,9 abril 193,9 de abril de193[m]​
85,MayorianoIulius Valerius Maiorianus,28 de diciembrede457[ab]​,28 de diciembrede457[ab]​,28 diciembre457,28 de diciembrede457[ab]​


In [19]:
# Los mismos elementos que contienen caracteres invisibles, contienen elementos con [] y una letra en su interior.
elementos2 = ["[r]", "[n]", "[z]", "[ac]", "[ad]", "c.", "c. ","(en Italia)"]
for fecha in datos_emperadores["fin_gobernanza"]:
    for i in elementos2:
        if i in fecha:
            # emperador = emperador.replace(i, "")
            print(fecha)

c.16 de mayo –c.8 de junio de 218
c. marzo de 235
c. marzo de 235
c.marzo – abril de 238
c. julio de 238
c. julio de 238
c. febrero de 244
c. febrero de 244
c. septbre de 249
c. septbre de 249
c. junio de 251
c. junio de 251
c. julio – septiembre de 253
c. julio – septiembre de 253
c. septiembre 253
c. septiembre 253
c. septiembre 253
c. septiembre 253
c. julio de 260
c. julio de 260
c. mayo 270
c. mayo 270
c.270 – septiembre/octubre 275
c. noviembre 275
c. noviembre 275
c. junio – septiembre 276
c. junio – septiembre 276
c. junio 276
c. junio 276
c. septiembre 282
c. septiembre 282
c. septiembre 283
c. septiembre 283
c. septiembre 283
c. septiembre 283
c.18 de enero de350


In [20]:
fs.limpieza_caracteres(datos_emperadores, "fin_gobernanza")

In [21]:
# Observamos que hay una serie de nombres que contienen caracteres invisibles, coincidentes con \u200b. Comprobamos que fechas lo contienen.
datos_emperadores[datos_emperadores["fin_gobernanza"].str.contains("\u200b")]

Unnamed: 0,nombre,inicio,fin,inicio_gobernanza,fin_gobernanza


### Elementos "de"

In [22]:
fs.limpieza_fechas(datos_emperadores, "fin_gobernanza")

### Valores con la fecha de inicio y fin en la entrada

In [35]:
# Tenemos una serie de celdas que contienen directamente la fecha de inicio y fin de la gobernanza de los emperadores. Estas entradas se 
# caracterizan por tener las fechas separadas por un guión, ya sea con espacios como sin espacios, hay patrones. Por ello, para poder hallar
# estas fechas hacemos uso de las expresiones regulares que en este caso son: \s–\s, las \s hacen referencia a los espacios, por lo que hallaremos
# aquellas entradas que contienen espacios ya sea antes o después del guión; \w-\w estas hacen referencia a los guiones que estén seguidos de todo tipo
# de caracteres.
data = datos_emperadores[datos_emperadores["inicio_gobernanza"].str.contains(r"(\s–\s|–\s|\s–|\w-\w)")]

pattern = r"[-–—]"

data[["inicio_gobernanza", "fin_gobernanza"]] = (
    data["inicio_gobernanza"]
    .str.split(pattern, n=1, expand=True)  # Separa solo en el primer guion encontrado
)
#data[["inicio_gobernanza", "fin_gobernanza"]] = data["inicio_gobernanza"].str.split(pattern, expand = True)


#datos_emperadores

  data = datos_emperadores[datos_emperadores["inicio_gobernanza"].str.contains(r"(\s–\s|–\s|\s–|\w-\w)")]


ValueError: Columns must be same length as key

In [25]:
data

Unnamed: 0,nombre,inicio,fin,inicio_gobernanza,fin_gobernanza
24,Diadumeniano,c.16 de mayo –c.8 de junio de 218,c.16 de mayo –c.8 de junio de 218,16 mayo 218,8 junio 218
28,Gordiano IGordiano II,c.marzo – abril de 238,c.marzo – abril de 238,marzo 238,abril 238
33,EmilianoMarcus Aemilus Aemilianus,c. julio – septiembre de 253,c. julio – septiembre de 253,julio 253,septiembre 253
41,Ulpia Severina,c.270 – septiembre/octubre 275,c.270 – septiembre/octubre 275,270,septiembre/octubre 275
43,FlorianoMarcus Annius Florianus,c. junio – septiembre 276,c. junio – septiembre 276,junio 276,septiembre 276
63,VetraniónVetranio,1 de marzo – 25 de diciembre de 350,1 de marzo – 25 de diciembre de 350,1 marzo 350,25 diciembre 350
72,Víctor,384 – 388,384 – 388,384,388
80,Constancio IIIConstantius,8 de febrero – 2 de septiembre de421,8 de febrero – 2 de septiembre de421,8 febrero 421,2 septiembre 421
83,Petronio MáximoPetronius Maximus,17 de marzo – 31 de mayo de455,17 de marzo – 31 de mayo de455,17 marzo 455,31 mayo 455
88,Anicio OlibrioAnicius Olybrius,11 de julio – 2 de noviembre de472,11 de julio – 2 de noviembre de472,11 julio 472,2 noviembre 472


In [26]:
datos_emperadores["inicio_gobernanza"].unique()

array(['16 enero 27 a. C.', '17 septiembre 14', '16 marzo 37',
       '24 enero 41', '13 octubre 54', '8 junio 68',
       '15 enero–16 abril 69', '19 abril–20/22 diciembre 69',
       '1 julio 69', '24 junio 79', '14 septiembre 81',
       '18 septiembre 96', '28 enero 98', '11 agosto 117', '10 julio 138',
       '7 marzo 161', '17 marzo 180', '31 diciembre 192',
       '28 marzo–2 junio 193', '9 abril 193', '4 febrero 211',
       '12 abril 217', '16 mayo 218', '13 marzo 222', ' marzo 235',
       'marzo 238', ' julio 238', ' febrero 244', ' septbre 249',
       ' junio 251', ' julio 253', '—', ' septiembre 253', ' julio 260',
       'septiembre 268', '270', ' mayo 270', ' noviembre 275',
       ' junio 276', ' septiembre 282', ' septiembre 283',
       '20 noviembre 284', '1 abril 286', '1 mayo 305', '25 julio 306',
       '28 octubre 306', '1 mayo 310', '11 novbre. 308', 'Diciembre 316',
       '9 septiembre 337', '18 enero 350', '3–30 junio 350',
       '1 marzo 350', '3 noviembre

In [30]:
print(repr(datos_emperadores["fin_gobernanza"][6]))


'15  enero–16  abril  69'


In [33]:
fecha = datos_emperadores["fin_gobernanza"][6]
partes = re.split(r"[-–—]", fecha)
partes

['15  enero', '16  abril  69']