# Análisis Exploratorio de los Datos 📄

Se tienen 2 tipos de documentos:

1. Inscritos al evento
2. Asistencias de los usuarios al evento

**Objetivos**

* Realizar una extracción, transformación de un conjunto de datos ya listos para análisis
* Realizar mediante gráficos análisis de valor de los datos

**Extracción de los datos**

Para este apartado se realiza un cargue de los archivos csv para poder transformarlos (limpiarlos)

In [55]:
# Se importan librerías a utilizar
import pandas as pd 
import numpy as np  
import matplotlib.pyplot as plt 
%matplotlib inline
import seaborn as sns

In [56]:
import warnings

# Ignorar todas las advertencias de tipo SettingWithCopyWarning
warnings.filterwarnings("ignore")

In [57]:
# Se importan los archivos
registro_datos = pd.read_csv("../data/Registro_Evento.csv")

In [58]:
evento_1 = pd.read_csv("../data/2023-09-06 09_33.csv",sep=";")
evento_2 = pd.read_csv("../data/2023-09-08 09_30.csv",sep=",")
evento_3 = pd.read_csv("../data/2023-09-13 09_50.csv",sep=",")
evento_4 = pd.read_csv("../data/2023-09-15 09_43.csv",sep=",")
evento_5 = pd.read_csv("../data/2023-09-20 09_44.csv",sep=",")
evento_6 = pd.read_csv("../data/2023-09-22 09_28.csv",sep=",")
evento_7 = pd.read_csv("../data/2023-09-29 09_50.csv",sep=",")
evento_8 = pd.read_csv("../data/2023-10-04 09_44.csv",sep=",")
evento_9 = pd.read_csv("../data/2023-10-05 09_38.csv",sep=",")

## Limpieza de los archivos 🧹

In [59]:
registro_datos.isna().sum()

Nombre                                  7
Correo institucional (@uptc.edu.co)     0
Programa Académico                      1
Asignatura                             28
dtype: int64

In [60]:
registro_datos.shape

(141, 4)

In [61]:
registro_datos[registro_datos["Nombre"].isna()]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura
52,,ingrid.ortiz05@uptc.edu.co,Docente,
54,,jaraquesoler@gmail.com,Docente,
119,,santiago.rodriguez04@uptc.edu.co,,
136,,cristhian.moreno@uptc.edu.co,Ingeniería Electrónica,Telemática
137,,juan.mora02@uptc.edu.co,Ingeniería Electrónica,Telemática
138,,anderson.carvajal@uptc.edu.co,Ingeniería Electrónica,Telemática
139,,luis.pulido01@uptc.edu.co,Ingeniería Electrónica,Telemática


In [62]:
import re
pattern = re.compile('[a-z]+') # patrón a utilizar

In [63]:
# descompongo el correo y asigno nombre y apellido al campo de nombre donde existan NaNs
registro_datos["Nombre"].fillna(registro_datos["Correo institucional (@uptc.edu.co)"].apply(lambda x: " ".join(pattern.findall(x.split("@")[0]))),inplace=True)
registro_datos[registro_datos["Nombre"].isna()]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura


In [64]:
# Verificación
registro_datos.iloc[136:140]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura
136,cristhian moreno,cristhian.moreno@uptc.edu.co,Ingeniería Electrónica,Telemática
137,juan mora,juan.mora02@uptc.edu.co,Ingeniería Electrónica,Telemática
138,anderson carvajal,anderson.carvajal@uptc.edu.co,Ingeniería Electrónica,Telemática
139,luis pulido,luis.pulido01@uptc.edu.co,Ingeniería Electrónica,Telemática


In [65]:
registro_datos[registro_datos["Programa Académico"].isna()]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura
119,santiago rodriguez,santiago.rodriguez04@uptc.edu.co,,


In [66]:
# Se revisan valores unicos para ver si existe algun patron
registro_datos["Asignatura"][registro_datos["Programa Académico"]=="Ingeniería de Sistemas y Computación"].unique()

array(['Electiva III:Gestión de redes',
       'Semillero Telematics, Ciberseguridad - Gestión de redes', nan,
       'Comunicaciones', 'comunicaciones', 'Transmision de Datos',
       'Arquitectura de computadores ', 'Transmisión de datos',
       'Transmisión de datos ',
       'Electiva III - Semillero Telematics Seguridad',
       'Transmision de datos',
       'Comunicaciones y Investigación de operaciones ',
       'TRANSMISIÓN DE DATOS', 'Transmisión de Datos',
       'TRANSMISION DE DATOS', 'Matemáticas discretas',
       'Comunicaciones, Investigación de operaciones', 'Redes de datos',
       'Inteligencia computacional', 'Comunicaciones ',
       'Arquitectura de Computadores', 'Trasmisión de datos',
       'Comunicaciones e Investigación de Operaciones', 'COMUNICACIÓNES',
       'transmisiones ', 'Comunicaciones - Investigacion de operaciones',
       'Gestión de redes', 'Electiva III', 'Sistemas Operativos ',
       'Transmisión de datos - Seminario de grado', 'Gestión de r

In [67]:
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.upper()
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.strip()

In [68]:
# Se revisan valores unicos para ver si existe algun patron
registro_datos["Asignatura"].unique()

array(['ELECTIVA III:GESTIÓN DE REDES',
       'SEMILLERO TELEMATICS, CIBERSEGURIDAD - GESTIÓN DE REDES', nan,
       'COMUNICACIONES 2', 'COMUNICACIONES II', 'COMUNICACIONES',
       'TRANSMISION DE DATOS', 'ARQUITECTURA DE COMPUTADORES',
       'TRANSMISIÓN DE DATOS', 'TELEMATICA', 'TELEMÁTICA',
       'ELECTIVA III - SEMILLERO TELEMATICS SEGURIDAD',
       'COMUNICACIONES Y INVESTIGACIÓN DE OPERACIONES',
       'MATEMÁTICAS DISCRETAS',
       'COMUNICACIONES, INVESTIGACIÓN DE OPERACIONES', 'REDES DE DATOS',
       'INTELIGENCIA COMPUTACIONAL', 'COMUNICACIONES LL',
       'TRASMISIÓN DE DATOS',
       'COMUNICACIONES E INVESTIGACIÓN DE OPERACIONES', 'COMUNICACIÓNES',
       'TRANSMISIONES', 'COMUNICACIONES - INVESTIGACION DE OPERACIONES',
       'GESTIÓN DE REDES', 'ELECTIVA III', 'SISTEMAS OPERATIVOS',
       'TRANSMISIÓN DE DATOS - SEMINARIO DE GRADO', 'TRANSMISIÓN',
       'INVESTIGACIÓN DE OPERACIONES / COMUNICACIONES',
       'INVESTIGACIÓN DE OPERACIONES', 'COMUICACIONES',
    

In [69]:
# Reemplazo asignaturas
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^TRANS.*','Transmisión de Datos',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^TRAS.*','Transmisión de Datos',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^TELEM.*','Telemática',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^COMUN.*2$','Comunicaciones II',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^COMUN.*','Comunicaciones',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^COMU.*','Comunicaciones',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^INVEST.*','Comunicaciones',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^ELEC.*','Electiva III',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^SEMILL.*','Electiva III',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^GEST.*','Electiva III',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^ARQ.*','Arquitectura de Computadores',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^MAT.*','Matemáticas discretas',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^REDES.*','Redes de datos',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^INT.*','Inteligencia Computacional',regex=True)
registro_datos["Asignatura"] = registro_datos["Asignatura"].str.replace(r'^SISTEMAS OPERATIVOS.*','Sistemas Operativos',regex=True)

In [70]:
registro_datos["Asignatura"].unique()

array(['Electiva III', nan, 'Comunicaciones II', 'Comunicaciones',
       'Transmisión de Datos', 'Arquitectura de Computadores',
       'Telemática', 'Matemáticas discretas', 'Redes de datos',
       'Inteligencia Computacional', 'Sistemas Operativos', ''],
      dtype=object)

In [71]:
# Se asigna en Asignatura para campos con Docente,Gobernación y Administrativo el campo de profesionales
programas_profesionales = ["Gobernación de Boyacá","Docente","Administrativo"]
registro_datos["Asignatura"][registro_datos["Programa Académico"].isin(programas_profesionales)] = "Profesionales"

In [72]:
registro_datos["Asignatura"].unique()

array(['Electiva III', nan, 'Comunicaciones II', 'Comunicaciones',
       'Transmisión de Datos', 'Arquitectura de Computadores',
       'Telemática', 'Profesionales', 'Matemáticas discretas',
       'Redes de datos', 'Inteligencia Computacional',
       'Sistemas Operativos', ''], dtype=object)

In [73]:
# Verificación
registro_datos[registro_datos["Programa Académico"].isin(programas_profesionales)]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura
44,Fredy Andrés Murcia Currea,fandresmc97@gmail.com,Gobernación de Boyacá,Profesionales
46,Frey Alfonso Santamaría Buitrago,Frey.santamaria@uptc.edu.co,Docente,Profesionales
51,FABIO ALONSO ARIAS ADARME,ingfaaa@gmail.com,Gobernación de Boyacá,Profesionales
52,ingrid ortiz,ingrid.ortiz05@uptc.edu.co,Docente,Profesionales
53,Jairo Alonso Mesa Lara,jairo.mesa@uptc.edu.co,Docente,Profesionales
54,jaraquesoler,jaraquesoler@gmail.com,Docente,Profesionales
55,Jeffer Ivan Figueroa Casas,jefferfigueroacasas@gmail.com,Gobernación de Boyacá,Profesionales
59,Jenny Amparo Rosales Agredo,jenny.rosales@uptc.edu.co,Docente,Profesionales
91,LEONARDO BERNAL ZAMORA,leonardo.bernal01@uptc.edu.co,Administrativo,Profesionales
97,Luz Santamaría Granados,luz.santamaria@uptc.edu.co,Docente,Profesionales


In [74]:
#Cuantos nulos quedan??
registro_datos.isna().sum()

Nombre                                  0
Correo institucional (@uptc.edu.co)     0
Programa Académico                      1
Asignatura                             14
dtype: int64

In [75]:
registro_datos[registro_datos["Asignatura"].isna()]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura
2,Andrés Leonardo Maldonado Sánchez,andres.maldonado02@uptc.edu.co,Ingeniería de Sistemas y Computación,
4,Andrés Camilo Silva Landinez,andres.silva07@uptc.edu.co,Ingeniería de Sistemas y Computación,
10,Brayan Julián Barrantes Medina,brayan.barrantes@uptc.edu.co,Ingeniería de Sistemas y Computación,
25,David Leonardo Rojas Leon,David.rojas@uptc.edu.co,Ingeniería de Sistemas y Computación,
26,Diana Marcela Pinzón Reyes,Diana.pinzon02@uptc.edu.co,Otro programa académico,
27,Diego fernando alba novoa,diego.alba02@uptc.edu.co,Ingeniería de Sistemas y Computación,
42,Esteban Nicolás Peña Coronado,esteban.pena01@uptc.edu.co,Ingeniería de Sistemas y Computación,
67,Johan Sebastian Sierra Torres,johan.sierra@uptc.edu.co,Ingeniería de Sistemas y Computación,
74,Joseph Sebastian Saavedra Rivera,joseph.saavedra@uptc.edu.co,Ingeniería de Sistemas y Computación,
85,JULIAN CAMILO REYES URIBE,julian.reyes04@uptc.edu.co,Ingeniería de Sistemas y Computación,


In [76]:
registro_datos["estado"] = np.where(registro_datos["Asignatura"].isna(),"Falta información","Validados")

In [77]:
registro_datos["estado"].loc[registro_datos["Correo institucional (@uptc.edu.co)"]=="william.cely05@uptc.edu.co"]
registro_datos.iloc[130,4]="Falta información"

In [78]:
# Validación
registro_datos[registro_datos["Asignatura"].isna()]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura,estado
2,Andrés Leonardo Maldonado Sánchez,andres.maldonado02@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
4,Andrés Camilo Silva Landinez,andres.silva07@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
10,Brayan Julián Barrantes Medina,brayan.barrantes@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
25,David Leonardo Rojas Leon,David.rojas@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
26,Diana Marcela Pinzón Reyes,Diana.pinzon02@uptc.edu.co,Otro programa académico,,Falta información
27,Diego fernando alba novoa,diego.alba02@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
42,Esteban Nicolás Peña Coronado,esteban.pena01@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
67,Johan Sebastian Sierra Torres,johan.sierra@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
74,Joseph Sebastian Saavedra Rivera,joseph.saavedra@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información
85,JULIAN CAMILO REYES URIBE,julian.reyes04@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información


In [79]:
# Limpio problemas con mayusculas y minusculas
registro_datos["Nombre"] = registro_datos.Nombre.str.title()

In [80]:
# Limpio espacios
registro_datos["Nombre"] = registro_datos["Nombre"].str.strip()
registro_datos.iloc[0]

Nombre                                       Anderson Daniel Barreto Sierra
Correo institucional (@uptc.edu.co)          anderson.barreto01@uptc.edu.co
Programa Académico                     Ingeniería de Sistemas y Computación
Asignatura                                                     Electiva III
estado                                                            Validados
Name: 0, dtype: object

In [81]:
# Genero columna en comun con el registro al evento
evento_1["NombreCompleto"] = (evento_1["Nombre"].fillna("")+" "+evento_1["Apellido"].fillna("")).str.strip()
evento_2["NombreCompleto"] = (evento_2["Nombre"].fillna("")+" "+evento_2["Apellido"].fillna("")).str.strip()
evento_3["NombreCompleto"] = (evento_3["Nombre"].fillna("")+" "+evento_3["Apellido"].fillna("")).str.strip()
evento_4["NombreCompleto"] = (evento_4["Nombre"].fillna("")+" "+evento_4["Apellido"].fillna("")).str.strip()
evento_5["NombreCompleto"] = (evento_5["Nombre"].fillna("")+" "+evento_5["Apellido"].fillna("")).str.strip()
evento_6["NombreCompleto"] = (evento_6["Nombre"].fillna("")+" "+evento_6["Apellido"].fillna("")).str.strip()
evento_7["NombreCompleto"] = (evento_7["Nombre"].fillna("")+" "+evento_7["Apellido"].fillna("")).str.strip()
evento_8["NombreCompleto"] = (evento_8["Nombre"].fillna("")+" "+evento_8["Apellido"].fillna("")).str.strip()
evento_9["NombreCompleto"] = (evento_9["Nombre"].fillna("")+" "+evento_9["Apellido"].fillna("")).str.strip()

In [82]:
# Elimino espacios
evento_1["NombreCompleto"] = evento_1["NombreCompleto"].str.strip()
evento_2["NombreCompleto"] = evento_2["NombreCompleto"].str.strip()
evento_3["NombreCompleto"] = evento_3["NombreCompleto"].str.strip()
evento_4["NombreCompleto"] = evento_4["NombreCompleto"].str.strip()
evento_5["NombreCompleto"] = evento_5["NombreCompleto"].str.strip()
evento_6["NombreCompleto"] = evento_6["NombreCompleto"].str.strip()
evento_7["NombreCompleto"] = evento_7["NombreCompleto"].str.strip()
evento_8["NombreCompleto"] = evento_8["NombreCompleto"].str.strip()
evento_9["NombreCompleto"] = evento_9["NombreCompleto"].str.strip()

In [83]:
# Se realiza una busqueda de correos no institucionales
uptc = re.compile('.*@uptc\.edu\.co$')

In [84]:
# Elimino espacios
registro_datos["Correo institucional (@uptc.edu.co)"]=registro_datos["Correo institucional (@uptc.edu.co)"].str.strip()

In [85]:
# Procedo a revisar cada uno de los integrantes en las asistencias de los eventos para asi arreglarlos
registro_datos[~registro_datos["Correo institucional (@uptc.edu.co)"].str.contains(uptc)]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura,estado
44,Fredy Andrés Murcia Currea,fandresmc97@gmail.com,Gobernación de Boyacá,Profesionales,Validados
51,Fabio Alonso Arias Adarme,ingfaaa@gmail.com,Gobernación de Boyacá,Profesionales,Validados
54,Jaraquesoler,jaraquesoler@gmail.com,Docente,Profesionales,Validados
55,Jeffer Ivan Figueroa Casas,jefferfigueroacasas@gmail.com,Gobernación de Boyacá,Profesionales,Validados
115,Natalia Rojas Sepulveda,rojasnatha21@gmail.com,Gobernación de Boyacá,Profesionales,Validados
128,Jorge Mojica,telematica@boyaca.gov.co,Gobernación de Boyacá,Profesionales,Validados


In [86]:
#primero arreglo los gmail
nombre_gmail = ["Fredy Andrés Murcia Currea","Fabio Alonso Arias Adarme",
                "Jaraquesoler","Jeffer Ivan Figueroa Casas","Natalia Rojas Sepulveda","Jorge Mojica"]
gmail_correos = re.compile('.*@gmail.com$')

In [87]:
# corrijo problemas con mayusculas y minusculas
evento_1["NombreCompleto"] = evento_1["NombreCompleto"].str.title()
evento_2["NombreCompleto"] = evento_2["NombreCompleto"].str.title()
evento_3["NombreCompleto"] = evento_3["NombreCompleto"].str.title()
evento_4["NombreCompleto"] = evento_4["NombreCompleto"].str.title()
evento_5["NombreCompleto"] = evento_5["NombreCompleto"].str.title()
evento_6["NombreCompleto"] = evento_6["NombreCompleto"].str.title()
evento_7["NombreCompleto"] = evento_7["NombreCompleto"].str.title()
evento_8["NombreCompleto"] = evento_8["NombreCompleto"].str.title()
evento_9["NombreCompleto"] = evento_9["NombreCompleto"].str.title()


In [88]:
def encontrar_usuario(dataframe):
    for nombres_gmail in nombre_gmail:
        nombres = nombres_gmail.split()
        for nombre in nombres:
            try:
                for i,data in dataframe.iterrows():
                    if nombre in dataframe["NombreCompleto"].iloc[i]:
                        print(f"Encontrado en {i} el nombre {nombre}")
            except KeyError:
                pass 

In [89]:
# Revisar si algun usuario asistió al evento el día 6
encontrar_usuario(evento_1)

Encontrado en 3 el nombre Andrés
Encontrado en 28 el nombre Andrés
Encontrado en 59 el nombre Andrés
Encontrado en 119 el nombre Andrés
Encontrado en 6 el nombre Fabio
Encontrado en 2 el nombre Alonso
Encontrado en 6 el nombre Alonso
Encontrado en 6 el nombre Arias
Encontrado en 7 el nombre Arias
Encontrado en 6 el nombre Adarme
Encontrado en 45 el nombre Jeffer
Encontrado en 45 el nombre Figueroa
Encontrado en 45 el nombre Casas
Encontrado en 0 el nombre Natalia
Encontrado en 91 el nombre Natalia
Encontrado en 91 el nombre Rojas
Encontrado en 124 el nombre Rojas
Encontrado en 64 el nombre Jorge
Encontrado en 63 el nombre Mojica
Encontrado en 64 el nombre Mojica


In [90]:
# Revisando nombres completos de los encontrados
print(nombre_gmail)
evento_1.iloc[64]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                     jorge
Apellido                                  mojica
Correo electrónico       jmoj***********@***.com
Duración                              1 h 43 min
Hora a la que se unió                      10:23
Hora a la que salió                        12:06
NombreCompleto                      Jorge Mojica
Name: 64, dtype: object

In [91]:
# Se corrige a Fabio Alonso Arias Adarme
registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]=="Fabio Alonso Arias Adarme"].values[0]

'ingfaaa@gmail.com'

In [92]:
evento_1.iloc[6,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]=="Fabio Alonso Arias Adarme"].values[0]
# Se verifica
evento_1.iloc[6,2]

'ingfaaa@gmail.com'

In [93]:
# Se corrige a Jeffer
evento_1.iloc[45,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[3]].values[0]
evento_1.iloc[45,2]

'jefferfigueroacasas@gmail.com'

In [94]:
# Se corrige a Natalia
evento_1.iloc[91,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[4]].values[0]
evento_1.iloc[91,2]

'rojasnatha21@gmail.com'

In [95]:
# Se corrige a Jorge
evento_1.iloc[64,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[-1]].values[0]
evento_1.iloc[64,2]

'telematica@boyaca.gov.co'

In [96]:
# Revisar si algun usuario asistió al evento el día 8
encontrar_usuario(evento_2)

Encontrado en 1 el nombre Andrés


Encontrado en 55 el nombre Andrés
Encontrado en 113 el nombre Andrés
Encontrado en 64 el nombre Murcia
Encontrado en 4 el nombre Fabio
Encontrado en 4 el nombre Alonso
Encontrado en 64 el nombre Alonso
Encontrado en 4 el nombre Arias
Encontrado en 5 el nombre Arias
Encontrado en 4 el nombre Adarme
Encontrado en 40 el nombre Jeffer
Encontrado en 84 el nombre Ivan
Encontrado en 40 el nombre Figueroa
Encontrado en 40 el nombre Casas
Encontrado en 0 el nombre Natalia
Encontrado en 86 el nombre Natalia
Encontrado en 83 el nombre Rojas
Encontrado en 84 el nombre Rojas
Encontrado en 85 el nombre Rojas
Encontrado en 86 el nombre Rojas
Encontrado en 117 el nombre Rojas
Encontrado en 61 el nombre Jorge
Encontrado en 60 el nombre Mojica
Encontrado en 61 el nombre Mojica


In [97]:
# Revisando nombres completos de los encontrados
print(nombre_gmail)
evento_2.iloc[61]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                     jorge
Apellido                                  mojica
Correo electrónico       jmoj***********@***.com
Duración                                  51 min
Hora a la que se unió                      10:53
Hora a la que salió                        11:45
NombreCompleto                      Jorge Mojica
Name: 61, dtype: object

In [98]:
# Se corrige a Fabio
evento_2.iloc[4,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[1]].values[0]
evento_2.iloc[4,2]

'ingfaaa@gmail.com'

In [99]:
# Se corrige a Jeffer
evento_2.iloc[40,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[3]].values[0]
evento_2.iloc[40,2]

'jefferfigueroacasas@gmail.com'

In [100]:
# Se corrige a Natalia
evento_2.iloc[86,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[4]].values[0]
evento_2.iloc[86,2]

'rojasnatha21@gmail.com'

In [101]:
evento_2.iloc[61,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[-1]].values[0]
evento_2.iloc[61,2]

'telematica@boyaca.gov.co'

In [102]:
# Revisar si algun usuario asistió al evento el día 13
encontrar_usuario(evento_3)

Encontrado en 1 el nombre Andrés
Encontrado en 96 el nombre Andrés
Encontrado en 56 el nombre Murcia
Encontrado en 3 el nombre Fabio
Encontrado en 3 el nombre Alonso
Encontrado en 56 el nombre Alonso
Encontrado en 3 el nombre Arias
Encontrado en 4 el nombre Arias
Encontrado en 3 el nombre Adarme
Encontrado en 33 el nombre Jeffer
Encontrado en 73 el nombre Ivan
Encontrado en 33 el nombre Figueroa
Encontrado en 33 el nombre Casas
Encontrado en 75 el nombre Natalia
Encontrado en 72 el nombre Rojas
Encontrado en 73 el nombre Rojas
Encontrado en 74 el nombre Rojas
Encontrado en 75 el nombre Rojas
Encontrado en 100 el nombre Rojas
Encontrado en 7 el nombre Jorge
Encontrado en 52 el nombre Jorge
Encontrado en 51 el nombre Mojica
Encontrado en 52 el nombre Mojica


In [107]:
print(nombre_gmail)
evento_3.iloc[52]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                     jorge
Apellido                                  mojica
Correo electrónico       jmoj***********@***.com
Duración                              1 h 35 min
Hora a la que se unió                      10:03
Hora a la que salió                        11:38
NombreCompleto                      Jorge Mojica
Name: 52, dtype: object

In [110]:
# Se corrigen los nombres
evento_3.iloc[3,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[1]].values[0]
evento_3.iloc[33,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[3]].values[0]
evento_3.iloc[75,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[4]].values[0]
evento_3.iloc[52,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[-1]].values[0]

In [109]:
# Revisar si algun usuario asistió al evento el día 15
encontrar_usuario(evento_4)

Encontrado en 3 el nombre Fabio
Encontrado en 0 el nombre Alonso
Encontrado en 3 el nombre Alonso
Encontrado en 3 el nombre Arias
Encontrado en 4 el nombre Arias
Encontrado en 3 el nombre Adarme
Encontrado en 62 el nombre Natalia
Encontrado en 60 el nombre Rojas
Encontrado en 61 el nombre Rojas
Encontrado en 62 el nombre Rojas
Encontrado en 84 el nombre Rojas


In [113]:
print(nombre_gmail)
evento_4.iloc[62]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                   Natalia
Apellido                         Rojas Sepúlveda
Correo electrónico          roja********@***.com
Duración                                  33 min
Hora a la que se unió                      10:14
Hora a la que salió                        10:47
NombreCompleto           Natalia Rojas Sepúlveda
Name: 62, dtype: object

In [114]:
# Se corrige a Fabio
evento_4.iloc[3,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[1]].values[0]
evento_4.iloc[62,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[4]].values[0]
evento_4.iloc[3,2]

'ingfaaa@gmail.com'

In [118]:
# Revisar si algun usuario asistió al evento el día 20
encontrar_usuario(evento_5)

Encontrado en 2 el nombre Andrés
Encontrado en 4 el nombre Fabio
Encontrado en 0 el nombre Alonso
Encontrado en 4 el nombre Alonso
Encontrado en 4 el nombre Arias
Encontrado en 5 el nombre Arias
Encontrado en 4 el nombre Adarme
Encontrado en 29 el nombre Jeffer
Encontrado en 29 el nombre Figueroa
Encontrado en 29 el nombre Casas
Encontrado en 59 el nombre Natalia
Encontrado en 58 el nombre Rojas
Encontrado en 59 el nombre Rojas
Encontrado en 81 el nombre Rojas


In [121]:
print(nombre_gmail)
evento_5.iloc[59]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                   Natalia
Apellido                         Rojas Sepúlveda
Correo electrónico          roja********@***.com
Duración                               1 h 6 min
Hora a la que se unió                       9:55
Hora a la que salió                        11:02
NombreCompleto           Natalia Rojas Sepúlveda
Name: 59, dtype: object

In [122]:
# Se corrigen los nombres
evento_4.iloc[4,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[1]].values[0]
evento_4.iloc[29,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[3]].values[0]
evento_4.iloc[59,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[4]].values[0]

In [123]:
# Revisar si algun usuario asistió al evento el día 22
encontrar_usuario(evento_6)

Encontrado en 1 el nombre Andrés
Encontrado en 78 el nombre Andrés
Encontrado en 0 el nombre Alonso
Encontrado en 3 el nombre Arias
Encontrado en 59 el nombre Rojas
Encontrado en 60 el nombre Rojas
Encontrado en 81 el nombre Rojas


In [132]:
print(nombre_gmail)
evento_6.iloc[3]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                SANTIAGO ANDRES
Apellido                                  ARIAS REYES
Correo electrónico       santiago.arias01@uptc.edu.co
Duración                                          2 h
Hora a la que se unió                            9:56
Hora a la que salió                             11:55
NombreCompleto            Santiago Andres Arias Reyes
Name: 3, dtype: object

In [133]:
# Revisar si algun usuario asistió al evento el día 29
encontrar_usuario(evento_7)

Encontrado en 2 el nombre Andrés
Encontrado en 0 el nombre Alonso
Encontrado en 5 el nombre Arias
Encontrado en 51 el nombre Rojas


In [136]:
print(nombre_gmail)
evento_7.iloc[51]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                              DAVID LEONARDO
Apellido                                ROJAS LEÓN
Correo electrónico         david.rojas@uptc.edu.co
Duración                                1 h 28 min
Hora a la que se unió                        10:19
Hora a la que salió                          11:48
NombreCompleto           David Leonardo Rojas León
Name: 51, dtype: object

In [137]:
# Revisar si algun usuario asistió al evento el día 4 de octubre
encontrar_usuario(evento_8)

Encontrado en 55 el nombre Andrés
Encontrado en 0 el nombre Alonso
Encontrado en 43 el nombre Natalia
Encontrado en 43 el nombre Rojas
Encontrado en 57 el nombre Rojas


In [138]:
print(nombre_gmail)
evento_8.iloc[43]

['Fredy Andrés Murcia Currea', 'Fabio Alonso Arias Adarme', 'Jaraquesoler', 'Jeffer Ivan Figueroa Casas', 'Natalia Rojas Sepulveda', 'Jorge Mojica']


Nombre                                   Natalia
Apellido                         Rojas Sepúlveda
Correo electrónico          roja********@***.com
Duración                                  26 min
Hora a la que se unió                      10:01
Hora a la que salió                        10:50
NombreCompleto           Natalia Rojas Sepúlveda
Name: 43, dtype: object

In [139]:
evento_8.iloc[43,2] = registro_datos["Correo institucional (@uptc.edu.co)"][registro_datos["Nombre"]==nombre_gmail[4]].values[0]

In [141]:
# Revisar si algun usuario asistió al evento el día 5 de octubre
encontrar_usuario(evento_9)

In [142]:
def ajustar_correos(dataframe):
    mal_correo = re.compile('.*\*+@\*+.*')
    data = np.where(dataframe["Correo electrónico"].apply(lambda x: mal_correo.search(str(x))),dataframe["Correo electrónico"].index,"No")
    print(data)
    malos_correos = np.array([])
    for n in data:
        if n!="No":
            malos_correos = np.append(malos_correos,n)
    for idx in malos_correos:
        name = dataframe.iloc[int(idx), 0].split()[0]
        # Comprobar si "name" está en "registro_datos" antes de acceder a él
        if name in registro_datos["Primer Nombre"].values:
            correo = registro_datos.loc[registro_datos["Primer Nombre"] == name]["Correo institucional (@uptc.edu.co)"].values[0]
            dataframe.iloc[int(idx), 2] = correo
        else:
            print(f"No se encontró el nombre {name} en registro_datos")

In [143]:
evento_1["Nombre"] = evento_1["Nombre"].str.title()
evento_2["Nombre"] = evento_2["Nombre"].str.title()
evento_3["Nombre"] = evento_3["Nombre"].str.title()
evento_4["Nombre"] = evento_4["Nombre"].str.title()
evento_5["Nombre"] = evento_5["Nombre"].str.title()
evento_6["Nombre"] = evento_6["Nombre"].str.title()
evento_7["Nombre"] = evento_7["Nombre"].str.title()
evento_8["Nombre"] = evento_8["Nombre"].str.title()
evento_9["Nombre"] = evento_9["Nombre"].str.title()


In [144]:
solo_letras = re.compile('[a-zA-ZáéíóúÁÉÍÓÚñÑ]+')
datos = registro_datos["Nombre"].str.split()
registro_datos["Primer Nombre"] = None
registro_datos["Primer Apellido"] = None
for i,nombre in enumerate(datos):
    if len(nombre)==4:
        nom1 = solo_letras.search(nombre[0])
        registro_datos["Primer Nombre"][i]=nom1.group()
        ap1 = solo_letras.search(nombre[2])
        registro_datos["Primer Apellido"][i]=ap1.group()
    elif len(nombre)==3 or len(nombre)==2:
        nom1 = solo_letras.search(nombre[0])
        registro_datos["Primer Nombre"][i]=nom1.group()
        ap1 = solo_letras.search(nombre[1])
        registro_datos["Primer Apellido"][i]=ap1.group()

In [145]:
ajustar_correos(evento_1)

['No' 'No' '2' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' '21' 'No' 'No' 'No' 'No' 'No' 'No' '28'
 'No' 'No' '31' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '42'
 'No' 'No' 'No' 'No' 'No' '48' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '68' 'No' 'No'
 'No' 'No' '73' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '83' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '111' 'No'
 'No' '114' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No']
No se encontró el nombre Felipe en registro_datos
No se encontró el nombre Mónica en registro_datos


In [62]:
pd.reset_option('display.max_rows')

In [146]:
evento_1.iloc[42]

Nombre                                Felipe
Apellido                             Escobar
Correo electrónico       pipe*******@***.com
Duración                          1 h 40 min
Hora a la que se unió                  10:03
Hora a la que salió                    12:06
NombreCompleto                Felipe Escobar
Name: 42, dtype: object

In [147]:
evento_1.iloc[42,2]="andres.escobar01@uptc.edu.co"

In [64]:
ajustar_correos(evento_2)

['No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '51' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '82' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '108' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No']
No se encontró el nombre Lorena en registro_datos
No se encontró el nombre Santigo en registro_datos


In [148]:
ajustar_correos(evento_3)

['No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' '16' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' '35' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '66' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '93' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No']
No se encontró el nombre Filyp en registro_datos
No se encontró el nombre Mónica en registro_datos


In [149]:
ajustar_correos(evento_4)

['No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' '15' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' '31' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' '43' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '55'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No']
No se encontró el nombre Filyp en registro_datos
No se encontró el nombre Mónica en registro_datos


In [150]:
ajustar_correos(evento_5)

['No' 'No' 'No' 'No' '4' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 '29' '30' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' '59' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '68' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' '76' 'No' 'No' 'No' 'No' 'No' 'No']
No se encontró el nombre Sandra en registro_datos


In [151]:
ajustar_correos(evento_6)

['No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '12' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '24' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '40' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No']
No se encontró el nombre Alejandro en registro_datos


In [152]:
ajustar_correos(evento_7)

['No' 'No' 'No' 'No' 'No' 'No' '6' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' '35' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' '48' '49' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No']
No se encontró el nombre Mónica en registro_datos
No se encontró el nombre Monica en registro_datos


In [153]:
ajustar_correos(evento_8)

['No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' '19' 'No' 'No' '22' 'No' 'No' 'No' 'No' 'No'
 'No' 'No' 'No' 'No' 'No' '33' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No'
 '42' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '53' 'No' 'No'
 'No' 'No']
No se encontró el nombre Sandra en registro_datos
No se encontró el nombre Mónica en registro_datos


In [154]:
ajustar_correos(evento_9)

['No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' '8' 'No' 'No' 'No' 'No' 'No' 'No'
 '15' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No' 'No']
No se encontró el nombre Edgar en registro_datos


In [155]:
# Identifico tipos de los datos
evento_1.dtypes, evento_2.dtypes, evento_3.dtypes, evento_4.dtypes, evento_5.dtypes, evento_6.dtypes, evento_7.dtypes, evento_8.dtypes, evento_9.dtypes

(Nombre                   object
 Apellido                 object
 Correo electrónico       object
 Duración                 object
 Hora a la que se unió    object
 Hora a la que salió      object
 NombreCompleto           object
 dtype: object,
 Nombre                   object
 Apellido                 object
 Correo electrónico       object
 Duración                 object
 Hora a la que se unió    object
 Hora a la que salió      object
 NombreCompleto           object
 dtype: object,
 Nombre                   object
 Apellido                 object
 Correo electrónico       object
 Duración                 object
 Hora a la que se unió    object
 Hora a la que salió      object
 NombreCompleto           object
 dtype: object,
 Nombre                   object
 Apellido                 object
 Correo electrónico       object
 Duración                 object
 Hora a la que se unió    object
 Hora a la que salió      object
 NombreCompleto           object
 dtype: object,
 Nombre     

In [156]:
def procesamiento(dataframe):
    # Se procesa duración a minutos (Se maneja tiempo entero), hora a la que se unió y hora a la que salió a tiempo
    dataframe["Hora a la que se unió"] = pd.to_datetime("2023-09-06 "+dataframe["Hora a la que se unió"],format='%Y-%m-%d %H:%M')
    dataframe["Hora a la que salió"] = pd.to_datetime("2023-09-06 "+dataframe["Hora a la que salió"],format='%Y-%m-%d %H:%M')

    dataframe["duración"] = (dataframe["Hora a la que salió"]-dataframe["Hora a la que se unió"]).dt.total_seconds()/60
    dataframe["duración"] = dataframe["duración"].astype(int)

    return dataframe

In [157]:
# Se procesa duración a minutos (Se maneja tiempo entero), hora a la que se unió y hora a la que salió a tiempo
evento_1 = procesamiento(evento_1)
evento_2 = procesamiento(evento_2)
evento_3 = procesamiento(evento_3)
evento_4 = procesamiento(evento_4)
evento_5 = procesamiento(evento_5)
evento_6 = procesamiento(evento_6)
evento_7 = procesamiento(evento_7)
evento_8 = procesamiento(evento_8)
evento_9 = procesamiento(evento_9)


In [158]:
# Evaluo tipos de los datos
evento_1.dtypes, evento_2.dtypes, evento_3.dtypes, evento_4.dtypes, evento_5.dtypes, evento_6.dtypes, evento_7.dtypes, evento_8.dtypes, evento_9.dtypes


(Nombre                           object
 Apellido                         object
 Correo electrónico               object
 Duración                         object
 Hora a la que se unió    datetime64[ns]
 Hora a la que salió      datetime64[ns]
 NombreCompleto                   object
 duración                          int32
 dtype: object,
 Nombre                           object
 Apellido                         object
 Correo electrónico               object
 Duración                         object
 Hora a la que se unió    datetime64[ns]
 Hora a la que salió      datetime64[ns]
 NombreCompleto                   object
 duración                          int32
 dtype: object,
 Nombre                           object
 Apellido                         object
 Correo electrónico               object
 Duración                         object
 Hora a la que se unió    datetime64[ns]
 Hora a la que salió      datetime64[ns]
 NombreCompleto                   object
 duración                

In [159]:
# elimino columna de "Duración" 
evento_1.drop(columns='Duración', inplace=True)
evento_2.drop(columns='Duración', inplace=True)
evento_3.drop(columns='Duración', inplace=True)
evento_4.drop(columns='Duración', inplace=True)
evento_5.drop(columns='Duración', inplace=True)
evento_6.drop(columns='Duración', inplace=True)
evento_7.drop(columns='Duración', inplace=True)
evento_8.drop(columns='Duración', inplace=True)
evento_9.drop(columns='Duración', inplace=True)


In [160]:
# Evalúo dataframes de asistencias
evento_1.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Natalia Alejandra,Africano Fino,natalia.africano@uptc.edu.co,2023-09-06 09:59:00,2023-09-06 11:56:00,Natalia Alejandra Africano Fino,117
1,Jose Arquimedes,ALBA CUPA,jose.alba@uptc.edu.co,2023-09-06 10:01:00,2023-09-06 12:06:00,Jose Arquimedes Alba Cupa,125
2,Yamid,Alonso,yamid.nino02@uptc.edu.co,2023-09-06 10:00:00,2023-09-06 12:06:00,Yamid Alonso,126
3,Daniel Andrés,ÁLVAREZ DIAS,daniel.alvarez04@uptc.edu.co,2023-09-06 10:00:00,2023-09-06 11:50:00,Daniel Andrés Álvarez Dias,110
4,Gonzalez Molina,ANGEL ABDIAS,angel.gonzalez02@uptc.edu.co,2023-09-06 09:58:00,2023-09-06 12:08:00,Gonzalez Molina Angel Abdias,130


In [161]:
evento_2.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Natalia Alejandra,Africano Fino,natalia.africano@uptc.edu.co,2023-09-06 09:56:00,2023-09-06 10:23:00,Natalia Alejandra Africano Fino,27
1,Daniel Andrés,ÁLVAREZ DIAS,daniel.alvarez04@uptc.edu.co,2023-09-06 10:01:00,2023-09-06 12:04:00,Daniel Andrés Álvarez Dias,123
2,Gonzalez Molina,ANGEL ABDIAS,angel.gonzalez02@uptc.edu.co,2023-09-06 10:07:00,2023-09-06 10:32:00,Gonzalez Molina Angel Abdias,25
3,Juan Pablo,ARCHILA AMAYA,juan.archila04@uptc.edu.co,2023-09-06 10:10:00,2023-09-06 12:04:00,Juan Pablo Archila Amaya,114
4,Fabio Alonso,ARIAS ADARME,ingfaaa@gmail.com,2023-09-06 10:04:00,2023-09-06 12:04:00,Fabio Alonso Arias Adarme,120


In [162]:
evento_3.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Jose Arquimedes,ALBA CUPA,jose.alba@uptc.edu.co,2023-09-06 10:16:00,2023-09-06 11:53:00,Jose Arquimedes Alba Cupa,97
1,Daniel Andrés,ÁLVAREZ DIAS,daniel.alvarez04@uptc.edu.co,2023-09-06 10:01:00,2023-09-06 11:53:00,Daniel Andrés Álvarez Dias,112
2,Gonzalez Molina,ANGEL ABDIAS,angel.gonzalez02@uptc.edu.co,2023-09-06 10:17:00,2023-09-06 11:06:00,Gonzalez Molina Angel Abdias,49
3,Fabio Alonso,ARIAS ADARME,ingfaaa@gmail.com,2023-09-06 10:06:00,2023-09-06 11:54:00,Fabio Alonso Arias Adarme,108
4,Santiago Andres,ARIAS REYES,santiago.arias01@uptc.edu.co,2023-09-06 10:04:00,2023-09-06 11:53:00,Santiago Andres Arias Reyes,109


In [163]:
evento_4.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Yamid Alonso,,yamid.nino02@uptc.edu.co,2023-09-06 10:02:00,2023-09-06 11:12:00,Yamid Alonso,70
1,Gonzalez Molina,ANGEL ABDIAS,angel.gonzalez02@uptc.edu.co,2023-09-06 10:19:00,2023-09-06 11:12:00,Gonzalez Molina Angel Abdias,53
2,Juan Pablo,ARCHILA AMAYA,juan.archila04@uptc.edu.co,2023-09-06 10:10:00,2023-09-06 11:12:00,Juan Pablo Archila Amaya,62
3,Fabio Alonso,ARIAS ADARME,ingfaaa@gmail.com,2023-09-06 10:10:00,2023-09-06 11:12:00,Fabio Alonso Arias Adarme,62
4,Santiago Andres,ARIAS REYES,ingfaaa@gmail.com,2023-09-06 10:00:00,2023-09-06 11:12:00,Santiago Andres Arias Reyes,72


In [164]:
evento_5.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Yamid Alonso,,yamid.nino02@uptc.edu.co,2023-09-06 10:00:00,2023-09-06 11:56:00,Yamid Alonso,116
1,Jose Arquimedes,ALBA CUPA,jose.alba@uptc.edu.co,2023-09-06 10:03:00,2023-09-06 11:57:00,Jose Arquimedes Alba Cupa,114
2,Daniel Andrés,ÁLVAREZ DIAS,daniel.alvarez04@uptc.edu.co,2023-09-06 10:10:00,2023-09-06 11:45:00,Daniel Andrés Álvarez Dias,95
3,Gonzalez Molina,ANGEL ABDIAS,angel.gonzalez02@uptc.edu.co,2023-09-06 09:58:00,2023-09-06 11:56:00,Gonzalez Molina Angel Abdias,118
4,Fabio Alonso,ARIAS ADARME,ingfaaa@gmail.com,2023-09-06 10:05:00,2023-09-06 11:57:00,Fabio Alonso Arias Adarme,112


In [165]:
evento_6.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Yamid Alonso,,yamid.nino02@uptc.edu.co,2023-09-06 10:00:00,2023-09-06 12:00:00,Yamid Alonso,120
1,Daniel Andrés,ÁLVAREZ DIAS,daniel.alvarez04@uptc.edu.co,2023-09-06 10:33:00,2023-09-06 11:59:00,Daniel Andrés Álvarez Dias,86
2,Juan Pablo,ARCHILA AMAYA,juan.archila04@uptc.edu.co,2023-09-06 10:10:00,2023-09-06 11:56:00,Juan Pablo Archila Amaya,106
3,Santiago Andres,ARIAS REYES,santiago.arias01@uptc.edu.co,2023-09-06 09:56:00,2023-09-06 11:55:00,Santiago Andres Arias Reyes,119
4,Bermudez Beltran,ARLEY DANILO,arley.bermudez@uptc.edu.co,2023-09-06 10:01:00,2023-09-06 11:44:00,Bermudez Beltran Arley Danilo,103


In [166]:
evento_7.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Yamid Alonso,,yamid.nino02@uptc.edu.co,2023-09-06 10:05:00,2023-09-06 11:48:00,Yamid Alonso,103
1,Jose Arquimedes,ALBA CUPA,jose.alba@uptc.edu.co,2023-09-06 10:59:00,2023-09-06 11:47:00,Jose Arquimedes Alba Cupa,48
2,Daniel Andrés,ÁLVAREZ DIAS,daniel.alvarez04@uptc.edu.co,2023-09-06 10:24:00,2023-09-06 11:16:00,Daniel Andrés Álvarez Dias,52
3,Gonzalez Molina,ANGEL ABDIAS,angel.gonzalez02@uptc.edu.co,2023-09-06 10:12:00,2023-09-06 11:47:00,Gonzalez Molina Angel Abdias,95
4,Juan Pablo,ARCHILA AMAYA,juan.archila04@uptc.edu.co,2023-09-06 10:15:00,2023-09-06 11:48:00,Juan Pablo Archila Amaya,93


In [167]:
evento_8.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Yamid Alonso,,yamid.nino02@uptc.edu.co,2023-09-06 10:00:00,2023-09-06 11:55:00,Yamid Alonso,115
1,Jose Arquimedes,ALBA CUPA,jose.alba@uptc.edu.co,2023-09-06 11:09:00,2023-09-06 11:56:00,Jose Arquimedes Alba Cupa,47
2,Juan Pablo,ARCHILA AMAYA,juan.archila04@uptc.edu.co,2023-09-06 10:35:00,2023-09-06 11:27:00,Juan Pablo Archila Amaya,52
3,Johana,Avila,johana.avila@uptc.edu.co,2023-09-06 10:07:00,2023-09-06 11:51:00,Johana Avila,104
4,Julian,Ayala,julian.ayala@uptc.edu.co,2023-09-06 10:08:00,2023-09-06 11:51:00,Julian Ayala,103


In [168]:
evento_9.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Juan Pablo,ARCHILA AMAYA,juan.archila04@uptc.edu.co,2023-09-06 10:51:00,2023-09-06 11:26:00,Juan Pablo Archila Amaya,35
1,Anderson Daniel,BARRETO SIERRA,anderson.barreto01@uptc.edu.co,2023-09-06 11:18:00,2023-09-06 11:18:00,Anderson Daniel Barreto Sierra,0
2,Cristian,Becerra,cristian.becerra08@uptc.edu.co,2023-09-06 11:05:00,2023-09-06 11:26:00,Cristian Becerra,21
3,Juan,Cepeda06,juan.cepeda06@uptc.edu.co,2023-09-06 11:26:00,2023-09-06 11:26:00,Juan Cepeda06,0
4,Cristian,Cespedes,cristian.cespedes@uptc.edu.co,2023-09-06 10:04:00,2023-09-06 11:26:00,Cristian Cespedes,82


In [76]:
registro_datos.head()

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura,estado,Primer Nombre,Primer Apellido
0,Anderson Daniel Barreto Sierra,anderson.barreto01@uptc.edu.co,Ingeniería de Sistemas y Computación,Electiva III,Validados,Anderson,Barreto
1,Andrés Felipe Escobar Diaz,andres.escobar01@uptc.edu.co,Ingeniería de Sistemas y Computación,Electiva III,Validados,Andrés,Escobar
2,Andrés Leonardo Maldonado Sánchez,andres.maldonado02@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información,Andrés,Maldonado
3,Andrés David Reyes Rojas,andres.reyes03@uptc.edu.co,Ingeniería Electrónica,Comunicaciones II,Validados,Andrés,Reyes
4,Andrés Camilo Silva Landinez,andres.silva07@uptc.edu.co,Ingeniería de Sistemas y Computación,,Falta información,Andrés,Silva


In [169]:
registro_datos.loc[registro_datos["Correo institucional (@uptc.edu.co)"]=="jhon.camargo01@uptc.edu.co"]
registro_datos.drop(63,inplace=True)

In [170]:
registro_datos.loc[registro_datos["Correo institucional (@uptc.edu.co)"]=="jhon.camargo01@uptc.edu.co"]

Unnamed: 0,Nombre,Correo institucional (@uptc.edu.co),Programa Académico,Asignatura,estado,Primer Nombre,Primer Apellido
64,Jhon Fredy Camargo Fonseca,jhon.camargo01@uptc.edu.co,Ingeniería de Sistemas y Computación,Comunicaciones,Validados,Jhon,Camargo


In [171]:
# Se usara una llave en minusculas -> correo
registro_datos["Correo institucional (@uptc.edu.co)"] = registro_datos["Correo institucional (@uptc.edu.co)"].str.lower()

In [172]:
solo_letras = re.compile(r'[^a-zA-ZáéíóúÁÉÍÓÚñÑ ]+')
def limpieza_final(dataframe):
    dataframe["Correo electrónico"] = dataframe["Correo electrónico"].str.lower()
    dataframe["Nombre"] = dataframe["Nombre"].apply(lambda x: solo_letras.sub('',str(x)).title())
    dataframe["Apellido"] = dataframe["Apellido"].apply(lambda x: solo_letras.sub('',str(x)).title())
    

In [173]:
limpieza_final(evento_1)
limpieza_final(evento_2)
limpieza_final(evento_3)
limpieza_final(evento_4)
limpieza_final(evento_5)
limpieza_final(evento_6)
limpieza_final(evento_7)
limpieza_final(evento_8)
limpieza_final(evento_9)


In [175]:
evento_4.head()

Unnamed: 0,Nombre,Apellido,Correo electrónico,Hora a la que se unió,Hora a la que salió,NombreCompleto,duración
0,Yamid Alonso,Nan,yamid.nino02@uptc.edu.co,2023-09-06 10:02:00,2023-09-06 11:12:00,Yamid Alonso,70
1,Gonzalez Molina,Angel Abdias,angel.gonzalez02@uptc.edu.co,2023-09-06 10:19:00,2023-09-06 11:12:00,Gonzalez Molina Angel Abdias,53
2,Juan Pablo,Archila Amaya,juan.archila04@uptc.edu.co,2023-09-06 10:10:00,2023-09-06 11:12:00,Juan Pablo Archila Amaya,62
3,Fabio Alonso,Arias Adarme,ingfaaa@gmail.com,2023-09-06 10:10:00,2023-09-06 11:12:00,Fabio Alonso Arias Adarme,62
4,Santiago Andres,Arias Reyes,ingfaaa@gmail.com,2023-09-06 10:00:00,2023-09-06 11:12:00,Santiago Andres Arias Reyes,72


In [176]:
# Se revisan valores nulos en asistencia a eventos
evento_1.isna().sum(),evento_2.isna().sum(),evento_3.isna().sum(),evento_4.isna().sum()

(Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       1
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64)

In [177]:
evento_5.isna().sum(), evento_6.isna().sum(), evento_7.isna().sum(), evento_8.isna().sum(), evento_9.isna().sum()

(Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       2
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto           0
 duración                 0
 dtype: int64,
 Nombre                   0
 Apellido                 0
 Correo electrónico       0
 Hora a la que se unió    0
 Hora a la que salió      0
 NombreCompleto 

## Se procede a generar archivos csv con los dataframes ya limpios

In [178]:
registro_datos.to_csv('../clean_data/registro_usuarios.csv',index=False)
evento_1.to_csv('../clean_data/evento_1.csv', index=False)
evento_2.to_csv('../clean_data/evento_2.csv', index=False)
evento_3.to_csv('../clean_data/evento_3.csv', index=False)
evento_4.to_csv('../clean_data/evento_4.csv', index=False)
evento_5.to_csv('../clean_data/evento_5.csv', index=False)
evento_6.to_csv('../clean_data/evento_6.csv', index=False)
evento_7.to_csv('../clean_data/evento_7.csv', index=False)
evento_8.to_csv('../clean_data/evento_8.csv', index=False)
evento_9.to_csv('../clean_data/evento_9.csv', index=False)
