In [1]:
import pandas as pd
import oracledb as ora  
from config import *
with ora.connect(user= USER, password= PASSWORD, dsn= DSN) as connection:
    sql = "SELECT * FROM DIM_EMPLEADO"
    df = pd.read_sql(sql, con=connection)
    print(df.head())

   ID_EMPLEADO  NOMBRE   APELLIDO GENERO FECHA_NACIMIENTO FECHA_CONTRATACION  \
0            1  Carlos      López      M       1988-04-12         2024-01-15   
1            2   Lucía      Pérez      F       1990-06-22         2024-02-01   
2            3   David      Gómez      M       1985-09-30         2024-03-05   
3            4     Ana   Martínez      F       1992-07-10         2024-04-20   
4            5    José  Rodríguez      M       1981-11-15         2024-05-01   

  NIVEL_EDUCATIVO ESTADO_CIVIL    TIPO_CONTRATO  
0   Universitario       Casado  Tiempo completo  
1        Maestría      Soltera    Contrato fijo  
2         Técnico   Divorciado     Medio tiempo  
3   Universitario       Casada  Tiempo completo  
4      Secundaria       Casado  Tiempo completo  


  df = pd.read_sql(sql, con=connection)


In [2]:
#No hay valores nulos
df.isnull().sum()

ID_EMPLEADO           0
NOMBRE                0
APELLIDO              0
GENERO                0
FECHA_NACIMIENTO      0
FECHA_CONTRATACION    0
NIVEL_EDUCATIVO       0
ESTADO_CIVIL          0
TIPO_CONTRATO         0
dtype: int64

In [3]:
#Quiero manejar solo tres tipos de contratos(Fijo,indefinido,temporal)
df["TIPO_CONTRATO"].unique()

array(['Tiempo completo', 'Contrato fijo', 'Medio tiempo', 'Indefinido',
       'Temporal'], dtype=object)

In [4]:
mapa_contratos = {
    'Contrato fijo': 'Fijo',
    'Indefinido': 'Indefinido',
    'Temporal': 'Temporal',
    'Tiempo completo': 'Fijo',      
    'Medio tiempo': 'Fijo'          
}

# Reemplazar los valores
df['TIPO_CONTRATO'] = df['TIPO_CONTRATO'].replace(mapa_contratos)
df

Unnamed: 0,ID_EMPLEADO,NOMBRE,APELLIDO,GENERO,FECHA_NACIMIENTO,FECHA_CONTRATACION,NIVEL_EDUCATIVO,ESTADO_CIVIL,TIPO_CONTRATO
0,1,Carlos,López,M,1988-04-12,2024-01-15 00:00:00,Universitario,Casado,Fijo
1,2,Lucía,Pérez,F,1990-06-22,2024-02-01 00:00:00,Maestría,Soltera,Fijo
2,3,David,Gómez,M,1985-09-30,2024-03-05 00:00:00,Técnico,Divorciado,Fijo
3,4,Ana,Martínez,F,1992-07-10,2024-04-20 00:00:00,Universitario,Casada,Fijo
4,5,José,Rodríguez,M,1981-11-15,2024-05-01 00:00:00,Secundaria,Casado,Fijo
...,...,...,...,...,...,...,...,...,...
495,496,Camila,Martinez,F,1993-01-09,2025-07-10 17:31:54,Universitario,Soltero,Indefinido
496,497,Fernando,Garcia,M,1986-05-27,2025-07-10 17:31:54,Tecnologo,Casado,Temporal
497,498,Natalia,Pineda,F,1991-10-20,2025-07-10 17:31:54,Bachiller,Soltero,Indefinido
498,499,Julio,Moreno,M,1989-02-03,2025-07-10 17:31:54,Universitario,Casado,Indefinido


In [5]:
#Ya hay 3 valores dentro de la column
df["TIPO_CONTRATO"].unique()

array(['Fijo', 'Indefinido', 'Temporal'], dtype=object)

In [6]:
df["ESTADO_CIVIL"].unique()

array(['Casado', 'Soltera', 'Divorciado', 'Casada', 'Viudo', 'Divorciada',
       'Soltero', 'Viuda'], dtype=object)

In [7]:
mapa_estado = {
    'Casado': 'Casado(a)',
    'Casada': 'Casado(a)',
    'Soltero': 'Soltero(a)',
    'Soltera': 'Soltero(a)',
    'Divorciado': 'Divorciado(a)',
    'Divorciada': 'Divorciado(a)',
    'Viudo': 'Viudo(a)',
    'Viuda': 'Viudo(a)'
}
df["ESTADO_CIVIL"] = df["ESTADO_CIVIL"].replace(mapa_estado)
df
#Ahora hay 4 registros unicos en la columna estado civil

Unnamed: 0,ID_EMPLEADO,NOMBRE,APELLIDO,GENERO,FECHA_NACIMIENTO,FECHA_CONTRATACION,NIVEL_EDUCATIVO,ESTADO_CIVIL,TIPO_CONTRATO
0,1,Carlos,López,M,1988-04-12,2024-01-15 00:00:00,Universitario,Casado(a),Fijo
1,2,Lucía,Pérez,F,1990-06-22,2024-02-01 00:00:00,Maestría,Soltero(a),Fijo
2,3,David,Gómez,M,1985-09-30,2024-03-05 00:00:00,Técnico,Divorciado(a),Fijo
3,4,Ana,Martínez,F,1992-07-10,2024-04-20 00:00:00,Universitario,Casado(a),Fijo
4,5,José,Rodríguez,M,1981-11-15,2024-05-01 00:00:00,Secundaria,Casado(a),Fijo
...,...,...,...,...,...,...,...,...,...
495,496,Camila,Martinez,F,1993-01-09,2025-07-10 17:31:54,Universitario,Soltero(a),Indefinido
496,497,Fernando,Garcia,M,1986-05-27,2025-07-10 17:31:54,Tecnologo,Casado(a),Temporal
497,498,Natalia,Pineda,F,1991-10-20,2025-07-10 17:31:54,Bachiller,Soltero(a),Indefinido
498,499,Julio,Moreno,M,1989-02-03,2025-07-10 17:31:54,Universitario,Casado(a),Indefinido


In [8]:
df["NIVEL_EDUCATIVO"].unique()

array(['Universitario', 'Maestría', 'Técnico', 'Secundaria', 'Doctorado',
       'Tecnologo', 'Bachiller'], dtype=object)

In [9]:
mapa_educativo = {
    "Bachiller":"Bachiller",
    "Secundaria":"Bachiller" 
}
df["NIVEL_EDUCATIVO"] = df["NIVEL_EDUCATIVO"].replace(mapa_educativo)
df

Unnamed: 0,ID_EMPLEADO,NOMBRE,APELLIDO,GENERO,FECHA_NACIMIENTO,FECHA_CONTRATACION,NIVEL_EDUCATIVO,ESTADO_CIVIL,TIPO_CONTRATO
0,1,Carlos,López,M,1988-04-12,2024-01-15 00:00:00,Universitario,Casado(a),Fijo
1,2,Lucía,Pérez,F,1990-06-22,2024-02-01 00:00:00,Maestría,Soltero(a),Fijo
2,3,David,Gómez,M,1985-09-30,2024-03-05 00:00:00,Técnico,Divorciado(a),Fijo
3,4,Ana,Martínez,F,1992-07-10,2024-04-20 00:00:00,Universitario,Casado(a),Fijo
4,5,José,Rodríguez,M,1981-11-15,2024-05-01 00:00:00,Bachiller,Casado(a),Fijo
...,...,...,...,...,...,...,...,...,...
495,496,Camila,Martinez,F,1993-01-09,2025-07-10 17:31:54,Universitario,Soltero(a),Indefinido
496,497,Fernando,Garcia,M,1986-05-27,2025-07-10 17:31:54,Tecnologo,Casado(a),Temporal
497,498,Natalia,Pineda,F,1991-10-20,2025-07-10 17:31:54,Bachiller,Soltero(a),Indefinido
498,499,Julio,Moreno,M,1989-02-03,2025-07-10 17:31:54,Universitario,Casado(a),Indefinido


In [10]:
df["NIVEL_EDUCATIVO"].unique()

array(['Universitario', 'Maestría', 'Técnico', 'Bachiller', 'Doctorado',
       'Tecnologo'], dtype=object)

In [11]:
df.to_csv("OraEmpleados.csv", index=False)

In [12]:
 #Conexion a segunda tabla HECHOS
with ora.connect(user=USER, password=PASSWORD, dsn=DSN) as connection:    
    sql_2 = "SELECT * FROM HECHOS_EMPLEADOS"
    df_2 = pd.read_sql(sql_2, con=connection)
    print(df_2.head())
#Costo total es redundante como columna calculada. Eso se puede hacer en Power BI sin necesidad de mostrar

  df_2 = pd.read_sql(sql_2, con=connection)


   ID_EMPLEADO  ID_DEPARTAMENTO  SALARIO  HORAS_TRABAJADAS  BONIFICACION
0            1                2     2500               160           200
1            2                3     2600               165           150
2            3                4     2700               170           180
3            4                5     2800               150           210
4            5                6     2900               155           170


In [15]:
with ora.connect(user=USER, password=PASSWORD, dsn=DSN) as connection:  
  #Creacion de cursor y eliminación de columna COSTO_TOTAL de la base de datos
  cursor =connection.cursor()
  cursor.execute("ALTER TABLE HECHOS_EMPLEADOS DROP COLUMN COSTO_TOTAL")
  connection.commit()
  df_2 = pd.read_sql("SELECT * FROM HECHOS_EMPLEADOS", con=connection)
    # Cerrar el cursor
  cursor.close()
  print(df_2.head())

DatabaseError: ORA-00904: "COSTO_TOTAL": invalid identifier
Help: https://docs.oracle.com/error-help/db/ora-00904/

In [16]:
#No hay valores nulos
df_2.isnull().sum()

ID_EMPLEADO         0
ID_DEPARTAMENTO     0
SALARIO             0
HORAS_TRABAJADAS    0
BONIFICACION        0
dtype: int64

In [17]:
df_2.dtypes

ID_EMPLEADO         int64
ID_DEPARTAMENTO     int64
SALARIO             int64
HORAS_TRABAJADAS    int64
BONIFICACION        int64
dtype: object

In [18]:
df_2["ID_EMPLEADO"].duplicated().sum()
#No hay valores duplicados en ID_EMPLEADO.Para ID_DEPARTAMENTO 
#no se calcula si hay valores porque es obviamente claro que va a existir duplicados.EMPLEADO - DEPARTAMENTO
#es una relacion 1-n donde un departamento tiene varios empleados pero un empleado solamente puede estar en un depar-
#tamento.


np.int64(0)

In [19]:
df_2.to_csv("OraHechos.csv", index=False)

In [20]:
with ora.connect(user=USER, password=PASSWORD, dsn=DSN) as connection:   
    sql_3 = "SELECT * FROM DIM_DEPARTAMENTO"
    df_3 = pd.read_sql(sql_3, con=connection)
    print(df_3.head(20))

  df_3 = pd.read_sql(sql_3, con=connection)


    ID_DEPARTAMENTO         NOMBRE_DEPARTAMENTO     UBICACION  \
0                 1                    Finanzas        Bogotá   
1                 2            Recursos Humanos        Bogotá   
2                 3                  Tecnología      Medellín   
3                 4                      Ventas          Cali   
4                 5                   Logística  Barranquilla   
5                 6                     Compras        Bogotá   
6                 7         Servicio al Cliente      Medellín   
7                 8                   Marketing          Cali   
8                 9                     Calidad        Bogotá   
9                10                       Legal        Bogotá   
10               11  Investigación y Desarrollo      Medellín   
11               12                  Producción          Cali   
12               13           Auditoría Interna        Bogotá   
13               14      Planeación Estratégica        Bogotá   
14               15      

In [21]:
df_3.to_csv('OraDepartamento.csv',index= False)