# Import Library

In [1]:
import sqlalchemy as db
import pandas as pd

# Load Data to OLTP

In [2]:
file_path = './data/fraudTest.csv'
data_total = pd.read_csv(file_path)

data = data_total.head(50000)
data.tail()

Unnamed: 0.1,Unnamed: 0,trans_date_trans_time,cc_num,merchant,category,amt,first,last,gender,street,...,lat,long,city_pop,job,dob,trans_num,unix_time,merch_lat,merch_long,is_fraud
49995,49995,2020-07-07 23:21:45,3546897637165774,fraud_Brown-Greenholt,entertainment,12.52,Kayla,Obrien,F,7921 Robert Port Suite 343,...,31.6591,-96.8094,263,Barrister,1956-05-30,81d3aeec9e3711b113d2609c49f88bf8,1373239305,31.584684,-96.019628,0
49996,49996,2020-07-07 23:21:58,30290551782700,fraud_Lubowitz-Walter,kids_pets,48.92,John,Clarke,M,27909 Peter Motorway,...,36.802,-87.8286,13422,Commissioning editor,1961-09-03,5d25f557780a6de915b62d176bd3b9af,1373239318,36.706261,-88.068674,0
49997,49997,2020-07-07 23:22:23,4277232699798846,fraud_Gaylord-Powlowski,home,2.12,Jennifer,Vance,F,13299 Patrick Terrace,...,46.1664,-103.7079,475,Illustrator,1955-11-10,c275c3da688e12ddb0905400dbf980f4,1373239343,46.180505,-103.241477,0
49998,49998,2020-07-07 23:22:57,4428780983793657331,fraud_White and Sons,home,246.12,Richard,Waters,M,7683 Natasha Way Apt. 945,...,42.9993,-88.2196,95015,"Therapist, occupational",1946-01-02,984d39eec8dd104fec2fac01171857f8,1373239377,42.519981,-88.398814,0
49999,49999,2020-07-07 23:23:37,3533800906065217,"fraud_Conroy, Balistreri and Gorczany",health_fitness,74.35,Amber,Thornton,F,840 Werner Lock Apt. 852,...,40.2967,-98.737,493,"Surveyor, minerals",1940-09-13,8aafb4095fd7d5ea03b4a5f032b5282d,1373239417,39.781211,-97.964722,0


In [3]:
engine = db.create_engine("mysql://root:rootpassword@172.16.5.4:3312/OLTP_Credit_Card_Transactions_Fraud_Detection")
conn = engine.connect()

In [4]:
client_genere_tb = pd.read_sql("Select * from Cliente_genero", con=conn)
client_genere_tb.head()

Unnamed: 0,gender_id,gender


In [5]:
# Extraer los géneros únicos del dataframe
unique_genders = data['gender'].unique()
unique_genders_df = pd.DataFrame(unique_genders, columns=['gender'])

# Asegurarnos de capitalizar correctamente los géneros para mantener consistencia
unique_genders_df['gender'] = unique_genders_df['gender'].str.capitalize()

# Insertar los géneros en la base de datos
unique_genders_df.to_sql('Cliente_genero', con=conn, if_exists='append', index=False)
print("Géneros añadidos a la base de datos.")


Géneros añadidos a la base de datos.


In [6]:
client_genere_tb = pd.read_sql("Select * from Cliente_genero", con=conn)
client_genere_tb

Unnamed: 0,gender_id,gender
0,1,M
1,2,F


In [7]:
state_tb = pd.read_sql("Select * from State", con=conn)
state_tb.head()

Unnamed: 0,state_id,state_name


In [8]:
# Extraer los nombres de estados únicos del dataframe
unique_states = data['state'].unique()
unique_states_df = pd.DataFrame(unique_states, columns=['state_name'])

# Asegurarnos de que los nombres de los estados estén capitalizados adecuadamente
unique_states_df['state_name'] = unique_states_df['state_name'].str.title()

# Insertar los nombres de los estados en la base de datos
unique_states_df.to_sql('State', con=conn, if_exists='append', index=False)
print("Estados añadidos a la base de datos.")

Estados añadidos a la base de datos.


In [9]:
state_tb = pd.read_sql("Select * from State", con=conn)
state_tb.head()

Unnamed: 0,state_id,state_name
0,1,Sc
1,2,Ut
2,3,Ny
3,4,Fl
4,5,Mi


In [10]:
city_tb = pd.read_sql("Select * from Ciudad", con=conn)
city_tb.head()

Unnamed: 0,city_id,city_name,state_id


In [11]:
# Extraer las ciudades y los estados del dataframe
city_state_df = data[['city', 'state']].drop_duplicates().reset_index(drop=True)

# Obtener los state_id de la tabla State
states = pd.read_sql("SELECT * FROM State", con=conn)
states['state_name'] = states['state_name'].str.upper()  # Convertir los nombres de estado a mayúsculas

# Mapear state_id a las ciudades en el dataframe
city_state_df = city_state_df.merge(states, how='left', left_on='state', right_on='state_name')

# Preparar el dataframe final para insertar en la base de datos
cities_to_insert = city_state_df[['city', 'state_id']].copy()  # Usar copy para evitar SettingWithCopyWarning
cities_to_insert.columns = ['city_name', 'state_id']  # Renombrar las columnas adecuadamente
cities_to_insert['city_name'] = cities_to_insert['city_name'].str.title()  # Asegurar que el nombre de la ciudad esté capitalizado

# Insertar los datos en la tabla Ciudad
cities_to_insert.to_sql('Ciudad', con=conn, if_exists='append', index=False)
print("Ciudades añadidas a la base de datos.")


Ciudades añadidas a la base de datos.


In [12]:
city_tb = pd.read_sql("Select * from Ciudad", con=conn)
city_tb.tail()

Unnamed: 0,city_id,city_name,state_id
864,865,Claremont,6
865,866,Pea Ridge,19
866,867,Preston,46
867,868,Syracuse,26
868,869,Rice,32


In [13]:
address_tb = pd.read_sql("Select * from Address", con=conn)
address_tb.tail()

Unnamed: 0,address_id,street,city_id,zip,lat,longi


In [14]:
# Extraer las direcciones únicas con sus ciudades y estados asociados del dataframe
address_data = data[['street', 'city', 'state', 'zip', 'lat', 'long']].drop_duplicates().reset_index(drop=True)
address_data['city'] = address_data['city'].str.title()  # Capitalizar los nombres de las ciudades para consistencia

# Obtener los city_id de la tabla Ciudad
cities = pd.read_sql("SELECT * FROM Ciudad", con=conn)
cities['city_name'] = cities['city_name'].str.title()  # Asegurarnos de que el formato coincida

# Mapear city_id a las direcciones en el dataframe
address_data = address_data.merge(cities, how='left', left_on='city', right_on='city_name')
#address_data

# Preparar el dataframe final para insertar en la base de datos
addresses_to_insert = address_data[['street', 'city_id', 'zip', 'lat', 'long']]
addresses_to_insert.columns = ['street', 'city_id', 'zip', 'lat', 'longi']  # Asegurarse de que las columnas se llamen igual que en la DB

# Insertar los datos en la tabla Address
addresses_to_insert.to_sql('Address', con=conn, if_exists='append', index=False)
print("Direcciones añadidas a la base de datos.")

Direcciones añadidas a la base de datos.


In [15]:
address_tb = pd.read_sql("Select * from Address", con=conn)
address_tb.tail()

Unnamed: 0,address_id,street,city_id,zip,lat,longi
976,977,539 Underwood Divide,866,72751,36.4539,-94.118
977,978,7351 Cindy Well Suite 099,293,34120,26.3304,-81.5871
978,979,204 Ashley Neck Apt. 169,867,6365,41.5224,-71.9934
979,980,66035 Benjamin Villages,868,65354,38.6547,-92.8929
980,981,44613 James Turnpike,869,56367,45.7364,-94.1658


In [16]:
client_tb = pd.read_sql("Select * from Cliente", con=conn)
client_tb.tail()

Unnamed: 0,cc_num,first,last,dob,gender_id,address_id


In [17]:
# Asegurar que la columna 'zip' es de tipo string en el DataFrame original
data['zip'] = data['zip'].astype(str)

# Extraer datos necesarios para clientes
client_data = data[['cc_num', 'first', 'last', 'dob', 'gender', 'street', 'city', 'zip']].drop_duplicates()

# Obtener gender_id de la tabla Cliente_genero
genders = pd.read_sql("SELECT * FROM Cliente_genero", con=conn)
client_data = client_data.merge(genders, how='left', left_on='gender', right_on='gender')

# Preparar claves para obtener address_id
# Asegurar que la columna 'zip' en la tabla Address también sea de tipo string
addresses = pd.read_sql("SELECT address_id, street, zip FROM Address", con=conn)
addresses['zip'] = addresses['zip'].astype(str)

# Hacer el merge basado en 'street' y 'zip'
client_data = client_data.merge(addresses, how='left', on=['street', 'zip'])

# Verificar los datos
#print(client_data)

# Renombrar columnas y ajustar DataFrame para la inserción
client_data = client_data.rename(columns={'gender_id': 'gender_id', 'address_id': 'address_id'})
clients_to_insert = client_data[['cc_num', 'first', 'last', 'dob', 'gender_id', 'address_id']]

# Asegurarse de que no hay valores NaN en las columnas claves foráneas
clients_to_insert = clients_to_insert.dropna(subset=['gender_id', 'address_id'])

# Eliminar duplicados basados en la columna cc_num
clients_to_insert = clients_to_insert.drop_duplicates(subset='cc_num')

# Insertar los datos en la tabla Cliente
clients_to_insert.to_sql('Cliente', con=conn, if_exists='append', index=False)
print("Clientes añadidos a la base de datos.")

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['zip'] = data['zip'].astype(str)


Clientes añadidos a la base de datos.


In [18]:
client_tb = pd.read_sql("Select * from Cliente", con=conn)
client_tb.tail()

Unnamed: 0,cc_num,first,last,dob,gender_id,address_id
905,4958589671582726883,Aaron,Pena,1950-11-27,1,502
906,4973530368125489546,Mary,Rodriguez,1965-09-27,2,733
907,4980323467523543940,Patrick,Massey,1947-10-27,1,486
908,4989847570577635369,Vanessa,Anderson,1994-07-09,2,508
909,4992346398065154184,Benjamin,Kim,1956-01-09,1,718


In [19]:
comercio_loc_tb = pd.read_sql("Select * from comercio_loc", con=conn)
comercio_loc_tb.tail()

Unnamed: 0,merch_loc_id,merch_lat,merch_long


In [20]:
# Extraer y eliminar duplicados de las coordenadas de los comercios
merchant_locations = data[['merch_lat', 'merch_long']].drop_duplicates()

# Insertar los datos en la tabla comercio_loc
merchant_locations.to_sql('comercio_loc', con=conn, if_exists='append', index=False)
print("comercio_loc añadidos a la base de datos.")

comercio_loc añadidos a la base de datos.


In [21]:
comercio_loc_tb = pd.read_sql("Select * from comercio_loc", con=conn)
comercio_loc_tb.tail()

Unnamed: 0,merch_loc_id,merch_lat,merch_long
49995,49996,31.584684,-96.019628
49996,49997,36.706261,-88.068674
49997,49998,46.180505,-103.241477
49998,49999,42.519981,-88.398814
49999,50000,39.781211,-97.964722


In [22]:
comercio_cat_tb = pd.read_sql("Select * from comercio_cat", con=conn)
comercio_cat_tb.tail()

Unnamed: 0,category_id,category


In [23]:
# Extraer las categorías únicas de los comercios
unique_categories = data['category'].drop_duplicates()

# Crear un DataFrame para insertar
categories_to_insert = pd.DataFrame(unique_categories, columns=['category'])

# Insertar los datos en la tabla comercio_cat
categories_to_insert.to_sql('comercio_cat', con=conn, if_exists='append', index=False)
print("comercio_cat añadidos a la base de datos.")

comercio_cat añadidos a la base de datos.


In [24]:
comercio_cat_tb = pd.read_sql("Select * from comercio_cat", con=conn)
comercio_cat_tb.tail()

Unnamed: 0,category_id,category
9,10,shopping_net
10,11,misc_net
11,12,grocery_pos
12,13,gas_transport
13,14,grocery_net


In [25]:
comercio_tb = pd.read_sql("Select * from Comercio", con=conn)
comercio_tb.tail()

Unnamed: 0,merchant_id,merchant_name,category_id,merch_loc_id


In [26]:
# Extraer los datos necesarios: nombre del comercio, categoría y ubicación
merchant_data = data[['merchant', 'category', 'merch_lat', 'merch_long']].drop_duplicates()

# Obtener category_id de la tabla comercio_cat
categories = pd.read_sql("SELECT * FROM comercio_cat", con=conn)
merchant_data = merchant_data.merge(categories, how='left', left_on='category', right_on='category')

# Obtener merch_loc_id de la tabla comercio_loc
locations = pd.read_sql("SELECT * FROM comercio_loc", con=conn)
merchant_data = merchant_data.merge(locations, how='left', on=['merch_lat', 'merch_long'])

# Convertir merch_loc_id a entero, manejar NaN si es necesario
merchant_data['merch_loc_id'] = pd.to_numeric(merchant_data['merch_loc_id'], downcast='integer')

# Preparar el DataFrame para la inserción en la tabla Comercio
comercio_to_insert = merchant_data[['merchant', 'category_id', 'merch_loc_id']]
comercio_to_insert.columns = ['merchant_name', 'category_id', 'merch_loc_id']

# Asegurarse de que no hay valores NaN en las columnas claves foráneas antes de la inserción
comercio_to_insert = comercio_to_insert.dropna(subset=['category_id', 'merch_loc_id'])

# Convertir 'merch_loc_id' a entero nuevamente para asegurar que no hay decimales
comercio_to_insert['merch_loc_id'] = comercio_to_insert['merch_loc_id'].astype(int)

# Insertar los datos en la tabla Comercio
comercio_to_insert.to_sql('Comercio', con=conn, if_exists='append', index=False)
print("Datos de comercio añadidos a la base de datos.")


Datos de comercio añadidos a la base de datos.


In [27]:
comercio_tb = pd.read_sql("Select * from Comercio", con=conn)
comercio_tb.tail()

Unnamed: 0,merchant_id,merchant_name,category_id,merch_loc_id
40511,40512,fraud_Ruecker-Mayert,5,49994
40512,40513,fraud_Lubowitz-Walter,5,49997
40513,40514,fraud_Gaylord-Powlowski,8,49998
40514,40515,fraud_White and Sons,8,49999
40515,40516,"fraud_Conroy, Balistreri and Gorczany",2,50000


In [28]:
transactions_tb = pd.read_sql("Select * from Transacciones", con=conn)
transactions_tb.tail()

Unnamed: 0,trans_num,cc_num,trans_date_trans_time,amt,unix_time,is_fraud,merchant_id


In [29]:
# Extraer los datos necesarios: trans_num, cc_num, etc.
transaction_data = data[['trans_num', 'cc_num', 'trans_date_trans_time', 'amt', 'unix_time', 'is_fraud', 'merchant']].drop_duplicates()

# Verificar duplicados en el DataFrame original
print("Duplicados en transaction_data_total:", transaction_data.duplicated(subset='trans_num').sum())

# Obtener merchant_id de la tabla Comercio
merchants = pd.read_sql("SELECT merchant_id, merchant_name FROM Comercio", con=conn)

# Realizar el merge
transaction_data = transaction_data.merge(merchants, how='left', left_on='merchant', right_on='merchant_name')

# Verificar duplicados después del merge
print("Duplicados en transaction_data después del merge:", transaction_data.duplicated(subset='trans_num').sum())

# Preparar el DataFrame para la inserción en la tabla Transacciones
transactions_to_insert = transaction_data[['trans_num', 'cc_num', 'trans_date_trans_time', 'amt', 'unix_time', 'is_fraud', 'merchant_id']]

# Eliminar duplicados antes de la inserción
transactions_to_insert = transactions_to_insert.drop_duplicates(subset='trans_num')

# Asegurarse de que no hay valores NaN en las columnas claves foráneas
transactions_to_insert = transactions_to_insert.dropna(subset=['merchant_id'])

# Convertir los datos necesarios para la inserción
transactions_to_insert['is_fraud'] = transactions_to_insert['is_fraud'].astype(bool)
transactions_to_insert['merchant_id'] = transactions_to_insert['merchant_id'].astype(int)


Duplicados en transaction_data_total: 0
Duplicados en transaction_data después del merge: 3174532


In [30]:
# Intentar insertar los datos en la tabla Transacciones
transactions_to_insert.to_sql('Transacciones', con=conn, if_exists='append', index=False)
print("Transacciones añadidas a la base de datos.")

Transacciones añadidas a la base de datos.


In [31]:
transactions_tb = pd.read_sql("Select * from Transacciones", con=conn)
transactions_tb.tail()

Unnamed: 0,trans_num,cc_num,trans_date_trans_time,amt,unix_time,is_fraud,merchant_id
49995,fffd197912485da69225a163768b4770,213193596103206,2020-06-29 15:07:02,75.57,1372518422,b'\x00',151
49996,fffd7d4314644af051f79bed4f7bc4f7,30030380240193,2020-06-29 19:03:01,71.87,1372532581,b'\x00',323
49997,fffe28401431792946a3d9208b7b386d,4716561796955522,2020-06-29 20:21:47,2681.62,1372537307,b'\x00',289
49998,fffe8b8bacb5ecb09b4cdfb1b5813f65,4736845434667908128,2020-07-06 05:50:32,450.95,1373089832,b'\x00',1876
49999,ffff527580bbcd04e630d560333a4765,5456776410929288,2020-06-27 03:05:16,125.51,1372302316,b'\x00',1679


In [32]:
empleo_tb = pd.read_sql("Select * from Empleo", con=conn)
empleo_tb.tail()

Unnamed: 0,job_id,cc_num,job_description


In [33]:
# Extraer los datos necesarios para empleo
employment_data = data[['cc_num', 'job']].drop_duplicates()

# Obtener los cc_num existentes en la tabla Cliente
existing_cc_nums = pd.read_sql("SELECT cc_num FROM Cliente", con=conn)

# Realizar un merge para asegurar que solo se incluyan los cc_num que existen en la tabla Cliente
employment_data = employment_data.merge(existing_cc_nums, on='cc_num', how='inner')

# Renombrar la columna job a job_description para coincidir con la tabla Empleo
employment_data.rename(columns={'job': 'job_description'}, inplace=True)

# Insertar los datos en la tabla Empleo
employment_data.to_sql('Empleo', con=conn, if_exists='append', index=False)
print("Datos de empleo añadidos a la base de datos.")

Datos de empleo añadidos a la base de datos.


In [34]:
empleo_tb = pd.read_sql("Select * from Empleo", con=conn)
empleo_tb.tail()

Unnamed: 0,job_id,cc_num,job_description
905,906,377834944388609,Product designer
906,907,6526955903501879,Medical technical officer
907,908,4026222041577,Broadcast presenter
908,909,4682744518117239,"Radiographer, diagnostic"
909,910,3540416671210051,"Engineer, water"


# ETL

Llenado de la OLAP desde la OLTP usando ETL.

In [35]:
# Conectar a la base de datos OLAP
engine_olap = db.create_engine("mysql://root:rootpassword@172.16.5.4:3312/OLAP_Credit_Card_Transactions_Fraud_Detection")
conn_olap = engine_olap.connect()

In [36]:
# Extraer y cargar DimTiempo
transacciones = pd.read_sql("SELECT trans_date_trans_time FROM Transacciones", con=conn)
transacciones.tail()

Unnamed: 0,trans_date_trans_time
49995,2020-06-29 15:07:02
49996,2020-06-29 19:03:01
49997,2020-06-29 20:21:47
49998,2020-07-06 05:50:32
49999,2020-06-27 03:05:16


In [37]:
transacciones['fecha'] = pd.to_datetime(transacciones['trans_date_trans_time'])
transacciones['annio'] = transacciones['fecha'].dt.year
transacciones['mes'] = transacciones['fecha'].dt.month
transacciones['dia'] = transacciones['fecha'].dt.day
transacciones['hora'] = transacciones['fecha'].dt.hour
tiempo = transacciones[['fecha', 'annio', 'mes', 'dia', 'hora']].drop_duplicates()
tiempo.to_sql('DimTiempo', con=conn_olap, if_exists='append', index=False)

49004

In [38]:
# Extraer y cargar DimTiempo
dim_tiempo = pd.read_sql("SELECT * FROM DimTiempo", con=conn_olap)
dim_tiempo.tail()

Unnamed: 0,tiempo_id,fecha,annio,mes,dia,hora
48999,49000,2020-06-29 15:07:02,2020,6,29,15
49000,49001,2020-06-29 19:03:01,2020,6,29,19
49001,49002,2020-06-29 20:21:47,2020,6,29,20
49002,49003,2020-07-06 05:50:32,2020,7,6,5
49003,49004,2020-06-27 03:05:16,2020,6,27,3


In [39]:
# Extraer y cargar DimComercio
comercios = pd.read_sql("SELECT merchant_name, category FROM Comercio JOIN comercio_cat ON Comercio.category_id = comercio_cat.category_id", con=conn)
comercios.tail()

Unnamed: 0,merchant_name,category
40511,"fraud_Rutherford, Homenick and Bergstrom",grocery_net
40512,fraud_Bahringer-Larson,grocery_net
40513,fraud_Smitham-Boehm,grocery_net
40514,fraud_Morar Inc,grocery_net
40515,fraud_Dicki Ltd,grocery_net


In [40]:
comercios.to_sql('DimComercio', con=conn_olap, if_exists='append', index=False)

40516

In [41]:
dim_comercio = pd.read_sql("SELECT * FROM DimComercio", con=conn_olap)
dim_comercio.tail()

Unnamed: 0,comercio_id,merchant_name,category
40511,40512,"fraud_Rutherford, Homenick and Bergstrom",grocery_net
40512,40513,fraud_Bahringer-Larson,grocery_net
40513,40514,fraud_Smitham-Boehm,grocery_net
40514,40515,fraud_Morar Inc,grocery_net
40515,40516,fraud_Dicki Ltd,grocery_net


In [42]:
# Extraer y cargar DimEmpleo
empleos = pd.read_sql("SELECT job_description FROM Empleo", con=conn)
empleos.tail()

Unnamed: 0,job_description
905,Product designer
906,Medical technical officer
907,Broadcast presenter
908,"Radiographer, diagnostic"
909,"Engineer, water"


In [43]:
empleos.to_sql('DimEmpleo', con=conn_olap, if_exists='append', index=False)

910

In [44]:
dim_empleo = pd.read_sql("SELECT * FROM DimEmpleo", con=conn_olap)
dim_empleo.tail()

Unnamed: 0,empleo_id,job_description
905,906,Product designer
906,907,Medical technical officer
907,908,Broadcast presenter
908,909,"Radiographer, diagnostic"
909,910,"Engineer, water"


In [45]:
# Extraer datos de clientes
clientes = pd.read_sql("""
SELECT cc_num, first, last, dob, gender
FROM Cliente
JOIN Cliente_genero ON Cliente.gender_id = Cliente_genero.gender_id
""", con=conn)

clientes.tail()

Unnamed: 0,cc_num,first,last,dob,gender
905,4810789809665942990,Julie,Sanchez,1988-07-28,F
906,4810839835482794272,Carolyn,Perez,1985-08-31,F
907,4861310130652566408,Ashley,Cruz,1977-12-16,F
908,4973530368125489546,Mary,Rodriguez,1965-09-27,F
909,4989847570577635369,Vanessa,Anderson,1994-07-09,F


In [46]:
clientes.to_sql('DimCliente', con=conn_olap, if_exists='append', index=False)
print("Datos cargados exitosamente en DimCliente.")

Datos cargados exitosamente en DimCliente.


In [47]:
dim_cliente = pd.read_sql("SELECT * FROM DimCliente", con=conn_olap)
dim_cliente.tail()

Unnamed: 0,cc_num,first,last,dob,gender
905,4958589671582726883,Aaron,Pena,1950-11-27,M
906,4973530368125489546,Mary,Rodriguez,1965-09-27,F
907,4980323467523543940,Patrick,Massey,1947-10-27,M
908,4989847570577635369,Vanessa,Anderson,1994-07-09,F
909,4992346398065154184,Benjamin,Kim,1956-01-09,M


In [48]:
# Consulta SQL para extraer la información necesaria de direcciones
query_direcciones = """
SELECT 
    a.street, 
    c.city_name, 
    s.state_name, 
    a.zip, 
    a.lat, 
    a.longi 
FROM Address a
JOIN Ciudad c ON a.city_id = c.city_id
JOIN State s ON c.state_id = s.state_id
"""

# Usar Pandas para cargar los datos en un DataFrame
direcciones = pd.read_sql(query_direcciones, conn)
direcciones.tail()

Unnamed: 0,street,city_name,state_name,zip,lat,longi
976,78117 George Mountains,Paauilo,Hi,96776,20.0271,-155.3697
977,2711 Duran Pines,Honokaa,Hi,96727,20.0827,-155.488
978,90662 Lewis Avenue,Providence,Ri,2908,41.8383,-71.4377
979,8580 Moore Cove,Wales,Ak,99783,64.7556,-165.6723
980,9455 Kathleen Brook Apt. 651,Huslia,Ak,99746,65.6899,-156.292


In [49]:
# Cargar datos en la tabla DimDireccion usando Pandas
direcciones.to_sql('DimDireccion', con=conn_olap, if_exists='append', index=False)

981

In [50]:
# Verificar los datos cargados
dim_direccion = pd.read_sql("SELECT * FROM DimDireccion", con=conn_olap)
dim_direccion.tail()

Unnamed: 0,direccion_id,street,city_name,state_name,zip,lat,longi
976,977,78117 George Mountains,Paauilo,Hi,96776,20.0271,-155.3697
977,978,2711 Duran Pines,Honokaa,Hi,96727,20.0827,-155.488
978,979,90662 Lewis Avenue,Providence,Ri,2908,41.8383,-71.4377
979,980,8580 Moore Cove,Wales,Ak,99783,64.7556,-165.6723
980,981,9455 Kathleen Brook Apt. 651,Huslia,Ak,99746,65.6899,-156.292


In [89]:
# Ajustar la consulta SQL para incluir 'street'
query_transacciones = """
SELECT 
    t.trans_num, 
    t.cc_num, 
    t.trans_date_trans_time, 
    t.amt, 
    t.unix_time, 
    t.is_fraud, 
    t.merchant_id,
    a.street,  # Asegurándose de incluir 'street'
    a.zip,
    e.job_id AS empleo_id
FROM Transacciones t
JOIN Cliente c ON t.cc_num = c.cc_num
JOIN Address a ON c.address_id = a.address_id
LEFT JOIN Empleo e ON c.cc_num = e.cc_num
"""

transacciones = pd.read_sql(query_transacciones, conn)
transacciones.tail()

Unnamed: 0,trans_num,cc_num,trans_date_trans_time,amt,unix_time,is_fraud,merchant_id,street,zip,empleo_id
49995,8d3b75c528687d19e761c0d674d2edba,3540416671210051,2020-07-03 22:56:41,10.32,1372892201,b'\x01',791,44613 James Turnpike,56367,910
49996,a21fadfc781bef6306c6fcee871b7414,3540416671210051,2020-07-03 23:17:06,11.83,1372893426,b'\x01',229,44613 James Turnpike,56367,910
49997,ab5855756df21cebb8477d505d36430f,3540416671210051,2020-07-03 00:18:13,286.73,1372810693,b'\x01',1812,44613 James Turnpike,56367,910
49998,b246893ff833555b1047f500918497e3,3540416671210051,2020-07-03 23:13:05,912.89,1372893185,b'\x01',1739,44613 James Turnpike,56367,910
49999,b6a8fb11da28ccd05d94fc836fbd0702,3540416671210051,2020-07-02 23:17:05,9.03,1372807025,b'\x01',2210,44613 James Turnpike,56367,910


In [90]:
print("Data desde el query original:", transacciones.shape)

# Obtener claves foráneas desde la OLAP
tiempo = pd.read_sql("SELECT tiempo_id, fecha FROM DimTiempo", con=conn_olap)
direccion = pd.read_sql("SELECT direccion_id, street, zip FROM DimDireccion", con=conn_olap)
comercio = pd.read_sql("SELECT comercio_id, merchant_name FROM DimComercio", con=conn_olap)
empleo = pd.read_sql("SELECT empleo_id, job_description FROM DimEmpleo", con=conn_olap)

# Verificar duplicados en cada DataFrame de dimensiones
print("Duplicados en tiempo (fecha):", tiempo['fecha'].duplicated().sum())
print("Duplicados en comercio (comercio_id):", comercio['comercio_id'].duplicated().sum())
print("Duplicados en empleo (empleo_id):", empleo['empleo_id'].duplicated().sum())
print("Duplicados en dirección (direccion_id):", direccion['direccion_id'].duplicated().sum())
print("Duplicados en dirección (street):", direccion['street'].duplicated().sum())

# Enriquecer los datos de transacciones con las claves foráneas
# Uso de suffixes para evitar duplicados en nombres de columnas
transacciones = transacciones.merge(tiempo, how='left', left_on='trans_date_trans_time', right_on='fecha', suffixes=('', '_drop'))
transacciones.drop([col for col in transacciones.columns if 'drop' in col], axis=1, inplace=True)
print("Después de merge con tiempo:", transacciones.shape)

transacciones = transacciones.merge(comercio, how='left', left_on='merchant_id', right_on='comercio_id', suffixes=('', '_drop'))
transacciones.drop([col for col in transacciones.columns if 'drop' in col], axis=1, inplace=True)
print("Después de merge con comercio:", transacciones.shape)

transacciones = transacciones.merge(empleo, how='left', on='empleo_id', suffixes=('', '_drop'))
transacciones.drop([col for col in transacciones.columns if 'drop' in col], axis=1, inplace=True)
print("Después de merge con empleo:", transacciones.shape)

Data desde el query original: (50000, 10)
Duplicados en tiempo (fecha): 0
Duplicados en comercio (comercio_id): 0
Duplicados en empleo (empleo_id): 0
Duplicados en dirección (direccion_id): 0
Duplicados en dirección (street): 71
Después de merge con tiempo: (50000, 12)
Después de merge con comercio: (50000, 14)
Después de merge con empleo: (50000, 15)


In [91]:
# Asegurarte de que solo hay una entrada por dirección única en la tabla de direcciones
direccion = direccion.drop_duplicates(subset=['street', 'zip'])

# Realizando el merge otra vez
transacciones = transacciones.merge(direccion, how='left', on=['street', 'zip'], suffixes=('', '_drop'))
transacciones.drop([col for col in transacciones.columns if 'drop' in col], axis=1, inplace=True)

# Comprobando el número de filas después del merge para asegurar que no hay duplicados no deseados
print("Número de filas después de merge con dirección:", transacciones.shape[0])

# Continuar con los pasos siguientes...
if transacciones['is_fraud'].dtype == 'object':
    transacciones['is_fraud'] = transacciones['is_fraud'].apply(lambda x: bool(int.from_bytes(x, byteorder='big')))

transacciones_final = transacciones[['cc_num', 'direccion_id', 'tiempo_id', 'comercio_id', 'empleo_id', 'amt', 'is_fraud', 'unix_time']]
print(transacciones_final.tail())


Número de filas después de merge con dirección: 50000
                 cc_num  direccion_id  tiempo_id  comercio_id  empleo_id  \
49995  3540416671210051           773      27370          791        910   
49996  3540416671210051           773      31298          229        910   
49997  3540416671210051           773      33093         1812        910   
49998  3540416671210051           773      34373         1739        910   
49999  3540416671210051           773      35227         2210        910   

          amt  is_fraud   unix_time  
49995   10.32      True  1372892201  
49996   11.83      True  1372893426  
49997  286.73      True  1372810693  
49998  912.89      True  1372893185  
49999    9.03      True  1372807025  


In [92]:
# Cargar en la tabla HechosTransacciones
transacciones_final.to_sql('HechosTransacciones', con=conn_olap, if_exists='append', index=False)

50000

In [93]:
# Verificar los datos cargados
hechos_transacciones = pd.read_sql("SELECT * FROM HechosTransacciones", con=conn_olap)
hechos_transacciones.tail()

Unnamed: 0,transaccion_id,cc_num,direccion_id,tiempo_id,comercio_id,empleo_id,amt,is_fraud,unix_time
49995,49996,3540416671210051,773,27370,791,910,10.32,b'\x01',1372892201
49996,49997,3540416671210051,773,31298,229,910,11.83,b'\x01',1372893426
49997,49998,3540416671210051,773,33093,1812,910,286.73,b'\x01',1372810693
49998,49999,3540416671210051,773,34373,1739,910,912.89,b'\x01',1372893185
49999,50000,3540416671210051,773,35227,2210,910,9.03,b'\x01',1372807025
