In [27]:
import os
import pyodbc
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from dotenv import load_dotenv
import warnings
warnings.filterwarnings('ignore')


# Cargar archivo .env
# Ruta relativa desde el notebook hasta el .env
dotenv_path = '../generadores/.env'  #

# Cargar el archivo .env desde la ruta especificada
load_dotenv(dotenv_path=dotenv_path)

# Leer variables de entorno
username = os.getenv("USUARIO_DB")
password = os.getenv("CLAVE_BD")

# Validar que se cargaron bien
print("Usuario:", username)
print("Contraseña cargada:", bool(password))  # No imprime la clave, pero verifica si existe

if not username or not password:
    raise ValueError("Las variables de entorno USUARIO_DB o CLAVE_BD no están definidas")

# Cadena de conexión
conn_str = (
    'DRIVER={ODBC Driver 17 for SQL Server};'
    'SERVER=upgradeserver-vf.database.windows.net;'
    'DATABASE=Banco;'
    f'UID={username};'
    f'PWD={password}'
)

# Conexión
conn = pyodbc.connect(conn_str)



Usuario: vanesa
Contraseña cargada: True


In [28]:
query_usuarios = "SELECT * FROM usuarios" 
df_usuarios = pd.read_sql(query_usuarios, conn)
df_usuarios.head()

Unnamed: 0,id,nombre,apellido,estado_civil,dni,nacionalidad,fecha_nacimiento,direccion,codigo_postal,provincia,telefono,email,es_moroso,profesion,salario,numero_cuenta,tipo_cuenta,saldo,antiguedad_cliente,genero
0,1,Isaac,Bas,Soltero,50803891L,Andorrana,1976-08-03,"Acceso de Lupe Alegre 4, Albacete, 49375",4461,Zaragoza,612998046,pepita46@example.net,False,Preparador y elaborador de tabaco y sus productos,2982.68,ES3179968971026971199366,corriente,71063.73,2021-10-30,Masculino
1,2,Sandalio,Fuentes,Divorciado,86252814P,Noruega,1978-05-08,"Cuesta de Teófilo Somoza 3 Puerta 8 , Huelva, ...",5617,Soria,770595376,hcalatayud@example.com,False,"Gerente de sucursales de bancos, de servicios ...",5444.37,ES4882819013135814761921,corriente,59066.89,2020-10-19,Masculino
2,3,Dorita,Tejera,Soltera,89546650Z,Argentina,1962-01-16,"Camino de Danilo Roldan 54 Puerta 7 , La Coruñ...",33705,Cádiz,664201115,julietapi@example.org,False,Peón de jardinería y horticultura,3235.68,ES8896352888935177230208,corriente,69020.29,2020-08-31,Femenino
3,4,Mario,Lopez,Casado,79407181A,Armenia,1958-02-09,"Acceso Cebrián Balaguer 75 Piso 0 , Pontevedra...",51941,Jaén,612845864,rinconirma@example.org,False,Vendedor de quioscos y de puestos de mercado,3592.85,ES8080924363933477280294,corriente,43431.75,2021-06-20,Masculino
4,5,Luciano,Osorio,Divorciado,11417891R,Croata,1987-02-23,"Calle de Obdulia Múñiz 89 Piso 1 , Almería, 37332",27760,Asturias,682543717,ciriaco75@example.net,False,Mecánico y reparador de máquinas agrícolas e i...,1302.73,ES9451266251700653094652,corriente,24346.41,2020-09-10,Masculino


In [29]:
df_usuarios.duplicated().sum() #comprueba si hay duplicados

np.int64(0)

In [30]:
df_usuarios.isnull().sum() #comprueba si hay valores nulos

id                    0
nombre                0
apellido              0
estado_civil          0
dni                   0
nacionalidad          0
fecha_nacimiento      0
direccion             0
codigo_postal         0
provincia             0
telefono              0
email                 0
es_moroso             0
profesion             0
salario               0
numero_cuenta         0
tipo_cuenta           0
saldo                 0
antiguedad_cliente    0
genero                0
dtype: int64

In [31]:
df_usuarios.dtypes

id                      int64
nombre                 object
apellido               object
estado_civil           object
dni                    object
nacionalidad           object
fecha_nacimiento       object
direccion              object
codigo_postal          object
provincia              object
telefono               object
email                  object
es_moroso                bool
profesion              object
salario               float64
numero_cuenta          object
tipo_cuenta            object
saldo                 float64
antiguedad_cliente     object
genero                 object
dtype: object

In [32]:
query_activos = "SELECT * FROM activos_financieros" 
df_activos = pd.read_sql(query_activos, conn)
df_activos.head()

Unnamed: 0,id,usuario_id,tipo_activo,descripcion,monto
0,1,7,ahorro,Activos financieros,74284.27
1,2,8,ahorro,Activos financieros,14384.02
2,3,7,inversiones,Activos financieros,222459.66
3,4,3,ahorro,Activos financieros,59254.0
4,5,5,ahorro,Activos financieros,9822.68


In [33]:
df_activos.duplicated().sum() #comprueba si hay duplicados

np.int64(0)

In [34]:
df_activos.isnull().sum() #comprueba si hay valores nulos

id             0
usuario_id     0
tipo_activo    0
descripcion    0
monto          0
dtype: int64

In [35]:
df_activos.dtypes

id               int64
usuario_id       int64
tipo_activo     object
descripcion     object
monto          float64
dtype: object

In [36]:
query_creditos = "SELECT * FROM creditos" 
df_creditos = pd.read_sql(query_creditos, conn)
df_creditos.head()

Unnamed: 0,id,usuario_id,monto,fecha_inicio,fecha_fin,estado,tipo
0,1,3479,13158.92,2021-06-27,2021-12-24,Pagado,Automotriz
1,2,9766,27855.84,2021-06-27,2025-06-06,Pagado,Estudiantil
2,3,5687,24341.3,2020-10-02,2022-09-22,Activo,Hipotecario
3,4,6279,48965.73,2022-11-18,2023-11-13,Moroso,Personal
4,5,496,5623.96,2022-08-16,2026-07-26,Pagado,Personal


In [37]:
df_creditos.duplicated().sum() #comprueba si hay duplicados

np.int64(0)

In [38]:
df_creditos.isnull().sum() #comprueba si hay valores nulos

id              0
usuario_id      0
monto           0
fecha_inicio    0
fecha_fin       0
estado          0
tipo            0
dtype: int64

In [39]:
df_creditos.dtypes

id                int64
usuario_id        int64
monto           float64
fecha_inicio     object
fecha_fin        object
estado           object
tipo             object
dtype: object

In [40]:
#cambiamos fecha_inicio y fecha_fin a datetime
df_creditos['fecha_inicio'] = pd.to_datetime(df_creditos['fecha_inicio'])
df_creditos['fecha_fin'] = pd.to_datetime(df_creditos['fecha_fin'])

In [41]:
query_cuentas = "SELECT * FROM cuentas_bancarias" 
df_cuentas = pd.read_sql(query_cuentas, conn)
df_cuentas.head()

Unnamed: 0,id,usuario_id,numero_cuenta,tipo_cuenta,saldo
0,1,10,ES7739637164360193114526,ahorro,66755.89
1,2,10,ES1316574526906275603407,empresa,95837.31
2,3,3,ES5865885769854836821457,nómina,42972.24
3,4,4,ES5167158907887819348998,ahorro,899.28
4,5,1,ES4649322614789355112278,nómina,88410.84


In [42]:
df_cuentas.isnull().sum() #comprueba si hay valores nulos

id               0
usuario_id       0
numero_cuenta    0
tipo_cuenta      0
saldo            0
dtype: int64

In [43]:
df_cuentas.duplicated().sum() #comprueba si hay duplicados

np.int64(0)

In [44]:
df_cuentas.dtypes

id                 int64
usuario_id         int64
numero_cuenta     object
tipo_cuenta       object
saldo            float64
dtype: object

In [45]:
query_monedas = "SELECT * FROM monedas_digitales" 
df_monedas = pd.read_sql(query_monedas, conn)
df_monedas.head()

Unnamed: 0,id,usuario_id,tipo_moneda,cantidad,valor_actual
0,1,5,ADA,8727.795885,0.79
1,2,7,BTC,1.137435,56869.56
2,3,9,BTC,0.479071,50116.5
3,4,9,XRP,12265.715992,0.3
4,5,4,ETH,8.786425,2443.99


In [46]:
df_monedas.duplicated().sum() #comprueba si hay duplicados

np.int64(0)

In [47]:
df_monedas.isnull().sum() #comprueba si hay valores nulos

id              0
usuario_id      0
tipo_moneda     0
cantidad        0
valor_actual    0
dtype: int64

In [48]:
df_monedas.dtypes

id                int64
usuario_id        int64
tipo_moneda      object
cantidad        float64
valor_actual    float64
dtype: object