In [None]:

from pyspark.sql import SparkSession
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
import pickle

# Inicia la sesión de Spark
spark = SparkSession.builder \
    .appName("Asignar categorías a números") \
    .getOrCreate()

# Datos de ejemplo
data2 = spark.createDataFrame([
    (0, "casa", "x", "m", "p", "r"),
    (1, "piscina", "y", "n", "q", "s"),
    (2, "jardín", "z", "o", "r", "t"),
    (3, "casa", "x", "m", "p", "r"),
    (4, "casa", "y", "n", "q", "s"),
    (5, "jardín", "z", "o", "r", "t"),
    (6, "garaje", "w", "p", "u", "v")  # Ejemplo de nueva categoría
], ["id", "MCC", "lia_sbif", "lia_getnet", "segmento", "estado_Revision_Equipo"])

# Convertir a pandas DataFrame para usar OrdinalEncoder
data_pd = data2.toPandas()

# Definir las columnas categóricas
categorical_cols = ['MCC', 'lia_sbif', 'lia_getnet', 'segmento', 'estado_Revision_Equipo']

# Crear el codificador
encoder = OrdinalEncoder()

# Ajustar el codificador y transformar los datos
data_pd[categorical_cols] = encoder.fit_transform(data_pd[categorical_cols])

# Convertir de nuevo a Spark DataFrame
data2 = spark.createDataFrame(data_pd)

# Mostrar los datos transformados
data2.show()

# Guardar el codificador y las categorías en un archivo
with open('ordinal_encoder.pkl', 'wb') as f:
    pickle.dump((encoder, encoder.categories_), f)

In [None]:

from pyspark.sql.functions import array, struct, explode, col, collect_list, lit

# Función para transponer cada fila manteniendo el RUT
def transponer_fila(row):
    transposed = []
    for column, value in zip(df.columns[1:], row[1:]):
        transposed.append((row[0], column, value))
    return transposed

# Convertir el DataFrame de filas a lista de filas transpuestas
transposed_data = [item for row in df.collect() for item in transponer_fila(row)]

# Crear un DataFrame transpuesto con RUT, nombre_variable y peso
df_transpuesto = spark.createDataFrame(transposed_data, ["rut", "nombre_variable", "peso"])

# Establecer el umbral para el riesgo alto
umbral_riesgo_alto = 0.7

# Identificar variables de riesgo alto
df_riesgo_alto = df_transpuesto.filter(col("peso") > umbral_riesgo_alto)

# Recopilar las variables de riesgo alto por RUT
df_resultado = df_riesgo_alto.groupBy("rut").agg(collect_list("nombre_variable").alias("variables_riesgo_alto"))

# Unir el resultado con el DataFrame original para mantener todos los datos
df_final = df.join(df_resultado, on="rut", how="left")

# Mostrar el DataFrame final
df_final.show(truncate=False)

In [None]:

from pyspark.sql.functions import array, struct, explode, col, sum, collect_list

# Convertir las columnas en filas (transponer el DataFrame)
df_transpuesto = df.select(explode(array([struct(lit(c).alias("nombre_variable"), col(c).alias("peso")) for c in df.columns])).alias("transpuesto"))
df_transpuesto = df_transpuesto.select("transpuesto.*")

# Establecer el umbral para el riesgo alto
umbral_riesgo_alto = 0.7

# Identificar variables de riesgo alto
df_riesgo_alto = df_transpuesto.filter(col("peso") > umbral_riesgo_alto)

# Recopilar las variables de riesgo alto en una lista y agregarlas en una nueva columna
df_resultado = df_riesgo_alto.groupBy().agg(collect_list("nombre_variable").alias("variables_riesgo_alto"))

# Mostrar el DataFrame resultante
df_resultado.show(truncate=False)

In [None]:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, first, when

# Crear una sesión de Spark
spark = SparkSession.builder.appName("FiltrarProductos").getOrCreate()

# Datos de ejemplo
data = [
    ('12345678-9', 'cuenta corriente'),
    ('12345678-9', 'tarjeta de crédito'),
    ('98765432-1', 'cuenta corriente mx'),
    ('98765432-1', 'préstamo personal'),
    ('12345678-9', 'préstamo personal'),
    ('98765432-1', 'tarjeta de crédito'),
    ('98765432-1', 'seguro de vida')
]

# Crear DataFrame
df = spark.createDataFrame(data, ['RUT', 'Producto'])

# Crear una columna para marcar si es cuenta corriente
df = df.withColumn('EsCuentaCorriente', when(col('Producto').isin(['cuenta corriente', 'cuenta corriente mx']), 1).otherwise(0))

# Filtrar para obtener las cuentas corrientes o, si no hay, otro producto
df_filtrado = df.groupBy('RUT').agg(
    first(when(col('EsCuentaCorriente') == 1, col('Producto'))).alias('CuentaCorriente'),
    first(when(col('EsCuentaCorriente') == 0, col('Producto'))).alias('OtroProducto')
)

# Seleccionar la columna adecuada
df_resultado = df_filtrado.withColumn('ProductoFinal', when(col('CuentaCorriente').isNotNull(), col('CuentaCorriente')).otherwise(col('OtroProducto'))).select('RUT', 'ProductoFinal')

# Mostrar el resultado
df_resultado.show()

In [None]:

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col, lit
from pyspark.sql.types import IntegerType
import pickle

# Inicia la sesión de Spark
spark = SparkSession.builder \
    .appName("Leer categorías desde archivo") \
    .getOrCreate()

# Datos de ejemplo
data2 = spark.createDataFrame([
    (0, "a", "x", "m", "p", "r"),
    (1, "b", "y", "n", "q", "s"),
    (2, "c", "z", "o", "r", "t"),
    (3, "a", "x", "m", "p", "r"),
    (4, "a", "y", "n", "q", "s"),
    (5, "c", "z", "o", "r", "t"),
    (6, "d", "w", "p", "u", "v")  # Ejemplo de nueva categoría
], ["id", "MCC", "lia_sbif", "lia_getnet", "segmento", "estado_Revision_Equipo"])

# Definir las columnas categóricas
categorical_cols = ['MCC', 'lia_sbif', 'lia_getnet', 'segmento', 'estado_Revision_Equipo']

# Intentar cargar el diccionario desde un archivo
try:
    with open('category_to_index.pkl', 'rb') as f:
        category_to_index = pickle.load(f)
except FileNotFoundError:
    # Si el archivo no existe, crear un diccionario vacío
    category_to_index = {col: {} for col in categorical_cols}

# Índice especial para nuevas categorías
special_index = -1

# Función para asignar índices automáticamente
def assign_index(column, category):
    if category not in category_to_index[column]:
        return special_index  # Asignar índice especial a nuevas categorías
    return category_to_index[column][category]

# Registrar la UDF
assign_index_udf = udf(assign_index, IntegerType())

# Aplicar la UDF a cada columna categórica
for column in categorical_cols:
    data2 = data2.withColumn(column + "_num", assign_index_udf(lit(column), col(column)))

# Mostrar los datos transformados
data2.show()

# Guardar el diccionario actualizado en un archivo
with open('category_to_index.pkl', 'wb') as f:
    pickle.dump(category_to_index, f)

# Mostrar el diccionario de mapeo
print(category_to_index)

In [None]:

from pyspark.sql import SparkSession
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
import pickle

# Inicia la sesión de Spark
spark = SparkSession.builder \
    .appName("Leer categorías desde archivo") \
    .getOrCreate()

# Datos de ejemplo
data2 = spark.createDataFrame([
    (0, "casa", "x", "m", "p", "r"),
    (1, "piscina", "y", "n", "q", "s"),
    (2, "jardín", "z", "o", "r", "t"),
    (3, "casa", "x", "m", "p", "r"),
    (4, "casa", "y", "n", "q", "s"),
    (5, "jardín", "z", "o", "r", "t"),
    (6, "garaje", "w", "p", "u", "v"),  # Ejemplo de nueva categoría
    (7, "terraza", "v", "q", "t", "u")  # Nueva categoría
], ["id", "MCC", "lia_sbif", "lia_getnet", "segmento", "estado_Revision_Equipo"])

# Convertir a pandas DataFrame para usar OrdinalEncoder
data_pd = data2.toPandas()

# Cargar el codificador y las categorías desde el archivo
with open('ordinal_encoder.pkl', 'rb') as f:
    encoder, categories = pickle.load(f)

# Actualizar el codificador con nuevas categorías
for i, col in enumerate(categorical_cols):
    new_categories = pd.Series(data_pd[col]).unique()
    all_categories = list(categories[i]) + [cat for cat in new_categories if cat not in categories[i]]
    encoder.categories_[i] = all_categories

# Transformar los datos usando el codificador actualizado
data_pd[categorical_cols] = encoder.transform(data_pd[categorical_cols])

# Convertir de nuevo a Spark DataFrame
data2 = spark.createDataFrame(data_pd)

# Mostrar los datos transformados
data2.show()

# Guardar el codificador y las categorías actualizadas en un archivo
with open('ordinal_encoder.pkl', 'wb') as f:
    pickle.dump((encoder, encoder.categories_), f)

In [None]:

# Intentar cargar el diccionario desde un archivo
try:
    with open('category_to_index.pkl', 'rb') as f:
        category_to_index = pickle.load(f)
except FileNotFoundError:
    # Si el archivo no existe, crear un diccionario vacío
    category_to_index = {col: {} for col in categorical_cols}

# Función para asignar índices automáticamente
def assign_index(column, category):
    if category not in category_to_index[column]:
        category_to_index[column][category] = len(category_to_index[column])
    return category_to_index[column][category]

# Registrar la UDF
assign_index_udf = udf(assign_index, IntegerType())

# Aplicar la UDF a cada columna categórica
for column in categorical_cols:
    data2 = data2.withColumn(column + "_num", assign_index_udf(lit(column), col(column)))

# Mostrar los datos transformados
data2.show()

# Guardar el diccionario actualizado en un archivo
with open('category_to_index.pkl', 'wb') as f:
    pickle.dump(category_to_index, f)

# Mostrar el diccionario de mapeo
print(category_to_index)

In [None]:

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf, col, lit
from pyspark.sql.types import IntegerType
import pickle

# Inicia la sesión de Spark
spark = SparkSession.builder \
    .appName("Ejemplo UDF para categorías") \
    .getOrCreate()

# Datos de ejemplo
data2 = spark.createDataFrame([
    (0, "a", "x", "m", "p", "r"),
    (1, "b", "y", "n", "q", "s"),
    (2, "c", "z", "o", "r", "t"),
    (3, "a", "x", "m", "p", "r"),
    (4, "a", "y", "n", "q", "s"),
    (5, "c", "z", "o", "r", "t"),
    (6, "d", "w", "p", "u", "v")  # Ejemplo de nueva categoría
], ["id", "MCC", "lia_sbif", "lia_getnet", "segmento", "estado_Revision_Equipo"])

# Definir las columnas categóricas
categorical_cols = ['MCC', 'lia_sbif', 'lia_getnet', 'segmento', 'estado_Revision_Equipo']

# Intentar cargar el diccionario desde un archivo
try:
    with open('category_to_index.pkl', 'rb') as f:
        category_to_index = pickle.load(f)
except FileNotFoundError:
    # Si el archivo no existe, crear un diccionario vacío
    category_to_index = {col: {} for col in categorical_cols}

# Función para asignar índices automáticamente
def assign_index(column, category):
    if category not in category_to_index[column]:
        category_to_index[column][category] = len(category_to_index[column])
    return category_to_index[column][category]

# Registrar la UDF
assign_index_udf = udf(assign_index, IntegerType())

# Aplicar la UDF a cada columna categórica
for column in categorical_cols:
    data2 = data2.withColumn(column + "_num", assign_index_udf(lit(column), col(column)))

# Mostrar los datos transformados
data2.show()

# Guardar el diccionario en un archivo
with open('category_to_index.pkl', 'wb') as f:
    pickle.dump(category_to_index, f)

# Mostrar el diccionario de mapeo
print(category_to_index)

In [None]:

import pandas as pd

def procesar_direcciones(excel_path):
    # Leer el archivo Excel
    df = pd.read_excel(excel_path)

    # Verificar si las columnas 'Nombre' y 'Dirección' existen
    if 'Nombre' not in df.columns or 'Dirección' not in df.columns:
        raise ValueError("El archivo Excel debe contener las columnas 'Nombre' y 'Dirección'")

    # Obtener las listas de nombres y direcciones
    names = df['Nombre'].tolist()
    addresses = df['Dirección'].tolist()

    # Procesar las direcciones
    processed_addresses = []
    for address in addresses:
        text = str(address).strip()
        if text != "nan":
            processed_addresses.append(text)

    return names, processed_addresses

# Ejemplo de uso
excel_path = 'ruta/al/archivo.xlsx'
try:
    names, addresses = procesar_direcciones(excel_path)
    print("Nombres:", names)
    print("Direcciones:", addresses)
except ValueError as e:
    print(f"Error: {e}")

In [None]:

import pandas as pd

# Leer el archivo Excel
excel_path = 'ruta/al/archivo.xlsx'
df = pd.read_excel(excel_path)

# Verificar si las columnas 'Nombre' y 'Dirección' existen
if 'Nombre' not in df.columns or 'Dirección' not in df.columns:
    raise ValueError("El archivo Excel debe contener las columnas 'Nombre' y 'Dirección'")

# Continuar con el procesamiento si las columnas existen
names = df['Nombre'].tolist()
addresses = df['Dirección'].tolist()

# Ejemplo de procesamiento adicional
matched_entries = []
for name, address in zip(names, addresses):
    if name in pdf_text:
        matched_entries.append((name, address))

print(matched_entries)

In [None]:

python app.py  pip install dash pandas plotly

In [None]:

import dash
from dash import dcc, html
from dash.dependencies import Input, Output
import pandas as pd
import plotly.express as px

# Crear un DataFrame de ejemplo
data = {
    "Nacionalidad": ["Chile", "Argentina", "Perú", "Chile", "Argentina", "Perú"],
    "Domicilio": ["Santiago", "Buenos Aires", "Lima", "Valparaíso", "Córdoba", "Cusco"],
    "Riesgo": ["Alto", "Medio", "Bajo", "Alto", "Medio", "Bajo"],
    "penumdoc": ["12345678901", "98765432109", "12312312345", "23456789012", "87654321098", "32132132154"]
}
df = pd.DataFrame(data)

# Inicializar la aplicación Dash
app = dash.Dash(__name__)

# Layout de la aplicación
app.layout = html.Div([
    html.H1("Panel Interactivo de Riesgo Bancario"),
    dcc.Dropdown(
        id='riesgo-dropdown',
        options=[{'label': riesgo, 'value': riesgo} for riesgo in df['Riesgo'].unique()],
        value='Alto'
    ),
    dcc.Graph(id='grafico-riesgo')
])

# Callback para actualizar el gráfico basado en el riesgo seleccionado
@app.callback(
    Output('grafico-riesgo', 'figure'),
    [Input('riesgo-dropdown', 'value')]
)
def actualizar_grafico(riesgo_seleccionado):
    df_filtrado = df[df['Riesgo'] == riesgo_seleccionado]
    fig = px.bar(df_filtrado, x='Nacionalidad', y='penumdoc', color='Domicilio', title=f'Clientes con riesgo {riesgo_seleccionado}')
    return fig

# Ejecutar la aplicación
if __name__ == '__main__':
    app.run_server(debug=True)
,

In [None]:

from pyspark.sql import SparkSession
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
import pickle

# Inicia la sesión de Spark
spark = SparkSession.builder \
    .appName("Asignar categorías a números") \
    .getOrCreate()

# Datos de ejemplo
data2 = spark.createDataFrame([
    (0, "casa", "x", "m", "p", "r"),
    (1, "piscina", "y", "n", "q", "s"),
    (2, "jardín", "z", "o", "r", "t"),
    (3, "casa", "x", "m", "p", "r"),
    (4, "casa", "y", "n", "q", "s"),
    (5, "jardín", "z", "o", "r", "t"),
    (6, "garaje", "w", "p", "u", "v")  # Ejemplo de nueva categoría
], ["id", "MCC", "lia_sbif", "lia_getnet", "segmento", "estado_Revision_Equipo"])

# Convertir a pandas DataFrame para usar OrdinalEncoder
data_pd = data2.toPandas()

# Definir las columnas categóricas
categorical_cols = ['MCC', 'lia_sbif', 'lia_getnet', 'segmento', 'estado_Revision_Equipo']

# Crear el codificador
encoder = OrdinalEncoder()

# Ajustar el codificador y transformar los datos
data_pd[categorical_cols] = encoder.fit_transform(data_pd[categorical_cols])

# Convertir de nuevo a Spark DataFrame
data2 = spark.createDataFrame(data_pd)

# Mostrar los datos transformados
data2.show()

# Guardar el codificador y las categorías en un archivo
with open('ordinal_encoder.pkl', 'wb') as f:
    pickle.dump((encoder, encoder.categories_), f)

# Mostrar el mapeo de categorías a números
for col, categories in zip(categorical_cols, encoder.categories_):
    print(f"Categorías para {col}:")
    for idx, category in enumerate(categories):
        print(f"  {category}: {idx}")

In [None]:

from pyspark.sql import SparkSession
import pandas as pd
from sklearn.preprocessing import OrdinalEncoder
import pickle

# Inicia la sesión de Spark
spark = SparkSession.builder \
    .appName("Leer categorías desde archivo") \
    .getOrCreate()

# Datos de ejemplo
data2 = spark.createDataFrame([
    (0, "casa", "x", "m", "p", "r"),
    (1, "piscina", "y", "n", "q", "s"),
    (2, "jardín", "z", "o", "r", "t"),
    (3, "casa", "x", "m", "p", "r"),
    (4, "casa", "y", "n", "q", "s"),
    (5, "jardín", "z", "o", "r", "t"),
    (6, "garaje", "w", "p", "u", "v"),  # Ejemplo de nueva categoría
    (7, "terraza", "v", "q", "t", "u")  # Nueva categoría
], ["id", "MCC", "lia_sbif", "lia_getnet", "segmento", "estado_Revision_Equipo"])

# Convertir a pandas DataFrame para usar OrdinalEncoder
data_pd = data2.toPandas()

# Cargar el codificador y las categorías desde el archivo
with open('ordinal_encoder.pkl', 'rb') as f:
    encoder, categories = pickle.load(f)

# Actualizar el codificador con nuevas categorías
for i, col in enumerate(categorical_cols):
    new_categories = pd.Series(data_pd[col]).unique()
    all_categories = list(categories[i]) + [cat for cat in new_categories if cat not in categories[i]]
    encoder.categories_[i] = all_categories

# Transformar los datos usando el codificador actualizado
data_pd[categorical_cols] = encoder.transform(data_pd[categorical_cols])

# Convertir de nuevo a Spark DataFrame
data2 = spark.createDataFrame(data_pd)

# Mostrar los datos transformados
data2.show()

# Guardar el codificador y las categorías actualizadas en un archivo
with open('ordinal_encoder.pkl', 'wb') as f:
    pickle.dump((encoder, encoder.categories_), f)

# Mostrar el mapeo de categorías a números
for col, categories in zip(categorical_cols, encoder.categories_):
    print(f"Categorías para {col}:")
    for idx, category in enumerate(categories):
        print(f"  {category}: {idx}")