In [None]:
!pip install pyspark
from pyspark.sql import SparkSession

# Iniciar una sesión de Spark
spark = SparkSession.builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()



In [None]:
from pyspark.sql import functions as F

# Supongamos que tus DataFrames se llaman df_diciembre, df_campana (enero a abril) y df_respuestas

# Primero, une df_diciembre con df_campana para encontrar los clientes que estuvieron en campaña en enero a abril
df_unido = df_diciembre.join(df_campana, on='rut', how='inner')

# Luego, une df_unido con df_respuestas para encontrar los clientes que respondieron
df_unido = df_unido.join(df_respuestas, on=['rut', 'mes'], how='left_anti')

# En este punto, df_unido contiene solo las filas de los clientes que no respondieron

# Ordena el DataFrame por rut y mes, y luego guarda solo la última fila para cada rut
df_ultima_campana = df_unido.orderBy('rut', 'mes', ascending=False).dropDuplicates(['rut'])


In [None]:

from pyspark.sql import SparkSession
from pyspark.sql.functions import col, first
from pyspark.sql.window import Window

# Inicializar SparkSession
spark = SparkSession.builder.appName("AnalisisClientes").getOrCreate()

# Cargar los archivos
df_clientes = spark.read.csv('clientes.csv', header=True, inferSchema=True)
df_campanas = spark.read.csv('campanas.csv', header=True, inferSchema=True)
df_respuestas = spark.read.csv('respuestas.csv', header=True, inferSchema=True)

# Asumiendo que 'df_respuestas' tiene las columnas 'id_cliente', 'mes_respuesta' y 'respondio'
# Crear una ventana particionada por 'id_cliente' y ordenada por 'mes_respuesta' en orden descendente
windowSpec = Window.partitionBy("id_cliente").orderBy(col("mes_respuesta").desc())

# Usar la función 'first' para obtener la última respuesta de cada cliente
df_ultima_respuesta = df_respuestas.withColumn("ultima_respuesta", first("respondio").over(windowSpec))

# Eliminar duplicados para obtener una fila por cliente
df_ultima_respuesta = df_ultima_respuesta.dropDuplicates(["id_cliente"])

# Unir con el dataframe de clientes para obtener la información completa
df_resultado = df_clientes.join(df_ultima_respuesta, "id_cliente")

# Seleccionar las columnas relevantes
df_resultado = df_resultado.select("id_cliente", "ultima_respuesta")

# Guardar o procesar los resultados según sea necesario
df_resultado.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Definimos el número de filas deseadas y el máximo de sucursales distintas
num_filas = 262
max_sucursales = 25

# Suponiendo que 'df' es tu DataFrame, 'sucursales' y 'rut' son las columnas de tu interés
# Inicializamos la muestra completa vacía y la semilla
muestra_completa = None
semilla = 42  # Puedes iniciar con cualquier número

# Función para verificar las condiciones de la muestra
def verificar_muestra(df, num_filas, max_sucursales):
    cuenta_sucursales = df.select('sucursales').distinct().count()
    cuenta_filas = df.count()
    return cuenta_filas == num_filas and cuenta_sucursales <= max_sucursales

# Iteramos sobre diferentes semillas hasta cumplir con las condiciones
while not verificar_muestra(muestra_completa, num_filas, max_sucursales):
    # Seleccionamos hasta 25 sucursales distintas de manera aleatoria
    sucursales_distintas = df.select('sucursales').distinct().orderBy(F.rand(seed=semilla)).limit(max_sucursales)

    # Creamos una muestra estratificada con las sucursales seleccionadas
    df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')
    muestra_estratificada = df_filtrado.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(num_filas)

    # Si la muestra estratificada tiene menos de 262 filas, rellenamos con más filas
    if muestra_estratificada.count() < num_filas:
        # Obtenemos los 'rut' que ya están en la muestra
        ruts_en_muestra = muestra_estratificada.select('rut').distinct()

        # Filtramos el DataFrame filtrado para excluir los 'rut' ya presentes
        df_restante = df_filtrado.join(ruts_en_muestra, 'rut', 'left_anti')

        # Calculamos cuántas filas faltan para llegar a 262
        filas_faltantes = num_filas - muestra_estratificada.count()

        # Tomamos filas adicionales sin repetir 'rut'
        filas_adicionales = df_restante.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(filas_faltantes)

        # Unimos las filas adicionales a la muestra estratificada
        muestra_completa = muestra_estratificada.union(filas_adicionales)
    else:
        muestra_completa = muestra_estratificada

    # Incrementamos la semilla para la siguiente iteración
    semilla += 1

# Mostrar la muestra completa
muestra_completa.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame, 'sucursales' y 'rut' son las columnas de tu interés
# Paso 1: Seleccionamos hasta 25 sucursales distintas de manera aleatoria
sucursales_distintas = df.select('sucursales').distinct().orderBy(F.rand(seed=semilla)).limit(25)

# Paso 2: Creamos una muestra estratificada con las sucursales seleccionadas
df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')
muestra_estratificada = df_filtrado.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 3: Verificamos si la muestra alcanza las 262 filas
if muestra_estratificada.count() < 262:
    # Obtenemos los 'rut' que ya están en la muestra
    ruts_en_muestra = muestra_estratificada.select('rut').distinct()

    # Filtramos el DataFrame original para excluir los 'rut' ya presentes y mantener solo las sucursales seleccionadas
    df_restante = df.join(sucursales_distintas, 'sucursales', 'inner').join(ruts_en_muestra, 'rut', 'left_anti')

    # Calculamos cuántas filas faltan para llegar a 262
    filas_faltantes = 262 - muestra_estratificada.count()

    # Tomamos filas adicionales sin repetir 'rut' y que pertenezcan a las sucursales ya seleccionadas
    filas_adicionales = df_restante.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(filas_faltantes)

    # Unimos las filas adicionales a la muestra estratificada
    muestra_completa = muestra_estratificada.union(filas_adicionales)

# Mostrar la muestra completa
muestra_completa.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame y 'sucursales' es el nombre de tu columna
# Paso 1: Estratificar el DataFrame
estratos = df.select('sucursales').distinct()

# Paso 2: Seleccionar hasta 25 sucursales aleatorias
sucursales_aleatorias = estratos.orderBy(F.rand(seed=semilla)).limit(25)

# Paso 3: Muestrear dentro de cada estrato
# Creamos un diccionario para la muestra estratificada
fracciones = {row['sucursales']: 1.0 for row in sucursales_aleatorias.collect()}

# Realizamos la muestra estratificada
muestra_estratificada = df.stat.sampleBy('sucursales', fracciones, seed=semilla)

# Paso 4: Combinar las muestras hasta alcanzar 262 filas
muestra_final = muestra_estratificada.limit(262)

# Mostrar las filas seleccionadas
muestra_final.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame, 'sucursales' y 'rut' son las columnas de tu interés
# Paso 1: Seleccionamos hasta 25 sucursales distintas de manera aleatoria
sucursales_distintas = df.select('sucursales').distinct().orderBy(F.rand(seed=semilla)).limit(25)

# Paso 2: Creamos una muestra estratificada con las sucursales seleccionadas
df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')
muestra_estratificada = df_filtrado.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 3: Verificamos si la muestra alcanza las 262 filas
if muestra_estratificada.count() < 262:
    # Obtenemos los 'rut' que ya están en la muestra
    ruts_en_muestra = muestra_estratificada.select('rut').distinct()

    # Filtramos el DataFrame original para excluir los 'rut' ya presentes
    df_restante = df_filtrado.join(ruts_en_muestra, 'rut', 'left_anti')

    # Calculamos cuántas filas faltan para llegar a 262
    filas_faltantes = 262 - muestra_estratificada.count()

    # Tomamos filas adicionales sin repetir 'rut'
    filas_adicionales = df_restante.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(filas_faltantes)

    # Unimos las filas adicionales a la muestra estratificada
    muestra_completa = muestra_estratificada.union(filas_adicionales)

# Mostrar la muestra completa
muestra_completa.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame, 'sucursales' y 'rut' son las columnas de tu interés
# Paso 1: Seleccionamos hasta 25 sucursales distintas de manera aleatoria
sucursales_distintas = df.select('sucursales').distinct().orderBy(F.rand(seed=semilla)).limit(25)

# Paso 2: Creamos una muestra estratificada con las sucursales seleccionadas
df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')
muestra_estratificada = df_filtrado.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 3: Verificamos si la muestra alcanza las 262 filas
if muestra_estratificada.count() < 262:
    # Obtenemos los 'rut' que ya están en la muestra
    ruts_en_muestra = muestra_estratificada.select('rut').distinct()

    # Filtramos el DataFrame original para excluir los 'rut' ya presentes y mantener solo las sucursales seleccionadas
    df_restante = df_filtrado.join(ruts_en_muestra, 'rut', 'left_anti')

    # Calculamos cuántas filas faltan para llegar a 262
    filas_faltantes = 262 - muestra_estratificada.count()

    # Tomamos filas adicionales sin repetir 'rut' y que pertenezcan a las sucursales ya seleccionadas
    filas_adicionales = df_restante.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(filas_faltantes)

    # Unimos las filas adicionales a la muestra estratificada
    muestra_completa = muestra_estratificada.union(filas_adicionales)

# Mostrar la muestra completa
muestra_completa.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame, 'sucursales' y 'rut' son las columnas de tu interés
# Paso 1: Seleccionamos hasta 25 sucursales distintas de manera aleatoria
sucursales_distintas = df.select('sucursales').distinct().orderBy(F.rand(seed=semilla)).limit(25)

# Paso 2: Creamos una muestra estratificada con las sucursales seleccionadas
df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')
muestra_estratificada = df_filtrado.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 3: Verificamos si la muestra alcanza las 262 filas
if muestra_estratificada.count() < 262:
    # Obtenemos los 'rut' que ya están en la muestra
    ruts_en_muestra = muestra_estratificada.select('rut').distinct()

    # Filtramos el DataFrame original para excluir los 'rut' ya presentes y mantener solo las sucursales seleccionadas
    df_restante = df.join(sucursales_distintas, 'sucursales', 'inner').join(ruts_en_muestra, 'rut', 'left_anti')

    # Calculamos cuántas filas faltan para llegar a 262
    filas_faltantes = 262 - muestra_estratificada.count()

    # Tomamos filas adicionales sin repetir 'rut' y que pertenezcan a las sucursales ya seleccionadas
    filas_adicionales = df_restante.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(filas_faltantes)

    # Unimos las filas adicionales a la muestra estratificada
    muestra_completa = muestra_estratificada.union(filas_adicionales)

# Mostrar la muestra completa
muestra_completa.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame y 'sucursales' es el nombre de tu columna
# Paso 1: Seleccionamos un máximo de 25 sucursales distintas de manera aleatoria
sucursales_distintas = df.select('sucursales').distinct().orderBy(F.rand(seed=semilla)).limit(25)

# Mostrar las sucursales seleccionadas
sucursales_distintas.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame y 'sucursales' es el nombre de tu columna
# Paso 1: Seleccionamos una muestra aleatoria de filas del DataFrame
muestra_aleatoria = df.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 2: Creamos una ventana para particionar por sucursal y ordenar por aleatoriedad
ventana = Window.partitionBy('sucursales').orderBy(F.rand(seed=semilla))

# Paso 3: Agregamos una columna de índice basada en la ventana
muestra_con_indice = muestra_aleatoria.withColumn('indice', F.row_number().over(ventana))

# Paso 4: Obtenemos las sucursales distintas con un índice de 1 (la primera fila de cada sucursal)
sucursales_distintas = muestra_con_indice.filter(col('indice') == 1).select('sucursales')

# Paso 5: Si hay más de 25 sucursales distintas, seleccionamos 25 de ellas aleatoriamente
if sucursales_distintas.count() > 25:
    sucursales_distintas = sucursales_distintas.orderBy(F.rand(seed=semilla)).limit(25)

# Paso 6: Filtramos la muestra original para incluir solo filas de las sucursales seleccionadas
muestra_final = muestra_con_indice.join(sucursales_distintas, 'sucursales', 'inner').drop('indice')

# Mostrar las filas seleccionadas
muestra_final.show()

In [None]:
import pandas as pd

df = spark.read.format('csv').option('header','true').option('delimiter', ',').load('/content/sample_data/mnist_test.csv')

In [None]:
columnas = df.columns
df2 = df.select(columnas[10:12])

In [None]:
df2.show()

+---+---+
|010|011|
+---+---+
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
+---+---+
only showing top 20 rows



In [None]:
import matplotlib.pyplot as plt
import math

# Tamaño de la población
N = 2799

# Valores de Z para diferentes niveles de confianza
Z_values = [1.70, 1.75, 1.81, 1.88, 1.96, 2.05, 2.17, 2.33]  # 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% de confianza

# Valores de E para diferentes márgenes de error
E_values = [0.01, 0.02, 0.03, 0.04, 0.05]  # 1%, 2%, 3%, 4%, 5% de margen de error

# Crear una figura y un conjunto de subgráficos
fig, axs = plt.subplots(len(Z_values), len(E_values), figsize=(15, 15))

# Calcular y graficar el tamaño de la muestra para cada combinación de Z y E
for i, Z in enumerate(Z_values):
    for j, E in enumerate(E_values):
        X = Z**2 * 0.25  # Varianza máxima para una distribución binomial
        n = N * X / ((N - 1) * E**2 + X)
        axs[i, j].plot([0, N], [n, n], 'r-')
        axs[i, j].set_title(f'IC={int(Z*10)}%, Error={int(E*100)}%, Muestra={int(n)}')
        axs[i, j].set_xlabel('Tamaño de la población')
        axs[i, j].set_ylabel('Tamaño de la muestra')

# Ajustar el diseño
plt.tight_layout()
plt.show()



In [None]:
from pyspark.sql.functions import udf
from pyspark.sql.types import FloatType
from scipy.stats import fisher_exact

# Definimos una función para calcular el valor p de la prueba exacta de Fisher
def fisher_test(df1_count, df2_count, df1_total, df2_total):
    contingency_table = [[df1_count, df2_count], [df1_total - df1_count, df2_total - df2_count]]
    _, p_value = fisher_exact(contingency_table)
    return float(p_value)

# Registramos la función como una udf
fisher_test_udf = udf(fisher_test, FloatType())

# Supongamos que 'var_cat' es tu variable categórica y que ya has agregado las categorías que faltan y las has llenado con ceros

# Calculamos el total de cada categoría en cada dataframe
df1_total = df1.count()
df2_total = df2.count()

# Aplicamos la prueba exacta de Fisher a cada categoría
for category in all_categories:
    df1_count = df1.filter(df1['var_cat'] == category).count()
    df2_count = df2.filter(df2['var_cat'] == category).count()
    p_value = fisher_test_udf(df1_count, df2_count, df1_total, df2_total)
    print("Categoría:", category)
    print("P-value:", p_value)


In [None]:
from pyspark.sql import functions as F

# Carga los datos en DataFrames de Spark
df_transactions = spark.read.table("transactions")
df_pedt001 = spark.read.table("pedt001")

# Realiza la unión interna
df = df_transactions.alias('a').join(df_pedt001.alias('b'), df_transactions['primary_id'] == df_pedt001['penumper'])

# Filtra los datos
df = df.filter(
    (F.substring(df['value_date'], 1, 10).between('2024-04-01', '2024-04-30')) &
    (df['product_source'] == '70') &
    (df['sa_subproduct'] == '1910') &
    (df['credit_debit_code'] == 'H') &
    (df['a.data_date_part'].between('2024-04-01', '2024-04-30')) &
    (~df['trx_source'].isin(['0391', '7001', '0956', '1872']))
)

# Selecciona las columnas deseadas y realiza las transformaciones necesarias
df = df.select(
    df['primary_id'],
    df['run_date'],
    df['txn_source'],
    df['sa_subproduct'].alias('subprod'),
    F.substring(df['account_id'], 15, 12).alias('cuenta'),
    df['txn_amount'].cast('bigint').alias('monto')
)

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F
from pyspark.sql.window import Window

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame y 'sucursales' es el nombre de tu columna
# Paso 1: Tomamos una muestra aleatoria de 262 filas del DataFrame
muestra_aleatoria = df.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 2: Creamos una ventana para particionar por sucursal y ordenar por aleatoriedad
ventana = Window.partitionBy('sucursales').orderBy(F.rand(seed=semilla))

# Paso 3: Agregamos una columna de índice basada en la ventana
muestra_con_indice = muestra_aleatoria.withColumn('indice', F.row_number().over(ventana))

# Paso 4: Filtramos las filas para tener un máximo de 25 sucursales distintas
muestra_final = muestra_con_indice.filter(col('indice') <= 25)

# Paso 5: Si la muestra final tiene menos de 262 filas, ajustamos la fracción y repetimos
while muestra_final.count() < 262:
    fraccion_ajustada = (262 / muestra_aleatoria.count()) * 2  # Ajustamos la fracción para obtener más filas
    muestra_aleatoria = df.sample(withReplacement=False, fraction=fraccion_ajustada, seed=semilla).limit(262)
    muestra_con_indice = muestra_aleatoria.withColumn('indice', F.row_number().over(ventana))
    muestra_final = muestra_con_indice.filter(col('indice') <= 25)

# Mostrar las filas seleccionadas
muestra_final.show()

In [None]:

from pyspark.sql.functions import col
import pyspark.sql.functions as F

# Establecemos una semilla para la reproducibilidad
semilla = 42

# Suponiendo que 'df' es tu DataFrame y 'sucursales' es el nombre de tu columna
# Paso 1: Seleccionamos una muestra aleatoria de 262 filas del DataFrame
muestra_aleatoria = df.sample(withReplacement=False, fraction=1.0, seed=semilla).limit(262)

# Paso 2: Obtenemos las sucursales distintas de la muestra aleatoria
sucursales_distintas = muestra_aleatoria.select('sucursales').distinct()

# Paso 3: Si hay más de 25 sucursales distintas, seleccionamos 25 de ellas aleatoriamente
if sucursales_distintas.count() > 25:
    sucursales_distintas = sucursales_distintas.orderBy(F.rand(seed=semilla)).limit(25)

# Paso 4: Filtramos la muestra original para incluir solo filas de las sucursales seleccionadas
df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')

# Paso 5: Si la muestra filtrada es menor a 262 filas, ajustamos la fracción y repetimos
while df_filtrado.count() < 262:
    fraccion_ajustada = (262 / df.count()) * 2  # Ajustamos la fracción para obtener más filas
    muestra_aleatoria = df.sample(withReplacement=False, fraction=fraccion_ajustada, seed=semilla).limit(262)
    sucursales_distintas = muestra_aleatoria.select('sucursales').distinct()
    if sucursales_distintas.count() > 25:
        sucursales_distintas = sucursales_distintas.orderBy(F.rand(seed=semilla)).limit(25)
    df_filtrado = df.join(sucursales_distintas, 'sucursales', 'inner')

# Mostrar las filas seleccionadas
df_filtrado.show()

In [None]:
from pyspark.sql.functions import udf
from pyspark.sql.types import FloatType
import math

# Definimos una UDF para truncar el número flotante
def trunc_float(num, precision):
    if num is not None:
        return math.trunc(num * 10**precision) / 10**precision
    else:
        return None

# Registramos la UDF
trunc_float_udf = udf(trunc_float, FloatType())

# Aplicamos la UDF a la columna después de reemplazar las comas con puntos
df = df.withColumn('columna_con_puntos', regexp_replace(col('columna_con_comas'), ',', '.'))
df = df.withColumn('columna_flotante', trunc_float_udf(col('columna_con_puntos').cast('float'), lit(3)))
