In [None]:
!pip install pyspark
from pyspark.sql import SparkSession

# Iniciar una sesión de Spark
spark = SparkSession.builder \
    .appName("Python Spark SQL basic example") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()



In [None]:
import pandas as pd

df = spark.read.format('csv').option('header','true').option('delimiter', ',').load('/content/sample_data/mnist_test.csv')

In [None]:
columnas = df.columns
df2 = df.select(columnas[10:12])

In [None]:
df2.show()

+---+---+
|010|011|
+---+---+
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
|  0|  0|
+---+---+
only showing top 20 rows



In [None]:
import matplotlib.pyplot as plt
import math

# Tamaño de la población
N = 2799

# Valores de Z para diferentes niveles de confianza
Z_values = [1.70, 1.75, 1.81, 1.88, 1.96, 2.05, 2.17, 2.33]  # 91%, 92%, 93%, 94%, 95%, 96%, 97%, 98% de confianza

# Valores de E para diferentes márgenes de error
E_values = [0.01, 0.02, 0.03, 0.04, 0.05]  # 1%, 2%, 3%, 4%, 5% de margen de error

# Crear una figura y un conjunto de subgráficos
fig, axs = plt.subplots(len(Z_values), len(E_values), figsize=(15, 15))

# Calcular y graficar el tamaño de la muestra para cada combinación de Z y E
for i, Z in enumerate(Z_values):
    for j, E in enumerate(E_values):
        X = Z**2 * 0.25  # Varianza máxima para una distribución binomial
        n = N * X / ((N - 1) * E**2 + X)
        axs[i, j].plot([0, N], [n, n], 'r-')
        axs[i, j].set_title(f'IC={int(Z*10)}%, Error={int(E*100)}%, Muestra={int(n)}')
        axs[i, j].set_xlabel('Tamaño de la población')
        axs[i, j].set_ylabel('Tamaño de la muestra')

# Ajustar el diseño
plt.tight_layout()
plt.show()



In [None]:
from pyspark.sql.functions import udf
from pyspark.sql.types import FloatType
from scipy.stats import fisher_exact

# Definimos una función para calcular el valor p de la prueba exacta de Fisher
def fisher_test(df1_count, df2_count, df1_total, df2_total):
    contingency_table = [[df1_count, df2_count], [df1_total - df1_count, df2_total - df2_count]]
    _, p_value = fisher_exact(contingency_table)
    return float(p_value)

# Registramos la función como una udf
fisher_test_udf = udf(fisher_test, FloatType())

# Supongamos que 'var_cat' es tu variable categórica y que ya has agregado las categorías que faltan y las has llenado con ceros

# Calculamos el total de cada categoría en cada dataframe
df1_total = df1.count()
df2_total = df2.count()

# Aplicamos la prueba exacta de Fisher a cada categoría
for category in all_categories:
    df1_count = df1.filter(df1['var_cat'] == category).count()
    df2_count = df2.filter(df2['var_cat'] == category).count()
    p_value = fisher_test_udf(df1_count, df2_count, df1_total, df2_total)
    print("Categoría:", category)
    print("P-value:", p_value)


In [None]:
from pyspark.sql import functions as F

# Carga los datos en DataFrames de Spark
df_transactions = spark.read.table("transactions")
df_pedt001 = spark.read.table("pedt001")

# Realiza la unión interna
df = df_transactions.alias('a').join(df_pedt001.alias('b'), df_transactions['primary_id'] == df_pedt001['penumper'])

# Filtra los datos
df = df.filter(
    (F.substring(df['value_date'], 1, 10).between('2024-04-01', '2024-04-30')) &
    (df['product_source'] == '70') &
    (df['sa_subproduct'] == '1910') &
    (df['credit_debit_code'] == 'H') &
    (df['a.data_date_part'].between('2024-04-01', '2024-04-30')) &
    (~df['trx_source'].isin(['0391', '7001', '0956', '1872']))
)

# Selecciona las columnas deseadas y realiza las transformaciones necesarias
df = df.select(
    df['primary_id'],
    df['run_date'],
    df['txn_source'],
    df['sa_subproduct'].alias('subprod'),
    F.substring(df['account_id'], 15, 12).alias('cuenta'),
    df['txn_amount'].cast('bigint').alias('monto')
)
