In [1]:
import math
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

from functools import reduce
from pyspark.sql import SparkSession, Window, DataFrame
from pyspark.sql.functions import lit, col, row_number, count, monotonically_increasing_id

In [2]:
spark = SparkSession.builder.appName('Rank_Mean').getOrCreate()
sc = spark.sparkContext
sc

In [3]:
## por temas de replicación, siempre es mejor convertir el archivo a leer en formato csv

monthly_data = pd.read_csv("data-resources/monthly_data.csv")
daily_data = pd.read_csv("data-resources/daily_data.csv")

In [4]:
## seleccionamos la primera columna y lo convertimos a vector, esta columna representa el indice que estamos analizando, 
## 'MXWDU_Index', la idea es medir esta columna con el resto, ya que las demás son acciones que forman parte de ése índice.

benchmark_month = monthly_data.loc[0:monthly_data.shape[0], monthly_data.columns[1]]
benchmark_day = daily_data.loc[0:daily_data.shape[0], daily_data.columns[1]]

In [5]:
## Calculamos el porcentaje de cambio de un día contra otro.
## fórmula: (t+1 / t)-1
## pseudo-código: (precio_hoy / precio_ayer)-1

pct_benchmark_month = benchmark_month.pct_change(1)
pct_benchmark_day = benchmark_day.pct_change(1)

In [6]:
## el vector de "percentage change" se convierte a un arreglo numpy de dimensión (147,)
## NOTA: en los arreglos (objetos) de tipo numpy.array preservan los valores, tanto por fila, como por columna,
##       el órden de los elementos, cómo un 'índice implícito'

pct_benchmark_month_array = np.array(pct_benchmark_month)
pct_benchmark_day_array = np.array(pct_benchmark_day)

In [7]:
## Lo mismo hacemos, pero para el resto de variables equity,
## seleccionamos la primera columna y lo convertimos a vector, esta columna representa el indice que estamos analizando, 
## 'MXWDU_Index', la idea es medir esta columna con el resto, ya que las demás son acciones que forman parte de ese índice.

investment_universe_month = monthly_data.loc[0:monthly_data.shape[0],monthly_data.columns[2:monthly_data.shape[1]]]
investment_universe_day = daily_data.loc[0:daily_data.shape[0],daily_data.columns[2:daily_data.shape[1]]]

In [8]:
## (t+1 / t)-1
## (precio_hoy / precio_ayer)-1

pct_investment_month = investment_universe_month.pct_change(1)
pct_investment_day = investment_universe_day.pct_change(1)

In [9]:
## el vector de percentage change se convierte a un arreglo numpy de dimensión (147,70)

pct_investment_month_array = np.array(pct_investment_month)
pct_investment_day_array = np.array(pct_investment_day)

In [10]:
## creamos arreglos numpy con dimensiones X+1 = 148, rellenas de ceros, para ser imputados con nuevos vectores

up_month = np.zeros((pct_benchmark_month_array.shape[0]+1, 1))
down_month = np.zeros((pct_benchmark_month_array.shape[0]+1, 1))
up_move = np.zeros((pct_benchmark_month_array.shape[0]+1, pct_investment_month_array.shape[1]))
down_move = np.zeros((pct_benchmark_month_array.shape[0]+1, pct_investment_month_array.shape[1]))

In [11]:
## rellenamos las matrices de ceros con valores que aprueben las condiciones, 
## se realiza una comparación dentro de los arreglos de porcentajes de cambio, 
## sí alguno de esos porcentajes es superior a 0, entonces entra a los arreglos 
## de movimientos positivos (incrementos), pero sí alguno es menor que 0, entonces
## el porcentaje se almacena en los arreglos de movimientos negativos (decrementos).

## Básicamente, se separan los porcentajes de cambio en dos matrices: 
## matriz de positivos cuando el porcentaje es > 0 
## matriz de negativos cuando el porcentaje es <= 0

size_benchmark_matrix = pct_benchmark_month_array.shape[0]
for i in range (1, size_benchmark_matrix):
    if pct_benchmark_month_array[i] > 0:
        up_month[i] = pct_benchmark_month_array[i]
        up_move[i] = pct_investment_month_array[i, 0:pct_investment_month_array.shape[1]]
    else:
        down_month[i] = pct_benchmark_month_array[i]
        down_move[i] = pct_investment_month_array[i, 0:pct_investment_month_array.shape[1]]

In [12]:
## calculamos los vectores 'peor más alto' y 'mejor más alto'

np.seterr(divide='ignore', invalid='ignore')
greater_worse = down_move / down_month
greater_better = (up_move / up_month) * float(-1.0)

In [13]:
## ambos vectores los convertimos a pandas dataframes, y solo nos quedamos con los vectores que tengan valores != np.nan
## una de las ventajas de los pandas dataframes es que mantienen un ídince único por row, esto lo hace poder separarse, y juntarse
## en cuantos sub-conjuntos se requieran y siempre se podrá mantener un órden.

greater_worse_df = pd.DataFrame(data=greater_worse).dropna()
greater_better_df = pd.DataFrame(data=greater_better).dropna()

In [14]:
## calculamos ahora, la mediana acumulada con los pandas dataframes que construimos, 
## con un periodo mínimo (método expanding) de al menos 1 observación dada.

median_down = greater_worse_df.expanding().median()
median_up = greater_better_df.expanding().median()

In [15]:
## se añade variable 'label' con la idea de que al juntar ambos dataframes se puedan distinguir los 'worse' de los 'better'
## y se unen ambos dataframes con la etiqueta creada, se usó el método 'insert' por lo que no se deberá correr de nuevo, una
## vez ejecutado ya que fallará por duplicidad de columnas.

median_down.insert(0, 'label', 'worse')
median_up.insert(0, 'label', 'better')
worse_better_df = pd.concat([median_down, median_up]).sort_index(ascending=True)

In [16]:
## se crea un índice 'closing_id' para cada registro, éste corre de [1:N] 
## con la idea de etiquetar el id del mes de registro de cierre,
## de la misma forma que lo anterior, NO se deberá ejecutar de nuevo; una vez hecho.

worse_better_df['closing_id'] = range(1, len(worse_better_df) + 1)

In [17]:
## se transponen ambos dataframes, de antes tener una dimensión (68, 70), es decir; 
## 68 registros i.e. 'Rows' (variables)
## 70 columnas fijas (a menos que sea añadido otro asset desde el csv inicial)

## a tener una dimensión 'transpuesta' (invertída sí querés...) de (70, 68), es decir;
## 70 registros i.e. 'Rows' fijos (a menos que sea añadido otro asset desde el csv inicial)
## 68 columnas (variables!!!)

greater_worse_median = worse_better_df[worse_better_df["label"] == "worse"]
greater_better_median = worse_better_df[worse_better_df["label"] == "better"]

In [18]:
## de pandas dataframes, una vez separados en dos conjuntos ['worse', 'better'],
## creamos por separado dos spark dataframes.

median_down_df = spark.createDataFrame(greater_worse_median)
median_up_df = spark.createDataFrame(greater_better_median)

In [19]:
## el spark dataframe es convertido a rdd, éste se crea una entidad relación de índices y registros,
## y fila por fila se va creando un valor numérico monotónicamente creciente, al que llamamos 'index'

columns = median_down_df.columns
indexed_median_df = median_down_df.rdd.zipWithIndex()\
                                  .map(lambda row: (row[1],) + tuple(row[0]))\
                                  .toDF(["index"] + columns)\
                                  .select("index", "closing_id", "label", *median_down_df.columns[1:-1])

In [20]:
## se crea un apuntador, una lista con iteraciones, esta lista trabajará con dos variables principales,
## 1-. la variable 'equity_index', será la que contenga los 'id' de los activos
## 2-. la variable 'median_down', será la que contenga la mediana acumulada por cada activo.
## Se mantendrá a lo largo de la transformación 1 columna fija; 'closing_id',
## closing_id: variable que indica el mes de cierre y reporte de precio

dataframes = [indexed_median_df.select("closing_id", 
                                       lit(equity).cast("int").alias('asset_index'),
                                       col(equity).alias('median_down')) for equity in indexed_median_df.columns[3:]]

In [21]:
## se crea una función que va uniendo los registros, conformando un nuevo spark-dataframe

def unionAll_df(*dfs):
    return reduce(DataFrame.unionAll, dfs)

In [22]:
## creamos una window function para mantener particiones de 'equity_index'
## y en cada partición ordenar la variable 'median_down'

w = Window.partitionBy("asset_index").orderBy(col("median_down").desc())

In [23]:
## se crea nuevo spark-dataframe donde solo se mostrará por partición ['equity_index'] 
## el top 10 mejores meses donde tuvo menos malos que el resto de los registros,
## considerando que el dataframe que estamos analizando es el de las medianas bajas

layout_order = ["asset_index", "top_number", "closing_id", "median_down"]
median_down_T = unionAll_df(*dataframes).select("*", (row_number().over(w)).alias("top_number"))\
                                        .where(col("top_number") <= 10)\
                                        .select(layout_order)

In [24]:
median_down_T.printSchema()
median_down_T.orderBy("asset_index", "top_number").show(1000)

root
 |-- asset_index: integer (nullable = true)
 |-- top_number: integer (nullable = true)
 |-- closing_id: long (nullable = true)
 |-- median_down: double (nullable = true)

+-----------+----------+----------+-------------------+
|asset_index|top_number|closing_id|        median_down|
+-----------+----------+----------+-------------------+
|          0|         1|         7| 2.6754231308571814|
|          0|         2|         1| 1.9850679891112766|
|          0|         3|         4| 1.9850679891112766|
|          0|         4|         8| 1.9850679891112766|
|          0|         5|        26|  1.521002651052485|
|          0|         6|        14| 1.5079344534486556|
|          0|         7|         2| 1.4301890680689269|
|          0|         8|         9| 1.4301890680689269|
|          0|         9|        15| 1.2073796720280185|
|          0|        10|        23| 1.2073796720280185|
|          1|         1|         1|  4.270972593951552|
|          1|         2|         4|  4.0

# A partir de aqui se escribe en formato csv para trabajar con Pandas

In [35]:
## Aqui es donde escribo la tabla en formato csv.
median_down_T.coalesce(1).write.mode('overwrite').option("header","true").csv("data-resources/median_down_transpose_csv")

In [37]:
## Ruta donde se encuentra el nuevo csv: 
mdt_path = "data-resources/median_down_transpose_csv/part-00000-7148b74d-16f7-40a4-8ea5-89f437fa8fd4-c000.csv"
median_down_pd = pd.read_csv(mdt_path)