# **Pandas**

### **Librerías**

In [1]:
import pandas as pd
import numpy as np

In [144]:
import dataframe_image as dfi

### **Datos**

In [2]:
# Data para el producto A

df_a = pd.DataFrame({
    'Month':pd.date_range(
        start = '01-01-2012',
        end = '31-12-2022',
        freq = 'MS'
    ),
    'Quotes':np.random.randint(
        low = 1_000_000,
        high = 2_500_000,
        size = 132
    ),
    'Numbers':np.random.randint(
        low = 300_000,
        high = 500_000,
        size = 132
    ),
    'Amounts':np.random.randint(
        low = 750_000,
        high = 1_250_000,
        size = 132
    )
})

df_a['Product'] = 'A'

# Data para el producto B

df_b = pd.DataFrame({
    'Month':pd.date_range(
        start = '01-01-2012',
        end = '31-12-2022',
        freq = 'MS'
    ),
    'Quotes':np.random.randint(
        low = 100_000,
        high = 800_000,
        size = 132
    ),
    'Numbers':np.random.randint(
        low = 10_000,
        high = 95_000,
        size = 132
    ),
    'Amounts':np.random.randint(
        low = 450_000,
        high = 750_000,
        size = 132
    )
})

df_b['Product'] = 'B'

In [3]:
# Combinamos los datos
df = pd.concat([df_a, df_b], axis=0)
df.sort_values(by='Month', inplace=True)
df.reset_index(drop=True, inplace=True)
df.head()

Unnamed: 0,Month,Quotes,Numbers,Amounts,Product
0,2012-01-01,1297877,427302,893590,A
1,2012-01-01,557071,44383,648487,B
2,2012-02-01,2493819,358599,1089789,A
3,2012-02-01,150071,31385,738013,B
4,2012-03-01,1307998,359458,807437,A


In [4]:
# Columnas calculadas 
df['Average_Sale'] = df['Amounts'] / df['Numbers']
df['Product_Conversion'] = df['Numbers'] / df['Quotes']

In [5]:
df.head()

Unnamed: 0,Month,Quotes,Numbers,Amounts,Product,Average_Sale,Product_Conversion
0,2012-01-01,1297877,427302,893590,A,2.091238,0.329232
1,2012-01-01,557071,44383,648487,B,14.611157,0.079672
2,2012-02-01,2493819,358599,1089789,A,3.039019,0.143795
3,2012-02-01,150071,31385,738013,B,23.514832,0.209134
4,2012-03-01,1307998,359458,807437,A,2.246262,0.274815


### **1. Ajuste del formato**

In [9]:
# Ajustamos los formatos de los números
df.head().style.format({
    # Ajustamos el formato de fecha
    # 'Month': '{:%Y-%m}',
    # 'Month': '{:%B-%Y}',
    'Month': '{:%b-%Y}',

    # Ajustamos el formato de los números
    'Quotes': '{:,.0f}',
    'Numbers': '{:,.0f}',
    'Amounts': '${:,.0f}',
    # 'Average_Sale': '{:,.2f} ($)',
    'Average_Sale': '${:,.2f}',
    'Product_Conversion': '{:.2%}',
})
# .hide()

Unnamed: 0,Month,Quotes,Numbers,Amounts,Product,Average_Sale,Product_Conversion
0,Jan-2012,1297877,427302,"$893,590",A,$2.09,32.92%
1,Jan-2012,557071,44383,"$648,487",B,$14.61,7.97%
2,Feb-2012,2493819,358599,"$1,089,789",A,$3.04,14.38%
3,Feb-2012,150071,31385,"$738,013",B,$23.51,20.91%
4,Mar-2012,1307998,359458,"$807,437",A,$2.25,27.48%


### **2. Ajuste del formato condicional**

##### **Resaltar por una categoría**

In [102]:
def highlight_product(row_data, product, color='yellow'):
    """
    Resalta las filas del DataFrame basándose en el valor de la columna 'Product'.

    Args:
        row_data (pd.Series): Una fila del DataFrame.
        product (any): La columna con la cual se resaltarán las filas.
        color (str, optional): El color para resaltar las filas. Por defecto, 'yellow'.

    Returns:
        List[str]: Lista de strings con estilo CSS para resaltar la fila.
    """
    
    # Crea una nueva Serie de pandas llamada 'row' con valores booleanos inicializados en False
    row = pd.Series(data=False, index=row_data.index)

    # Establece el valor en True para la columna 'Product' si el valor en esa fila es igual al producto proporcionado
    row['Product'] = row_data.loc['Product'] == product

    # Retorna una lista de strings con el formato 'background-color: {color}' si al menos un valor en 'row' es True
    return [f'background-color: {color}' if row.any() else '' for value in row]


In [54]:
# Aplicamos la condición sobre las categorías
df.head().style.apply(
    highlight_product, product='A', color='#18314f', axis=1
).format({
    # Ajustamos el formato de fecha
    'Month': '{:%b-%Y}',

    # Ajustamos el formato de los números
    'Quotes': '{:,.0f}',
    'Numbers': '{:,.0f}',
    'Amounts': '${:,.0f}',
    'Average_Sale': '${:,.2f}',
    'Product_Conversion': '{:.2%}',
}).hide()

Month,Quotes,Numbers,Amounts,Product,Average_Sale,Product_Conversion
Jan-2012,1297877,427302,"$893,590",A,$2.09,32.92%
Jan-2012,557071,44383,"$648,487",B,$14.61,7.97%
Feb-2012,2493819,358599,"$1,089,789",A,$3.04,14.38%
Feb-2012,150071,31385,"$738,013",B,$23.51,20.91%
Mar-2012,1307998,359458,"$807,437",A,$2.25,27.48%


##### **Resaltar por valores numéricos**

In [64]:
def highlight_average_sale(row_data, sale_threshold, color='yellow'):
    """
    Resalta las filas del DataFrame basándose en el valor de la columna 'Average_Sale'.

    Args:
        row_data (pd.Series): Una fila del DataFrame.
        sale_threshold (any): Umbral por el cual se resaltaran las filas.
        color (str, optional): El color para resaltar las filas. Por defecto, 'yellow'.

    Returns:
        List[str]: Lista de strings con estilo CSS para resaltar la fila.
    """
    
    # Crea una nueva Serie de pandas llamada 'row' con valores booleanos inicializados en False
    row = pd.Series(data=False, index=row_data.index)

    # Establece el valor en True para la columna 'Product' si el valor en esa fila es igual al producto proporcionado
    row['Product'] = row_data.loc['Average_Sale'] < sale_threshold

    # Retorna una lista de strings con el formato 'background-color: {color}' si al menos un valor en 'row' es True
    return [f'background-color: {color}' if row.any() else '' for value in row]


In [106]:
# Aplicamos la condición sobre las categorías
df.head().style.apply(
    highlight_product, product='A', color='#18314f', axis=1
).format({
    # Ajustamos el formato de fecha
    'Month': '{:%b-%Y}',

    # Ajustamos el formato de los números
    'Quotes': '{:,.0f}',
    'Numbers': '{:,.0f}',
    'Amounts': '${:,.0f}',
    'Average_Sale': '${:,.2f}',
    'Product_Conversion': '{:.2%}',
}).hide()

Month,Quotes,Numbers,Amounts,Product,Average_Sale,Product_Conversion
Jan-2012,1297877,427302,"$893,590",A,$2.09,32.92%
Jan-2012,557071,44383,"$648,487",B,$14.61,7.97%
Feb-2012,2493819,358599,"$1,089,789",A,$3.04,14.38%
Feb-2012,150071,31385,"$738,013",B,$23.51,20.91%
Mar-2012,1307998,359458,"$807,437",A,$2.25,27.48%


##### **Cambiar el color del texto por valores numéricos**

In [110]:
def colour_threshold(row_data, threshold=0.5):
    """
    Aplica un esquema de color a una fila del DataFrame basándose en un umbral.

    Args:
        row_data (pd.Series): Una fila del DataFrame.
        threshold (float, optional): El umbral para aplicar el esquema de color. 
                                        Por defecto, el umbral es 0.5.

    Returns:
        List[str]: Lista de strings con estilo CSS para el color de texto. 
                    Si el valor en la fila es menor que el umbral, el estilo será 'color: red', 
                    de lo contrario, el estilo será 'color: green'.

    """    

    # Crea una nueva Serie de pandas llamada 'row' con valores booleanos inicializados en False
    row = pd.Series(data=False, index=row_data.index)

    # Retorna una lista de strings con el formato 'color: red' si el valor en la fila es menor que el umbral,
    # de lo contrario, retorna 'color: green'
    return [f'color: red' if row_data.iloc[0] < threshold else 'color: green' for value in row]


In [132]:
# Aplicamos la condición sobre las categorías
df.head().style.apply(
    highlight_product, product='A', color='#18314f', axis=1
).apply(
    colour_threshold, subset=['Product_Conversion'], threshold= 0.2, axis=1
).format({
    # Ajustamos el formato de fecha
    'Month': '{:%b-%Y}',

    # Ajustamos el formato de los números
    'Quotes': '{:,.0f}',
    'Numbers': '{:,.0f}',
    'Amounts': '${:,.0f}',
    'Average_Sale': '${:,.2f}',
    'Product_Conversion': '{:.2%}',
}).hide()

Month,Quotes,Numbers,Amounts,Product,Average_Sale,Product_Conversion
Jan-2012,1297877,427302,"$893,590",A,$2.09,32.92%
Jan-2012,557071,44383,"$648,487",B,$14.61,7.97%
Feb-2012,2493819,358599,"$1,089,789",A,$3.04,14.38%
Feb-2012,150071,31385,"$738,013",B,$23.51,20.91%
Mar-2012,1307998,359458,"$807,437",A,$2.25,27.48%


##### **Ajuste de otros formatos**

In [134]:
# Aplicamos la condición sobre las categorías
df.head().style.set_properties(**{'text-align':'center'}).apply(
    highlight_product, product='A', color='#18314f', axis=1
).apply(
    colour_threshold, subset=['Product_Conversion'], threshold= 0.2, axis=1
).format({
    # Ajustamos el formato de fecha
    'Month': '{:%b-%Y}',

    # Ajustamos el formato de los números
    'Quotes': '{:,.0f}',
    'Numbers': '{:,.0f}',
    'Amounts': '${:,.0f}',
    'Average_Sale': '${:,.2f}',
    'Product_Conversion': '{:.2%}',
}).set_caption('Sales data <br> Produced by Team X').hide()

Month,Quotes,Numbers,Amounts,Product,Average_Sale,Product_Conversion
Jan-2012,1297877,427302,"$893,590",A,$2.09,32.92%
Jan-2012,557071,44383,"$648,487",B,$14.61,7.97%
Feb-2012,2493819,358599,"$1,089,789",A,$3.04,14.38%
Feb-2012,150071,31385,"$738,013",B,$23.51,20.91%
Mar-2012,1307998,359458,"$807,437",A,$2.25,27.48%


##### **Guardar dataframe como una imagen**

In [145]:
df_styled = df.head().style.set_properties(**{'text-align':'center'}).apply(
    highlight_product, product='A', color='#18314f', axis=1
).apply(
    colour_threshold, subset=['Product_Conversion'], threshold= 0.2, axis=1
).format({
    # Ajustamos el formato de fecha
    'Month': '{:%b-%Y}',

    # Ajustamos el formato de los números
    'Quotes': '{:,.0f}',
    'Numbers': '{:,.0f}',
    'Amounts': '${:,.0f}',
    'Average_Sale': '${:,.2f}',
    'Product_Conversion': '{:.2%}',
}).set_caption('Sales data <br> Produced by Team X').hide()

In [147]:
# Definimos la ruta donde se descargar el archivo
route = '../assets/'

dfi.export(
    df_styled, 
    f'{route}/dataframe.png'
)