# Percentiles

Bien, entonces ya saben qué son los percentiles, es momento de comenzar a trabajar con datos.

In [None]:
# Librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

# Cargar los datos
titanic = pd.read_csv('titanic.csv')
#._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

sliced_df = titanic[['Pclass', 'Sex','Age']]

Bien, ya tenemos nuestra muestra, entonces vamos a tener que calcular dos cosas antes de obtener el Z-score

In [None]:
# Calcular los percentiles

perc = np.percentile(sliced_df['Age'], [1, 5, 10, 20, 50, 80, 90, 95, 99])
perc

array([ 1.  ,  5.  , 14.8 , 19.  , 28.  , 40.4 , 49.  , 55.85, 66.  ])

Bien ya tenemos algunos percentiles, ahora lo bueno es cómo representarlos

In [None]:
# Supongamos que hacemos un histograma de frecuencias de todas las edades

bins = range(0, int(np.max(sliced_df['Age'])), 1);

fig, ax = plt.subplots()
plt.hist( sliced_df['Age'],bins = bins,  color = '#ea84c9');

In [None]:
# Ahora supongamos que lo que queremos ver es cómo están repartidas
# basandonos en los valores de los percnetiles

fig, ax = plt.subplots()
counts, bins, patches = plt.hist( sliced_df['Age'], bins = bins);
# Colorear las barras según la condición
for patch, left_side, right_side in zip(patches, bins[:-1], bins[1:]):
    bin_center = (left_side + right_side) / 2  # Calcular el centro del bin

    if bin_center >= perc[-1]:
        patch.set_facecolor('#d63226')
    elif bin_center > perc[7]:
        patch.set_facecolor('#f17628')
    elif bin_center > perc[6]:
        patch.set_facecolor('#f79858')
    elif bin_center < perc[0]:
        patch.set_facecolor('#020344')
    elif bin_center < perc[1]:
        patch.set_facecolor('#155e8d')
    elif bin_center < perc[2]:
        patch.set_facecolor('#28b8d5')
    else:
        patch.set_facecolor('#c0c4ca')
# plt.axvline(x = perc[4], color = 'k', linestyle='--', alpha = 0.5)
# plt.axvline(x = perc[2], color = 'k', linestyle='--', alpha = 0.5)
# plt.axvline(x = perc[-3], color = 'k', linestyle='--', alpha = 0.5)

Al observar la distribución con los percentiles, podemos observar que quizás no se repartan como intuitivamente esperábamos.
De esta manera podemos dividir los datos de manera objetiva.

Vamos a ver otro ejemplo

In [None]:
# Librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

#._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

# Cargar los datos
gasolina = pd.read_csv('gas_prices.csv')
#._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._._

gasolina_mxn = gasolina.copy()
gasolina_mxn.iloc[:, 1:] = gasolina.iloc[:, 1:].mul(16).round(2)

In [None]:
# Vamos a obtener ahora los percentiles de los precios

perc = np.nanpercentile(gasolina_mxn.iloc[:, 1:], [5, 10, 50, 90, 95])

array([19.104, 23.648, 53.44 , 89.28 , 98.656])

In [None]:
# Ahora esta es una manera de iluminar sus dataframes
# usos tiene muchos, dependerá qué es lo que quieran lograr


# Aquí por facilidad haremos una función que otorgue un color dependiendo de
# si el valor que evaluamos está por encima, por debajo o en un rango del percentil

def color_fondo(value, column, perc):
    if value <= perc[0]:
        color = '#216869'
    elif (value > perc[0]) & (value <= perc[1]):
        color = '#49a078'
    elif (value >= perc[4]) & (value < 200):
        color = '#81171b'
    elif (value > perc[3]) & (value <= perc[4]):
        color = '#c75146'
    else:
        color = ''
    return f'background-color: {color}'


# Aquí lo que hacemos es cambiar el estilo del dataframe
# Aplicando una función lambda
(gasolina_mxn.style
 .apply(lambda x: x.apply(color_fondo, column = x.name, perc = perc), axis = 0)
 .format(precision=2)
)#.to_excel("Df_estilos.xlsx")


In [None]:
# Las funciones lambda son similares a las funciones normales pero escritas de manera diferente

# Función para sumar
def suma(x,y):
    return(x + y)

# Función para sumar con lambda
lambda x,y : x + y
# Y se guardan así
suma_dos = lambda x,y : x + y

4

In [None]:
# Supongamos que queremos analizar un sólo país i.e. Mexico

# Calculemos algunos percentiles
mex_q = np.quantile(gasolina_mxn['Mexico'], [0.20, 0.50, 0.80]) # 23.6, 28.64, 35.36


# Ajustar la función para que sólo adctúe sobre la columna de México

def color_fondo_mx(value, column, perc):
  if column == 'Mexico':
    if value <= perc[0]:
        color = '#216869'
    elif (value > perc[0]) & (value <= perc[1]):
        color = '#49a078'
    elif (value >= perc[2]) :
        color = '#81171b'
    elif (value > perc[1]) & (value <= perc[2]):
        color = '#c75146'
    else:
        color = ''
  else:
    color = ''
  return f'background-color: {color}'


# Y aquí aplicamos el estilo
(gasolina_mxn.style
 .apply(lambda x: x.apply(color_fondo_mx, column = x.name, perc = mex_q), axis = 0)
 .format(precision=2)
)#.to_excel("Df_estilos.xlsx")

Muy bien, su turno


In [None]:
# Encuentren los percentiles 5, 15, 85 y 95 de 5 países los que ustedes quieran (el percentil debe de ser de cada país no de todos)

# Iluminen el dataframe de tal manera que:
# Verde claro: por debajo del P5
# Amarillo: entre el P5 y P15
# Naranja: entre el P85 y P95
# Rojo: arriba del P95


Un último análisis que podemos hacerle a nuestros datos