## Cálculo del Intervalo de Confianza
Para construir un intervalo de confianza del 90% alrededor de la media poblacional, se utilizan los percentiles de la distribución normal estándar. Específicamente, se toman los valores correspondientes a los percentiles 5% y 95% (denotados como F(0.05) y F(0.95)), y se multiplican por el error estándar de la media para obtener los límites inferiores y superiores del intervalo de confianza.

## Error Estándar de la Media (SEM)
Es la desviación estándar de la distribución de las medias muestrales. Se calcula dividiendo la desviación estándar de la población por la raíz cuadrada del tamaño de la muestra. Cuanto mayor sea el tamaño de la muestra, menor será el error estándar y más precisa será la estimación.



Es posible simplificar el cálculo utilizando la distribución de Student scipy.stats.t. Tiene una función para el intervalo de confianza, interval(), que toma:

- alpha: nivel de significación
- df: número de grados de libertad (igual a n - 1)
- loc (de localización): la distribución media igual a la estimación media. Para la muestra, se calcula del modo siguiente: sample.mean()
- scale: el error estándar de la distribución igual a la estimación del error estándar. Se calcula de la siguiente manera: sample.sem().

In [None]:
import pandas as pd
from scipy import stats as st

sample = pd.Series([
    439, 518, 452, 505, 493, 470, 498, 442, 497, 
    423, 524, 442, 459, 452, 463, 488, 497, 500,
    476, 501, 456, 425, 438, 435, 516, 453, 505, 
    441, 477, 469, 497, 502, 442, 449, 465, 429,
    442, 472, 466, 431, 490, 475, 447, 435, 482, 
    434, 525, 510, 494, 493, 495, 499, 455, 464,
    509, 432, 476, 438, 512, 423, 428, 499, 492, 
    493, 467, 493, 468, 420, 513, 427])

print('Media:', sample.mean())

confidence_interval = st.t.interval(0.95,df=sample.count()-1,loc=sample.mean(), scale= sample.sem())

print('Intervalo de confianza del 95 %:', confidence_interval)

La funcion interval es un método que utiliza la distribución t de Student para calcular el intervalo de confianza. Este método asume que los datos siguen una distribución t de Student y tiene en cuenta el tamaño de la muestra, lo que lo hace útil cuando el tamaño de la muestra es pequeño y/o la desviación estándar de la población es desconocida.

La función sample.sem() se refiere al método para calcular el error estándar de la media (SEM) a partir de una muestra de datos. La SEM es una medida de cuánto varía la media muestral de una muestra a otra. Es especialmente útil cuando estamos tratando de estimar la precisión de la media muestral como una estimación de la media poblacional.

## Bootstrapping

El bootstrapping es una técnica de remuestreo que se utiliza en estadística para estimar la distribución de una estadística de interés (como la media, la mediana, la varianza, etc.) a partir de una muestra de datos. Esta técnica es particularmente útil cuando no se conocen las distribuciones teóricas de los datos o cuando se dispone de una muestra pequeña.

El proceso básico del bootstrapping implica lo siguiente:

- Tomar una muestra de datos con reemplazo de la muestra original. Esto significa que los elementos de la muestra original se pueden seleccionar más de una vez y también pueden no ser seleccionados en absoluto en la muestra de bootstrap resultante.
- Calcular la estadística de interés (por ejemplo, la media, la mediana, etc.) para cada muestra de bootstrap generada en el paso anterior.
- Repetir los pasos 1 y 2 muchas veces (generalmente miles de veces) para obtener una distribución empírica de la estadística de interés.
- Utilizar esta distribución empírica para estimar intervalos de confianza, realizar pruebas de hipótesis u otros análisis estadísticos.

El bootstrapping es una técnica poderosa y flexible que se puede aplicar a una amplia variedad de problemas en estadística y ciencia de datos. Permite obtener estimaciones precisas de la incertidumbre asociada con una estadística de interés sin hacer suposiciones fuertes sobre la distribución de los datos subyacentes.


Para formar submuestras usaremos dt.sample(# muestras, random_state=1234)

In [None]:
import pandas as pd
import numpy as np

data = pd.Series([
    10.7 ,  9.58,  7.74,  8.3 , 11.82,  9.74, 10.18,  8.43,  8.71,
     6.84,  9.26, 11.61, 11.08,  8.94,  8.44, 10.41,  9.36, 10.85,
    10.41,  8.37,  8.99, 10.17,  7.78, 10.79, 10.61, 10.87,  7.43,
     8.44,  9.44,  8.26,  7.98, 11.27, 11.61,  9.84, 12.47,  7.8 ,
    10.54,  8.99,  7.33,  8.55,  8.06, 10.62, 10.41,  9.29,  9.98,
     9.46,  9.99,  8.62, 11.34, 11.21, 15.19, 20.85, 19.15, 19.01,
    15.24, 16.66, 17.62, 18.22, 17.2 , 15.76, 16.89, 15.22, 18.7 ,
    14.84, 14.88, 19.41, 18.54, 17.85, 18.31, 13.68, 18.46, 13.99,
    16.38, 16.88, 17.82, 15.17, 15.16, 18.15, 15.08, 15.91, 16.82,
    16.85, 18.04, 17.51, 18.44, 15.33, 16.07, 17.22, 15.9 , 18.03,
    17.26, 17.6 , 16.77, 17.45, 13.73, 14.95, 15.57, 19.19, 14.39,
    15.76])

state = np.random.RandomState(12345)


# Valores para el cuantil del 99% en la variable valores
conf_int_values = []

#Obteniendo el intervalo de confianza / Confidence interval del 99%
for i in range(1000):	
	subsample = data.sample(frac=1, replace=True, random_state=state) #tambien se puede usar el parametro fraq=1 para especificar que queremos #la misma longitud de la base origina (100%)
	quantile = subsample.quantile(0.99)
	conf_int_values.append(quantile)

# Con los datos obtenidos, crearemos una Serie y sacaremos el valor mayor y menor (percentiles)
values = pd.Series(conf_int_values)
lower = values.quantile(0.05)
upper = values.quantile(0.95)

confidence_interval =f'{lower:.2f}, {upper:.2f}'

print(confidence_interval)


Bootstrapping para el analisis de pruebas.

In [None]:
import pandas as pd
import numpy as np

# datos del grupo de control A
samples_A = pd.Series([
     98.24,  97.77,  95.56,  99.49, 101.4 , 105.35,  95.83,  93.02,
    101.37,  95.66,  98.34, 100.75, 104.93,  97.  ,  95.46, 100.03,
    102.34,  98.23,  97.05,  97.76,  98.63,  98.82,  99.51,  99.31,
     98.58,  96.84,  93.71, 101.38, 100.6 , 103.68, 104.78, 101.51,
    100.89, 102.27,  99.87,  94.83,  95.95, 105.2 ,  97.  ,  95.54,
     98.38,  99.81, 103.34, 101.14, 102.19,  94.77,  94.74,  99.56,
    102.  , 100.95, 102.19, 103.75, 103.65,  95.07, 103.53, 100.42,
     98.09,  94.86, 101.47, 103.07, 100.15, 100.32, 100.89, 101.23,
     95.95, 103.69, 100.09,  96.28,  96.11,  97.63,  99.45, 100.81,
    102.18,  94.92,  98.89, 101.48, 101.29,  94.43, 101.55,  95.85,
    100.16,  97.49, 105.17, 104.83, 101.9 , 100.56, 104.91,  94.17,
    103.48, 100.55, 102.66, 100.62,  96.93, 102.67, 101.27,  98.56,
    102.41, 100.69,  99.67, 100.99])

# datos del grupo experimental B
samples_B = pd.Series([
    101.67, 102.27,  97.01, 103.46, 100.76, 101.19,  99.11,  97.59,
    101.01, 101.45,  94.8 , 101.55,  96.38,  99.03, 102.83,  97.32,
     98.25,  97.17, 101.1 , 102.57, 104.59, 105.63,  98.93, 103.87,
     98.48, 101.14, 102.24,  98.55, 105.61, 100.06,  99.  , 102.53,
    101.56, 102.68, 103.26,  96.62,  99.48, 107.6 ,  99.87, 103.58,
    105.05, 105.69,  94.52,  99.51,  99.81,  99.44,  97.35, 102.97,
     99.77,  99.59, 102.12, 104.29,  98.31,  98.83,  96.83,  99.2 ,
     97.88, 102.34, 102.04,  99.88,  99.69, 103.43, 100.71,  92.71,
     99.99,  99.39,  99.19,  99.29, 100.34, 101.08, 100.29,  93.83,
    103.63,  98.88, 105.36, 101.82, 100.86, 100.75,  99.4 ,  95.37,
    107.96,  97.69, 102.17,  99.41,  98.97,  97.96,  98.31,  97.09,
    103.92, 100.98, 102.76,  98.24,  97.  ,  98.99, 103.54,  99.72,
    101.62, 100.62, 102.79, 104.19])

# diferencia real entre las medias de los grupos
AB_difference = samples_B.mean() - samples_A.mean()
print("Diferencia entre los importes promedios de compra:", AB_difference)

alpha = 0.05
    
state = np.random.RandomState(12345)

bootstrap_samples = 1000
count = 0

for i in range(bootstrap_samples):
    # concatena las muestras
    united_samples = pd.concat([samples_A,samples_B])
    
    # crea una submuestra
    subsample = united_samples.sample(frac=1, replace=True, random_state=state)
    
    # divide la submuestra por la mitad
    subsample_A = subsample[:100]
    subsample_B = subsample[100:]

    # encuentra la diferencia entre las medias
    bootstrap_difference = subsample_B.mean() - subsample_A.mean()
    
    # si la diferencia no es menor que la diferencia real, añade "1" al contador
    if bootstrap_difference >= AB_difference:
        count += 1

# el valor p es igual al porcentaje de valores excedentes
pvalue = 1. * count / bootstrap_samples
print('p-value =', pvalue)
print(count)

if pvalue < alpha:
    print("La hipótesis nula se rechaza, a saber, es probable que el importe promedio de las compras aumente")
else:
    print("La hipótesis nula no se rechaza, a saber, es poco probable que el importe medio de las compras aumente")

Aquí coloco un ejemplo de como funcionan las series al momento de usar sus indices para realizar una busqueda dentro de otra serie. Aunque sus valores sean repetidos, la segunda serie los identificará ya que su busqueda la hará por el índice, no por el valor

In [None]:
animales = pd.Series(['gato','araña','alacran','canguro'])
patas = pd.Series([4,8,6,2])

new_animales = animales.sample(frac=1, replace=True, random_state=1234)
print(new_animales)
patas_prob = patas[new_animales.index]


patas_prob.quantile()

En este ejemplo se coloca un uso completo para los quantiles y los sample, recordando que para sample podemos usar el parametro 'n' (en lugar de frac)  para especificar el número de muestras que queremos.

In [None]:
import pandas as pd
import numpy as np

# Abre los archivos
# toma el índice “0” para convertir los datos a pd-Series
target = pd.read_csv('/datasets/eng_target.csv')['0']
probabilities = pd.read_csv('/datasets/eng_probabilites.csv')['0']


#Llamado de la funcion
def revenue(target, probabilities, count):
    probs_sorted = probabilities.sort_values(ascending=False)
    selected = target[probs_sorted.index][:count]
    return 10 * selected.sum()

#Parametro random state
state = np.random.RandomState(12345)

# Lista de valores que sera llenada con append.
values = []

# Iteracion para obtener el cuantil de ingresos del 1%
for i in range(1000):
    target_subsample = target.sample(n=25, replace=True ,random_state=state)
    probs_subsample = probabilities[target_subsample.index]
    values.append(revenue(target_subsample, probs_subsample, 10))

values = pd.Series(values)
lower = values.quantile(0.01)

mean = values.mean()
print("Ingresos promedio:", mean)
print("Cuantil del 1 %:", lower)
print("Cuantil del 1 %:", lower2)

In [6]:
import pandas as pd
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

data = pd.read_csv('D:/Tripleten/datasets/heart.csv')
features = data.drop(['target'], axis=1)
target = data['target']

model = DecisionTreeClassifier(random_state=0)

results = cross_val_score(model, features, target, cv=5)

final_score = results.mean()

print('Puntuación media de la evaluación del modelo:', final_score)

Puntuación media de la evaluación del modelo: 0.7856284153005464


En resumen, cross_val_score se utiliza para evaluar el rendimiento de un modelo dado, mientras que GridSearchCV se utiliza para encontrar los mejores hiperparámetros para un modelo mediante búsqueda exhaustiva. A menudo, GridSearchCV se utiliza en combinación con cross_val_score para seleccionar los mejores hiperparámetros y evaluar el rendimiento del modelo.