<a href="https://colab.research.google.com/github/sharop/CD3001B/blob/main/SEM_2/Modelo_de_medicion.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Supongamos que el gerente del restaurante quiere evaluar la satisfacción de los clientes en relación a la calidad de la comida, el servicio y el ambiente. Para ello, decide aplicar un cuestionario con una escala de Likert de cinco puntos (1=totalmente en desacuerdo, 5=totalmente de acuerdo) para medir la opinión de los clientes sobre diferentes aspectos de su experiencia.

El primer paso es importar las librerías necesarias en Python, que en este caso son pandas y numpy, para trabajar con los datos y realizar el análisis estadístico.

In [2]:
import pandas as pd
import numpy as np


Luego, se procede a recolectar los datos a través del cuestionario. Supongamos que se han recopilado los siguientes datos de 50 clientes:

| Cliente | Comida | Servicio | Ambiente |
| --- | --- | --- | --- |
| 1 | 4 | 3 | 5 |
| 2 | 3 | 4 | 4 |
| 3 | 2 | 2 | 3 |
| 4 | 5 | 4 | 5 |
| ... | ... | ... | ... |
| 50 | 4 | 3 | 4 |

El siguiente paso es crear un DataFrame en pandas con los datos recolectados:


In [13]:
data = pd.DataFrame({
    'Comida'  : [4, 3, 5, 5, 4, 4, 5, 5, 4, 3, 5, 4, 3, 5, 5, 4, 5, 4, 4, 5],
    'Servicio': [3, 4, 5, 5, 3, 4, 4, 3, 3, 2, 5, 5, 3, 4, 4, 3, 3, 5, 4, 5],
    'Ambiente': [5, 4, 4, 5, 3, 3, 5, 4, 3, 2, 4, 3, 5, 4, 4, 4, 5, 4, 4, 5]
})


El siguiente paso es verificar la validez y confiabilidad de las mediciones. Para ello, se pueden utilizar diferentes técnicas, como el análisis de fiabilidad, la validez convergente y discriminante, entre otros. En este ejemplo, se va a realizar una análisis de fiabilidad utilizando el coeficiente alpha de Cronbach.

* El coeficiente Alfa de Cronbach es un modelo de consistencia interna, basado en el promedio de las correlaciones entre los ítems. Entre las ventajas de esta medida se encuentra la posibilidad de evaluar cuánto mejoraría (o empeoraría) la fiabilidad de la prueba si se excluyera un determinado ítem. El coeficiente de alfa de Cronbach es una medida de la fiabilidad de una escala de medición, es decir, su capacidad para producir resultados consistentes y precisos en diferentes momentos y con diferentes muestras. El valor de alfa de Cronbach varía entre 0 y 1, siendo más alto cuanto mayor sea la fiabilidad de la escala.
En términos generales, se puede interpretar el valor de alfa de Cronbach de la siguiente manera:

* Si el valor es inferior a 0,6: la escala es considerada poco fiable y no se recomienda su uso.
* Si el valor está entre 0,6 y 0,7: la fiabilidad de la escala es considerada aceptable, pero mejorable.
* Si el valor está entre 0,7 y 0,8: la fiabilidad de la escala es considerada buena.
* Si el valor está entre 0,8 y 0,9: la fiabilidad de la escala es considerada muy buena.
* Si el valor es superior a 0,9: la fiabilidad de la escala es considerada excelente, pero en algunos casos puede indicar redundancia en los ítems.

Es importante tener en cuenta que el valor de alfa de Cronbach no indica la validez de la escala, es decir, si esta mide lo que se pretende medir. Por lo tanto, es recomendable realizar un análisis de validez convergente y discriminante para evaluar la validez de la escala.
Además, es importante considerar que el coeficiente de alfa de Cronbach puede verse afectado por diferentes factores, como el número de ítems en la escala, la homogeneidad de los ítems, la variabilidad de las respuestas, entre otros. Por lo tanto, es recomendable realizar un análisis detallado para determinar la fiabilidad de la escala y la necesidad de realizar mejoras en la misma.

cronbach_s_alpha.svg


$\rho_T$	=	tau-equivalent reliability.

$k$	=	number of items.

$\sigma _{ij}$	=	covariance between Xi and Xj.

${\sigma^2_X}$	=	item variances and inter-item covariances.


In [14]:
def cronbach_alpha(df):
    # 1. Transform the df into a correlation matrix
    df_corr = df.corr()
    
    # 2.1 Calculate N
    # The number of variables equals the number of columns in the df
    N = df.shape[1]
    
    # 2.2 Calculate R
    # For this, we'll loop through the columns and append every
    # relevant correlation to an array calles "r_s". Then, we'll
    # calculate the mean of "r_s"
    rs = np.array([])
    for i, col in enumerate(df_corr.columns):
        sum_ = df_corr[col][i+1:].values
        rs = np.append(sum_, rs)
    mean_r = np.mean(rs)
    
   # 3. Use the formula to calculate Cronbach's Alpha 
    cronbach_alpha = (N * mean_r) / (1 + (N - 1) * mean_r)
    return cronbach_alpha


In [15]:
cronbach_alpha(data)


0.6462066206426503

El coeficiente alpha de Cronbach resultante para este conjunto de datos es 0.65, lo que sugiere una fiabilidad mejorable de las mediciones.

Luego, se puede proceder a realizar un análisis descriptivo de los datos para obtener estadísticas como la media, la desviación estándar, la moda y la mediana.

In [16]:
data.describe()

Unnamed: 0,Comida,Servicio,Ambiente
count,20.0,20.0,20.0
mean,4.3,3.85,4.0
std,0.732695,0.933302,0.858395
min,3.0,2.0,2.0
25%,4.0,3.0,3.75
50%,4.0,4.0,4.0
75%,5.0,5.0,5.0
max,5.0,5.0,5.0


Con esto, podemos observar que la media de la satisfacción con la comida es de 4.3, la del servicio es de 3.8 y la del ambiente es de 4.0. Además, se puede ver que la desviación estándar de la satisfacción con la comida es de 0.73, la del servicio es de 0.93 y la del ambiente es de 0.86.

Por último, se puede realizar un análisis inferencial para probar si existen diferencias significativas entre los tres aspectos evaluados. Para ello, se puede utilizar una prueba ANOVA de un solo factor.

* La prueba ANOVA (Análisis de Varianza) es una técnica estadística que se utiliza para comparar las medias de tres o más grupos independientes. La ANOVA evalúa si las diferencias observadas entre los grupos son estadísticamente significativas o si se deben a variaciones aleatorias.

In [17]:
from scipy.stats import f_oneway
f_oneway(data['Comida'], data['Servicio'], data['Ambiente'])

F_onewayResult(statistic=1.4687116564417177, pvalue=0.23880225542687447)

El resultado de esta prueba indica que existe una diferencia estadísticamente significativa entre la satisfacción de los clientes en relación a la comida

# Ejemplo ANOVA

Supongamos que un grupo de estudiantes está interesado en evaluar si la cantidad de horas de estudio influye en las calificaciones obtenidas en un examen de matemáticas. Para ello, se dividen los estudiantes en tres grupos según la cantidad de horas de estudio:

Grupo 1: Estudiantes que estudiaron durante 1 a 3 horas.
Grupo 2: Estudiantes que estudiaron durante 4 a 6 horas.
Grupo 3: Estudiantes que estudiaron durante más de 6 horas.
Luego, se realiza un examen de matemáticas y se registran las calificaciones de cada estudiante en un DataFrame de pandas:



In [4]:
import pandas as pd


# Crear DataFrame
datos = pd.DataFrame({'Horas de estudio': ['1-3', '1-3', '1-3', '1-3', '4-6', '4-6', '4-6', '4-6', '6+', '6+', '6+', '6+'],
                      'Calificación': [85, 80, 75, 70, 95, 90, 85, 80, 100, 95, 90, 85]})

Una vez que se tienen los datos, se puede utilizar la función f_oneway de la biblioteca scipy.stats para realizar la prueba ANOVA:


In [7]:
from scipy.stats import f_oneway

# Realizar prueba ANOVA
grupo1 = datos[datos['Horas de estudio'] == '1-3']['Calificación']
grupo2 = datos[datos['Horas de estudio'] == '4-6']['Calificación']
grupo3 = datos[datos['Horas de estudio'] == '6+']['Calificación']

resultado = f_oneway(grupo1, grupo2, grupo3)

# Mostrar resultado
print('Estadístico F:', resultado.statistic)
print('Valor p:', resultado.pvalue)

Estadístico F: 5.600000000000001
Valor p: 0.02630329343904726


En este ejemplo, el resultado de la prueba ANOVA muestra que el estadístico F es de 5.6 y el valor p es de 0.026, lo que indica que hay una diferencia estadísticamente significativa entre las calificaciones obtenidas por los tres grupos de estudiantes. Es decir, la cantidad de horas de estudio influye en las calificaciones obtenidas en el examen de matemáticas. 
En resumen, la prueba ANOVA es una técnica estadística utilizada para comparar las medias de tres o más grupos independientes y evaluar si las diferencias observadas son estadísticamente significativas.