# z-score

El z-score (o puntuación z) es una medida estadística que indica cuántas desviaciones estándar un dato particular se encuentra por encima o por debajo de la media de un conjunto de datos. Se usa principalmente para estandarizar datos y evaluar la posición relativa de un valor en una distribución normal.

### 1. Fórmula del Z-Score
La fórmula para calcular el z-score de un valor $x$ en un conjunto de datos es:

$$
z = \frac{x-u}{\sigma}
$$

​
 
donde:
- $x$ es el valor que queremos estandarizar.
- $μ$ es la media del conjunto de datos.
- $σ$ es la desviación estándar del conjunto de datos.

### 2. ¿Qué Representa el Z-Score?
-  **Posición Relativa**: Indica qué tan lejos está un valor de la media en términos de desviaciones estándar.
    - Si $z=0$, el valor está exactamente en la media.
    - Si $z>0$, el valor está por encima de la media.
    - Si $z<0$, el valor está por debajo de la media.

- **Identificación de Valores Atípicos**: En una distribución normal, los valores con z-scores superiores a 3 o inferiores a -3 son raros y, por lo tanto, se consideran potencialmente atípicos.

### 3. Interpretación
El z-score es especialmente útil porque permite estandarizar datos, convirtiendo cualquier distribución normal en una distribución normal estándar con media 0 y desviación estándar 1. Esto facilita la comparación entre diferentes conjuntos de datos y la detección de valores que se desvían de lo esperado.

Un valor con $z=2$ está a dos desviaciones estándar por encima de la media, mientras que uno con $z=−1.5$ está $1.5$ desviaciones estándar por debajo de la media.

### 4. Ejemplo de Uso en Python

In [2]:
import numpy as np
import pandas as pd

# Crear un conjunto de datos
data = [10, 12, 13, 16, 18, 22, 24, 26]
df = pd.DataFrame(data, columns=['value'])

# Calcular el z-score de cada valor
df['z_score'] = (df['value'] - df['value'].mean()) / df['value'].std()

print(df)

   value   z_score
0     10 -1.291830
1     12 -0.952989
2     13 -0.783569
3     16 -0.275308
4     18  0.063533
5     22  0.741214
6     24  1.080054
7     26  1.418895


Este código calculará el z-score para cada valor en la columna value de df, mostrando qué tan lejos está cada valor de la media en términos de desviaciones estándar.

### 5. ¿Cuándo Usar el Z-Score?
- **Detección de valores atípicos**: En análisis de datos, valores con un z-score > 3 o < -3 suelen considerarse outliers.
- **Comparación entre datos diferentes**: Permite comparar valores de diferentes distribuciones.
- **Estandarización**: Si deseas que tus datos tengan media 0 y desviación estándar 1 para ciertos algoritmos de machine learning, el z-score es una forma de escalar los datos.

## Caso de proyecto

In [1]:
from scipy import stats
import numpy as np
import math

def check_hypothesis(successes1, successes2, trials1, trials2, alpha=0.01):
    # proportion of successes in the first group:
    p1 = successes1/trials1

    # proportion of successes in the second group:
    p2 = successes2/trials2

    # proportion of successes in the combined dataset:
    p_combined = (successes1 + successes2) / (trials1 + trials2)

    # the difference of proportions in datasets
    difference = p1 - p2
    
    # calculating the statistic in standard deviations of standard normal distribution
    z_value = difference / math.sqrt(p_combined * (1 - p_combined) * (1/trials1 + 1/trials2))

    # setting standard normal distribution (mean= 0, standard deviation=1)
    distr = stats.norm(0, 1) 

    # calculating the statistic in standard deviations of standard normal distribution
    z_value = difference / math.sqrt(p_combined * (1 - p_combined) * (1/trials1 + 1/trials2))


    p_value = (1 - distr.cdf(abs(z_value))) * 2

    print('p-value: ', p_value)

    if (p_value < alpha):
        print("Rejecting the null hypothesis: there is a significant difference between the proportions")
    else:
        print("Failed to reject the null hypothesis, there is no reason to consider the proportions different")  