## Universidad Autonoma de Nuevo León
## Facultad de Ciencias Físico Matemáticas
### Maestría en Ciencia de Datos
### Aprendizaje Automático
#### Eduardo David González Flores
##### 1515489

## Tarea en clase (2 puntos)
- Crear funciones para calcular las medidas de tendencia central y de dispersión con Python puro (sin librerías)
- Comprueba si tus variables de interés son conjuntos de datos paramétricos o no paramétricos

In [2]:
import pandas as pd
from scipy import stats
import statsmodels.api as sm

file_path = '../data/churn.csv'

df = pd.read_csv(file_path)
df

Unnamed: 0,customer_id,credit_score,country,gender,age,tenure,balance,products_number,credit_card,active_member,estimated_salary,churn
0,15634602,619,France,Female,42,2,0.00,1,1,1,101348.88,1
1,15647311,608,Spain,Female,41,1,83807.86,1,0,1,112542.58,0
2,15619304,502,France,Female,42,8,159660.80,3,1,0,113931.57,1
3,15701354,699,France,Female,39,1,0.00,2,0,0,93826.63,0
4,15737888,850,Spain,Female,43,2,125510.82,1,1,1,79084.10,0
...,...,...,...,...,...,...,...,...,...,...,...,...
9995,15606229,771,France,Male,39,5,0.00,2,1,0,96270.64,0
9996,15569892,516,France,Male,35,10,57369.61,1,1,1,101699.77,0
9997,15584532,709,France,Female,36,7,0.00,1,0,1,42085.58,1
9998,15682355,772,Germany,Male,42,3,75075.31,2,1,0,92888.52,1


In [3]:
# Función para calcular la media
def calcular_media(datos):
    total = sum(datos)
    return total / len(datos)

# Función para calcular la mediana
def calcular_mediana(datos):
    datos_ordenados = sorted(datos)
    n = len(datos_ordenados)
    if n % 2 == 0:
        # Si hay un número par de datos, toma el promedio de los dos valores del medio.
        medio_1 = datos_ordenados[n // 2]
        medio_2 = datos_ordenados[n // 2 - 1]
        mediana = (medio_1 + medio_2) / 2
    else:
        # Si hay un número impar de datos, toma el valor del medio.
        mediana = datos_ordenados[n // 2]
    return mediana

# Función para calcular la desviación estándar
def calcular_desviacion_estandar(datos):
    media = calcular_media(datos)
    n = len(datos)
    suma_cuadrados = sum((x - media) ** 2 for x in datos)
    desviacion_estandar = (suma_cuadrados / n) ** 0.5
    return desviacion_estandar

In [6]:
alpha = 0.05  # Nivel de significancia

for col in ['credit_score', 'age', 'tenure', 'balance', 'products_number', 'estimated_salary']:
    # Prueba de normalidad (Shapiro-Wilk)
    statistic, p_value = stats.shapiro(df[col])
    print(f'Variable: {col}')
    print(f'Shapiro-Wilk Test - Estadística: {statistic:.4f}, p-valor: {p_value:.4f}')
    
    # Prueba de homogeneidad de varianza (Levene)
    group1 = df[col][df['country'] == 'Spain']
    group2 = df[col][df['country'] == 'France']
    statistic, p_value = stats.levene(group1, group2)
    print(f'Levene Test - Estadística: {statistic:.4f}, p-valor: {p_value:.4f}')
    
    if p_value > alpha:
        print(f'La variable {col} se clasifica como PARAMÉTRICA (no rechazamos H0 en ambas pruebas).')
    else:
        print(f'La variable {col} se clasifica como NO PARAMÉTRICA (rechazamos H0 en al menos una prueba).')
    
    print()


Variable: credit_score
Shapiro-Wilk Test - Estadística: 0.9939, p-valor: 0.0000
Levene Test - Estadística: 3.4461, p-valor: 0.0634
La variable credit_score se clasifica como PARAMÉTRICA (no rechazamos H0 en ambas pruebas).

Variable: age
Shapiro-Wilk Test - Estadística: 0.9441, p-valor: 0.0000
Levene Test - Estadística: 0.0910, p-valor: 0.7629
La variable age se clasifica como PARAMÉTRICA (no rechazamos H0 en ambas pruebas).

Variable: tenure
Shapiro-Wilk Test - Estadística: 0.9486, p-valor: 0.0000
Levene Test - Estadística: 1.1171, p-valor: 0.2906
La variable tenure se clasifica como PARAMÉTRICA (no rechazamos H0 en ambas pruebas).

Variable: balance
Shapiro-Wilk Test - Estadística: 0.8456, p-valor: 0.0000
Levene Test - Estadística: 0.0204, p-valor: 0.8865
La variable balance se clasifica como PARAMÉTRICA (no rechazamos H0 en ambas pruebas).

Variable: products_number
Shapiro-Wilk Test - Estadística: 0.7061, p-valor: 0.0000
Levene Test - Estadística: 0.1771, p-valor: 0.6739
La variabl