## FUNCION 

Esta función recibe como argumentos un dataframe, el nombre de una de las columnas del mismo (argumento 'target_col'), que debería ser el target de un hipotético modelo de regresión, es decir debe ser una variable numérica continua o discreta pero con alta cardinalidad y una variable float "pvalue" cuyo valor por defecto será 0.05.

La función debe devolver una lista con las columnas categóricas del dataframe cuyo test de relación con la columna designada por 'target_col' supere en confianza estadística el test de relación que sea necesario hacer (es decir la función debe poder escoger cuál de los dos test que hemos aprendido tiene que hacer).

La función debe hacer todas las comprobaciones necesarias para no dar error como consecuecia de los valores de entrada. Es decir hará un check de los valores asignados a los argumentos de entrada y si estos no son adecuados debe retornar None y printar por pantalla la razón de este comportamiento. Ojo entre las comprobaciones debe estar que "target_col" hace referencia a una variable numérica continua del dataframe.

#### pasos a seguir
Argumentos: 
    df, target_col, pvalue = 00.5
devolver:
    lista de columnas categóricas cuyo test de relación con la columna targer supera la confianza estadistica del teste de relafcion 


In [24]:
import pandas as pd
import numpy as np
from scipy.stats import ttest_ind, chi2_contingency



In [25]:

def test_relacion_categoricas(df, target_col, pvalue=0.05):
    # Comprobar si 'target_col' es una columna numérica continua
    if target_col not in df.columns or not pd.api.types.is_numeric_dtype(df[target_col]):
        print(f"Error: '{target_col}' no es una columna numérica continua válida.")
        return None
    
    # Filtrar columnas categóricas
    cols_categoricas = df.select_dtypes(include=['object', 'category']).columns
    
    # Comprobar si hay columnas categóricas
    if len(cols_categoricas) == 0:
        print("Error: No hay columnas categóricas en el dataframe.")
        return None
    
    # Calcular el número de categorías distintas en cada columna categórica
    num_categorias = df[cols_categoricas].nunique()
    
    # Seleccionar la columna categórica con mayor cardinalidad
    col_max_cardinalidad = num_categorias.idxmax()
    
    # Seleccionar el test de relación adecuado
    if pd.api.types.is_numeric_dtype(df[col_max_cardinalidad]):
        test_result = ttest_ind(df[col_max_cardinalidad], df[target_col])
    else:
        contingency_table = pd.crosstab(df[col_max_cardinalidad], df[target_col])
        test_result = chi2_contingency(contingency_table)
    
    # Evaluar el p-value del test de relación
    if test_result.pvalue < pvalue:
        return [col_max_cardinalidad]
    else:
        print(f"No se encontraron relaciones estadísticamente significativas para '{target_col}'.")
        return []

# Ejemplo de uso
# Supongamos que df es tu dataframe
# columnas_relacionadas = test_relacion_categoricas(df, 'target_column')
# print(columnas_relacionadas)


In [26]:
df = pd.read_csv("./data/hard_to_find/obligatoria_hard.csv",sep = "|")
target = "MEDV"

In [27]:
test_relacion_categoricas(df, "MEDV", pvalue=0.05)

Error: No hay columnas categóricas en el dataframe.


In [28]:
import pandas as pd
import numpy as np

# Crear un DataFrame de ejemplo
data = {
    'target_column': np.random.randn(100),  # Variable numérica continua
    'categorical_col1': np.random.choice(['A', 'B', 'C'], 100),  # Variable categórica
    'categorical_col2': np.random.choice(['X', 'Y', 'Z'], 100),  # Variable categórica
}

df = pd.DataFrame(data)

# Agregar una relación significativa entre una columna categórica y la columna objetivo
df['target_column'] = df['target_column'] + df['categorical_col1'].map({'A': 2, 'B': 0, 'C': -2})

# Mostrar el DataFrame de ejemplo
print(df.head())


   target_column categorical_col1 categorical_col2
0       1.545452                A                X
1      -0.218653                B                X
2       1.908600                A                Y
3      -2.080878                C                Z
4      -1.947742                C                Y


In [29]:
columnas_relacionadas = test_relacion_categoricas(df, 'target_column')
print(columnas_relacionadas)


No se encontraron relaciones estadísticamente significativas para 'target_column'.
[]


In [30]:
import pandas as pd
import numpy as np

# Semilla para reproducibilidad
np.random.seed(42)

# Crear un DataFrame de ejemplo más grande
data = {
    'target_column': np.random.randn(1000),  # Variable numérica continua

    # Dos variables categóricas que afectan a 'target_column'
    'categorical_col1': np.random.choice(['A', 'B', 'C'], 1000),
    'categorical_col2': np.random.choice(['X', 'Y', 'Z'], 1000),
    
    # Una variable categórica sin efecto significativo
    'categorical_col3': np.random.choice(['M', 'N'], 1000),

    # Variable numérica adicional sin efecto significativo
    'numeric_col': np.random.randn(1000),
}

# Agregar relaciones significativas aumentando los efectos
data['target_column'] = (
    data['target_column'] +
    pd.Series(data['categorical_col1']).map({'A': 5, 'B': 0, 'C': -5}).values +
    pd.Series(data['categorical_col2']).map({'X': 2, 'Y': -2, 'Z': 1}).values +
    1.5 * data['numeric_col']
)

df = pd.DataFrame(data)

# Mostrar el DataFrame de ejemplo
print(df.head())



   target_column categorical_col1 categorical_col2 categorical_col3  \
0      -1.478292                C                X                N   
1       2.547765                A                Y                M   
2      -4.742844                C                Y                M   
3       8.068839                A                Y                N   
4      -4.413132                C                X                M   

   numeric_col  
0     0.683329  
1    -0.209314  
2     1.072978  
3     2.363872  
4    -0.785986  


In [31]:
# Probar la función
columnas_relacionadas = test_relacion_categoricas(df, 'target_column')
print(columnas_relacionadas)


No se encontraron relaciones estadísticamente significativas para 'target_column'.
[]


In [32]:
df_inmo = pd.read_csv("./data_2/ejemplo_housing.csv")

In [34]:

columnas_relacionadas = test_relacion_categoricas(df_inmo, 'median_house_value')
print(columnas_relacionadas)

['ocean_proximity']
