In [19]:
import pandas as pd
import numpy as np
import scipy.stats as stats
import pingouin as pg
from scipy.stats import kendalltau
from scipy.stats import pointbiserialr
# Crear el DataFrame
np.random.seed(42)
n = 100
data = {
    'marca': np.random.choice(['Toyota', 'Ford', 'Honda', 'Chevrolet', 'Volkswagen'], n),
    'año_fabricacion': np.random.randint(2010, 2023, n),
    'kilometraje': np.random.randint(10000, 150000, n),
    'estado': np.random.choice(['Excelente', 'Bueno', 'Regular'], n),
    'precio': np.random.randint(8000, 35000, n),
    'comprador_genero': np.random.choice(['Masculino', 'Femenino'], n)
}

df = pd.DataFrame(data)
df.head()

Unnamed: 0,marca,año_fabricacion,kilometraje,estado,precio,comprador_genero
0,Chevrolet,2021,77172,Regular,10491,Femenino
1,Volkswagen,2016,103264,Bueno,23328,Masculino
2,Honda,2018,36736,Regular,22599,Femenino
3,Volkswagen,2017,122859,Regular,27508,Femenino
4,Volkswagen,2021,122181,Bueno,30075,Femenino


### Correlación de Pearson: Calcula la correlación de Pearson entre el año de fabricación y el precio de los coches.

In [21]:
pearson_corr = df['año_fabricacion'].corr(df['precio'], method='pearson')
print('Correlación de Pearson entre el año de fabricación y el precio de los coches', pearson_corr)
pearson_corr = pg.corr(df['año_fabricacion'], df['precio'], method='pearson')
print(pearson_corr)

Correlación de Pearson entre el año de fabricación y el precio de los coches 0.10233939809111199
           n         r         CI95%     p-val   BF10    power
pearson  100  0.102339  [-0.1, 0.29]  0.310969  0.207  0.17384


### Chi-cuadrado: Realiza una tabla de contingencia entre el estado de los coches y el género del comprador. Luego, calcula el chi-cuadrado para analizar si hay una asociación significativa.

In [15]:
crosstab_estado_genero = pd.crosstab(df['estado'], df['comprador_genero'])
crosstab_estado_genero

comprador_genero,Femenino,Masculino
estado,Unnamed: 1_level_1,Unnamed: 2_level_1
Bueno,17,20
Excelente,15,16
Regular,14,18


In [16]:
chi2, p_value, _, _ = stats.chi2_contingency(crosstab_estado_genero)
print("Valor de chi-cuadrado:", chi2)
print("Valor p:", p_value)

Valor de chi-cuadrado: 0.13637410201225056
Valor p: 0.9340857355586184


### Correlación de Spearman: Calcula la correlación de Spearman entre el kilometraje y el precio de los coches.

In [23]:
spearman_corr = df['kilometraje'].corr(df['precio'], method='spearman')
print('Correlación de Spearman entre el año de fabricación y el precio de los coches', spearman_corr)
spearman_corr = pg.corr(df['kilometraje'], df['precio'], method='spearman')
print(spearman_corr)

Correlación de Spearman entre el año de fabricación y el precio de los coches -0.09327332733273326
            n         r          CI95%     p-val    power
spearman  100 -0.093273  [-0.28, 0.11]  0.355996  0.15219


### Coeficiente Gamma: Calcula el coeficiente Gamma entre el año y el estado del coche.

In [24]:
kendall_tau_corr, _ = kendalltau(df['año_fabricacion'], df['estado'])
print("Coeficiente Gamma (de correlación Kendall Tau) entre año y estado:", kendall_tau_corr)

Coeficiente Gamma (de correlación Kendall Tau) entre año y estado: 0.014880232330529508


### Correlación biserial puntual: Calcula la correlación biserial puntual entre el género del comprador y el precio del coche.

In [20]:
point_biserial_corr, p_value = pointbiserialr(df['comprador_genero'].map({'Masculino': 0, 'Femenino': 1}), df['precio'])
print("Correlación biserial puntual entre género y precio:", point_biserial_corr)
print("Valor p:", p_value)

Correlación biserial puntual entre género y precio: -0.03929972393019701
Valor p: 0.697863355816332
