# Introducción:
En la etapa de preprocesamiento se tiene como objetivo abordar técnicas que permitan
obtener información organizada, evitar información que pueda ser redundante, identificar
posibles problemas presentes en las bases de datos y hacer el respectivo tratamiento.
Específicamente, en este trabajo se desarrollarán metodologías para el tratamiento de datos
atípicos y datos faltantes.

1. A partir del dataset ruidoso.txt realice los siguientes análisis:
- **a.** Cargue y explore el dataset explicando en qué consiste y las características que
posee el mismo.

In [None]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt #librería usada para graficar
import seaborn as sns #Librería usada para visualización

In [None]:
#Lectura
ruta='/content/drive/Othercomputers/Mi portátil/SEMESTRE 9/Introduccion mineria de datos/Parcial/ruidoso.txt'
data=pd.read_csv(ruta)
data

# Cuanto registros hay?

In [None]:
dat_info =data.info()
data_size=data.size
dat_info, data_size

# Datos faltantes(NaN´s)

In [None]:
data.isna().sum()

# Tipo de datos

In [None]:
data.dtypes



## Eliminacion de variable

In [None]:
data = data.drop(columns=["Unnamed: 0"])

# Analisis inicial

In [None]:
pd.set_option('display.float_format', '{:.2f}'.format)
# Mostrar las primeras filas para confirmar la carga correcta y obtener estadísticas descriptivas básicas de los datos.
data_head = data.head()
data_description = data.describe()

data_head, data_description

# b) Realice un breve análisis exploratorio para identificar la distribución de las variables usadas en la base de datos ¿será que existe relación entre las variables?

## Distribución de las variables

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# Configuración de estilos de gráficos
sns.set(style="whitegrid")

In [None]:
# Crear subgráficos
fig, axes = plt.subplots(2,2, figsize=(12, 8))
fig.suptitle('Distribución de Variables')
sns.histplot(data['Road_55dB'], bins=20, kde=True, ax=axes[0, 0])
axes[0, 0].set_title('Distribución de Road_55dB')

sns.histplot(data['Road_60dB'], bins=20, kde=True, ax=axes[0, 1])
axes[0, 1].set_title('Distribución de Road_60dB')

sns.histplot(data['Railways_65dB'], bins=20, kde=True, ax=axes[1, 0])
axes[1, 0].set_title('Distribución de Railways_65dB')

sns.histplot(data['Industry_65dB'], bins=20, kde=True, ax=axes[1, 1])
axes[1, 1].set_title('Distribución de Industry_65dB')

plt.tight_layout(rect=[0, 0.03, 1, 0.95])

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import ScalarFormatter

# Crear subgráficos en una sola columna vertical
fig, axes = plt.subplots(4, 1, figsize=(6, 16))
fig.suptitle('Distribución de Variables')

# Configurar ScalarFormatter para usar números enteros en lugar de notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Distribución de Road_55dB
sns.histplot(data['Road_55dB'], bins=20, kde=True, ax=axes[0], orientation='vertical')
axes[0].set_title('Distribución de Road_55dB')
axes[0].xaxis.set_major_formatter(formatter)
axes[0].tick_params(axis='x', rotation=90)

# Distribución de Road_60dB
sns.histplot(data['Road_60dB'], bins=20, kde=True, ax=axes[1], orientation='vertical')
axes[1].set_title('Distribución de Road_60dB')
axes[1].xaxis.set_major_formatter(formatter)
axes[1].tick_params(axis='x', rotation=90)

# Distribución de Railways_65dB
sns.histplot(data['Railways_65dB'], bins=20, kde=True, ax=axes[2], orientation='vertical')
axes[2].set_title('Distribución de Railways_65dB')
axes[2].xaxis.set_major_formatter(formatter)
axes[2].tick_params(axis='x', rotation=90)

# Distribución de Industry_65dB
sns.histplot(data['Industry_65dB'], bins=20, kde=True, ax=axes[3], orientation='vertical')
axes[3].set_title('Distribución de Industry_65dB')
axes[3].xaxis.set_major_formatter(formatter)
axes[3].tick_params(axis='x', rotation=90)

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()


# Caso variable "Industry_65dB:"

## Caso 1: Eliminacion:

In [None]:
data1= data
data1= data1.dropna()

In [None]:
data1.describe()

In [None]:
data1.isna().sum()

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import ScalarFormatter

# Crear subgráficos en una sola columna vertical
fig, axes = plt.subplots(4, 1, figsize=(6, 16))
fig.suptitle('Distribución de Variables')

# Configurar ScalarFormatter para usar números enteros en lugar de notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Distribución de Road_55dB
sns.histplot(data1['Road_55dB'], bins=20, kde=True, ax=axes[0], orientation='vertical')
axes[0].set_title('Distribución de Road_55dB')
axes[0].xaxis.set_major_formatter(formatter)
axes[0].tick_params(axis='x', rotation=90)

# Distribución de Road_60dB
sns.histplot(data1['Road_60dB'], bins=20, kde=True, ax=axes[1], orientation='vertical')
axes[1].set_title('Distribución de Road_60dB')
axes[1].xaxis.set_major_formatter(formatter)
axes[1].tick_params(axis='x', rotation=90)

# Distribución de Railways_65dB
sns.histplot(data1['Railways_65dB'], bins=20, kde=True, ax=axes[2], orientation='vertical')
axes[2].set_title('Distribución de Railways_65dB')
axes[2].xaxis.set_major_formatter(formatter)
axes[2].tick_params(axis='x', rotation=90)

# Distribución de Industry_65dB
sns.histplot(data1['Industry_65dB'], bins=20, kde=True, ax=axes[3], orientation='vertical')
axes[3].set_title('Distribución de Industry_65dB')
axes[3].xaxis.set_major_formatter(formatter)
axes[3].tick_params(axis='x', rotation=90)

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()

# Diagramas de Dispersión

In [None]:

# Crear el diagrama de dispersión
sns.scatterplot(x='Road_55dB', y='Road_60dB', data=data1)
plt.title('Diagrama de dispersión de Road_55dB vs Road_60dB')
plt.xlabel('Road_55dB')
plt.ylabel('Road_60dB')

# Configurar ScalarFormatter para evitar la notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formatter a los ejes
ax = plt.gca()
ax.xaxis.set_major_formatter(formatter)
ax.yaxis.set_major_formatter(formatter)
# Rotar las etiquetas del eje x para que aparezcan verticalmente
plt.xticks(rotation=90)
plt.show()



In [None]:

sns.scatterplot(x='Road_55dB', y='Railways_65dB', data=data1)
plt.title('Diagrama de dispersión de Road_55dB vs Railways_65dB')
plt.xlabel('Road_55dB')
plt.ylabel('Railways_65dB')

# Configurar ScalarFormatter para evitar la notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formatter a los ejes
ax = plt.gca()
ax.xaxis.set_major_formatter(formatter)
ax.yaxis.set_major_formatter(formatter)
# Rotar las etiquetas del eje x para que aparezcan verticalmente
plt.xticks(rotation=90)
plt.show()


In [None]:

sns.scatterplot(x='Road_60dB', y='Railways_65dB', data=data1)
plt.title('Diagrama de dispersión de Road_60dB vs Railways_65dB')
plt.ylabel('Railways_65dB')
plt.ylabel('Road_60dB')

# Configurar ScalarFormatter para evitar la notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formatter a los ejes
ax = plt.gca()
ax.xaxis.set_major_formatter(formatter)
ax.yaxis.set_major_formatter(formatter)
# Rotar las etiquetas del eje x para que aparezcan verticalmente
plt.xticks(rotation=90)
plt.show()


In [None]:

sns.scatterplot(x='Road_55dB', y='Industry_65dB', data=data1)
plt.title('Diagrama de dispersión de Road_55dB vs Industry_65dB')
plt.xlabel('Road_55dB')
plt.ylabel('Industry_65dB')

# Configurar ScalarFormatter para evitar la notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formatter a los ejes
ax = plt.gca()
ax.xaxis.set_major_formatter(formatter)
ax.yaxis.set_major_formatter(formatter)
# Rotar las etiquetas del eje x para que aparezcan verticalmente
plt.xticks(rotation=90)
plt.show()


In [None]:
sns.scatterplot(x='Road_60dB', y='Industry_65dB', data=data1)
plt.title('Diagrama de dispersión de Road_60dB vs Industry_65dB')
plt.xlabel('Road_60dB')
plt.ylabel('Industry_65dB')

# Configurar ScalarFormatter para evitar la notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formatter a los ejes
ax = plt.gca()
ax.xaxis.set_major_formatter(formatter)
ax.yaxis.set_major_formatter(formatter)
# Rotar las etiquetas del eje x para que aparezcan verticalmente
plt.xticks(rotation=90)
plt.show()


In [None]:

sns.scatterplot(x='Railways_65dB', y='Industry_65dB', data=data1)
plt.title('Diagrama de dispersión de Railways_65dB vs Industry_65dB')
plt.xlabel('Railways_65dB')
plt.ylabel('Industry_65dB')

# Configurar ScalarFormatter para evitar la notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formatter a los ejes
ax = plt.gca()
ax.xaxis.set_major_formatter(formatter)
ax.yaxis.set_major_formatter(formatter)
# Rotar las etiquetas del eje x para que aparezcan verticalmente
plt.xticks(rotation=90)
plt.show()


# Correlación de pearson

In [None]:
# Calculando la matriz de correlación
correlation_matrix = data1.corr()

# Generando un mapa de calor para visualizar las correlaciones
plt.figure(figsize=(8, 6))
plt.title('Mapa de Calor de la Correlación entre Variables')
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', linewidths=.5)
plt.show()

# Verifique si existen problemas de datos atípicos en cada una de las variables usando las metodologías de detección a nivel univariado.

#Boxplot(diagrama de cajas)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from matplotlib.ticker import ScalarFormatter

# Crear subgráficos en una sola columna vertical
fig, axes = plt.subplots(4, 1, figsize=(6, 16))
fig.suptitle('Boxplot de Variables')

# Configurar ScalarFormatter para usar números enteros en lugar de notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Lista de variables para los box plots
variables = ['Road_55dB', 'Road_60dB', 'Railways_65dB', 'Industry_65dB']

# Crear un box plot para cada variable
for i, var in enumerate(variables):
    sns.boxplot(data=data1[var], ax=axes[i], orient='h')  # Cambiar la orientación a horizontal
    axes[i].set_title(f'Boxplot de {var}')
    axes[i].xaxis.set_major_formatter(formatter)  # Aplicar el formatter a los ejes x

plt.tight_layout(rect=[0, 0.03, 1, 0.95])
plt.show()



In [None]:
# Import zscore function
from scipy.stats import zscore
import numpy as np

# Calculate z-score for each data point and compute its absolute value
z_scores = zscore(data1['Road_55dB'])
abs_z_scores = np.abs(z_scores)

# Select the outliers using a threshold of 3
outliers = data1[abs_z_scores > 3]
outliers.head()

In [None]:
print(f'Number of outliers: {len(outliers)}')

In [None]:
# Import zscore function
from scipy.stats import zscore
import numpy as np

# Calculate z-score for each data point and compute its absolute value
z_scores1 = zscore(data1['Road_60dB'])
abs_z_scores1 = np.abs(z_scores1)

# Select the outliers using a threshold of 3
outliers1 = data1[abs_z_scores1 > 3]
outliers1.head()

In [None]:
print(f'Number of outliers: {len(outliers1)}')

In [None]:
# Import zscore function
from scipy.stats import zscore
import numpy as np

# Calculate z-score for each data point and compute its absolute value
z_scores2 = zscore(data1['Railways_65dB'])
abs_z_scores2 = np.abs(z_scores2)

# Select the outliers using a threshold of 3
outliers2 = data1[abs_z_scores2 > 3]
outliers2.head()

In [None]:
print(f'Number of outliers: {len(outliers2)}')

In [None]:
# Import zscore function
from scipy.stats import zscore
import numpy as np

# Calculate z-score for each data point and compute its absolute value
z_scores3 = zscore(data1['Industry_65dB'])
abs_z_scores3 = np.abs(z_scores3)

# Select the outliers using a threshold of 3
outliers3 = data1[abs_z_scores3 > 3]
outliers3.head()

In [None]:
print(f'Number of outliers: {len(outliers3)}')

In [None]:
pip install pyod

In [None]:
# Import MAD estimator
from pyod.models.mad import MAD

# Set threshold to 3.5
mad = MAD(threshold = 3.5)

# Convert the 'total' column into a 2D numpy array
total_reshaped =data1['Road_55dB'].values.reshape(-1, 1)

# Generate inline and outlier labels
labels = mad.fit(total_reshaped).labels_
labels
# Obtain number of outliers
a= print(f'Number of outliers: {labels.sum()}')
outliers5 = data1[labels == 1]
labels,a,outliers5

In [None]:
# Import MAD estimator
from pyod.models.mad import MAD

# Set threshold to 3.5
mad1 = MAD(threshold = 3.5)

# Convert the 'total' column into a 2D numpy array
total_reshaped1 =data1['Road_60dB'].values.reshape(-1, 1)

# Generate inline and outlier labels
labels1 = mad1.fit(total_reshaped1).labels_
labels1
# Obtain number of outliers
a1= print(f'Number of outliers: {labels1.sum()}')
outliers51 = data1[labels1 == 1]
labels1,a1,outliers51

In [None]:
# Import MAD estimator
from pyod.models.mad import MAD

# Set threshold to 3.5
mad2 = MAD(threshold = 3.5)

# Convert the 'total' column into a 2D numpy array
total_reshaped2 =data1['Railways_65dB'].values.reshape(-1, 1)

# Generate inline and outlier labels
labels2 = mad2.fit(total_reshaped2).labels_
labels2
# Obtain number of outliers
a2= print(f'Number of outliers: {labels2.sum()}')
outliers52 = data1[labels2 == 1]
labels2,a2,outliers52

In [None]:
# Import MAD estimator
from pyod.models.mad import MAD

# Set threshold to 3.5
mad3 = MAD(threshold = 3.5)

# Convert the 'total' column into a 2D numpy array
total_reshaped3 =data1['Industry_65dB'].values.reshape(-1, 1)

# Generate inline and outlier labels
labels3 = mad3.fit(total_reshaped3).labels_
labels3
# Obtain number of outliers
a3= print(f'Number of outliers: {labels3.sum()}')
outliers53 = data1[labels3 == 1]
labels3,a3,outliers53

In [None]:
# Calculate the percentiles
seventy_fifth = data1['Railways_65dB'].quantile(0.75)
twenty_fifth = data1['Railways_65dB'].quantile(0.25)

# Obtain IQR
iqr = seventy_fifth - twenty_fifth

# Upper and lower thresholds
upper = seventy_fifth + (1.5 * iqr)
lower = twenty_fifth - (1.5 * iqr)

# Subset the dataset
outliers = data1[(data1['Industry_65dB'] < lower) | (data1['Industry_65dB'] > upper)]
outliers.head()

In [None]:

# Seleccionamos solo las tres columnas de interés
df_selected = data1[['Road_55dB', 'Road_60dB', 'Railways_65dB', 'Industry_65dB']]
from scipy.spatial import distance
# Calculamos la matriz de covarianza de las variables
cov_matrix = np.cov(df_selected, rowvar=False)

# Calculamos la inversa de la matriz de covarianza
cov_inv = np.linalg.inv(cov_matrix)

# Calculamos la distancia de Mahalanobis para cada fila en el DataFrame
dist_mahalanobis = []
for row in df_selected.values:
    dist = distance.mahalanobis(row, df_selected.mean(), cov_inv)
    dist_mahalanobis.append(dist)

# Agregamos la distancia de Mahalanobis como una nueva columna en el DataFrame
data1['mahalanobis_distance'] = dist_mahalanobis

# Mostramos el DataFrame con la distancia de Mahalanobis
print(data1)

In [None]:
# Ordenamos el DataFrame por la columna de distancia de Mahalanobis en orden descendente
df_sorted = data1.sort_values(by='mahalanobis_distance', ascending=False)

# Seleccionamos los primeros tres registros con las distancias más grandes
df_sorted.head(10)

In [None]:
from sklearn.neighbors import LocalOutlierFactor

# Calculamos el LOF para las tres variables
lof = LocalOutlierFactor()
lof.fit_predict(df_selected)

# Obtenemos los scores LOF para cada punto
scores_lof = -lof.negative_outlier_factor_

# Agregamos los scores LOF como una nueva columna en el DataFrame
data1['lof_score'] = scores_lof

# Mostramos el DataFrame con los scores LOF
print(data1)

In [None]:
# Ordenamos el DataFrame por la columna 'lof_score' en orden descendente
df_sorted = data1.sort_values(by='lof_score', ascending=False)

# Seleccionamos los primeros tres registros con los scores LOF más grandes
primeros_tres_lof = df_sorted.head(10)
primeros_tres_lof

In [None]:
from sklearn.ensemble import IsolationForest

# Definimos la cantidad de árboles
n_arboles = 100

# Inicializamos y ajustamos el modelo Isolation Forest con la cantidad de árboles especificada
isolation_forest = IsolationForest(n_estimators=n_arboles, random_state=42)
puntajes_anomalia = isolation_forest.fit(df_selected)

# Obtenemos los puntajes de anomalía para cada muestra
puntajes_anomalia = isolation_forest.score_samples(df_selected)

# Convertimos los puntajes de anomalía a valores positivos
puntajes_anomalia = -puntajes_anomalia

# Obtenemos las etiquetas de anomalía (inlier/outlier) para cada punto
#etiquetas_anomalia = isolation_forest.predict(df_selected)

# Agregamos las etiquetas de anomalía como una nueva columna en el DataFrame
data1['puntajes_anomalia'] = puntajes_anomalia

In [None]:
# Ordenamos el DataFrame por los puntajes de anomalía en orden descendente
df_sorted = data1.sort_values(by='puntajes_anomalia', ascending=False)

# Seleccionamos los primeros tres registros con los puntajes de anomalía más altos
primeros_tres_anomalies = df_sorted.head(10)
print(primeros_tres_anomalies)

In [None]:
columnas_deseadas = ['Road_55dB', 'Road_60dB', 'Railways_65dB', 'Industry_65dB']

# Hacer una copia de las columnas seleccionadas
data2 = data1[columnas_deseadas].copy()

In [None]:

import seaborn as sns
import matplotlib.pyplot as plt
from matplotlib.ticker import ScalarFormatter

# Supongamos que 'data1' es tu DataFrame y 'Road_55dB' es una columna en él
g = sns.boxplot(data=data1, x='Industry_65dB')
g.set_title('Boxplot de Industry_65dB')
g.set_xlabel('Ruido')

# Crear un formateador sin notación científica
formatter = ScalarFormatter(useOffset=False)
formatter.set_scientific(False)

# Aplicar el formateador al eje x
g.xaxis.set_major_formatter(formatter)

# Mostrar el gráfico
plt.show()


In [None]:

data2 = data2[labels == 0]


In [None]:
data2.describe()

In [None]:
# Create a histogram using Seaborn
g = sns.histplot(data=data2, x='Industry_65dB', kde=True)
# Add labels
g.set_xlabel('Ruido')
g.set_title('Despues')

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Create a histogram with density plot using Seaborn
g = sns.histplot(data=data1, x='Industry_65dB', kde=True)

# Add labels
g.set_xlabel('Ruido')

# Add title
g.set_title('Antes')

# Show the plot
plt.show()


In [None]:
# Create a box plot
g = sns.boxplot(data = data2, x = 'Industry_65dB')

# Add a title and change xlabel
g.set_title('Despues')
g.set_xlabel('Ruido')

In [None]:
# Create a box plot
g = sns.boxplot(data = data1, x = 'Industry_65dB')

# Add a title and change xlabel
g.set_title('Antes')
g.set_xlabel('Ruido')

In [None]:
columnas_deseadas = ['Road_55dB', 'Road_60dB', 'Railways_65dB', 'Industry_65dB']
# Calculate the median
median_value = data1['Industry_65dB'].median()

# Impute outliers with the median
data3 = data1[columnas_deseadas].copy()
data3.loc[outliers51.index, 'Industry_65dB'] = median_value

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Create a histogram with density plot using Seaborn
g = sns.histplot(data=data3, x='Industry_65dB', kde=True)

# Add labels
g.set_xlabel('Ruido')

# Add title
g.set_title('Despues')

# Show the plot
plt.show()

In [None]:
# Create a box plot
g = sns.boxplot(data = data3, x = 'Industry_65dB')

# Add a title and change xlabel
g.set_title('Despues')
g.set_xlabel('Ruido')

In [None]:
from scipy.stats.mstats import winsorize
data4_winsorized = data1[columnas_deseadas].copy()

data4_winsorized['Industry_65dB'] = winsorize(data4_winsorized['Industry_65dB'],\
  limits = [0.1, 0.1], inplace = True)

In [None]:
# Create a box plot
g = sns.boxplot(data = data4_winsorized, x = 'Industry_65dB')

# Add a title and change xlabel
g.set_title('Despues')
g.set_xlabel('Ruido')

# Punto 2

a. Cargue y explore el dataset explicando en qué consiste y las características que posee el mismo.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# Importar librerías
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
sns.set_context('talk')
import sqlite3
import plotly.express as px
import numpy as np
import missingno as msno

In [None]:
ruta = '/content/drive/Othercomputers/Mi portátil/SEMESTRE 9/Introduccion mineria de datos/Parcial/auto-mpg.data-original.txt'


In [None]:
column_names = ['MPG', 'Cylinders', 'Displacement', 'Horsepower', 'Weight', 'Acceleration', 'Model Year', 'Origin', 'Car Name']
data = pd.read_csv(ruta, delim_whitespace=True, names=column_names, na_values='NA')

In [None]:
data

In [None]:
data['Cylinders'] = data['Cylinders'].astype('int')
data['Model Year'] = data['Model Year'].astype('int')
data['Origin'] = data['Origin'].astype('int')
data['Car Name'] = data['Car Name'].astype('category')

In [None]:
data.info()

In [None]:
data.size

In [None]:
data.describe()

In [None]:
missing_data = data.isnull().sum()
print("Cantidad de datos faltantes por variable:")
print(missing_data)

##Hago el conteo de columnas cuya fila sea igual a cero
cols = data[data == 0].count(axis=0)
##Reviso cuántas columnas tienen filas con valores en cero
a = cols[cols > 0]

print("Cantidad de datos en cero por variable:")
print(a)

In [None]:
# how many total missing values do we have?
total_cells = np.product(data.shape)
total_missing = missing_data.sum()

# percent of data that is missing
(total_missing/total_cells) * 100

In [None]:
import missingno as msno
msno.bar(data,figsize=(12, 6), sort="ascending",fontsize=12, color='steelblue')

#color='steelblue')
#color="dodgerblue")
#color="tab:green")

## b. Realice un breve análisis exploratorio para identificar la distribución de las variables usadas en la base de datos ¿será que existe relación entre las variables?

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns


# Dibujar histogramas en orientación horizontal, uno debajo del otro
col_num = ['MPG', 'Displacement', 'Horsepower','Weight','Acceleration']
# No se coloca cylinders ya que parece ser una variable categórica

fig, ax = plt.subplots(nrows=5, ncols=1, figsize=(10, 20)) # Cambio aquí para acomodar los gráficos verticalmente
fig.subplots_adjust(hspace=0.5) # Ajustar el espacio entre gráficos

for i, col in enumerate(col_num):
    if col == 'MPG':
        nbins = 10
    else:
        nbins = 50
    sns.histplot(x=col, data=data, ax=ax[i], bins=nbins, kde=True) # Mantener x=col para orientación horizontal
    ax[i].set_title(col)


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Dibujar histogramas
col_num = ['Cylinders', 'Model Year', 'Origin', 'Car Name']

# Asumiendo que ya tienes tus datos cargados en una variable llamada 'data'

fig, ax = plt.subplots(nrows=4, ncols=1, figsize=(8, 20))  # Cambiado a 4 filas y 1 columna
fig.subplots_adjust(hspace=0.5)  # Ajuste de espacio vertical

for i, col in enumerate(col_num):
    if col == 'Cylinders':
        nbins = 10
    else:
        nbins = 50
    sns.histplot(x=col, data=data, ax=ax[i], bins=nbins)
    ax[i].set_title(col)
    ax[i].set_xlabel('')  # Quitamos la etiqueta x para mejorar la visualización

plt.show()



In [None]:

cantidad_registros_unicos = data['Car Name'].nunique()

print("Cantidad de registros únicos:", cantidad_registros_unicos)


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data[['MPG', 'Displacement', 'Horsepower', 'Weight', 'Acceleration']].copy()

# Eliminar filas con valores NaN
data11 = data11.dropna()

# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
# Copia
data1 = data.copy()

# Eliminar todas las filas que contienen al menos un valor faltante
data1.dropna(inplace=True)




In [None]:
# sin datos faltantes
data1.describe()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Supongamos que 'data' es tu DataFrame de Pandas que contiene todas las variables
# que deseas visualizar en el pairplot

# Por ejemplo, si deseas visualizar las variables 'MPG', 'Displacement', 'Horsepower',
# 'Weight' y 'Acceleration', puedes seleccionarlas así:
variables = ['MPG', 'Displacement', 'Horsepower', 'Weight', 'Acceleration','Cylinders', 'Model Year', 'Origin', 'Car Name']
data_selected = data[variables]

# Ahora puedes usar sns.pairplot() para visualizar todas las relaciones entre estas variables
sns.pairplot(data_selected, diag_kind="hist")
plt.show()



In [None]:
# Seleccionar las variables para el heatmap
variables_heatmap = ['MPG', 'Cylinders', 'Displacement', 'Horsepower', 'Weight', 'Acceleration', 'Model Year', 'Origin']

# Calcular la matriz de correlación
correlation_matrix = data[variables_heatmap].corr()

plt.figure(figsize=(20, 10))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", square=True)

# Ajustar los límites de los ejes X e Y
plt.xlim(0, correlation_matrix.shape[1])
plt.ylim(0, correlation_matrix.shape[0])

plt.title('Heatmap de correlación de variables en la base de datos Auto MPG')
plt.show()


In [None]:
missing_data = data.isnull().sum()
print("Cantidad de datos faltantes por variable:")
print(missing_data)

##Hago el conteo de columnas cuya fila sea igual a cero
cols = data[data == 0].count(axis=0)
##Reviso cuántas columnas tienen filas con valores en cero
a = cols[cols > 0]

print("Cantidad de datos en cero por variable:")
print(a)

In [None]:
# how many total missing values do we have?
total_cells = np.product(data.shape)
total_missing = missing_data.sum()

# percent of data that is missing
(total_missing/total_cells) * 100

In [None]:
import missingno as msno

# Verificar que ya no hay datos faltantes en la nueva base
missing_data_complete_cases = data.isnull().sum()
missing_data_complete_cases
#



In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import missingno as msno
from sklearn.impute import SimpleImputer



ruta = "/content/drive/Othercomputers/Mi portátil/SEMESTRE 9/Introduccion mineria de datos/Parcial/auto-mpg.data-original.txt"
column_names = ['MPG', 'Cylinders', 'Displacement', 'Horsepower', 'Weight', 'Acceleration', 'Model Year', 'Origin', 'Car Name']
data = pd.read_csv(ruta, delim_whitespace=True, names=column_names, na_values='NA')

missing_data = data.isnull().sum()

missing_proportion = missing_data / len(data)*100

print("Cantidad de datos faltantes por variable:")
print(missing_data)
print("\nProporción de datos faltantes por variable:")
print(missing_proportion)

msno.bar(data,figsize=(10, 5), fontsize=12, color='steelblue')




In [None]:
missing_data_total = missing_data.sum() / len(data)
print("Porcentaje total de datos faltantes en el conjunto de datos:", missing_data_total,"(",round(missing_data_total*100,2),"%)")

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
#Listar registros faltantes
missing_data_rows = data[data['MPG'].isnull() | data['Horsepower'].isnull()]

print(missing_data_rows)


# E. Aplique las técnicas de tratamiento de datos faltantes vistas en clase.

In [None]:

# Copia
data_complete_cases = data.copy()

# Eliminar todas las filas que contienen al menos un valor faltante
data_complete_cases.dropna(inplace=True)

# Verificar que ya no hay datos faltantes en la nueva base
missing_data_complete_cases = data_complete_cases.isnull().sum()

#Validamos como quedan los datos
msno.bar(data_complete_cases,figsize=(12, 6), fontsize=12, color='steelblue')

data_complete_cases.describe()


In [None]:

# Copia
data_most_frequent = data.copy()

# Crear un imputador con la estrategia 'most_frequent'
imputer = SimpleImputer(strategy='most_frequent')

# Imputar los valores faltantes en el DataFrame
data_most_frequent.iloc[:,:] = imputer.fit_transform(data_most_frequent)

missing_data_most_frequent = data_most_frequent.isnull().sum()


#Validamos como quedan los datos
msno.bar(data_most_frequent,figsize=(12, 6), fontsize=12, color='steelblue')

data_most_frequent.describe()

In [None]:
# Calcular el valor medio de las variables presentes
mean_MPG = data['MPG'].mean()
mean_Horsepower = data['Horsepower'].mean()

# Copiar el DataFrame original
data_mean_imputed = data.copy()

# Imputar los valores faltantes por la media
data_mean_imputed['MPG'].fillna(mean_MPG, inplace=True)
data_mean_imputed['Horsepower'].fillna(mean_Horsepower, inplace=True)


#Validamos como quedan los datos
msno.bar(data_mean_imputed,figsize=(12, 6), fontsize=12, color='steelblue')

data_mean_imputed.describe()

In [None]:
# Copia
data_cold_deck_imputed = data.copy()

# Imputar los valores faltantes por la mediana para ambas variables
data_cold_deck_imputed['MPG'].fillna(data_cold_deck_imputed['MPG'].median(), inplace=True)
data_cold_deck_imputed['Horsepower'].fillna(data_cold_deck_imputed['Horsepower'].median(), inplace=True)

# Verificar que ya no hay datos faltantes en la nueva base
missing_data_cold_deck_imputed = data_cold_deck_imputed.isnull().sum()


data_cold_deck_imputed.describe()

In [None]:
# Copia
data_hot_deck_imputed = data.copy()

# Iterar sobre cada fila del DataFrame
for i, row in data_hot_deck_imputed.iterrows():
    # Verificar si la fila actual tiene datos faltantes en MPG o Horsepower
    if pd.isnull(row['MPG']) or pd.isnull(row['Horsepower']):
        # Calcular la distancia euclidiana con respecto a las otras filas para las variables MPG y Horsepower
        distances = []
        for j, other_row in data_hot_deck_imputed.iterrows():
            if i != j and not pd.isnull(other_row['MPG']) and not pd.isnull(other_row['Horsepower']):
                distance = ((row['MPG'] - other_row['MPG'])**2 + (row['Horsepower'] - other_row['Horsepower'])**2)**0.5
                distances.append((j, distance))
        # Ordenar las distancias de menor a mayor
        distances.sort(key=lambda x: x[1])
        # Obtener el índice del registro maas cercano con valores no faltantes
        closest_index = distances[0][0]
        # Imputar los valores faltantes con los valores del registro más cercano
        data_hot_deck_imputed.at[i, 'MPG'] = data_hot_deck_imputed.at[closest_index, 'MPG']
        data_hot_deck_imputed.at[i, 'Horsepower'] = data_hot_deck_imputed.at[closest_index, 'Horsepower']

#Validamos como quedan los datos
msno.bar(data_hot_deck_imputed,figsize=(12, 6), fontsize=12, color='steelblue')

data_hot_deck_imputed.describe()


In [None]:
from sklearn.linear_model import LinearRegression

# Copia
data_regression_imputed = data.copy()

#  modelo de regresión lineal
model = LinearRegression()

# Iterar sobre cada fila de la base
for i, row in data_regression_imputed.iterrows():
    # Verificar si la fila actual tiene datos faltantes en MPG o Horsepower
    if pd.isnull(row['MPG']) or pd.isnull(row['Horsepower']):
        # Separar los datos en dos grupos: con valores no faltantes y con valores faltantes
        data_train = data_regression_imputed.dropna()
        data_test = data_regression_imputed.loc[i].to_frame().T
        # modelo
        model.fit(data_train[['Cylinders', 'Displacement', 'Weight', 'Acceleration', 'Model Year']], data_train['MPG'])
        # Predecir el valor faltante de MPG
        mpg_predicted = model.predict(data_test[['Cylinders', 'Displacement', 'Weight', 'Acceleration', 'Model Year']])
        # Imputar el valor faltante de MPG
        data_regression_imputed.at[i, 'MPG'] = mpg_predicted[0]

        # modelo
        model.fit(data_train[['Cylinders', 'Displacement', 'Weight', 'Acceleration', 'Model Year']], data_train['Horsepower'])
        # Predecir el valor faltante de Horsepower
        horsepower_predicted = model.predict(data_test[['Cylinders', 'Displacement', 'Weight', 'Acceleration', 'Model Year']])
        # Imputar el valor faltante de Horsepower
        data_regression_imputed.at[i, 'Horsepower'] = horsepower_predicted[0]


#Validamos como quedan los datos
msno.bar(data_regression_imputed,figsize=(12, 6), fontsize=12, color='steelblue')

data_regression_imputed.describe()


In [None]:
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.linear_model import BayesianRidge

# Copia
data_mice = data.copy()

# Seleccionar las variables numéricas a imputar
numeric_vars = ['MPG', 'Horsepower']

# Crear un imputador MICE con el estimador BayesianRidge
mice_imputer = IterativeImputer(random_state=0, estimator=BayesianRidge())

# Imputar los valores faltantes en las variables seleccionadas
data_mice[numeric_vars] = mice_imputer.fit_transform(data_mice[numeric_vars])


#Validamos como quedan los datos
msno.bar(data_mice,figsize=(12, 6), fontsize=12, color='steelblue')

data_mice.describe()

In [None]:
from sklearn.impute import KNNImputer

# Copiar el DataFrame original
data_knn = data.copy()

# Seleccionar las variables numéricas a imputar
numeric_vars = ['MPG', 'Horsepower']

# Crear un imputador KNN con 5 vecinos y pesos uniformes
knn_imputer = KNNImputer(n_neighbors=5, weights="uniform")

# Imputar los valores faltantes en las variables seleccionadas
data_knn[numeric_vars] = knn_imputer.fit_transform(data_knn[numeric_vars])


#Validamos como quedan los datos
msno.bar(data_knn,figsize=(12, 6), fontsize=12, color='steelblue')

data_knn.describe()

# F. Analice gráfica y analíticamente la variación en la distribución de los datos al aplicar las técnicas de imputación de datos. ¿Qué técnica afecta menos la distribución original?

In [None]:

print("Valor imputado para MPG con el método 'Más frecuente':")
print(data_most_frequent['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])

print("Valor imputado para MPG con el método 'Sustitución por medias':")
print(data_mean_imputed['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])

print("Valor imputado para MPG con el método 'Cold Deck':")
print(data_cold_deck_imputed['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])

print("Valor imputado para MPG con el método 'Hot Deck':")
print(data_hot_deck_imputed['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])

print("Valor imputado para MPG con el método 'Regresión':")
print(data_regression_imputed['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])

print("Valor imputado para MPG con el método 'MICE':")
print(data_mice['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])

print("Valor imputado para MPG con el método 'K-Nearest Neighbor Imputation':")
print(data_knn['MPG'].iloc[[10, 11, 12, 13, 14, 17, 39, 367]])




In [None]:
print("Valor imputado para Horsepower con el método 'Más frecuente':")
print(data_most_frequent['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])

print("Valor imputado para Horsepower con el método 'Sustitución por medias':")
print(data_mean_imputed['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])

print("Valor imputado para Horsepower con el método 'Cold Deck':")
print(data_cold_deck_imputed['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])

print("Valor imputado para Horsepower con el método 'Hot Deck':")
print(data_hot_deck_imputed['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])

print("Valor imputado para Horsepower con el método 'Regresión':")
print(data_regression_imputed['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])

print("Valor imputado para Horsepower con el método 'MICE':")
print(data_mice['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])

print("Valor imputado para Horsepower con el método 'K-Nearest Neighbor Imputation':")
print(data_knn['Horsepower'].iloc[[38, 133, 337, 343, 361, 382]])


In [None]:
# MPG

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')


sns.histplot(data_complete_cases['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Elimnacion dato faltante)')

plt.show()

# HP

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_complete_cases['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con Elimnacion dato faltante)')

plt.show()

In [None]:
# MPG

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_most_frequent['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Elimnacion Más frecuente)')

plt.show()

# HP

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_most_frequent['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con Elimnacion Más frecuente)')

plt.show()

In [None]:
# MPG
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_mean_imputed['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Sustitución medias)')

plt.show()

# HP

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_mean_imputed['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con  Sustitución medias)')

plt.show()

In [None]:
# MPG
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_cold_deck_imputed['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Cold Deck)')

plt.show()

# HP

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_cold_deck_imputed['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con Cold Deck)')

plt.show()

In [None]:
#MPG

fig, axes = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_hot_deck_imputed['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Hot Deck)')

plt.show()

#HP

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_hot_deck_imputed['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con Hot Deck)')

plt.show()

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

#MPG
sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_regression_imputed['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Regresión multiple)')

plt.show()


#horsepower
fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_regression_imputed['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con Regresión multiple)')

plt.show()

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

#MPG
sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_mice['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con MICE)')

plt.show()


#horsepower
fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_mice['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con MICE)')

plt.show()

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

#MPG
sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_knn['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con KNN)')

plt.show()


#horsepower
fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_knn['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con KNN)')

plt.show()

# pruebas shapiro para cada metodo de imputación

In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_complete_cases[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_most_frequent[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
# MPG
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

sns.histplot(data['MPG'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de MPG (Original)')

sns.histplot(data_mean_imputed['MPG'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de MPG (Imputada con Sustitución medias)')

plt.show()

# HP

fig, axes = plt.subplots(1, 2, figsize=(15, 5))


sns.histplot(data['Horsepower'], ax=axes[0], kde=True)
axes[0].set_title('Distribución de Horsepower (Original)')


sns.histplot(data_mean_imputed['Horsepower'], ax=axes[1], kde=True)
axes[1].set_title('Distribución de Horsepower (Imputada con  Sustitución medias)')

plt.show()

In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_mean_imputed[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_cold_deck_imputed[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_hot_deck_imputed[['MPG','Horsepower',]].copy()


# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_regression_imputed[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_mice[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")


In [None]:
from scipy import stats
import pandas as pd

# Suponiendo que 'data' es tu DataFrame
data11 = data_knn[['MPG','Horsepower',]].copy()



# Iterar sobre las columnas y realizar la prueba de Shapiro-Wilk
alpha = 0.05
for column in data11.columns:
    statistic, p_value = stats.shapiro(data11[column])
    print(f"Variable: {column}")
    print("Estadístico de prueba:", statistic)
    print("Valor p:", p_value)

    # Interpretar el resultado
    if p_value > alpha:
        print("No se rechaza la hipótesis nula (los datos provienen de una distribución normal)")
    else:
        print("Se rechaza la hipótesis nula (los datos no provienen de una distribución normal)")
