In [None]:
# Importar las librerías necesarias en Python para EDA
import missingno as msno
import pandas as pd  # Para manejar datos en tablas (DataFrames)
import matplotlib.pyplot as plt  # Para crear gráficos
import seaborn as sns  # Para gráficos avanzados
import numpy as np  # Para cálculos numéricos
from scipy.stats import skew, iqr  # Para cálculo de la asimetría y rango intercuartil

In [None]:
# Leer los datos
data_ej1 = pd.read_csv('sillaut.csv')  # Leer el archivo CSV y cargarlo en un DataFrame

# Dimensiones del conjunto de datos
print(data_ej1.shape)  # Imprimir la dimensión (filas, columnas)

# Imprimir las primeras filas del dataset
print(data_ej1.iloc[:, :5].head())  # Imprimir las primeras 5 columnas de las primeras filas

# Imprimir las últimas filas del dataset
print(data_ej1.tail())  # Imprimir las últimas filas del dataset

# Obtener la estructura de los datos (tipo de variables, etc.)
print(data_ej1.info())  # Información sobre el DataFrame


In [None]:
# Descripción de las variables
# Ventas: ventas unitarias (miles).
# PrecioComp: Precio cobrado por la competencia.
# Ingresos: Nivel de ingresos de la comunidad (miles).
# Presup.Publicidad: Presupuesto de publicidad local.
# Poblacion: Tamaño de la población en la región.
# PrecioVenta: Precio que cobra la empresa.
# CalidadUbic: la calidad de la ubicación de las estanterías.
# EdadM: edad promedio de la población local.
# NEducacion: nivel de educación de la población local.
# Ubicacion: si está en ubicación urbana o no.
# US: si la tienda está en US.

In [None]:
# Descripción estadística de las variables numéricas
print("\nDescripción estadística de las variables numéricas:")
print(data_ej1.describe())

In [None]:
# Verificar valores faltantes
missing_data = data_ej1.isnull().sum()

# Filtrar solo columnas con valores faltantes
missing_data = missing_data[missing_data > 0]

# Comprobar si hay columnas con valores faltantes
if missing_data.empty:
    print("No hay valores faltantes en las columnas.")
else:
    # Gráfico de barras de valores faltantes
    plt.figure(figsize=(10, 6))
    missing_data.plot(kind='bar', color='skyblue')
    plt.title('Cantidad de Valores Faltantes por Columna')
    plt.xlabel('Columnas')
    plt.ylabel('Cantidad de Valores Faltantes')
    plt.xticks(rotation=45)
    plt.show()



In [None]:

# Filtrar solo las columnas numéricas para evitar el error
data_numerica = data_ej1.select_dtypes(include=[np.number])

# Visualización de la correlación entre variables numéricas
plt.figure(figsize=(10, 8))
sns.heatmap(data_numerica.corr(), annot=True, cmap='coolwarm', fmt='.2f', linewidths=0.5)
plt.title('Mapa de calor de correlación')
plt.show()

# Histograma de las variables numéricas
data_numerica.hist(bins=30, figsize=(10, 8))
plt.suptitle('Distribución de las variables numéricas')
plt.show()

In [None]:
# Analizar variables categóricas
# Función para crear una tabla de frecuencias
def tb_freq(x):
    f_i = x.value_counts()  # Frecuencia absoluta
    F_i = f_i.cumsum()  # Frecuencia acumulada
    h_i = f_i / len(x)  # Frecuencia relativa
    H_i = F_i / len(x)  # Frecuencia relativa acumulada
    freq_table = pd.DataFrame({
        'Frecuencia Absoluta': f_i,
        'Frecuencia Acumulada': F_i,
        'Frecuencia Relativa': h_i,
        'Frecuencia Relativa Acumulada': H_i
    })
    return freq_table
# Aplicar la función a una variable
print(tb_freq(data_ej1['CalidadUbic']))  # Tabla de frecuencias para la variable 'CalidadUbic'
print(tb_freq(data_ej1['Ubicacion']))  # Tabla de frecuencias para la variable 'Ubicacion'

In [None]:
# Crear un gráfico de barras
sns.countplot(x='Ubicacion', data=data_ej1, palette='Set2')  # Gráfico de barras para la variable 'Ubicacion'
plt.show()

# Gráfico de barras con 'ggplot' equivalente en Python
sns.countplot(x='CalidadUbic', data=data_ej1, hue='CalidadUbic', palette='Set3')  # Gráfico similar a ggplot
plt.xlabel('CalidadUbic')
plt.ylabel('Frecuencia')
plt.show()

In [None]:
# Análisis de variables numéricas
# Medidas estadísticas
print(f"Media de Ventas: {data_ej1['Ventas'].mean():.4f}")  # Media
print(f"Mediana de Ventas: {data_ej1['Ventas'].median():.4f}")  # Mediana

In [None]:

# Cuartiles
Q1 = data_ej1['Ventas'].quantile(0.25)
Q3 = data_ej1['Ventas'].quantile(0.75)
print(f"Q1: {Q1}, Q3: {Q3}")


In [None]:
# Calcular IQR de Ventas
Q1 = data_ej1['Ventas'].quantile(0.25)
Q3 = data_ej1['Ventas'].quantile(0.75)
IQR = Q3 - Q1

# Varianza
print(f"Varianza de Ventas: {data_ej1['Ventas'].var():.4f}")  # Varianza

# Desviación estándar
print(f"Desviación estándar de Ventas: {data_ej1['Ventas'].std():.4f}")  # Desviación estándar

# Rango intercuartil (IQR)
print(f"IQR de Ventas: {IQR:.4f}")  # IQR

# Coeficiente de asimetría (skewness)
from scipy.stats import skew
print(f"Coeficiente de asimetría de Ventas: {skew(data_ej1['Ventas']):.4f}")

# Coeficiente de variación
CV = lambda x: x.std() / x.mean()  # Función para calcular el coeficiente de variación
print(f"Coeficiente de variación de Ventas: {CV(data_ej1['Ventas']):.4f}")


In [None]:
# Resumen de medidas estadísticas
summary_stats = data_ej1.describe().transpose()  # Resumen estadístico de las variables numéricas
summary_stats['skew'] = data_ej1.apply(lambda x: skew(x) if x.dtype != 'O' else np.nan)  # Agregar skew
summary_stats['CV'] = data_ej1.apply(lambda x: CV(x) if x.dtype != 'O' else np.nan)  # Agregar CV
summary_stats.to_csv('sumdesc.csv')  # Guardar el resumen en un archivo CSV

In [None]:

# Histograma y curva de densidad
sns.histplot(data_ej1['Ventas'], kde=True, color='green', bins=20)  # Histograma con densidad
plt.axvline(data_ej1['Ventas'].mean(), color='red', linestyle='--')  # Línea de la media
plt.xlabel('Ventas')
plt.ylabel('Densidad')
plt.title('Histograma de Ventas')
plt.show()

In [None]:

# Distribución empírica acumulada
sns.ecdfplot(data_ej1['Ventas'], color='blue')  # Distribución acumulada empírica
plt.xlabel('Ventas')
plt.ylabel('F(X)')
plt.title('Distribución Empírica Acumulada')
plt.show()


In [None]:

# Diagrama de Pareto
# Frecuencias para las causas
freq_caus = [6, 22, 13, 2, 5]
causes = ['fluct.pot', 'contr.inest', 'error.oper', 'herramgast', 'otra']

# Crear gráfico de Pareto
fig, ax = plt.subplots(figsize=(10, 6))
ax.bar(causes, freq_caus, color='skyblue')  # Barras
ax.set_ylabel('Frecuencia')
ax.set_title('Diagrama de Pareto')
plt.xticks(rotation=45)
plt.show()
