# Análisis Estadístico Descriptivo - Precios Coomproriente

Este notebook realiza un análisis estadístico descriptivo de los precios de productos de Coomproriente.

## 1. Importación de bibliotecas

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo para los gráficos
plt.style.use('seaborn')
sns.set_palette('viridis')
%matplotlib inline

## 2. Carga de datos

In [None]:
# Ruta del archivo
ruta_archivo = '../Data/Precios_Coomproriente_limpio.xlsx'

# Cargar los datos
try:
    df = pd.read_excel(ruta_archivo)
    print("Datos cargados exitosamente.")
    print("\nPrimeras filas del dataset:")
    display(df.head())
except Exception as e:
    print(f"Error al cargar el archivo: {e}")

## 3. Análisis Exploratorio Inicial

In [None]:
# Información general del dataset
print("\nInformación del dataset:")
display(df.info())

# Estadísticas descriptivas básicas
print("\nEstadísticas descriptivas generales:")
display(df.describe(include='all').T)

# Valores nulos por columna
print("\nValores nulos por columna:")
display(df.isnull().sum())

## 4. Análisis de Variables Numéricas

In [None]:
# Seleccionar solo las columnas numéricas
columnas_numericas = df.select_dtypes(include=['int64', 'float64']).columns

# Función para crear gráficos de distribución
def plot_distribution(column, data):
    fig, axes = plt.subplots(1, 2, figsize=(15, 5))
    
    # Histograma
    sns.histplot(data[column], kde=True, ax=axes[0])
    axes[0].set_title(f'Distribución de {column}')
    
    # Boxplot
    sns.boxplot(y=data[column], ax=axes[1])
    axes[1].set_title(f'Boxplot de {column}')
    
    plt.tight_layout()
    plt.show()
    
    # Estadísticas descriptivas
    stats = data[column].describe()
    print(f"\nEstadísticas para {column}:")
    print(f"Media: {stats['mean']:.2f}")
    print(f"Mediana: {stats['50%']:.2f}")
    print(f"Desviación estándar: {stats['std']:.2f}")
    print(f"Mínimo: {stats['min']:.2f}")
    print(f"Máximo: {stats['max']:.2f}")
    print(f"Rango intercuartílico (IQR): {stats['75%'] - stats['25%']:.2f}")
    print(f"Coeficiente de variación: {(stats['std'] / stats['mean']) * 100:.2f}%")
    print(f"Asimetría: {data[column].skew():.2f}")
    print(f"Curtosis: {data[column].kurtosis():.2f}")
    
# Generar gráficos para cada variable numérica
for col in columnas_numericas:
    print(f"\n{'='*50}
Análisis de la variable: {col}
{'='*50}
")
    plot_distribution(col, df)

## 5. Análisis de Variables Categóricas

In [None]:
# Seleccionar solo las columnas categóricas
columnas_categoricas = df.select_dtypes(include=['object']).columns

# Función para crear gráficos de variables categóricas
def plot_categorical(column, data):
    # Contar valores únicos
    conteo = data[column].value_counts()
    
    # Configurar la figura
    plt.figure(figsize=(12, 6))
    
    # Gráfico de barras
    if len(conteo) > 10:
        # Si hay muchas categorías, mostramos solo las 10 más frecuentes
        top_10 = conteo.head(10)
        sns.barplot(x=top_10.index, y=top_10.values)
        plt.xticks(rotation=45, ha='right')
    else:
        sns.countplot(y=column, data=data, order=conteo.index)
    
    plt.title(f'Distribución de {column}')
    plt.tight_layout()
    plt.show()
    
    # Estadísticas descriptivas
    print(f"\nEstadísticas para {column}:")
    print(f"Número de categorías únicas: {len(conteo)}")
    print(f"Categorías más frecuentes:")
    display(conteo.head())
    print(f"\nPorcentaje de valores faltantes: {data[column].isnull().mean()*100:.2f}%")
    
# Generar gráficos para cada variable categórica
for col in columnas_categoricas:
    print(f"\n{'='*50}
Análisis de la variable: {col}
{'='*50}
")
    plot_categorical(col, df)

## 6. Análisis de Relaciones entre Variables

In [None]:
# Matriz de correlación para variables numéricas
if len(columnas_numericas) > 1:
    plt.figure(figsize=(10, 8))
    sns.heatmap(df[columnas_numericas].corr(), annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)
    plt.title('Matriz de Correlación')
    plt.tight_layout()
    plt.show()

In [None]:
# Gráficos de dispersión para pares de variables numéricas
if len(columnas_numericas) > 1:
    sns.pairplot(df[columnas_numericas])
    plt.suptitle('Gráficos de Dispersión por Pares', y=1.02)
    plt.show()

## 7. Análisis de Valores Atípicos

In [None]:
# Función para identificar valores atípicos
def detect_outliers(column, data):
    Q1 = data[column].quantile(0.25)
    Q3 = data[column].quantile(0.75)
    IQR = Q3 - Q1
    
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]
    return outliers

# Identificar y mostrar valores atípicos para cada variable numérica
for col in columnas_numericas:
    outliers = detect_outliers(col, df)
    if not outliers.empty:
        print(f"\nValores atípicos en {col} (Total: {len(outliers)}):")
        display(outliers[[col]].sort_values(by=col, ascending=False))

## 8. Conclusiones y Recomendaciones

### Hallazgos Principales
1. **Distribución de Precios**: [Incluir hallazgos sobre la distribución de precios]
2. **Categorías Principales**: [Mencionar las categorías más relevantes]
3. **Relaciones entre Variables**: [Describir relaciones significativas encontradas]
4. **Valores Atípicos**: [Comentar sobre la presencia y posible impacto de valores atípicos]

### Recomendaciones
1. [Recomendación 1]
2. [Recomendación 2]
3. [Recomendación 3]