# 🛠️ Práctica de Análisis Exploratorio de Datos (EDA)

En esta practica, aplicarás las habilidades adquiridas a lo largo de la seccion para analizar cómo diferentes características influyen en el precio de las laptops.  

## 🎯 Objetivos  

✅ Visualizar patrones individuales en las características del conjunto de datos.  
✅ Realizar análisis estadísticos descriptivos sobre los datos.  
✅ Utilizar agrupaciones y tablas dinámicas para analizar el efecto de variables categóricas en el precio.  
✅ Aplicar la correlación de Pearson para medir la interdependencia entre variables.  

## 🛠️ Configuración del entorno  

Para este análisis, utilizaremos las siguientes bibliotecas en Python:  

- `pandas` 📊 → Para gestionar y manipular los datos.  
- `numpy` 🔢 → Para realizar operaciones matemáticas.  
- `scipy` 📈 → Para operaciones estadísticas avanzadas.  
- `seaborn` 🎨 → Para la visualización de datos.  
- `matplotlib` 📌 → Para herramientas adicionales de gráficos.  

### 📌 Instalación de Bibliotecas  

Si alguna de estas bibliotecas no está instalada, puedes instalarla ejecutando el siguiente comando en tu entorno de trabajo:  

```python
# Instalar seaborn en entornos como Jupyter Notebook o Google Colab
%pip install seaborn  


In [1]:
%pip install seaborn



## 📥 Importación de bibliotecas

Para garantizar una mejor organización, es recomendable importar todas las bibliotecas necesarias en un solo bloque de código.  


In [3]:
# Importación de bibliotecas esenciales para el análisis
import numpy as np  # Operaciones matemáticas y manejo de arrays
import pandas as pd  # Manipulación y análisis de datos
import matplotlib.pyplot as plt  # Generación de gráficos
import seaborn as sns  # Visualización avanzada de datos
from scipy import stats  # Funciones estadísticas y análisis avanzado
import gdown  # Descarga de archivos desde Google Drive

# Habilitar visualización de gráficos en línea en Google Colab
%matplotlib inline

## 📥 Importación del conjunto de datos  

El conjunto de datos fue modificado en la seccion anterior y ahora está disponible para su uso en esta practica.  

### 🔹 Carga de datos desde Google Drive  

Para acceder al archivo CSV alojado en Google Drive, utilizaremos `gdown`, una herramienta que permite descargar archivos directamente.  






In [4]:
# Enlace al archivo en Google Drive
file_url = "https://drive.google.com/uc?id=17i9hwX_2fD0DTiiIwsRGDgwq8EszYoHQ"

# Descargar el archivo CSV
output = "laptops_data.csv"
gdown.download(file_url, output, quiet=False)

Downloading...
From: https://drive.google.com/uc?id=17i9hwX_2fD0DTiiIwsRGDgwq8EszYoHQ
To: /content/laptops_data.csv
100%|██████████| 20.1k/20.1k [00:00<00:00, 24.8MB/s]


'laptops_data.csv'

In [5]:
# Cargar el archivo CSV en un DataFrame de pandas
df = pd.read_csv(output)

# Visualizar las primeras filas del conjunto de datos
df.head()

Unnamed: 0.2,Unnamed: 0.1,Unnamed: 0,Manufacturer,Category,GPU,OS,CPU_core,Screen_Size_inch,CPU_frequency,RAM_GB,Storage_GB_SSD,Weight_pounds,Price,Price-binned,Screen-Full_HD,Screen-IPS_panel
0,0,0,Acer,4,2,1,5,14.0,0.551724,8,256,3.528,978,Low,0,1
1,1,1,Dell,3,1,1,3,15.6,0.689655,4,256,4.851,634,Low,1,0
2,2,2,Dell,3,1,1,7,15.6,0.931034,8,256,4.851,946,Low,1,0
3,3,3,Dell,4,2,1,5,13.3,0.551724,8,128,2.6901,1244,Low,0,1
4,4,4,HP,4,2,1,7,15.6,0.62069,8,256,4.21155,837,Low,1,0


# 🎯 Tarea 1 - Visualización de patrones en características individuales  

## 📌 Variables de valor continuo  

En este paso, generaras gráficos de regresión para analizar la relación entre cada una de las siguientes características y el precio (`Price`):  

- **Frecuencia del CPU** (`CPU_frequency`)  
- **Tamaño de pantalla (pulgadas)** (`Screen_Size_inch`)  
- **Peso (libras)** (`Weight_pounds`)  

Calcularas el coeficiente de correlación de Pearson para medir la relación entre estas variables y el precio.  





In [11]:
# Escriba su código a continuación
# Gráfico de caja por categoría


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python
# 📊 Box plot: Precio según la categoría del portátil
sns.boxplot(x="Category", y="Price", data=df)
```

</details>

In [13]:
# Escriba su código a continuación
# Gráfico de caja por tarjeta gráfica (GPU)


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python
sns.boxplot(x="GPU", y="Price", data=df)
```

</details>

In [None]:
# Escriba su código a continuación


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python

```

</details>

In [15]:
# Escriba su código a continuación
# Gráfico de caja por sistema operativo (OS)


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python
sns.boxplot(x="OS", y="Price", data=df)
```

</details>

In [17]:
# Escriba su código a continuación
# Gráfico de caja por núcleos del CPU ( CPU_core)


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python
sns.boxplot(x="CPU_core", y="Price", data=df)
```

</details>

In [19]:
# Escriba su código a continuación
# Gráfico de caja por memoria RAM (GB)


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python
sns.boxplot(x="RAM_GB", y="Price", data=df)
```

</details>

In [21]:
# Escriba su código a continuación
# Gráfico de caja por almacenamiento SSD (GB)


<details>
    <summary>Clic aqui para ver la solucion🔎</summary>

```python
sns.boxplot(x="Storage_GB_SSD", y="Price", data=df)
```

</details>

# 🎯 Tarea 2 - Análisis estadístico descriptivo  

En esta sección, generaras un **resumen estadístico** de todas las características del conjunto de datos.  

✅ Calcularas estadísticas clave para:  
- **Variables numéricas**: Media, desviación estándar, valores mínimo y máximo, percentiles, etc.  
- **Variables categóricas**: Cantidad de valores únicos, frecuencia del valor más común, etc.  




In [23]:
# Escriba su código a continuación


<details>
    <summary>🔎 Clic aquí para ver la solución</summary>  

```python
# Análisis de las características numéricas del dataset
print("📌 Estadísticas de variables numéricas:")
print(df.describe())

# 📊 Análisis de las características categóricas (tipo 'object')
print("\n📌 Estadísticas de variables categóricas:")
print(df.describe(include=['object']))
```
</details>


# 🎯 Tarea 3 - Agrupaciones y Tablas Dinámicas  

En esta tarea, exploraras la relación entre **GPU, CPU_core y Price** mediante:  
1️⃣ **Agrupación (`groupby`)** para calcular el precio promedio según **GPU y número de núcleos del CPU**.  
2️⃣ **Creación de una tabla dinámica (`pivot table`)** para estructurar los datos de manera visualmente comprensible.  
3️⃣ **Generación de un mapa de colores (`pcolor plot`)** para visualizar la relación entre las variables.  



In [25]:
# Escriba su código a continuación
#Creación del grupo


<details>
    <summary>🔎 Clic aquí para ver la solución</summary>  
    
```python
# Seleccionamos las columnas de interés para el análisis
df_gptest = df[['GPU', 'CPU_core', 'Price']]

# Agrupamos los datos por GPU y CPU_core, calculando el precio promedio
grouped_test1 = df_gptest.groupby(['GPU', 'CPU_core'], as_index=False).mean()

# Mostramos el resultado de la agrupación
print("📊 Datos agrupados por GPU y CPU_core con el precio promedio:")
print(grouped_test1)
```
</details>

In [27]:
# Escriba su código a continuación
# Creación de la Tabla Dinámica


<details>
    <summary>🔎 Clic aquí para ver la solución</summary>  
    
```python
# Creamos una tabla dinámica para organizar los datos en formato de matriz
grouped_pivot = grouped_test1.pivot(index='GPU', columns='CPU_core', values='Price')

# Mostramos la tabla dinámica resultante
print("📊 Tabla dinámica (Pivot Table) con GPU como índice y CPU_core como columnas:")
print(grouped_pivot)

```
</details>

In [29]:
# Escriba su código a continuación
# Visualización conpcolor plot


<details>
    <summary>🔎 Clic aquí para ver la solución</summary>  
    
```python
# Creamos la figura y los ejes para la visualización
fig, ax = plt.subplots(figsize=(10, 6))  # Ajustamos el tamaño de la gráfica

# Creamos el mapa de colores basado en los valores de la tabla dinámica
im = ax.pcolor(grouped_pivot, cmap='RdBu')

# Extraemos los nombres de las etiquetas para las filas y columnas
row_labels = grouped_pivot.columns.astype(str)  # Convertimos a string para evitar errores
col_labels = grouped_pivot.index.astype(str)

# Ajustamos las posiciones de los ticks y etiquetas
ax.set_xticks(np.arange(len(row_labels)) + 0.5, minor=False)
ax.set_yticks(np.arange(len(col_labels)) + 0.5, minor=False)

# Asignamos las etiquetas correspondientes a los ejes
ax.set_xticklabels(row_labels, minor=False, rotation=90)  # Rotamos para mayor legibilidad
ax.set_yticklabels(col_labels, minor=False)

# 🎨 Agregamos una barra de color para interpretar la escala
fig.colorbar(im)

# Mostramos el gráfico
plt.title("Mapa de colores: Relación entre GPU, CPU_core y Precio")
plt.xlabel("CPU_core")
plt.ylabel("GPU")
plt.show()
```
</details>

La tabla dinámica nos ayuda a visualizar cómo varía el precio promedio según la combinación de GPU y CPU_core .
El mapa de colores ( pcolor plot) representa esta relación de forma visual, donde los colores indican los valores del precio promedio.

# 🎯 Tarea 4 - Correlación de Pearson y valores p  

En esta tarea, evaluaras la **fuerza y dirección** de la relación entre diferentes características de las laptops y su precio mediante:  
✅ **Coeficiente de correlación de Pearson**: Indica qué tan fuerte es la relación entre dos variables.  
✅ **Valor p (p-value)**: Determina la significancia estadística de la correlación.  

📌 **Reglas de interpretación:**  
🔹 Si el coeficiente de Pearson **está cerca de +1 o -1**, la relación es fuerte.  
🔹 Si el **valor p < 0.05**, la correlación es estadísticamente significativa.  




In [33]:
# Escriba su código a continuación
# Cálculo del coeficiente de Pearson y p-value


<details>
    <summary>🔎 Clic aquí para ver la solución</summary>  

```python
# Lista de características a analizar
features = ['RAM_GB', 'CPU_frequency', 'Storage_GB_SSD', 'Screen_Size_inch',
            'Weight_pounds', 'CPU_core', 'OS', 'GPU', 'Category']

# Iteramos sobre cada característica y calculamos su correlación con el precio
for param in features:
    pearson_coef, p_value = stats.pearsonr(df[param], df['Price'])  # Calculamos Pearson y p-value
    
    # Imprimimos los resultados con una mejor presentación
    print(f"🔹 {param}:")
    print(f"   📊 Coeficiente de Pearson: {pearson_coef:.4f}")
    print(f"   🏷️ P-value: {p_value:.4f}")

    # Interpretación rápida de la relación
    if p_value < 0.05:
        print("   ✅ Correlación significativa con el precio 💰")
    else:
        print("   ❌ Correlación no significativa")
    print("-" * 50)  # Separador visual
    ```

   </details>


# 📝 Task 5 - Reflexión y comparación de resultados  

## 🎯 **Objetivo de la tarea**  
Ahora que has realizado el análisis exploratorio de datos (EDA) y evaluado las correlaciones entre las diferentes características de las laptops y su precio, es momento de reflexionar sobre los resultados obtenidos.  

## 📌 **Instrucciones**  
1. **Analiza los resultados de la práctica** y redacta tus propias **conclusiones** sobre los factores que impactan en el precio de las laptops.  
2. **Compara tu análisis** con el que se presenta a continuación.  
3. Identifica **diferencias o similitudes** y reflexiona sobre posibles razones de estas diferencias.  




<details>
    <summary>🔎 Clic aquí para ver la solución</summary>  

```python
📊 Análisis Exploratorio de Datos (EDA) - Resultados y Conclusiones  

Este análisis exploratorio de datos (EDA) tiene como objetivo comprender la relación entre diferentes características de las laptops y su precio. Se han utilizado técnicas estadísticas y visualización de datos para identificar patrones, tendencias y correlaciones significativas.

🔎 Principales resultados  

🔹 Distribución de precios y características
- Se observa una gran variabilidad en los precios de las laptops.  
- Existen diferencias notables en precio según la categoría, sistema operativo y la presencia de una GPU dedicada.  
- Las características técnicas como la RAM, CPU y almacenamiento SSD presentan una tendencia positiva con el precio.  

🔹 Correlaciones destacadas con el precio 💰  
Las siguientes características muestran una correlación estadísticamente significativa con el precio:  
1. RAM_GB (Coef. = 0.5493, p-value = 0.0000)  
   - La cantidad de RAM tiene una relación positiva moderadamente fuerte con el precio.  
   - Laptops con mayor RAM tienden a ser más costosas.  

2. CPU_frequency (Coef. = 0.3667, p-value = 0.0000)  
   - Existe una correlación positiva moderada.  
   - Procesadores con mayor frecuencia suelen incrementar el precio de la laptop.  

3. CPU_core (Coef. = 0.4594, p-value = 0.0000)  
   - Relación positiva moderada.  
   - Un mayor número de núcleos en el procesador está asociado con laptops más caras.  

4. Storage_GB_SSD (Coef. = 0.2434, p-value = 0.0001)  
   - Relación positiva débil, pero significativa.  
   - Laptops con mayor capacidad de almacenamiento SSD tienden a ser más costosas.  

5. GPU (Coef. = 0.2883, p-value = 0.0000)
   - Relación positiva moderada.  
   - Laptops con tarjetas gráficas dedicadas suelen tener precios más altos.  

6. OS (Coef. = -0.2217, p-value = 0.0006)
   - Relación negativa significativa.  
   - Algunos sistemas operativos están más asociados con laptops de menor costo.  

7. Categoría (Coef. = 0.2862, p-value = 0.0000)
   - Relación positiva moderada.  
   - La categoría de la laptop tiene un impacto en su precio.  

🔹 Variables sin correlación significativa
Las siguientes características no mostraron una relación estadísticamente significativa con el precio:  
- Screen_Size_inch (Coef. = -0.1106, p-value = 0.0885): El tamaño de la pantalla no es un factor determinante en el costo.  
- Weight_pounds (Coef. = -0.0503, p-value = 0.4398): El peso de la laptop no tiene una relación clara con el precio.  

---

📌 Conclusion oficial

✅ Factores Clave que Impactan el Precio:  
- La cantidad de RAM, la frecuencia del CPU, el número de núcleos, la GPU, la capacidad de almacenamiento SSD y la categoría** de la laptop son los factores más influyentes en su precio.  

✅ El sistema operativo tiene un impacto en el precio, pero de manera negativa, lo que sugiere que algunas laptops con ciertos OS son más económicas.  

❌ El tamaño de la pantalla y el peso no son determinantes en el precio de las laptops.  

🚀 Este análisis puede ser útil para consumidores y fabricantes en la toma de decisiones informadas sobre la compra, venta y fabricación de laptops.
```

   </details>

## 🤔 **Reflexión final**  
- ¿Tu análisis coincide con la conclusión oficial?  
- ¿Existen diferencias o puntos adicionales que consideraste?  
- ¿Cómo interpretarías estos hallazgos en un contexto real?  

💡 **Comparar resultados te ayudará a mejorar tu capacidad analítica y validar la correcta ejecución de la práctica.** 🚀  


# 🎉 ¡Felicidades! Has completado la práctica 🚀  

Has finalizado con éxito el análisis exploratorio de datos (EDA) aplicado al conjunto de datos de laptops.  

🔍 **A lo largo de esta práctica, lograste:**  
✅ Importar y visualizar datos en Google Colab.  
✅ Generar gráficos para comprender patrones individuales y categóricos.  
✅ Aplicar análisis estadístico descriptivo.  
✅ Explorar relaciones entre variables con tablas dinámicas y gráficos de colores.  
✅ Evaluar correlaciones utilizando el coeficiente de Pearson y valores p.  
✅ Extraer conclusiones basadas en los resultados obtenidos.  

📌 **Siguientes pasos:**  
Si deseas profundizar más en el análisis, podrías:  
- Aplicar técnicas de Machine Learning para predecir precios de laptops.  
- Explorar otras visualizaciones interactivas con Plotly o Seaborn.  
- Comparar este análisis con otros conjuntos de datos similares.  

🎯 **¡Sigue explorando y mejorando tus habilidades en analisis de datos!** 🚀📊  
