Nombre: Caroline Michelle Sierra linares

# **1. Elección del conjunto de datos**

Para iniciar el análisis, se realizó la importación de las librerías necesarias para la manipulación, exploración y visualización de datos. A continuación, se describen las herramientas utilizadas:

- **`numpy`**: Librería para crear y manipular arrays numéricos.
- **`pandas`**: Herramienta para manejar estructuras de datos como DataFrames, permitiendo la carga, limpieza y manipulación de conjuntos de datos estructurados.
- **`seaborn`**: Librería de visualización avanzada basada en Matplotlib. Para generar gráficos estadísticos claros y atractivos.
- **`matplotlib.pyplot`**: Submódulo de Matplotlib utilizado para crear gráficos básicos como histogramas, gráficos de líneas y dispersión.
- **`matplotlib.image`**: Submódulo de Matplotlib para leer y manipular imágenes dentro de los gráficos.
- **`ydata_profiling`**: Librería para generar reportes automáticos de análisis exploratorio de datos (EDA), proporcionando una visión inicial completa y detallada del conjunto de datos.

Estas herramientas permiten llevar a cabo todas las etapas del análisis de datos, desde la exploración y visualización hasta la generación de reportes automáticos.

In [1]:
# Instalación de la librería generar reportes automáticos (EDA)
!pip install ydata_profiling -q

  Preparing metadata (setup.py) ... [?25l[?25hdone
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m390.9/390.9 kB[0m [31m10.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m296.5/296.5 kB[0m [31m19.0 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m686.1/686.1 kB[0m [31m34.2 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m104.8/104.8 kB[0m [31m7.5 MB/s[0m eta [36m0:00:00[0m
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.5/4.5 MB[0m [31m79.7 MB/s[0m eta [36m0:00:00[0m
[?25h  Building wheel for htmlmin (setup.py) ... [?25l[?25hdone


In [2]:
import numpy as np #para crear y manipular arrays numéricos.
import pandas as pd #Manejo de estructuras de datos
import seaborn as sns #libreria para ploting Avanzado
import matplotlib.pyplot as plt #para crear gráficos básicos
import matplotlib.image as mpimg #sub libreria para leer imagenes de matplotlib

In [3]:
from ydata_profiling import ProfileReport #libreria para generar un reporte EDA automatico

###Creación del DataFrame y Exploración Inicial del Conjunto de Datos

A partir del archivo CSV importado, en este caso lo denomine como **"amazon.csv"**, cree el DataFrame que servirá como base para todo el análisis. Este paso inicial es crucial para comprender la estructura del conjunto de datos y determinar qué columnas y variables son relevantes para el análisis posterior.

Una vez cargado el archivo en el DataFrame, comenzamos con una exploración preliminar del conjunto de datos para obtener una visión general de su contenido. Esto incluye la inspección de las primeras filas, la identificación de tipos de datos, la detección de valores faltantes y la evaluación de las estadísticas descriptivas. Esta fase nos permite determinar qué columnas son útiles y cuáles pueden ser descartadas o requieren transformación antes de proceder con un análisis más profundo.



In [4]:
df = pd.read_csv("amazon.csv")  # Creamos el dataframe del datase
print("Cantidad de filas y columnas del archivo:",df.shape) # .shape Para saber cuantas filas y cunatas columnas tiene el archivo

Cantidad de filas y columnas del archivo: (1465, 16)


# **2. Limpieza y Transformación de los Datos**

En esta fase, realizaremos una exploración detallada del conjunto de datos, comenzando con la inspección tanto de las primeras como de las últimas filas del DataFrame. Este paso es fundamental para obtener una visión general de la estructura de los datos, identificar posibles inconsistencias y verificar que las columnas estén correctamente formateadas.

Además de explorar las primeras y últimas filas, también realizaremos un análisis de la información general del conjunto de datos, como el tipo de datos de cada columna, la presencia de valores nulos y cualquier valor atípico que pueda requerir limpieza o transformación. Esto nos permitirá determinar qué transformaciones son necesarias para preparar los datos para un análisis más profundo y garantizar que sean adecuados para el modelado y la visualización.


In [5]:
print("Explorando las prrimeras filas del archivo:")
df.head(10) # .head() Para ver las primeras 10 (0-9) filas del archivo

Explorando las prrimeras filas del archivo:


Unnamed: 0,product_id,product_name,category,discounted_price,actual_price,discount_percentage,rating,rating_count,about_product,user_id,user_name,review_id,review_title,review_content,img_link,product_link
0,B07JW9H4J1,Wayona Nylon Braided USB to Lightning Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,₹399,"₹1,099",64%,4.2,24269,High Compatibility : Compatible With iPhone 12...,"AG3D6O4STAQKAY2UVGEUV46KN35Q,AHMY5CWJMMK5BJRBB...","Manav,Adarsh gupta,Sundeep,S.Sayeed Ahmed,jasp...","R3HXWT0LRP0NMF,R2AJM3LFTLZHFO,R6AQJGUP6P86,R1K...","Satisfied,Charging is really fast,Value for mo...",Looks durable Charging is fine tooNo complains...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Wayona-Braided-WN3LG1-Sy...
1,B098NS6PVG,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,₹199,₹349,43%,4.0,43994,"Compatible with all Type C enabled devices, be...","AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...
2,B096MSW6CT,Sounce Fast Phone Charging Cable & Data Sync U...,Computers&Accessories|Accessories&Peripherals|...,₹199,"₹1,899",90%,3.9,7928,【 Fast Charger& Data Sync】-With built-in safet...,"AGU3BBQ2V2DDAMOAKGFAWDDQ6QHA,AESFLDV2PT363T2AQ...","Kunal,Himanshu,viswanath,sai niharka,saqib mal...","R3J3EQQ9TZI5ZJ,R3E7WBGK7ID0KV,RWU79XKQ6I1QF,R2...","Good speed for earlier versions,Good Product,W...","Not quite durable and sturdy,https://m.media-a...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Sounce-iPhone-Charging-C...
3,B08HDJ86NZ,boAt Deuce USB 300 2 in 1 Type-C & Micro USB S...,Computers&Accessories|Accessories&Peripherals|...,₹329,₹699,53%,4.2,94363,The boAt Deuce USB 300 2 in 1 cable is compati...,"AEWAZDZZJLQUYVOVGBEUKSLXHQ5A,AG5HTSFRRE6NL3M5S...","Omkar dhale,JD,HEMALATHA,Ajwadh a.,amar singh ...","R3EEUZKKK9J36I,R3HJVYCLYOY554,REDECAZ7AMPQC,R1...","Good product,Good one,Nice,Really nice product...","Good product,long wire,Charges good,Nice,I bou...",https://m.media-amazon.com/images/I/41V5FtEWPk...,https://www.amazon.in/Deuce-300-Resistant-Tang...
4,B08CF3B7N1,Portronics Konnect L 1.2M Fast Charging 3A 8 P...,Computers&Accessories|Accessories&Peripherals|...,₹154,₹399,61%,4.2,16905,[CHARGE & SYNC FUNCTION]- This cable comes wit...,"AE3Q6KSUK5P75D5HFYHCRAOLODSA,AFUGIFH5ZAFXRDSZH...","rahuls6099,Swasat Borah,Ajay Wadke,Pranali,RVK...","R1BP4L2HH9TFUP,R16PVJEXKV6QZS,R2UPDB81N66T4P,R...","As good as original,Decent,Good one for second...","Bought this instead of original apple, does th...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Portronics-Konnect-POR-1...
5,B08Y1TFSP6,pTron Solero TB301 3A Type-C Data and Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,₹149,"₹1,000",85%,3.9,24871,Fast Charging & Data Sync: Solero TB301 Type-C...,"AEQ2YMXSZWEOHK2EHTNLOS56YTZQ,AGRVINWECNY7323CW...","Jayesh,Rajesh k.,Soopy,amazon customer,Aman,Sh...","R7S8ANNSDPR40,R3CLZFLHVJU26P,RFF7U7MPQFUGR,R1M...","It's pretty good,Average quality,very good and...","It's a good product.,Like,Very good item stron...",https://m.media-amazon.com/images/I/31wOPjcSxl...,https://www.amazon.in/Solero-TB301-Charging-48...
6,B08WRWPM22,"boAt Micro USB 55 Tangle-free, Sturdy Micro US...",Computers&Accessories|Accessories&Peripherals|...,₹176.63,₹499,65%,4.1,15188,It Ensures High Speed Transmission And Chargin...,"AG7C6DAADCTRQJG2BRS3RIKDT52Q,AFU7BOMPVJ7Q3TTA4...","Vivek kumar,Amazon Customer,SARTHAK,Chiranjeev...","R8E73K2KWJRDS,RSD0JTIIWQQL8,R64CRSTE9SLW1,R2FR...","Long durable.,good,Does not charge Lenovo m8 t...",Build quality is good and it is comes with 2 y...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/boAt-Micro-USB-Tangle-Fr...
7,B08DDRGWTJ,MI Usb Type-C Cable Smartphone (Black),Computers&Accessories|Accessories&Peripherals|...,₹229,₹299,23%,4.3,30411,1m long Type-C USB Cable|Sturdy and Durable. W...,"AHW6E5LQ2BDYOIVLAJGDH45J5V5Q,AF74RSGCHPZITVFSZ...","Pavan A H,Jayesh bagad,Shridhar,rajendran,karu...","R2X090D1YHACKR,R32ZCIH9AFNJ60,R3N57EVVG0EHAF,R...","Worth for money - suitable for Android auto,Go...",Worth for money - suitable for Android auto......,https://m.media-amazon.com/images/I/31XO-wfGGG...,https://www.amazon.in/MI-MTCY001IN-USB-Type-C-...
8,B008IFXQFU,"TP-Link USB WiFi Adapter for PC(TL-WN725N), N1...",Computers&Accessories|NetworkingDevices|Networ...,₹499,₹999,50%,4.2,179691,USB WiFi Adapter —— Speedy wireless transmissi...,"AGV3IEFANZCKECFGUM42MRH5FNOA,AEBO7NWCNXKT4AESA...","Azhar JuMan,Anirudh Sood,Hari Krishnan PS,Akas...","R1LW6NWSVTVZ2H,R3VR5WFKUS15C5,R2F6GC79OYWUKQ,R...",Works on linux for me. Get the model with ante...,I use this to connect an old PC to internet. I...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/TP-Link-TL-WN725N-150Mbp...
9,B082LZGK39,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,₹199,₹299,33%,4.0,43994,Universal Compatibility – It is compatible wit...,"AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...


In [6]:
df.tail() # .tail() Para ver las ultimas 5 filas del archivo

Unnamed: 0,product_id,product_name,category,discounted_price,actual_price,discount_percentage,rating,rating_count,about_product,user_id,user_name,review_id,review_title,review_content,img_link,product_link
1460,B08L7J3T31,Noir Aqua - 5pcs PP Spun Filter + 1 Spanner | ...,Home&Kitchen|Kitchen&HomeAppliances|WaterPurif...,₹379,₹919,59%,4.0,1090,SUPREME QUALITY 90 GRAM 3 LAYER THIK PP SPUN F...,"AHITFY6AHALOFOHOZEOC6XBP4FEA,AFRABBODZJZQB6Z4U...","Prabha ds,Raghuram bk,Real Deal,Amazon Custome...","R3G3XFHPBFF0E8,R3C0BZCD32EIGW,R2EBVBCN9QPD9R,R...","Received the product without spanner,Excellent...","I received product without spanner,Excellent p...",https://m.media-amazon.com/images/I/41fDdRtjfx...,https://www.amazon.in/Noir-Aqua-Spanner-Purifi...
1461,B01M6453MB,Prestige Delight PRWO Electric Rice Cooker (1 ...,Home&Kitchen|Kitchen&HomeAppliances|SmallKitch...,"₹2,280","₹3,045",25%,4.1,4118,"230 Volts, 400 watts, 1 Year","AFG5FM3NEMOL6BNFRV2NK5FNJCHQ,AGEINTRN6Z563RMLH...","Manu Bhai,Naveenpittu,Evatira Sangma,JAGANNADH...","R3DDL2UPKQ2CK9,R2SYYU1OATVIU5,R1VM993161IYRW,R...","ok,everything was good couldn't return bcoz I ...","ok,got everything as mentioned but the measuri...",https://m.media-amazon.com/images/I/41gzDxk4+k...,https://www.amazon.in/Prestige-Delight-PRWO-1-...
1462,B009P2LIL4,Bajaj Majesty RX10 2000 Watts Heat Convector R...,"Home&Kitchen|Heating,Cooling&AirQuality|RoomHe...","₹2,219","₹3,080",28%,3.6,468,International design and styling|Two heat sett...,"AGVPWCMAHYQWJOQKMUJN4DW3KM5Q,AF4Q3E66MY4SR7YQZ...","Nehal Desai,Danish Parwez,Amazon Customer,Amaz...","R1TLRJVW4STY5I,R2O455KRN493R1,R3Q5MVGBRIAS2G,R...","very good,Work but front melt after 2 month,Go...","plastic but cool body ,u have to find sturdy s...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Bajaj-RX-10-2000-Watt-Co...
1463,B00J5DYCCA,Havells Ventil Air DSP 230mm Exhaust Fan (Pist...,"Home&Kitchen|Heating,Cooling&AirQuality|Fans|E...","₹1,399","₹1,890",26%,4.0,8031,Fan sweep area: 230 MM ; Noise level: (40 - 45...,"AF2JQCLSCY3QJATWUNNHUSVUPNQQ,AFDMLUXC5LS5RXDJS...","Shubham Dubey,E.GURUBARAN,Mayank S.,eusuf khan...","R39Q2Y79MM9SWK,R3079BG1NIH6MB,R29A31ZELTZNJM,R...","Fan Speed is slow,Good quality,Good product,go...",I have installed this in my kitchen working fi...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Havells-Ventilair-230mm-...
1464,B01486F4G6,Borosil Jumbo 1000-Watt Grill Sandwich Maker (...,Home&Kitchen|Kitchen&HomeAppliances|SmallKitch...,"₹2,863","₹3,690",22%,4.3,6987,"Brand-Borosil, Specification â€“ 23V ~ 5Hz;1 W...","AFGW5PT3R6ZAVQR4Y5MWVAKBZAYA,AG7QNJ2SCS5VS5VYY...","Rajib,Ajay B,Vikas Kahol,PARDEEP,Anindya Prama...","R20RBRZ0WEUJT9,ROKIFK9R2ISSE,R30EEG2FNJSN5I,R2...","Works perfect,Ok good product,Nice Product. Re...",It does it job perfectly..only issue is temp c...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Borosil-Jumbo-1000-Watt-...


In [7]:
df.describe().T

Unnamed: 0,count,unique,top,freq
product_id,1465,1351,B07JW9H4J1,3
product_name,1465,1337,"Fire-Boltt Ninja Call Pro Plus 1.83"" Smart Wat...",5
category,1465,211,Computers&Accessories|Accessories&Peripherals|...,233
discounted_price,1465,550,₹199,53
actual_price,1465,449,₹999,120
discount_percentage,1465,92,50%,56
rating,1465,28,4.1,244
rating_count,1463,1143,9378,9
about_product,1465,1293,[CHARGE & SYNC FUNCTION]- This cable comes wit...,6
user_id,1465,1194,"AHIKJUDTVJ4T6DV6IUGFYZ5LXMPA,AE55KTFVNXYFD5FPY...",10


In [8]:
df.info() # .info() Para ver la informacion del archivo, obervar que los tipos son "object"

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   product_id           1465 non-null   object
 1   product_name         1465 non-null   object
 2   category             1465 non-null   object
 3   discounted_price     1465 non-null   object
 4   actual_price         1465 non-null   object
 5   discount_percentage  1465 non-null   object
 6   rating               1465 non-null   object
 7   rating_count         1463 non-null   object
 8   about_product        1465 non-null   object
 9   user_id              1465 non-null   object
 10  user_name            1465 non-null   object
 11  review_id            1465 non-null   object
 12  review_title         1465 non-null   object
 13  review_content       1465 non-null   object
 14  img_link             1465 non-null   object
 15  product_link         1465 non-null   object
dtypes: obj

### **Modificación de datos de las columnas "discounted_price" y "actual_price"**

Las columnas **"discounted_price"** y **"actual_price"** en el conjunto de datos están expresadas en rupias indias (₹ - INR). Para facilitar la comprensión y el análisis, es necesario convertir estos valores a dólares estadounidenses (USD).

Dado que el dataset proviene de Kaggle y pertenece a la categoría de "gold", se encuentra bastante limpio y listo para ser procesado en la fase de Análisis Exploratorio de Datos (EDA).

Para realizar la conversión a USD, crearemos una copia del DataFrame original. Esto es importante para evitar modificar directamente el DataFrame original, lo que nos permitirá mantener una versión intacta de los datos en caso de que necesitemos realizar algún ajuste adicional más adelante.

In [9]:
df_copy = df.copy() #Creando copia, así la variable df_copy no hace referencia al df original

### **Limpieza de las columnas "discounted_price" y "actual_price"**

Dado que las columnas **"discounted_price"** y **"actual_price"** están inicialmente como tipo **"object"**, es necesario convertirlas a tipo **float** para que puedan ser utilizadas en cálculos y análisis posteriores.

Además, estas columnas contienen comas (",") como separadores de miles y el símbolo de la rupia india (₹), lo que puede dificultar la interpretación correcta de los datos.

El primer paso consiste en limpiar estas columnas eliminando el símbolo **₹** y las comas **","**.

### **Pasos a seguir:**
1. **Eliminación del símbolo ₹ y las comas**: Usaremos una función de reemplazo para eliminar estos caracteres, dejando solo los valores numéricos.
2. **Conversión a tipo float**: Una vez que los valores estén limpios, convertiremos las columnas a tipo **float** para poder realizar operaciones matemáticas.


In [10]:
# Limpieza de las columnas originales para eliminar signo "₹" y comas
discounted_price_clean = df_copy['discounted_price'].str.replace('₹', '', regex=True).str.replace(',', '', regex=True).astype(float)

In [11]:
actual_price_clean = df_copy['actual_price'].str.replace('₹', '', regex=True).str.replace(',', '', regex=True).astype(float)

3. **Conversión de Rupias a Dólares**: Posteriormente, realizaremos la conversión de los valores de Rupia India (INR) a dólares estadounidenses (USD), utilizando la tasa de conversión actual de **1 INR = 0.0.01185 USD** (según Google).

In [12]:
discounted_price_usd = discounted_price_clean * 0.01185
actual_price_usd = actual_price_clean * 0.01185

### **Creación de las nuevas columnas ya listas en `df_copy`**

Una vez que hemos limpiado y convertido las columnas **"discounted_price"** y **"actual_price"** a valores numéricos en dólares, el siguiente paso es crear nuevas columnas en el DataFrame **`df_copy`** para almacenar los resultados de la conversión.

Para asegurar que los valores sean representativos de la conversión actual y mantener un formato adecuado para el análisis, realice un **redondeo a dos decimales**. Esto simula la conversión exacta de Rupias a Dólares y facilita el trabajo con los datos en pasos posteriores.

In [13]:
df_copy['discounted_price_usd'] = discounted_price_usd.round(2)
df_copy['actual_price_usd'] = actual_price_usd.round(2)

Y por último obersvamos los cambios

In [14]:
df_copy.head()

Unnamed: 0,product_id,product_name,category,discounted_price,actual_price,discount_percentage,rating,rating_count,about_product,user_id,user_name,review_id,review_title,review_content,img_link,product_link,discounted_price_usd,actual_price_usd
0,B07JW9H4J1,Wayona Nylon Braided USB to Lightning Fast Cha...,Computers&Accessories|Accessories&Peripherals|...,₹399,"₹1,099",64%,4.2,24269,High Compatibility : Compatible With iPhone 12...,"AG3D6O4STAQKAY2UVGEUV46KN35Q,AHMY5CWJMMK5BJRBB...","Manav,Adarsh gupta,Sundeep,S.Sayeed Ahmed,jasp...","R3HXWT0LRP0NMF,R2AJM3LFTLZHFO,R6AQJGUP6P86,R1K...","Satisfied,Charging is really fast,Value for mo...",Looks durable Charging is fine tooNo complains...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Wayona-Braided-WN3LG1-Sy...,4.73,13.02
1,B098NS6PVG,Ambrane Unbreakable 60W / 3A Fast Charging 1.5...,Computers&Accessories|Accessories&Peripherals|...,₹199,₹349,43%,4.0,43994,"Compatible with all Type C enabled devices, be...","AECPFYFQVRUWC3KGNLJIOREFP5LQ,AGYYVPDD7YG7FYNBX...","ArdKn,Nirbhay kumar,Sagar Viswanathan,Asp,Plac...","RGIQEG07R9HS2,R1SMWZQ86XIN8U,R2J3Y1WL29GWDE,RY...","A Good Braided Cable for Your Type C Device,Go...",I ordered this cable to connect my phone to An...,https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Ambrane-Unbreakable-Char...,2.36,4.14
2,B096MSW6CT,Sounce Fast Phone Charging Cable & Data Sync U...,Computers&Accessories|Accessories&Peripherals|...,₹199,"₹1,899",90%,3.9,7928,【 Fast Charger& Data Sync】-With built-in safet...,"AGU3BBQ2V2DDAMOAKGFAWDDQ6QHA,AESFLDV2PT363T2AQ...","Kunal,Himanshu,viswanath,sai niharka,saqib mal...","R3J3EQQ9TZI5ZJ,R3E7WBGK7ID0KV,RWU79XKQ6I1QF,R2...","Good speed for earlier versions,Good Product,W...","Not quite durable and sturdy,https://m.media-a...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Sounce-iPhone-Charging-C...,2.36,22.5
3,B08HDJ86NZ,boAt Deuce USB 300 2 in 1 Type-C & Micro USB S...,Computers&Accessories|Accessories&Peripherals|...,₹329,₹699,53%,4.2,94363,The boAt Deuce USB 300 2 in 1 cable is compati...,"AEWAZDZZJLQUYVOVGBEUKSLXHQ5A,AG5HTSFRRE6NL3M5S...","Omkar dhale,JD,HEMALATHA,Ajwadh a.,amar singh ...","R3EEUZKKK9J36I,R3HJVYCLYOY554,REDECAZ7AMPQC,R1...","Good product,Good one,Nice,Really nice product...","Good product,long wire,Charges good,Nice,I bou...",https://m.media-amazon.com/images/I/41V5FtEWPk...,https://www.amazon.in/Deuce-300-Resistant-Tang...,3.9,8.28
4,B08CF3B7N1,Portronics Konnect L 1.2M Fast Charging 3A 8 P...,Computers&Accessories|Accessories&Peripherals|...,₹154,₹399,61%,4.2,16905,[CHARGE & SYNC FUNCTION]- This cable comes wit...,"AE3Q6KSUK5P75D5HFYHCRAOLODSA,AFUGIFH5ZAFXRDSZH...","rahuls6099,Swasat Borah,Ajay Wadke,Pranali,RVK...","R1BP4L2HH9TFUP,R16PVJEXKV6QZS,R2UPDB81N66T4P,R...","As good as original,Decent,Good one for second...","Bought this instead of original apple, does th...",https://m.media-amazon.com/images/W/WEBP_40237...,https://www.amazon.in/Portronics-Konnect-POR-1...,1.82,4.73


Ahora, pasaremos la columna ``` rating_count ``` a numérico.
Para ello deberiamos eliminar la coma y convertirlos a datos númericos



In [15]:
# Eliminar comas y convertir a tipo float
df_copy['rating_count'] = df_copy['rating_count'].str.replace(',', '', regex=True).astype(float)

Verificamos conversión

In [16]:
print(df_copy['rating_count'].head(10))  # Muestra las primeras 10 filas convertidas

0     24269.0
1     43994.0
2      7928.0
3     94363.0
4     16905.0
5     24871.0
6     15188.0
7     30411.0
8    179691.0
9     43994.0
Name: rating_count, dtype: float64


Posteriormente, también la columna ```rating``` pasarlo a valor numérico

In [17]:
# Convertir 'rating' directamente a tipo float
df_copy['rating'] = df_copy['rating'].astype(float)

ValueError: could not convert string to float: '|'

### **Conversión de la columna "rating" a valores numéricos**

Posteriormente, obervamos que hay problemas debido a la presencia de caracteres no numéricos, como el string **'|'**, que no pueden ser convertidos directamente a números.

Para solucionar este problema, reemplazare todos los valores **'|'** en la columna **`rating`** por **NaN** (Not a Number). Pero primero, debo cotnar cuantas veces aparece este string para saber que hacer con estos datos.


Veremos cuantos signos '|' hay, para saber si podemos reemplazarlos por un NaN


In [18]:
# Contar cuántas veces aparece el valor '|'
num_pipes = (df_copy['rating'] == '|').sum()
print(f"El valor '|' aparece {num_pipes} veces en la columna 'rating'.")

El valor '|' aparece 1 veces en la columna 'rating'.


In [19]:
# Reemplazar '|' con NaN ya que no son muchos.
df_copy['rating'] = df_copy['rating'].replace('|', None)

Se vuelve a correr nuevamente el comando para pasarlos a numéricos

In [20]:
# Convertir 'rating' directamente a tipo float
df_copy['rating'] = df_copy['rating'].astype(float)

Ahora visualiamos si se transformaron correctamente los datos de raiting.

In [21]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   product_id            1465 non-null   object 
 1   product_name          1465 non-null   object 
 2   category              1465 non-null   object 
 3   discounted_price      1465 non-null   object 
 4   actual_price          1465 non-null   object 
 5   discount_percentage   1465 non-null   object 
 6   rating                1464 non-null   float64
 7   rating_count          1463 non-null   float64
 8   about_product         1465 non-null   object 
 9   user_id               1465 non-null   object 
 10  user_name             1465 non-null   object 
 11  review_id             1465 non-null   object 
 12  review_title          1465 non-null   object 
 13  review_content        1465 non-null   object 
 14  img_link              1465 non-null   object 
 15  product_link         

### **Conversión de la columna "discount_percentage" a valores numéricos**

También la columna **`discount_percentage`** puede ser convertida a valores numéricos.


In [22]:
df_copy['discount_percentage'] = df_copy['discount_percentage'].str.replace('%', '', regex=True).astype(float)

verificamos nuevamente el tipo de dato


In [23]:
df_copy.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1465 entries, 0 to 1464
Data columns (total 18 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   product_id            1465 non-null   object 
 1   product_name          1465 non-null   object 
 2   category              1465 non-null   object 
 3   discounted_price      1465 non-null   object 
 4   actual_price          1465 non-null   object 
 5   discount_percentage   1465 non-null   float64
 6   rating                1464 non-null   float64
 7   rating_count          1463 non-null   float64
 8   about_product         1465 non-null   object 
 9   user_id               1465 non-null   object 
 10  user_name             1465 non-null   object 
 11  review_id             1465 non-null   object 
 12  review_title          1465 non-null   object 
 13  review_content        1465 non-null   object 
 14  img_link              1465 non-null   object 
 15  product_link         

In [24]:
df_copy.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
discount_percentage,1465.0,47.691468,21.635905,0.0,32.0,50.0,63.0,94.0
rating,1464.0,4.096585,0.291674,2.0,4.0,4.1,4.3,5.0
rating_count,1463.0,18295.541353,42753.864952,2.0,1186.0,5179.0,17336.5,426973.0
discounted_price_usd,1465.0,37.03514,82.290126,0.46,3.85,9.47,23.69,924.18
actual_price_usd,1465.0,64.523317,128.866773,0.46,9.48,19.55,50.9,1657.81


### **Verificación de valores nulos en cada columna**

Es fundamental revisar la cantidad de **valores nulos** en cada columna del conjunto de datos. Los valores nulos pueden afectar el análisis y la calidad de los resultados, por lo que es necesario identificarlos y decidir cómo tratarlos (por ejemplo, eliminarlos o imputarlos).


In [25]:
# Ver la cantidad de valores nulos en cada columna
print(df_copy.isnull().sum())

product_id              0
product_name            0
category                0
discounted_price        0
actual_price            0
discount_percentage     0
rating                  1
rating_count            2
about_product           0
user_id                 0
user_name               0
review_id               0
review_title            0
review_content          0
img_link                0
product_link            0
discounted_price_usd    0
actual_price_usd        0
dtype: int64


### **Manejo de valores nulos en la columna "rating"**

Al revisar los valores nulos en la columna **`rating`**, noté que son pocos, por lo que he decidido **rellenarlos con el valor promedio de la columna**. Esto me permitirá mantener la consistencia de los datos sin perder demasiada información, ya que los valores nulos en esta columna son limitados.


In [29]:
# Rellenar valores nulos en 'rating' con el promedio
df_copy['rating'] = df_copy['rating'].fillna(df_copy['rating'].mean())

### **Manejo de valores nulos en la columna "rating_count"**

Para la columna **`rating_count`**, decidí **rellenar los valores nulos con 0**. Esto tiene sentido porque si un producto no tiene calificaciones, es razonable asumir que el número de calificaciones es 0.

In [31]:
# Rellenar valores nulos en 'rating_count' con 0
df_copy['rating_count'] = df_copy['rating_count'].fillna(0)

verificamos nuevamente los valores

In [32]:
print(df_copy.isnull().sum())

product_id              0
product_name            0
category                0
discounted_price        0
actual_price            0
discount_percentage     0
rating                  0
rating_count            0
about_product           0
user_id                 0
user_name               0
review_id               0
review_title            0
review_content          0
img_link                0
product_link            0
discounted_price_usd    0
actual_price_usd        0
dtype: int64


### **Verificación de valores duplicados**

Es importante verificar si existen **valores duplicados** en el conjunto de datos, ya que los registros duplicados pueden afectar la calidad del análisis y sesgar los resultados. Al identificar y eliminar duplicados, aseguramos que cada entrada sea única y que los resultados del análisis sean precisos.


Armamos el dataset solo con los dato de interes

In [37]:
# Seleccionar columnas relevantes
df_final = ['discounted_price_usd', 'actual_price_usd',
                    'discount_percentage', 'rating', 'rating_count', 'category'
                    , 'user_name', 'product_name']
df_final = df_copy[df_final]

Verificamos los duplicados con los datos de interes

In [83]:
# Verificar si hay filas duplicadas
duplicados = df_final.duplicated()
print(f"Cantidad de filas duplicadas: {duplicados.sum()}")

Cantidad de filas duplicadas: 85


In [84]:
# Mostrar las filas duplicadas
df_duplicados = df_final[df_final.duplicated()]
print(df_duplicados)

      discounted_price_usd  actual_price_usd  discount_percentage  rating  \
296                   2.36              4.73                 50.0     4.2   
364                  21.32            236.99                 91.0     4.2   
368                  21.32            236.99                 91.0     4.2   
372                  21.32            236.99                 91.0     4.2   
380                  21.32            236.99                 91.0     4.2   
...                    ...               ...                  ...     ...   
1007                 21.32             47.39                 55.0     4.6   
1010                  3.85             15.39                 75.0     4.2   
1017                 30.80             82.94                 63.0     4.5   
1018                  2.36             11.84                 80.0     4.5   
1019                  3.19              9.48                 66.0     3.6   

      rating_count                                           category  \
29

In [38]:
# Eliminar filas duplicadas
df_final = df_final.drop_duplicates()

# Verificar que ya no haya duplicados
print(f"Cantidad de filas duplicadas después de limpiar: {df_final.duplicated().sum()}")

Cantidad de filas duplicadas después de limpiar: 0


## **3. Análisis Exploratorio de Datos (EDA) y Visualización de Resultados**

Una vez que se han seleccionado las columnas relevantes, se procede a realizar el **Análisis Exploratorio de Datos (EDA)**. Para ello, se utiliza una herramienta que permite generar un reporte EDA automático, facilitando la exploración y comprensión de los datos de manera rápida y eficiente.

Para utilizar esta herramienta, previamente se instaló la librería **`ydata_profiling`**


In [91]:
report = ProfileReport(df_final)

In [96]:
report



# 4. Concluciones y hallazgos importantes**

## **Distribución de calificaciones**
- La mayoría de los productos tienen **pocas calificaciones** (cerca de 0 en `rating_count`), lo que podría reflejar productos nuevos o menos populares. Esto indica que una gran cantidad de artículos no generan suficiente interacción por parte de los usuarios.

## **Relación entre descuentos y calificaciones**
- Los productos con un descuento de alrededor del **60%** suelen tener una **calificación promedio entre 4.0 y 4.5**, lo que los posiciona como opciones bien valoradas por los consumidores.
- Los productos con **descuentos altos (>80%)** tienden a tener calificaciones más bajas en promedio. Sin embargo, hay excepciones en las que productos con descuentos altos obtienen calificaciones altas.
- Los **descuentos moderados (40%-50%)** generan una mayor dispersión en las calificaciones, con valores que van desde **3.5 hasta 4.5**. Esto indica que estos descuentos pueden atraer más interacción, aunque la percepción de calidad varía.

## **Relación entre precio y descuento**
- Los productos con precios más altos no necesariamente tienen mayores descuentos porcentuales. Esto sugiere que las estrategias de descuento no están directamente relacionadas con el precio original del producto, sino que podrían depender de otros factores como la categoría.

## **Correlaciones detectadas**
- Existe una **alta correlación** entre `actual_price_usd` y `discounted_price_usd`. Esto es esperado, ya que el precio con descuento depende directamente del precio original y del porcentaje de descuento aplicado.

## **Productos sin descuento**
- El **3.4% de los productos** tienen un porcentaje de descuento igual a **0%**. Aunque esto no representa una alerta, indica que hay artículos que no están incluidos en promociones.
---

# **Próximos pasos a seguir**

**Análisis de productos con pocas calificaciones**  
   - Investigar las características de los productos con pocas calificaciones para determinar si son nuevos, pertenecen a categorías menos populares, o si hay barreras para que los usuarios los califiquen.

**Exploración de categorías específicas**  
   - Analizar si las relaciones entre precio, descuento y calificación varían según la categoría del producto. Esto podría ayudar a diseñar estrategias de descuento más personalizadas y efectivas.

**Optimización de estrategias de descuento**  
   - Evaluar si los descuentos moderados (40%-50%) podrían ser más efectivos en términos de atraer interacciones sin afectar negativamente la percepción de calidad.
