# Fragrantica Perfume Data Science Project

## Project Overview
This project involves web scraping perfume data from the website Fragrantica. The goal is to analyze the data to uncover insights about the perfumes, such as the most popular notes, trends in fragrance releases, and user preferences.

(Resumen del Proyecto
Este proyecto implica la recolección de datos de perfumes mediante web scraping del sitio web Fragrantica. El objetivo es analizar los datos para descubrir información sobre los perfumes, como las notas más populares, tendencias en lanzamientos de fragancias y preferencias de los usuarios.)

## Steps Involved
1. **Data Collection**: Web scraping Fragrantica to collect perfume-related data.
   
   (Recolección de Datos: Recolección de datos relacionados con perfumes mediante web scraping de Fragrantica.)

2. **Data Cleaning and Preprocessing**: Cleaning and structuring the data for analysis.
   
   (Limpieza y Preprocesamiento de Datos: Limpieza y estructuración de los datos para el análisis.)

3. **Exploratory Data Analysis (EDA)**: Exploring the data to identify patterns, trends, and insights.
   
   (Análisis Exploratorio de Datos (EDA): Exploración de los datos para identificar patrones, tendencias y conocimientos.)

4. **Data Visualization**: Visualizing the findings through charts and graphs.
   
   (Visualización de Datos: Visualización de los hallazgos mediante gráficos y diagramas.)

5. **Modeling and Predictions**: Building models to predict trends and preferences in perfumes.
   
   (Modelado y Predicciones: Creación de modelos para predecir tendencias y preferencias en perfumes.)

6. **Conclusion and Insights**: Summarizing the findings and insights gained from the analysis.
   
   (Conclusiones y Conocimientos: Resumen de los hallazgos y conocimientos obtenidos del análisis.)

## Tools and Libraries
- **Python**: Programming language for data manipulation and analysis.
  
  (Python: Lenguaje de programación para la manipulación y análisis de datos.)

- **Pandas**: Library for data manipulation and analysis.
  
  (Pandas: Biblioteca para la manipulación y análisis de datos.)

- **BeautifulSoup/Scrapy**: Tools for web scraping.
  
  (BeautifulSoup/Scrapy: Herramientas para la recolección de datos mediante web scraping.)

- **Matplotlib/Seaborn**: Libraries for data visualization.
  
  (Matplotlib/Seaborn: Bibliotecas para la visualización de datos.)

## Data Source
The data for this project was collected from Fragrantica.com using web scraping techniques.

(Fuente de Datos
Los datos para este proyecto fueron recolectados de Fragrantica.com utilizando técnicas de web scraping.)

## Author
Your Name (Tu Nombre)

## Date
August 2024 (Agosto 2024)


## Web Scraping Process

### Overview
The data for this project was collected from Fragrantica.com using web scraping techniques. Web scraping is a method of extracting information from websites by mimicking human interaction with the site. This data is crucial for analyzing trends and patterns in perfumes.

(Resumen
Los datos para este proyecto fueron recolectados de Fragrantica.com utilizando técnicas de web scraping. El web scraping es un método de extracción de información de sitios web imitando la interacción humana con el sitio. Estos datos son cruciales para analizar tendencias y patrones en perfumes.)

### Steps Involved

1. **Identifying the Target URLs**:
   - First, I identified the pages on Fragrantica.com that contained the information needed, such as perfume names, notes, brands, and user ratings.
   
   (Identificación de las URLs Objetivo:
   - Primero, identifiqué las páginas en Fragrantica.com que contenían la información necesaria, como nombres de perfumes, notas, marcas y calificaciones de usuarios.)

2. **Inspecting the Web Page Structure**:
   - Using the browser's Developer Tools, I inspected the HTML structure of the web pages to identify the tags and classes containing the desired data.
   
   (Inspección de la Estructura de la Página Web:
   - Usando las Herramientas de Desarrollador del navegador, inspeccioné la estructura HTML de las páginas web para identificar las etiquetas y clases que contenían los datos deseados.)

3. **Writing the Scraping Script**:
   - I wrote a Python script using libraries like `BeautifulSoup` and `requests` to send HTTP requests to the target URLs and parse the HTML content.
   - The script extracted the relevant data and stored it in a structured format, such as a CSV file.
   
   (Escritura del Script de Scraping:
   - Escribí un script en Python usando bibliotecas como `BeautifulSoup` y `requests` para enviar solicitudes HTTP a las URLs objetivo y analizar el contenido HTML.
   - El script extrajo los datos relevantes y los guardó en un formato estructurado, como un archivo CSV.)

4. **Handling Pagination and Dynamic Content**:
   - For pages with multiple sections or pagination, I implemented logic to navigate through all pages and collect data from each one.
   - In case of dynamic content loaded by JavaScript, I used tools like `Selenium` to simulate user interaction and capture the necessary data.
   
   (Manejo de Paginación y Contenido Dinámico:
   - Para páginas con múltiples secciones o paginación, implementé lógica para navegar por todas las páginas y recopilar datos de cada una.
   - En caso de contenido dinámico cargado por JavaScript, utilicé herramientas como `Selenium` para simular la interacción del usuario y capturar los datos necesarios.)

5. **Storing the Data**:
   - The scraped data was saved in CSV files for further analysis. Each CSV file corresponds to a different category or section of perfumes.
   
   (Almacenamiento de los Datos:
   - Los datos recolectados se guardaron en archivos CSV para un análisis posterior. Cada archivo CSV corresponde a una categoría o sección diferente de perfumes.)

6. **Ethical Considerations**:
   - While scraping, I ensured that the website’s `robots.txt` file was respected and that the scraping was conducted in a manner that does not overload the website.
   
   (Consideraciones Éticas:
   - Mientras hacía scraping, me aseguré de que se respetara el archivo `robots.txt` del sitio web y de que el scraping se realizara de manera que no sobrecargara el sitio web.)

### Code Example
Below is a code snippet that illustrates how the web scraping was performed using Python:

(Código Ejemplo
A continuación, un fragmento de código que ilustra cómo se realizó el scraping web usando Python:)

```python
import requests
from bs4 import BeautifulSoup

# Example URL (URL de ejemplo)
url = 'https://www.fragrantica.com/perfume/Brand/Perfume-Name.html'

# Sending a GET request to the website (Enviando una solicitud GET al sitio web)
response = requests.get(url)

# Parsing the HTML content (Analizando el contenido HTML)
soup = BeautifulSoup(response.content, 'html.parser')

# Extracting data (Extracción de datos)
perfume_name = soup.find('h1', class_='perfume-name').text.strip()
brand_name = soup.find('h2', class_='brand-name').text.strip()
notes = [note.text for note in soup.find_all('span', class_='note')]

print(f'Perfume: {perfume_name}, Brand: {brand_name}, Notes: {notes}')


## Data Cleaning Process

### Overview
Once the data was collected through web scraping, it required cleaning and preprocessing to ensure it was in a suitable format for analysis. Data cleaning is essential to remove inconsistencies, correct errors, and handle missing values, which could otherwise affect the quality and accuracy of the analysis.

(Resumen
Una vez recolectados los datos mediante web scraping, fue necesario limpiarlos y preprocesarlos para asegurar que estuvieran en un formato adecuado para el análisis. La limpieza de datos es esencial para eliminar inconsistencias, corregir errores y manejar valores faltantes, que de otro modo podrían afectar la calidad y precisión del análisis.)

### Steps Involved

1. **Handling Missing Values**:
   - Identified any missing values in the dataset using `isnull()` and handled them by either filling them with appropriate values (e.g., mean, median) or removing the rows/columns if necessary.
   
   (Manejo de Valores Faltantes:
   - Identifiqué los valores faltantes en el conjunto de datos usando `isnull()` y los manejé llenándolos con valores apropiados (por ejemplo, media, mediana) o eliminando las filas/columnas si era necesario.)

2. **Removing Duplicates**:
   - Checked for and removed duplicate entries to avoid redundant data using `drop_duplicates()`. This ensures that each record in the dataset is unique.
   
   (Eliminación de Duplicados:
   - Verifiqué y eliminé entradas duplicadas para evitar datos redundantes usando `drop_duplicates()`. Esto asegura que cada registro en el conjunto de datos sea único.)

3. **Correcting Data Types**:
   - Ensured that each column had the correct data type (e.g., converting strings to dates, numbers to integers/floats) to facilitate accurate analysis and prevent errors during computations.
   
   (Corrección de Tipos de Datos:
   - Aseguré que cada columna tuviera el tipo de dato correcto (por ejemplo, convirtiendo cadenas a fechas, números a enteros/decimales) para facilitar un análisis preciso y prevenir errores durante los cálculos.)

4. **Standardizing Text Data**:
   - Standardized text data by converting all text to lower case and stripping leading/trailing whitespaces to maintain consistency.
   - Corrected common spelling errors or variations in the text (e.g., "floral" vs "florals").
   
   (Estandarización de Datos de Texto:
   - Estandaricé los datos de texto convirtiendo todo a minúsculas y eliminando espacios en blanco al principio/final para mantener la consistencia.
   - Corregí errores ortográficos comunes o variaciones en el texto (por ejemplo, "floral" vs "florals").)

5. **Handling Outliers**:
   - Identified and handled outliers in numerical data using statistical methods like Z-scores or IQR (Interquartile Range) to determine if they should be removed or adjusted.
   
   (Manejo de Valores Atípicos:
   - Identifiqué y manejé valores atípicos en datos numéricos utilizando métodos estadísticos como puntajes Z o IQR (rango intercuartílico) para determinar si debían ser eliminados o ajustados.)

6. **Parsing and Extracting Features**:
   - Extracted additional features from existing columns where applicable, such as splitting a "date" column into "year", "month", and "day" columns.
   
   (Análisis y Extracción de Características:
   - Extraje características adicionales de columnas existentes cuando fue aplicable, como dividir una columna "fecha" en columnas "año", "mes" y "día".)

7. **Data Validation**:
   - Validated the cleaned data to ensure there were no inconsistencies or errors introduced during the cleaning process. This included checking for correct data types, valid ranges for numerical data, and consistency in categorical data.
   
   (Validación de Datos:
   - Validé los datos limpiados para asegurar que no hubiera inconsistencias o errores introducidos durante el proceso de limpieza. Esto incluyó verificar los tipos de datos correctos, rangos válidos para datos numéricos y consistencia en los datos categóricos.)




To accomplish the task of concatenating  CSV files into a single file, I use the pandas library. The code will load each of the CSV files, concatenate them into a single DataFrame, and then save the result to a new CSV file named fra_scraping.csv.


(Leyendo los archivos CSV en un bucle, los leemos en un DataFrame y los agregamos a una lista.)

(Concatenando los DataFrames usando pd.concat() en un solo DataFrame.)

In [8]:
import pandas as pd
import os

# Define the path to the folder containing the CSV files (Definir la ruta a la carpeta que contiene los archivos CSV)
folder_path = 'data/Fragrantica/'  
# List of all CSV files to concatenate (Lista de todos los archivos CSV para concatenar)
csv_files = [
    'fra_perfumes1.csv',
    'fra_perfumes2.csv',
    'fra_perfumes3.csv',
    'fra_perfumes4.csv',
    'fra_perfumes5.csv',
    'fra_perfumes6.csv',
    'fra_perfumes7.csv',
    'fra_perfumes8.csv'
]

# Initialize an empty list to hold DataFrames (Inicializar una lista vacía para contener DataFrames)
dataframes = []

# Loop through each file, read it into a DataFrame, and append to the list (Bucle a través de cada archivo, leerlo en un DataFrame, y agregar a la lista)
for file in csv_files:
    file_path = os.path.join(folder_path, file)
    df = pd.read_csv(file_path)
    dataframes.append(df)

# Concatenate all DataFrames into a single DataFrame (Concatenar todos los DataFrames en un solo DataFrame)
combined_df = pd.concat(dataframes, ignore_index=True)

# Save the combined DataFrame to a new CSV file (Guardar el DataFrame combinado en un nuevo archivo CSV)
output_file_path = os.path.join(folder_path, 'fra_scraping.csv')
combined_df.to_csv(output_file_path, index=False)

print(f"Combined CSV file saved to: {output_file_path}")


Combined CSV file saved to: data/Fragrantica/fra_scraping.csv
