In [18]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# List to store the data
amazon_phone_data = []

# Number of pages to scrape data from
num_pages = 100

for page in range(1, num_pages + 1):
    if len(amazon_phone_data) >= 1000:
        break
    url = f"https://www.amazon.eg/s?i=electronics&rh=n%3A21832883031&page={page}"
    headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3"}
    response = requests.get(url, headers=headers)
    soup = BeautifulSoup(response.content, "html.parser")
    
    # Find all product listings
    phones = soup.find_all('div', {'data-component-type': 's-search-result'})
    for phone in phones:
        if len(amazon_phone_data) >= 500:
            break
        try:
        # Extract the name of the product
            name = phone.h2.text.strip() if phone.h2 else 'N/A'
            
        # Extract the price of the product
            price_whole = phone.find('span', class_='a-price-whole')
            price_fraction = phone.find('span', class_='a-price-fraction')
            if price_whole and price_fraction:
    # Combine the parts with a dot in between
                price = price_whole.text.replace(',', '') + '.' + price_fraction.text
            elif price_whole:
    # Only the whole part is present
                price = price_whole.text.replace(',', '')
            else:
                price = 'N/A'
            
    # Clean the price from invisible characters
            price = price.replace('\u200e', '').replace('..', '.')

    # Ensure the price is a valid number before converting to float
            try:
                price = float(price)
            except ValueError:
                price = 'N/A'

        # Extract the rating of the product
            rating = phone.find('span', class_='a-icon-alt')
            rating = rating.text.split(' ')[0] if rating else 'N/A'
            
           # Discount (not available on Amazon)
            discount = 'N/A'
            
# Add the data to the list if the price is valid
            if price != 'N/A':
                amazon_phone_data.append([name, price, rating, discount])
        except Exception as e:
            print(f"An error occurred: {e}")
            continue

# Convert the data to a DataFrame
amazon_df = pd.DataFrame(amazon_phone_data, columns=['Name', 'Price', 'Rating', 'Discount'])

# Save the data to a CSV file
amazon_df.to_csv('amazon_phones.csv', index=False)

# Data Analysis
# Data for the highest price
highest_price_amazon = amazon_df[amazon_df['Price'] == amazon_df['Price'].max()]

# Data for the lowest price
lowest_price_amazon = amazon_df[amazon_df['Price'] == amazon_df['Price'].min()]

# Average phone prices
average_price_amazon = amazon_df['Price'].mean()

# Total price of phones
total_price_amazon = amazon_df['Price'].sum()

# Number of products with a 5-star rating
num_five_star_products_amazon = amazon_df[amazon_df['Rating'] == '5.0'].shape[0]

In [19]:
# show the data
pd.set_option('display.max_colwidth', None)  #print the whole text 
print("Amazon - Highest Price Phone Data:")
print(highest_price_amazon)
print("\nAmazon - Lowest Price Phone Data:")
print(lowest_price_amazon)
print(f"\nAmazon - Average Price of Phones: {average_price_amazon}")
print(f"\nAmazon - Total Price of Phones: {total_price_amazon}")
print(f"\nAmazon - Number of Products with 5 Star Rating: {num_five_star_products_amazon}")

Amazon - Highest Price Phone Data:
                                                                                    Name  \
22  موبايل Z فولد 4 بذاكرة 12 و512 جيجابايت وشبكة الجيل الخامس 5G وبلوتوث، بيج، بشريحتين   

      Price Rating Discount  
22  56950.0    4.2      N/A  

Amazon - Lowest Price Phone Data:
                                                                                                                                                                                                       Name  \
210  جراب موبايل قلاب بوجهين بتصميم محفظة مع ميدالية مناسب لجميع الموبايلات بأبعاد خارجية حتى 13 سم طول 6.9 سم عرض يحتوى على قاعدة دوارة بها 20 وسادة شفط سيليكون لتثبيت ضهر الموبايل - أزرق جميع الموديلات   

     Price Rating Discount  
210  44.99    N/A      N/A  

Amazon - Average Price of Phones: 2011.5996376811595

Amazon - Total Price of Phones: 555201.5

Amazon - Number of Products with 5 Star Rating: 4


In [20]:
amazon_df


Unnamed: 0,Name,Price,Rating,Discount
0,موبايل هونر X9b بشريحتين اتصال وذاكرة رام 12 جيجابايت وذاكرة ROM 256 جيجابايت (6.78 بوصة) (شبكة الجيل الخامس 5G)- (صن رايز اورانج) + سماعات أذن هونر تشويس X5، اونر اكس 9 بي,21999.0,,
1,موبايل ريدمي 13C (أبيض ستارفروست ذاكرة RAM بسعة 8 جيجابايت تخزين 256 جيجابايت) | مدعوم بشبكة الجيل الرابع 4G ميديا تيك هيليو G85 | 90 هرتز | كاميرا ثلاثية 50 ميجابكسل بتقنية الذكاء الاصطناعي بشريحتين,6899.0,4.1,
2,موبايل سامسونج جالاكسي A54 5G ثنائي شرائح الاتصال، نظام تشغيل اندرويد، ذاكرة RAM 8 جيجابايت، ذاكرة تخزين داخلية 256 جيجابايت، ليموني اوسيم، اسود,16999.0,4.3,
3,موبايل ريدمي نوت 13 برو + شبكة الجيل الخامس 5G (أرجواني فيوجن، ذاكرة رام 12 جيجابايت، تخزين 512 جيجابايت)، بشريحتين,20250.0,3.8,
4,موبايل سامسونج جالاكسي S22 بلس 5G ،256 جيجابايت وذاكرة RAM 8 جيجابايت وشريحة اتصال بنظام اندرويد مع شاحن سيارة لاسلكي وضمان سنة على الشاشة، ابيض، شريحتين,33333.0,4.0,
...,...,...,...,...
271,8 قطع من اساور الساعة متوافقة مع سوار ساعة ابل 38 ملم 40 ملم 41 ملم 42 ملم 44 ملم 45 ملم 49 ملم للنساء والرجال، اساور معصم رياضية بديلة من السيليكون الناعم لسلسلة اي ووتش 9 8 7 6 5 4 3 2 1 اس اي/الترا,850.0,4.6,
272,ليروبو 3 اساور متوافقة مع ساعة ابل 44 ملم 42 ملم 45 ملم 41 ملم 40 ملم 38 ملم، سوار رياضي بديل من السيليكون الناعم جيد التهوية لساعة ابل اس اي اي ووتش سلسلة 6، سلسلة 7 3 5 4 2 1 للنساء والرجال,450.0,4.6,
273,لوحة منفذ شحن لين لهاتف جالاكسي A71 -A715F جي اكس اكس,500.0,,
274,متوافق مع سوار ساعة ابل 38 ملم 40 ملم 42 ملم 44 ملم للنساء، سوار معصم معدني مرصع بحجر الراين ستي بيبي لساعة اي ووتش اس اي سلسلة 6/5/4/3/2/1، ذهبي وردي,450.0,4.4,
