In [6]:
import pandas as pd   # Import Python library for data handling

In [None]:
## 1. Initial Setup
This project begins by importing the pandas library, essential for handling the 420k+ rows of semiconductor stock data 
from Kaggle[](https://www.kaggle.com/datasets/farukece/semiconductor-stocks-and-the-ai-surge). 
The goal is to analyze market trends over 2013-2025.

In [5]:
import os
os.listdir() # Import os to list files in the current directory

['.git',
 '.ipynb_checkpoints',
 'Ai semiconductor.ipynb',
 'anaconda_projects',
 'cleaned_semi_conductor_se.csv',
 'README.md',
 'semiconductor_stocks.db',
 'semi_conductor_se.csv']

In [None]:
## 2. Verify Data Files
This step checks the current directory to ensure the dataset file 'semi_conductor_se.csv' is available. 
This is a critical initial step for loading the 150 companies' data into the analysis pipeline.

In [6]:
df = pd.read_csv('semi_conductor_se.csv')   # Import the dataset for analysis

In [None]:
## 3. Load Dataset
The dataset is loaded into a pandas DataFrame from 'semi_conductor_se.csv', 
containing financial metrics (open, close, high, low, volume) for 150 semiconductor companies over 13 years (2012-2025).

In [10]:
df.isnull().sum()   # Check for missing values in each column

Unnamed: 0      0
company_name    0
stock_name      0
date            0
open            0
high            0
low             0
close           0
volume          0
dtype: int64

In [None]:
## 4. Data Quality Check
This step verifies the absence of missing values in the dataset, ensuring data integrity for the subsequent analysis of the semiconductor market.

In [9]:
%who_ls   # %who_ls to check variable names in the namespace

['dataframe_columns',
 'dataframe_hash',
 'dtypes_str',
 'get_dataframes',
 'getpass',
 'hashlib',
 'import_pandas_safely',
 'is_data_frame',
 'json',
 'os',
 'pd']

In [None]:
## 5. Namespace Inspection
This command checks the namespace to confirm the DataFrame variable 'df' is correctly assigned, 
addressing an earlier issue where the variable was not recognized.

In [11]:
df = pd.read_csv('semi_conductor_se.csv')   # Re-import the dataset to assign the variable correctly

In [None]:
## 6. Variable Assignment Fix
Due to a previous namespace issue, the dataset is re-imported to ensure the 'df' variable is properly assigned for further analysis.

In [12]:
df.head()  # Check the success of the table import; if the first rows appear, everything is fine.

Unnamed: 0.1,Unnamed: 0,company_name,stock_name,date,open,high,low,close,volume
0,0,NVIDIA,NVDA,2012-01-03,0.327805,0.330097,0.321157,0.321845,468044000
1,1,NVIDIA,NVDA,2012-01-04,0.322074,0.326888,0.319094,0.325513,347372000
2,2,NVIDIA,NVDA,2012-01-05,0.323908,0.338808,0.322533,0.337204,563548000
3,3,NVIDIA,NVDA,2012-01-06,0.336974,0.337204,0.32941,0.333307,533252000
4,4,NVIDIA,NVDA,2012-01-09,0.333536,0.339725,0.331014,0.333307,508244000


In [13]:
df.isnull().sum()   # Check for missing values in each column

Unnamed: 0      0
company_name    0
stock_name      0
date            0
open            0
high            0
low             0
close           0
volume          0
dtype: int64

In [14]:
df.info()    # Display general information about the table

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 422729 entries, 0 to 422728
Data columns (total 9 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   Unnamed: 0    422729 non-null  int64  
 1   company_name  422729 non-null  object 
 2   stock_name    422729 non-null  object 
 3   date          422729 non-null  object 
 4   open          422729 non-null  float64
 5   high          422729 non-null  float64
 6   low           422729 non-null  float64
 7   close         422729 non-null  float64
 8   volume        422729 non-null  int64  
dtypes: float64(4), int64(2), object(3)
memory usage: 29.0+ MB


In [15]:
df['date'] = pd.to_datetime(df['date'])   # Convert 'date' column to datetime format

In [None]:
## 7. Date Conversion
This step converts the 'date' column from text to datetime format, enabling time-series analysis for the 420k+ rows of semiconductor stock data 
from 2012-2025. 
This is a key preparation for trend analysis in the project.

In [19]:
df.drop_duplicates(inplace=True)   # Видаляємо дублікати рядків в таблиці

In [20]:
df.dropna()   # Очищаємо таблицю від пропусків

Unnamed: 0.1,Unnamed: 0,company_name,stock_name,date,open,high,low,close,volume
0,0,NVIDIA,NVDA,2012-01-03,0.327805,0.330097,0.321157,0.321845,468044000
1,1,NVIDIA,NVDA,2012-01-04,0.322074,0.326888,0.319094,0.325513,347372000
2,2,NVIDIA,NVDA,2012-01-05,0.323908,0.338808,0.322533,0.337204,563548000
3,3,NVIDIA,NVDA,2012-01-06,0.336974,0.337204,0.329410,0.333307,533252000
4,4,NVIDIA,NVDA,2012-01-09,0.333536,0.339725,0.331014,0.333307,508244000
...,...,...,...,...,...,...,...,...,...
422724,422724,Kalray,ALKAL.PA,2025-07-28,0.660000,0.686000,0.644000,0.661000,84650
422725,422725,Kalray,ALKAL.PA,2025-07-29,0.670000,0.695000,0.670000,0.690000,96811
422726,422726,Kalray,ALKAL.PA,2025-07-30,0.695000,0.760000,0.671000,0.700000,175991
422727,422727,Kalray,ALKAL.PA,2025-07-31,0.700000,0.730000,0.679000,0.688000,77266


In [7]:
df.to_csv('cleaned_semi_conductor_se.csv', index=False)   # Оновлюємо та зберігаємо нову таблицю для подальшого імпорту

In [8]:
import sqlite3 # Імпортуємо бібліотеку для роботи з SQL

conn = sqlite3.connect('semiconductor_stocks.db') # Створюємо файл бази даних
df.to_sql('stocks', conn, if_exists='replace', index=True) # Записуємо DataFrame у таблицю
conn.close() # Закриваємо з'єднання

In [9]:
print(df.head())

   Unnamed: 0 company_name stock_name        date      open      high  \
0           0       NVIDIA       NVDA  2012-01-03  0.327805  0.330097   
1           1       NVIDIA       NVDA  2012-01-04  0.322074  0.326888   
2           2       NVIDIA       NVDA  2012-01-05  0.323908  0.338808   
3           3       NVIDIA       NVDA  2012-01-06  0.336974  0.337204   
4           4       NVIDIA       NVDA  2012-01-09  0.333536  0.339725   

        low     close     volume  
0  0.321157  0.321845  468044000  
1  0.319094  0.325513  347372000  
2  0.322533  0.337204  563548000  
3  0.329410  0.333307  533252000  
4  0.331014  0.333307  508244000  


In [10]:
import pandas as pd

In [11]:
df = pd.read_csv('cleaned_semi_conductor_se.csv')

In [12]:
print(df.head())

   Unnamed: 0 company_name stock_name        date      open      high  \
0           0       NVIDIA       NVDA  2012-01-03  0.327805  0.330097   
1           1       NVIDIA       NVDA  2012-01-04  0.322074  0.326888   
2           2       NVIDIA       NVDA  2012-01-05  0.323908  0.338808   
3           3       NVIDIA       NVDA  2012-01-06  0.336974  0.337204   
4           4       NVIDIA       NVDA  2012-01-09  0.333536  0.339725   

        low     close     volume  
0  0.321157  0.321845  468044000  
1  0.319094  0.325513  347372000  
2  0.322533  0.337204  563548000  
3  0.329410  0.333307  533252000  
4  0.331014  0.333307  508244000  


In [13]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 422729 entries, 0 to 422728
Data columns (total 9 columns):
 #   Column        Non-Null Count   Dtype  
---  ------        --------------   -----  
 0   Unnamed: 0    422729 non-null  int64  
 1   company_name  422729 non-null  object 
 2   stock_name    422729 non-null  object 
 3   date          422729 non-null  object 
 4   open          422729 non-null  float64
 5   high          422729 non-null  float64
 6   low           422729 non-null  float64
 7   close         422729 non-null  float64
 8   volume        422729 non-null  int64  
dtypes: float64(4), int64(2), object(3)
memory usage: 29.0+ MB
None


In [14]:
df['date'] = pd.to_datetime(df['date'])   

In [15]:
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 422729 entries, 0 to 422728
Data columns (total 9 columns):
 #   Column        Non-Null Count   Dtype         
---  ------        --------------   -----         
 0   Unnamed: 0    422729 non-null  int64         
 1   company_name  422729 non-null  object        
 2   stock_name    422729 non-null  object        
 3   date          422729 non-null  datetime64[ns]
 4   open          422729 non-null  float64       
 5   high          422729 non-null  float64       
 6   low           422729 non-null  float64       
 7   close         422729 non-null  float64       
 8   volume        422729 non-null  int64         
dtypes: datetime64[ns](1), float64(4), int64(2), object(2)
memory usage: 29.0+ MB
None


In [16]:
from sqlalchemy import create_engine

In [19]:
import pandas as pd
from sqlalchemy import create_engine
import mysql.connector # Ця бібліотека є частиною connector-python
import urllib.parse 
user = 'root'
password = 'пароль'
host = 'localhost' 
database = 'ai_semiconductor'
# Кодуємо пароль, щоб спеціальні символи не спричиняли помилок
encoded_password = urllib.parse.quote_plus(password)

# Створення рушія з'єднання з закодованим паролем
engine = create_engine(f'mysql+mysqlconnector://{user}:{encoded_password}@{host}/{database}')

# Завантаження даних у MySQL
df.to_sql('cleaned_semi_conductor_se', engine, if_exists='replace', index=False)

print("Дані успішно завантажено в MySQL!")

Дані успішно завантажено в MySQL!


In [22]:

# Припустимо, ти завантажила дані з файлу cleaned_company_info.csv
# Найчастіше допомагає кодування 'cp1252' або 'latin1'
df_company_info = pd.read_csv('Company info (semi_conductor_se).csv', sep=';', encoding='cp1252')


# Тепер використовуй цю нову, правильну назву для всіх операцій
df_company_info['Competitor_List'] = df_company_info['Competitors'].str.split(';')
df_company_info['Competitor_List'] = df_company_info['Competitor_List'].apply(lambda x: [item.strip() for item in x] if isinstance(x, list) else [])


In [26]:
print(df_company_info.columns)

Index(['Company_name', 'Symbol', 'Activity_Sphere', 'Tech_Subcategory',
       'Core_Technology', 'Growth_Outlook', 'Market_Cap_Tier', 'Competitors',
       'Competitor_List'],
      dtype='object')


In [31]:
print(df_company_info[['Company_name', 'Competitor_List']].head())


         Company_name                                    Competitor_List
0               Xperi   [Applied Materials, Lam Research, KLA, Entegris]
1               X-FAB  [Tower Semiconductor, Littelfuse, GlobalFoundr...
2           Wolfspeed  [Infineon Technologies, ON Semiconductor, Rohm...
3  WIN Semiconductors  [Global Communication Semiconductors (GCS Hold...
4         Weebit Nano  [4DS Memory, BrainChip,  Phase Change Memory, ...


In [35]:
import pandas as pd

# Завантажуємо ваш DataFrame, вказуючи роздільник і кодування
df_company_info = pd.read_csv('Company info (semi_conductor_se).csv', sep=';', encoding='cp1252')

# Створюємо нову колонку, використовуючи простий метод
df_company_info['Competitor_List'] = df_company_info['Competitors'].str.split(',')

# Перевіряємо, що нова колонка тепер є
print(df_company_info.columns)
print(df_company_info[['Company_name', 'Competitor_List']].head())

Index(['Company_name', 'Symbol', 'Activity_Sphere', 'Tech_Subcategory',
       'Core_Technology', 'Growth_Outlook', 'Market_Cap_Tier', 'Competitors',
       'Competitor_List'],
      dtype='object')
         Company_name                                    Competitor_List
0               Xperi  [Applied Materials,  Lam Research,  KLA,  Ente...
1               X-FAB  [Tower Semiconductor,  Littelfuse,  GlobalFoun...
2           Wolfspeed  [Infineon Technologies,  ON Semiconductor,  Ro...
3  WIN Semiconductors  [Global Communication Semiconductors (GCS Hold...
4         Weebit Nano  [4DS Memory,  BrainChip,   Phase Change Memory...


In [38]:
print(df_company_info[['Company_name', 'Competitor_List']])

           Company_name                                    Competitor_List
0                 Xperi  [Applied Materials,  Lam Research,  KLA,  Ente...
1                 X-FAB  [Tower Semiconductor,  Littelfuse,  GlobalFoun...
2             Wolfspeed  [Infineon Technologies,  ON Semiconductor,  Ro...
3    WIN Semiconductors  [Global Communication Semiconductors (GCS Hold...
4           Weebit Nano  [4DS Memory,  BrainChip,   Phase Change Memory...
..                  ...                                                ...
149   Aehr Test Systems                     [Teradyne,  Cohu,  FormFactor]
150           Advantest                 [Teradyne,  Cohu,  Tokyo Electron]
151        ACM Research           [Lam Research,  Applied Materials,  KLA]
152                 NaN                                                NaN
153                 NaN                                                NaN

[154 rows x 2 columns]


In [40]:
import pandas as pd

# Припустимо, що ваш список називається 'competitor_list'
df_competitors = pd.DataFrame(['Competitor_List'], columns=['Competitor_Name'])


In [48]:
import pandas as pd
from sqlalchemy import create_engine
import mysql.connector
import urllib.parse

df = pd.read_csv('Company info (semi_conductor_se).csv')

# Налаштування підключення.
# Змініть лише текст у лапках на свої реальні дані.
user = 'root'
password = 'UN4%39,h2r#k'
host = 'localhost'
database = 'ai_semiconductor'

# Кодуємо пароль, щоб кома та інші символи не спричиняли помилок
encoded_password = urllib.parse.quote_plus(password)

# Створення рушія з'єднання з закодованим паролем
engine = create_engine(f'mysql+mysqlconnector://{user}:{encoded_password}@{host}/{database}')

# Завантаження даних у MySQL
df.to_sql('cleaned_semi_conductor_se', engine, if_exists='replace', index=False)

print("Дані успішно завантажено в MySQL!")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xdc in position 8199: invalid continuation byte

In [4]:
import pandas as pd

df_companies = pd.read_csv('Company info (semi_conductor_se).csv', sep=';', quotechar='"', encoding='cp1252')

file_path = 'Company info (semi_conductor_se).csv'

try:
    df = pd.read_csv(file_path, encoding='utf-8')
    print("Файл успішно завантажено з кодуванням 'utf-8'.")
except UnicodeDecodeError:
    try:
        df = pd.read_csv(file_path, encoding='cp1252')
        print("Файл успішно завантажено з кодуванням 'cp1252'.")
    except UnicodeDecodeError:
        try:
            df = pd.read_csv(file_path, encoding='latin1')
            print("Файл успішно завантажено з кодуванням 'latin1'.")
        except UnicodeDecodeError:
            print("Не вдалося завантажити файл. Спробуйте інше кодування.")

ParserError: Error tokenizing data. C error: Expected 11 fields in line 3, saw 16


In [6]:
import pandas as pd

df_company_info = pd.read_csv(
    'Company info (semi_conductor_se).csv',
    sep=';',
    encoding='cp1252'
)

In [8]:
import pandas as pd
df_company_info = pd.read_csv('Company info (semi_conductor_se).csv', sep=';', quotechar='"', encoding='cp1252')

In [9]:
print(df_company_info.info())
print(df_company_info.head())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 154 entries, 0 to 153
Data columns (total 8 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   Company_name      152 non-null    object
 1   Symbol            152 non-null    object
 2   Activity_Sphere   152 non-null    object
 3   Tech_Subcategory  152 non-null    object
 4   Core_Technology   152 non-null    object
 5   Growth_Outlook    152 non-null    object
 6   Market_Cap_Tier   152 non-null    object
 7   Competitors       152 non-null    object
dtypes: object(8)
memory usage: 9.8+ KB
None
         Company_name    Symbol  \
0               Xperi      XPER   
1               X-FAB      XFAB   
2           Wolfspeed      WOLF   
3  WIN Semiconductors  3105.TWO   
4         Weebit Nano       WBT   

                                     Activity_Sphere  \
0     Consumer Tech, Media & Entertainment Licensing   
1     Semiconductor Foundry, Analog/Mixed-Signal ICs   
2    Semicon

In [10]:
df_company_info['Competitor_List'] = df_company_info['Competitors'].str.split(',')

In [13]:
import pandas as pd
from sqlalchemy import create_engine
import mysql.connector
import urllib.parse

# 1. Завантажте ваш DataFrame, як ми робили раніше
df_company_info = pd.read_csv('Company info (semi_conductor_se).csv', sep=';', quotechar='"', encoding='cp1252')

# 2. Створіть нову колонку з конкурентами
df_company_info['Competitor_List'] = df_company_info['Competitors'].str.split(',')

# 3. Налаштуйте підключення до MySQL
user = 'root'
password = 'UN4%39,h2r#k'
host = 'localhost'
database = 'ai_semiconductor'

encoded_password = urllib.parse.quote_plus(password)
engine = create_engine(f'mysql+mysqlconnector://{user}:{encoded_password}@{host}/{database}')

# 4. Запишіть DataFrame в базу даних (якщо вона існує, вона буде замінена)
df_company_info.to_sql('company_info_with_competitors', engine, if_exists='replace', index=False)

print("Дані з колонкою 'Competitor_List' успішно завантажено в MySQL!")

InterfaceError: (mysql.connector.errors.InterfaceError) Failed executing the operation; Python type list cannot be converted
[SQL: INSERT INTO company_info_with_competitors (`Company_name`, `Symbol`, `Activity_Sphere`, `Tech_Subcategory`, `Core_Technology`, `Growth_Outlook`, `Market_Cap_Tier`, `Competitors`, `Competitor_List`) VALUES (%(Company_name)s, %(Symbol)s, %(Activity_Sphere)s, %(Tech_Subcategory)s, %(Core_Technology)s, %(Growth_Outlook)s, %(Market_Cap_Tier)s, %(Competitors)s, %(Competitor_List)s)]
[parameters: [{'Company_name': 'Xperi', 'Symbol': 'XPER', 'Activity_Sphere': 'Consumer Tech, Media & Entertainment Licensing', 'Tech_Subcategory': 'Audio (DTS), Smart TV (TiVo OS), Automotive (DTS AutoStage), Semiconductor IP', 'Core_Technology': 'IP Licensing, Audio (DTS), Smart TV Platforms (TiVo), Automotive Media', 'Growth_Outlook': ' Cautious outlook (product-specific growth: TiVo OS & DTS AutoStage)', 'Market_Cap_Tier': 'Small-Cap', 'Competitors': 'Applied Materials, Lam Research, KLA, Entegris ', 'Competitor_List': ['Applied Materials', ' Lam Research', ' KLA', ' Entegris ']}, {'Company_name': 'X-FAB', 'Symbol': 'XFAB', 'Activity_Sphere': 'Semiconductor Foundry, Analog/Mixed-Signal ICs', 'Tech_Subcategory': 'CMOS, SOI, MEMS, SiC (Silicon Carbide), High-Voltage', 'Core_Technology': 'Wafer Fabrication, Specialty Foundry Services, Analog/Mixed-Signal Circuits', 'Growth_Outlook': 'Long-term growth (demand from automotive, industrial, and medical markets), with short-term headwinds', 'Market_Cap_Tier': 'Mid-Cap', 'Competitors': 'Tower Semiconductor, Littelfuse, GlobalFoundries, Analog Devices, STMicroelectronics, ON Semiconductor', 'Competitor_List': ['Tower Semiconductor', ' Littelfuse', ' GlobalFoundries', ' Analog Devices', ' STMicroelectronics', ' ON Semiconductor']}, {'Company_name': 'Wolfspeed', 'Symbol': 'WOLF', 'Activity_Sphere': 'Semiconductor Manufacturing, Power & RF Devices', 'Tech_Subcategory': 'Silicon Carbide (SiC), Gallium Nitride (GaN)', 'Core_Technology': 'Wide-bandgap semiconductors (SiC & GaN) for power devices and radio frequency (RF) applications.', 'Growth_Outlook': 'Long-term growth (demand from EV & renewable energy markets), with short-term headwinds', 'Market_Cap_Tier': 'Mid-Cap', 'Competitors': 'Infineon Technologies, ON Semiconductor, Rohm Co., Ltd., STMicroelectronics (in SiC segment); Qorvo, Inc., NXP Semiconductors (in RF segment)', 'Competitor_List': ['Infineon Technologies', ' ON Semiconductor', ' Rohm Co.', ' Ltd.', ' STMicroelectronics (in SiC segment); Qorvo', ' Inc.', ' NXP Semiconductors (in RF segment)']}, {'Company_name': 'WIN Semiconductors', 'Symbol': '3105.TWO', 'Activity_Sphere': 'Semiconductor Manufacturing, Specialty Foundry Services', 'Tech_Subcategory': 'GaAs (Gallium Arsenide), GaN (Gallium Nitride)', 'Core_Technology': 'Pure-play foundry services for GaAs and GaN wafers, focusing on RF and microwave applications.', 'Growth_Outlook': 'Long-term growth (demand from next-gen wireless, LEO satellites and IoT trends), with short-term headwinds', 'Market_Cap_Tier': 'Mid-Cap', 'Competitors': 'Global Communication Semiconductors (GCS Holdings), Advanced Wireless Semiconductor Co.', 'Competitor_List': ['Global Communication Semiconductors (GCS Holdings)', ' Advanced Wireless Semiconductor Co.']}, {'Company_name': 'Weebit Nano', 'Symbol': 'WBT', 'Activity_Sphere': 'Semiconductor Memory Technology, IP Licensing', 'Tech_Subcategory': 'Resistive RAM (ReRAM), Non-Volatile Memory (NVM)', 'Core_Technology': 'Next-generation, fab-friendly non-volatile memory (ReRAM) that is faster, more energy-efficient and scalable than traditional flash memory.', 'Growth_Outlook': 'Long-term growth (breakout phase driven by commercialization and partnerships in AI, automotive & IoT), with short-term headwinds (lack of significant revenue & profitability, and execution risk).', 'Market_Cap_Tier': 'Micro-Cap / Small-Cap', 'Competitors': '4DS Memory, BrainChip,  Phase Change Memory, MRAM.', 'Competitor_List': ['4DS Memory', ' BrainChip', '  Phase Change Memory', ' MRAM.']}, {'Company_name': 'Vishay Intertechnology', 'Symbol': 'VSH', 'Activity_Sphere': 'Semiconductor Manufacturing, Passive Electronic Components', 'Tech_Subcategory': 'Discrete semiconductors (MOSFETs, diodes, optoelectronics), passive components (resistors, capacitors, inductors)', 'Core_Technology': 'Manufacturing a broad range of discrete semiconductors and passive electronic components for mission-critical applications.', 'Growth_Outlook': 'Cautious outlook with long-term potential (expansion of manufacturing capacity, demand from EV, 5G, and renewable energy markets)', 'Market_Cap_Tier': 'Mid-Cap', 'Competitors': 'Infineon, ON Semiconductor, TDK-EPCOS, Murata, Yageo, Kyocera, Diodes Inc.', 'Competitor_List': ['Infineon', ' ON Semiconductor', ' TDK-EPCOS', ' Murata', ' Yageo', ' Kyocera', ' Diodes Inc.']}, {'Company_name': 'VisEra Technologies', 'Symbol': '6789', 'Activity_Sphere': 'Semiconductor Manufacturing, Foundry Services', 'Tech_Subcategory': 'Image Sensors, Optical Components, Wafer-Level Packaging (Color Filters, Micro-Lenses)', 'Core_Technology': 'Specialized foundry services for optical devices and sensors used in mobile phones, automotive, AR/VR, and other devices.', 'Growth_Outlook': 'Cautious outlook with long-term potential (demand for image sensors and optical components, especially in the mobile and automotive segments)', 'Market_Cap_Tier': 'Small-Cap', 'Competitors': 'Samsung, OmniVision, ', 'Competitor_List': ['Samsung', ' OmniVision', ' ']}, {'Company_name': 'VeriSilicon Microelectronics', 'Symbol': '688521', 'Activity_Sphere': 'Semiconductor Design IP & Custom Silicon Solutions', 'Tech_Subcategory': 'Processor IP (GPU, NPU, VPU), IoT Connectivity, Analog & Mixed-Signal IP', 'Core_Technology': 'A platform-based, comprehensive IP portfolio and custom turnkey silicon design services. VeriSilicon provides a one-stop-shop for customers to develop their own chips.', 'Growth_Outlook': 'Strong growth potential (rapid expansion of the global semiconductor IP market, particularly in AI, IoT, and automotive sectors)', 'Market_Cap_Tier': 'Mid-Cap', 'Competitors': 'ARM Holdings, Synopsys, Cadence Design Systems, Imagination Technologies, Ceva.', 'Competitor_List': ['ARM Holdings', ' Synopsys', ' Cadence Design Systems', ' Imagination Technologies', ' Ceva.']}  ... displaying 10 of 154 total bound parameter sets ...  {'Company_name': None, 'Symbol': None, 'Activity_Sphere': None, 'Tech_Subcategory': None, 'Core_Technology': None, 'Growth_Outlook': None, 'Market_Cap_Tier': None, 'Competitors': None, 'Competitor_List': None}, {'Company_name': None, 'Symbol': None, 'Activity_Sphere': None, 'Tech_Subcategory': None, 'Core_Technology': None, 'Growth_Outlook': None, 'Market_Cap_Tier': None, 'Competitors': None, 'Competitor_List': None}]]
(Background on this error at: https://sqlalche.me/e/20/rvf5)

In [14]:
 df_company_info = pd.read_csv(...)

# ... Ваш код для створення Competitor_List ...

# Перетворюємо список у рядок, щоб SQL міг його зберегти
df_company_info['Competitor_List_String'] = df_company_info['Competitor_List'].apply(lambda x: ', '.join(x) if isinstance(x, list) else None)

# Тепер записуємо оновлений DataFrame в базу даних, використовуючи нову колонку
df_company_info.to_sql('company_info_with_competitors', engine, if_exists='replace', index=False)

ValueError: Invalid file path or buffer object type: <class 'ellipsis'>

In [16]:
df_company_info = pd.read_csv(
    'Company info (semi_conductor_se).csv',  # Замість '...' вкажіть назву вашого файлу
    sep=';',
    quotechar='"',
    encoding='cp1252'
)

In [18]:
import pandas as pd
from sqlalchemy import create_engine
import mysql.connector
import urllib.parse
import re

# 1. Завантаження та очищення даних
# Завантажуємо ваш DataFrame, вказуючи роздільник, кодування та обробку лапок
df_company_info = pd.read_csv('Company info (semi_conductor_se).csv', sep=';', quotechar='"', encoding='cp1252')

# 2. Обробка колонки 'Competitors'
# Заповнюємо пропущені значення порожнім рядком, щоб уникнути помилок
df_company_info['Competitors'] = df_company_info['Competitors'].fillna('')

# Розділяємо рядок з конкурентами на список
df_company_info['Competitor_List'] = df_company_info['Competitors'].str.split(',')

# Перетворюємо список на рядок, щоб SQL міг його зберегти
df_company_info['Competitor_List_String'] = df_company_info['Competitor_List'].apply(lambda x: ','.join([item.strip() for item in x]))
df_company_info = df_company_info.drop(columns=['Competitor_List'])
# 3. Налаштування підключення до MySQL
user = 'root'
password = 'UN4%39,h2r#k'
host = 'localhost'
database = 'ai_semiconductor'

encoded_password = urllib.parse.quote_plus(password)
engine = create_engine(f'mysql+mysqlconnector://{user}:{encoded_password}@{host}/{database}')

# 4. Завантаження даних у MySQL
df_company_info.to_sql('company_info_with_competitors', engine, if_exists='replace', index=False)

print("Дані успішно завантажено в MySQL!")

Дані успішно завантажено в MySQL!


In [19]:

import pandas as pd
from sqlalchemy import create_engine
import mysql.connector
import urllib.parse
import re

# Завантаження вашої основної таблиці з інформацією про конкурентів
# Зверніть увагу: ми завантажуємо її після того, як вона була успішно збережена в MySQL
# або з вашого останього очищеного файлу.
# df_company_info = pd.read_csv(...)

# Переконайтеся, що колонка зі списками конкурентів існує
if 'Competitor_List' not in df_company_info.columns:
    df_company_info['Competitor_List_String'] = df_company_info['Competitors'].str.split(',')

# Отримання списку всіх унікальних компаній
all_companies = set(df_company_info['Company_name'].unique())

# Створення порожнього списку для зв'язків
edges = []

# Ітерація по кожному рядку в DataFrame
for index, row in df_company_info.iterrows():
    source_company = row['Company_name']
    competitors = row['Competitor_List_String']

    # Ітерація по списку конкурентів
    for competitor in competitors:
        # Перевірка, чи є конкурент також у нашому датасеті
        if competitor in all_companies:
            # Додаємо пару до списку
            edges.append({'Source': source_company, 'Target': competitor})

# Створення нового DataFrame зі списком зв'язків
df_connections = pd.DataFrame(edges)

# Перевірка результату
print(df_connections.head())
print(df_connections.info())

                   Source               Target
0                   Xperi    Applied Materials
1                   X-FAB  Tower Semiconductor
2  Vishay Intertechnology             Infineon
3     VisEra Technologies              Samsung
4                   Veeco              Aixtron
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 93 entries, 0 to 92
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Source  93 non-null     object
 1   Target  93 non-null     object
dtypes: object(2)
memory usage: 1.6+ KB
None


In [20]:
# Запис у MySQL
df_connections.to_sql('company_connections', engine, if_exists='replace', index=False)

93

In [39]:
import pandas as pd
import numpy as np
df = pd.read_csv('cleaned_semi_conductor_se.csv')

# Припустимо, ваш DataFrame називається 'df'
# Якщо стовпець з датами не є індексом, зробіть його таким
df.set_index('date', inplace=True)

# Розраховуємо щоденну прибутковість (Daily Return) для кожної компанії
daily_returns = df.groupby('company_name')['close'].pct_change()

# Розраховуємо річну волатильність, групуючи за індексом (level=0)
volatility = daily_returns.groupby(level=0).std() * np.sqrt(252)

# Виводимо результат
print("Річна волатильність акцій:")
print(volatility.sort_values(ascending=False))

Річна волатильність акцій:
date
2024-03-27    7.334922
2025-05-22    2.232356
2016-09-29    2.168790
2024-11-28    2.141027
2025-04-09    1.869765
                ...   
2015-12-25    0.205923
2016-06-09    0.204896
2021-12-31    0.196064
2018-01-01    0.000000
2012-01-02         NaN
Name: close, Length: 3537, dtype: float64


In [35]:
import pandas as pd
df = pd.read_csv('cleaned_semi_conductor_se.csv')

In [36]:
print(df.columns)

Index(['Unnamed: 0', 'company_name', 'stock_name', 'date', 'open', 'high',
       'low', 'close', 'volume'],
      dtype='object')


In [37]:
print(df.head())


   Unnamed: 0 company_name stock_name        date      open      high  \
0           0       NVIDIA       NVDA  2012-01-03  0.327805  0.330097   
1           1       NVIDIA       NVDA  2012-01-04  0.322074  0.326888   
2           2       NVIDIA       NVDA  2012-01-05  0.323908  0.338808   
3           3       NVIDIA       NVDA  2012-01-06  0.336974  0.337204   
4           4       NVIDIA       NVDA  2012-01-09  0.333536  0.339725   

        low     close     volume  
0  0.321157  0.321845  468044000  
1  0.319094  0.325513  347372000  
2  0.322533  0.337204  563548000  
3  0.329410  0.333307  533252000  
4  0.331014  0.333307  508244000  


In [38]:
print(df.columns.tolist())

['Unnamed: 0', 'company_name', 'stock_name', 'date', 'open', 'high', 'low', 'close', 'volume']


In [41]:
import pandas as pd
import numpy as np

df = pd.read_csv('cleaned_semi_conductor_se.csv')
df['Date'] = pd.to_datetime(df['date'])

In [44]:
daily_returns = df.groupby('company_name')['close'].pct_change()

# Розраховуємо волатильність, групуючи за індексом (level=0)
volatility = daily_returns.groupby(level=0).std() * np.sqrt(252)

# Виводимо результат
print("Річна волатильність акцій:")
print(volatility.sort_values(ascending=False))

Річна волатильність акцій:
0        NaN
1        NaN
2        NaN
3        NaN
4        NaN
          ..
422724   NaN
422725   NaN
422726   NaN
422727   NaN
422728   NaN
Name: close, Length: 422729, dtype: float64


In [45]:
daily_returns = df.groupby('company_name')['close'].pct_change()

In [51]:
import pandas as pd
import numpy as np

# Припустимо, ви завантажили свій DataFrame
# df = pd.read_csv('cleaned_semi_conductor_se.csv')
# df['Date'] = pd.to_datetime(df['Date'])

# Розраховуємо щоденну прибутковість для кожної компанії,
# групуючи за Company_name перед pct_change()
df['Daily_Return'] = df.groupby('company_name')['close'].pct_change()

# Тепер розраховуємо волатильність на основі Daily_Return,
# знову групуючи за компанією
volatility = df.groupby('company_name')['Daily_Return'].std() * np.sqrt(252)

# Виводимо результат
print("Річна волатильність акцій:")
print(volatility.sort_values(ascending=False))

Річна волатильність акцій:
company_name
GCT Semiconductor        3.117195
SEALSQ                   2.000272
Aeluma                   1.256393
Navitas Semiconductor    1.255732
BrainChip                1.113933
                           ...   
Analog Devices           0.300251
Synopsys                 0.281826
Lite-On Technology       0.280906
Texas Instruments        0.280717
Samsung                  0.265765
Name: Daily_Return, Length: 152, dtype: float64


In [52]:
volatility.to_csv('volatility_by_company.csv')

In [53]:
import os
os.listdir()


['.git',
 '.ipynb_checkpoints',
 'Ai semiconductor.ipynb',
 'anaconda_projects',
 'cleaned_semi_conductor_se.csv',
 'Company info (semi_conductor_se).csv',
 'README.md',
 'semiconductor_stocks.db',
 'semi_conductor_se.csv',
 'volatility_by_company.csv']

In [60]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# Завантажуємо ваш DataFrame та обчислюємо щоденну прибутковість
df = pd.read_csv('cleaned_semi_conductor_se.csv')
df['Daily_Return'] = df.groupby('company_name')['close'].pct_change()

# Підготовка даних для кластеризації
# Ми перетворюємо дані, щоб кожна колонка була компанією, а рядки — датами
data_for_clustering = df.pivot_table(
    index='date',
    columns='company_name',
    values='Daily_Return'
).fillna(0)

# Транспонуємо дані, щоб кластеризувати компанії (рядки), а не дати (стовпці)
data_for_clustering_T = data_for_clustering.T.fillna(0) # .T транспонує, fillna обробляє пропуски

# Масштабування даних
scaler = StandardScaler()
scaled_data = scaler.fit_transform(data_for_clustering_T)

import os
os.environ['OMP_NUM_THREADS'] = '1'
kmeans = KMeans(n_clusters=4, random_state=0, n_init=10)
cluster_labels = kmeans.fit_predict(scaled_data)

# Створюємо DataFrame з результатами кластеризації
clusters = pd.DataFrame(
    {'company_name': data_for_clustering_T.index,
     'Cluster_ID': cluster_labels}
)

# ... Ваш код для збереження файлу ...
# Зберігаємо результати у файл для Power BI
clusters.to_csv('volatility_clusters.csv', index=False)
print("Кластеризацію завершено. Результати збережено у файл 'volatility_clusters.csv'.")

Кластеризацію завершено. Результати збережено у файл 'volatility_clusters.csv'.




In [56]:
print(len(data_for_clustering.columns))
print(len(cluster_labels))

152
3536


In [62]:
import pandas as pd

# Завантажуємо ваш основний датасет
df_main = pd.read_csv('cleaned_semi_conductor_se.csv')

# Групуємо за назвою компанії та рахуємо загальний обсяг
total_volume = df_main.groupby('company_name')['volume'].sum().reset_index()
total_volume.columns = ['company_name', 'Total Volume']

# Розраховуємо ранг
# 'dense' присвоює однаковий ранг компаніям з однаковим обсягом
total_volume['Volume Rank'] = total_volume['Total Volume'].rank(method='dense', ascending=False)

# Перевіряємо перші 10 рядків
print(total_volume.head(10))

# Зберігаємо результат у новий файл для Power BI
total_volume.to_csv('company_volume_rank.csv', index=False)

                                       company_name  Total Volume  Volume Rank
0                                      ACM Research    1781936400         91.0
1                                               AMD  169691908000          3.0
2                                              AMEC   10100493232         43.0
3                                         ASE Group    9426561029         49.0
4                                 ASM International     823678426        115.0
5                                              ASML    3803087183         75.0
6                  ASMPT\n (ASM Pacific Technology)    4837376309         67.0
7  AT&amp;S Austria Technologie &amp; Systemtechnik     286959398        135.0
8                                           AXT Inc    1170340900        109.0
9                                         Advantest   39427472200         12.0


In [64]:
import pandas as pd

# Замініть 'ваш_файл.csv' на назву вашого файлу
df = pd.read_csv('company_volume_rank.csv')

# Видаляємо всі нечислові символи з колонки
# Це найефективніший спосіб очищення
df['Volume Rank'] = df['Volume Rank'].astype(str).str.replace(r'[^0-9.]', '', regex=True)

# Перетворюємо колонку в числовий тип.
# errors='coerce' перетворить будь-яку помилку на NaN
df['Volume Rank'] = pd.to_numeric(df['Volume Rank'], errors='coerce')

# Заповнюємо порожні значення (NaN) нулями, якщо вони з'явилися
df['Volume Rank'] = df['Volume Rank'].fillna(0).astype(int)

# Зберігаємо новий файл, який буде ідеально працювати в Power BI
df.to_csv('cleaned_data.csv', index=False)