In [2]:
import pandas as pd
import numpy as np


stocks1_data = {
    'date': pd.date_range(start='2022-01-01', periods=5, freq='D'),
    'symbol': ['AAPL', 'AAPL', 'GOOG', 'GOOG', 'MSFT'],
    'open': [150, 155, 2800, 2850, 300],
    'high': [155, 160, 2850, 2900, 310],
    'low': [148, 153, 2750, 2800, 290],
    'close': [153, 158, 2800, 2880, 305],
    'volume': [1000000, 1100000, 1200000, 1300000, 1400000]
}

stocks1 = pd.DataFrame(stocks1_data)
stocks1.to_csv('stocks1.csv', index=False)


stocks2_data = {
    'date': pd.date_range(start='2022-01-06', periods=5, freq='D'),
    'symbol': ['AAPL', 'MSFT', 'GOOG', 'AAPL', 'GOOG'],
    'open': [155, 305, 2900, 160, 2830],
    'high': [160, 310, 2950, 165, 2900],
    'low': [153, 295, 2850, 158, 2800],
    'close': [158, 308, 2920, 162, 2860],
    'volume': [1500000, 1600000, 1700000, 1800000, 1900000]
}

stocks2 = pd.DataFrame(stocks2_data)
stocks2.to_csv('stocks2.csv', index=False)


companies_data = {
    'name': ['AAPL', 'MSFT', 'GOOG'],
    'employees': [100000, 180000, 150000],
    'headquarters_city': ['Cupertino', 'Redmond', 'Mountain View'],
    'headquarters_state': ['California', 'Washington', 'California']
}

companies = pd.DataFrame(companies_data)
companies.to_csv('companies.csv', index=False)



In [3]:

stocks1 = pd.read_csv('stocks1.csv')
print("5 dòng đầu của stocks1:")
print(stocks1.head())
print("\nKiểu dữ liệu của các cột trong stocks1:")
print(stocks1.dtypes)
print("\nThông tin của stocks1:")
print(stocks1.info())


stocks2 = pd.read_csv('stocks2.csv')
print("\n5 dòng đầu của stocks2:")
print(stocks2.head())
print("\nKiểu dữ liệu của các cột trong stocks2:")
print(stocks2.dtypes)
print("\nThông tin của stocks2:")
print(stocks2.info())


companies = pd.read_csv('companies.csv')
print("\nDữ liệu của companies:")
print(companies)
print("\nKiểu dữ liệu của các cột trong companies:")
print(companies.dtypes)
print("\nThông tin của companies:")
print(companies.info())


5 dòng đầu của stocks1:
         date symbol  open  high   low  close   volume
0  2022-01-01   AAPL   150   155   148    153  1000000
1  2022-01-02   AAPL   155   160   153    158  1100000
2  2022-01-03   GOOG  2800  2850  2750   2800  1200000
3  2022-01-04   GOOG  2850  2900  2800   2880  1300000
4  2022-01-05   MSFT   300   310   290    305  1400000

Kiểu dữ liệu của các cột trong stocks1:
date      object
symbol    object
open       int64
high       int64
low        int64
close      int64
volume     int64
dtype: object

Thông tin của stocks1:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   date    5 non-null      object
 1   symbol  5 non-null      object
 2   open    5 non-null      int64 
 3   high    5 non-null      int64 
 4   low     5 non-null      int64 
 5   close   5 non-null      int64 
 6   volume  5 non-null      int64 
dtypes: int64(5), object

In [4]:
print("\nKiểm tra dữ liệu Null trong stocks1:")
print(stocks1.isnull().sum())

stocks1['high'] = stocks1.groupby('symbol')['high'].transform(lambda x: x.fillna(x.max()))

stocks1['low'] = stocks1.groupby('symbol')['low'].transform(lambda x: x.fillna(x.min()))

print("\nKiểm tra lại dữ liệu Null sau khi thay thế:")
print(stocks1.isnull().sum())



Kiểm tra dữ liệu Null trong stocks1:
date      0
symbol    0
open      0
high      0
low       0
close     0
volume    0
dtype: int64

Kiểm tra lại dữ liệu Null sau khi thay thế:
date      0
symbol    0
open      0
high      0
low       0
close     0
volume    0
dtype: int64


In [5]:
stocks = pd.concat([stocks1, stocks2], axis=0, ignore_index=True)

print("\n15 dòng dữ liệu cuối của stocks:")
print(stocks.tail(15))



15 dòng dữ liệu cuối của stocks:
         date symbol  open  high   low  close   volume
0  2022-01-01   AAPL   150   155   148    153  1000000
1  2022-01-02   AAPL   155   160   153    158  1100000
2  2022-01-03   GOOG  2800  2850  2750   2800  1200000
3  2022-01-04   GOOG  2850  2900  2800   2880  1300000
4  2022-01-05   MSFT   300   310   290    305  1400000
5  2022-01-06   AAPL   155   160   153    158  1500000
6  2022-01-07   MSFT   305   310   295    308  1600000
7  2022-01-08   GOOG  2900  2950  2850   2920  1700000
8  2022-01-09   AAPL   160   165   158    162  1800000
9  2022-01-10   GOOG  2830  2900  2800   2860  1900000


In [6]:
stocks_companies = pd.merge(stocks, companies, left_on='symbol', right_on='name', how='left')

print("\n5 dòng dữ liệu đầu của stocks_companies:")
print(stocks_companies.head())



5 dòng dữ liệu đầu của stocks_companies:
         date symbol  open  high   low  close   volume  name  employees  \
0  2022-01-01   AAPL   150   155   148    153  1000000  AAPL     100000   
1  2022-01-02   AAPL   155   160   153    158  1100000  AAPL     100000   
2  2022-01-03   GOOG  2800  2850  2750   2800  1200000  GOOG     150000   
3  2022-01-04   GOOG  2850  2900  2800   2880  1300000  GOOG     150000   
4  2022-01-05   MSFT   300   310   290    305  1400000  MSFT     180000   

  headquarters_city headquarters_state  
0         Cupertino         California  
1         Cupertino         California  
2     Mountain View         California  
3     Mountain View         California  
4           Redmond         Washington  


In [7]:
avg_values_by_company = stocks_companies.groupby('symbol')[['open', 'high', 'low', 'close', 'volume']].mean()
print("\nGiá trung bình của các cột cho mỗi công ty:")
print(avg_values_by_company)



Giá trung bình của các cột cho mỗi công ty:
          open    high     low    close     volume
symbol                                            
AAPL     155.0   160.0   153.0   157.75  1350000.0
GOOG    2845.0  2900.0  2800.0  2865.00  1525000.0
MSFT     302.5   310.0   292.5   306.50  1500000.0


In [8]:
close_stats_by_company = stocks_companies.groupby('symbol')['close'].agg(['mean', 'max', 'min'])
print("\nGiá đóng cửa (close) trung bình, lớn nhất và nhỏ nhất cho mỗi công ty:")
print(close_stats_by_company)



Giá đóng cửa (close) trung bình, lớn nhất và nhỏ nhất cho mỗi công ty:
           mean   max   min
symbol                     
AAPL     157.75   162   153
GOOG    2865.00  2920  2800
MSFT     306.50   308   305


In [9]:
stocks_companies['parsed_time'] = pd.to_datetime(stocks_companies['date'])

print("\nKiểu dữ liệu của cột 'parsed_time':")
print(stocks_companies['parsed_time'].dtype)

print("\n5 dòng dữ liệu đầu của stocks_companies sau khi thêm cột 'parsed_time':")
print(stocks_companies.head())



Kiểu dữ liệu của cột 'parsed_time':
datetime64[ns]

5 dòng dữ liệu đầu của stocks_companies sau khi thêm cột 'parsed_time':
         date symbol  open  high   low  close   volume  name  employees  \
0  2022-01-01   AAPL   150   155   148    153  1000000  AAPL     100000   
1  2022-01-02   AAPL   155   160   153    158  1100000  AAPL     100000   
2  2022-01-03   GOOG  2800  2850  2750   2800  1200000  GOOG     150000   
3  2022-01-04   GOOG  2850  2900  2800   2880  1300000  GOOG     150000   
4  2022-01-05   MSFT   300   310   290    305  1400000  MSFT     180000   

  headquarters_city headquarters_state parsed_time  
0         Cupertino         California  2022-01-01  
1         Cupertino         California  2022-01-02  
2     Mountain View         California  2022-01-03  
3     Mountain View         California  2022-01-04  
4           Redmond         Washington  2022-01-05  


In [10]:
stocks_companies['result'] = ['up' if close > open else 'down' for close, open in zip(stocks_companies['close'], stocks_companies['open'])]

print("\n5 dòng dữ liệu đầu của stocks_companies sau khi thêm cột 'result':")
print(stocks_companies.head())



5 dòng dữ liệu đầu của stocks_companies sau khi thêm cột 'result':
         date symbol  open  high   low  close   volume  name  employees  \
0  2022-01-01   AAPL   150   155   148    153  1000000  AAPL     100000   
1  2022-01-02   AAPL   155   160   153    158  1100000  AAPL     100000   
2  2022-01-03   GOOG  2800  2850  2750   2800  1200000  GOOG     150000   
3  2022-01-04   GOOG  2850  2900  2800   2880  1300000  GOOG     150000   
4  2022-01-05   MSFT   300   310   290    305  1400000  MSFT     180000   

  headquarters_city headquarters_state parsed_time result  
0         Cupertino         California  2022-01-01     up  
1         Cupertino         California  2022-01-02     up  
2     Mountain View         California  2022-01-03   down  
3     Mountain View         California  2022-01-04     up  
4           Redmond         Washington  2022-01-05     up  
