# Netflix Share Price Analysis from 2023 - 2024

Referensi ini dari: https://www.linkedin.com/feed/update/urn:li:activity:7161606215758700544/

## 1. An Introduction to Dataset

Dalam laporan analitis ini, kami mempelajari lanskap rumit harga saham Netflix, dengan menggunakan dataset komprehensif yang mencakup rentang waktu 2023 hingga 2024. Bagian pengantar ini memberikan gambaran singkat mengenai dataset, sumbernya, isinya, dan menguraikan pendekatan analitis yang digunakan untuk analisis data eksploratif (EDA).

### 1.1 About the Dataset

Kumpulan data yang menjadi inti analisis ini merangkum banyak informasi mengenai harga saham Netflix. Dengan catatan yang cermat dari tahun 2023 hingga 2024, data ini menjadi sumber daya yang berharga untuk membedah fluktuasi; tren, dan nuansa yang melekat pada dinamika pasar saham di sekitar raksasa streaming ini.

### 1.2 Source of Data

Dataset ini dikurasi dengan cermat dari sumber-sumber yang dapat dipercaya, untuk memastikan akurasi dan integritas dalam representasi kinerja saham Netflix. Melalui proses agregasi dan verifikasi yang cermat, sumber data ini menjamin fondasi yang kuat untuk upaya analisis kami.

### 1.3 Contents of Data

Meliputi berbagai aspek perjalanan pasar saham Netflix, dataset ini terdiri dari kolom-kolom penting yang menjelaskan aspek-aspek penting dalam penetapan harga saham. Ini termasuk:

*	Data: Mencatat hari perdagangan selama jangka waktu tertentu.

*	Open: Menandakan harga pembukaan saham Netflix pada setiap hari perdagangan.

*	High: Mencerminkan harga tertinggi yang diperdagangkan saham Netflix pada hari itu.

*	Low: Menunjukkan harga terendah di mana saham Netflix diperdagangkan pada hari itu.

*	Close: Menunjukkan harga penutupan saham Netflix pada setiap hari perdagangan.

*	Adjustment Close: Menyajikan harga penutupan yang disesuaikan, dengan memperhitungkan peristiwa seperti dividen dan pemecahan saham.

*	Volume: Menunjukkan jumlah total saham yang diperdagangkan pada setiap hari perdagangan.

### 1.4 Analytical Approach

Pendekatan analisis yang diadopsi untuk analisis ini terutama berkisar pada Analisis Data Eksplorasi (EDA). Melalui pemeriksaan dan visualisasi set data yang cermat, kami bertujuan untuk menggali pola, tren, dan hubungan yang mendalam dalam harga saham Netflix. Dengan mengamati data dari berbagai sudut, kami berusaha mengekstrak wawasan yang dapat ditindaklanjuti yang dapat menginformasikan pengambilan keputusan strategis dan memperdalam pemahaman kami tentang dinamika yang memengaruhi kinerja saham Netflix.

## 2. Overview of The Data

Saya akan memulai perjalanan eksplorasi data kita dengan memanggil Pandas Library yang perkasa, sekutu kuat yang terkenal akan kehebatannya dalam menggunakan kumpulan data. Bersama-sama, kita akan memulai pencarian untuk mengungkap rahasia yang tersembunyi di dalam data kita, menyingkap kedalamannya yang penuh teka-teki dan mengungkapkan kisah-kisah yang ingin disampaikannya.

In [1]:
import pandas as pd
netflix = pd.read_csv("Dataset/NFLX.csv") # Load the dataset and assign to variable netflix

# Read the first 10 rows of the dataset
print("Furst 10 rows of the dataset:")
netflix.head(10)

Furst 10 rows of the dataset:


Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-02-01,353.859985,365.390015,349.910004,361.98999,361.98999,8005200
1,2023-02-02,365.160004,368.320007,358.429993,366.890015,366.890015,7857000
2,2023-02-03,359.079987,379.429993,359.0,365.899994,365.899994,9402000
3,2023-02-06,363.640015,368.450012,360.679993,361.480011,361.480011,4994900
4,2023-02-07,358.51001,364.179993,354.179993,362.950012,362.950012,6289400
5,2023-02-08,360.019989,368.190002,358.309998,366.829987,366.829987,6253200
6,2023-02-09,372.410004,373.829987,361.73999,362.5,362.5,6901100
7,2023-02-10,359.160004,362.140015,347.140015,347.359985,347.359985,7291100
8,2023-02-13,349.5,359.700012,344.25,358.570007,358.570007,7134400
9,2023-02-14,357.549988,363.75,353.399994,359.959991,359.959991,4624800


In [2]:
# Read the last 10 rows of the dataset
print("Last 10 rows of the dataset:")
netflix.tail(10)

Last 10 rows of the dataset:


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
241,2024-01-18,480.029999,485.769989,478.019989,485.309998,485.309998,4054400
242,2024-01-19,484.980011,485.670013,476.059998,482.950012,482.950012,5665600
243,2024-01-22,487.549988,489.799988,479.899994,485.709991,485.709991,5212300
244,2024-01-23,492.0,498.959991,481.399994,492.190002,492.190002,15506000
245,2024-01-24,537.75,562.5,537.070007,544.869995,544.869995,26432800
246,2024-01-25,551.950012,563.460022,548.460022,562.0,562.0,9451900
247,2024-01-26,561.809998,579.640015,558.429993,570.419983,570.419983,12754500
248,2024-01-29,571.349976,578.549988,562.679993,575.789978,575.789978,6905400
249,2024-01-30,567.320007,570.880005,560.820007,562.849976,562.849976,6181800
250,2024-01-31,562.849976,572.150024,562.039978,564.109985,564.109985,4857600


In [3]:
# Setting display  options to show all values without scientific notation
pd.set_option('display.float_format', lambda x: '%.2f' % x)

In [4]:
netflix.head(3)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-02-01,353.86,365.39,349.91,361.99,361.99,8005200
1,2023-02-02,365.16,368.32,358.43,366.89,366.89,7857000
2,2023-02-03,359.08,379.43,359.0,365.9,365.9,9402000


In [5]:
# Now when call describe(), the volume column should be displayed without scientific notation of 'e'
print("\nDescriptive statistics of the dataset:")
netflix.describe()


Descriptive statistics of the dataset:


Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
count,251.0,251.0,251.0,251.0,251.0,251.0
mean,404.18,409.75,398.96,404.27,404.27,6135307.97
std,60.85,61.32,60.72,61.19,61.19,3814621.4
min,287.34,297.45,285.33,292.76,292.76,1404700.0
25%,348.99,356.86,344.49,348.12,348.12,3966000.0
50%,412.0,418.84,407.4,411.69,411.69,5128900.0
75%,444.73,448.57,439.18,444.94,444.94,6880600.0
max,571.35,579.64,562.68,575.79,575.79,28074400.0


In [6]:
# See the Rows and Column of the dataset
netflix.shape

(251, 7)

In [7]:
# Information on the dataset
print("\nInformation about the Dataframe after converting 'Date' column to datetime format:")
print("\n")
netflix.info()


Information about the Dataframe after converting 'Date' column to datetime format:


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 251 entries, 0 to 250
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Date       251 non-null    object 
 1   Open       251 non-null    float64
 2   High       251 non-null    float64
 3   Low        251 non-null    float64
 4   Close      251 non-null    float64
 5   Adj Close  251 non-null    float64
 6   Volume     251 non-null    int64  
dtypes: float64(5), int64(1), object(1)
memory usage: 13.9+ KB


Here, we can see that the _Date_ column is _object_. I will be converting it to _datetime64[ns]_ format for better allotment of the DataType

In [8]:
netflix['Date'] = pd.to_datetime(netflix['Date'])

# Check the information about the DataFrame to see if changes were made
netflix.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 251 entries, 0 to 250
Data columns (total 7 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   Date       251 non-null    datetime64[ns]
 1   Open       251 non-null    float64       
 2   High       251 non-null    float64       
 3   Low        251 non-null    float64       
 4   Close      251 non-null    float64       
 5   Adj Close  251 non-null    float64       
 6   Volume     251 non-null    int64         
dtypes: datetime64[ns](1), float64(5), int64(1)
memory usage: 13.9 KB


## 3. Data Cleaning

Sekarang setelah kami mengungkap lapisan awal dari dataset kami, sekarang saatnya untuk memoles harta karun kami dan memastikan integritasnya untuk eksplorasi lebih lanjut. Dalam fase petualangan ini, kita akan memulai pencarian mulia pembersihan data, di mana kita akan menyaring pasir dari kumpulan data kita, mengalahkan inkonsistensi, menjinakkan pencilan, dan menghaluskan sisi-sisi yang kasar. Tujuan kita? Untuk memahat data kami menjadi mahakarya yang murni, yang siap menghasilkan permata tersembunyi sesuai perintah kami.

In [9]:
# See if our data contains any 'null' values
netflix.notnull()

# This will return a Bollean series either True (if our data does not contain missing values) or
# Dalse (if there are Missing Values)

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,True,True,True,True,True,True,True
1,True,True,True,True,True,True,True
2,True,True,True,True,True,True,True
3,True,True,True,True,True,True,True
4,True,True,True,True,True,True,True
...,...,...,...,...,...,...,...
246,True,True,True,True,True,True,True
247,True,True,True,True,True,True,True
248,True,True,True,True,True,True,True
249,True,True,True,True,True,True,True


In [14]:
# Calculate the number of null values in each column
null_counts = netflix.isnull().sum()

# Display the number of null values in each column
print("Number of null values in each column:")
print(null_counts)

Number of null values in each column:
Date         0
Open         0
High         0
Low          0
Close        0
Adj Close    0
Volume       0
dtype: int64


In [15]:
# Check Duplication

netflix.duplicated() # Return boolean Series denoting duplicate rows. False means no duplication

0      False
1      False
2      False
3      False
4      False
       ...  
246    False
247    False
248    False
249    False
250    False
Length: 251, dtype: bool

In [16]:
print("Jumlah duplikat: ", netflix.duplicated().sum())
netflix.describe()

Jumlah duplikat:  0


Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
count,251,251.0,251.0,251.0,251.0,251.0,251.0
mean,2023-08-01 05:44:13.386454272,404.18,409.75,398.96,404.27,404.27,6135307.97
min,2023-02-01 00:00:00,287.34,297.45,285.33,292.76,292.76,1404700.0
25%,2023-05-02 12:00:00,348.99,356.86,344.49,348.12,348.12,3966000.0
50%,2023-08-02 00:00:00,412.0,418.84,407.4,411.69,411.69,5128900.0
75%,2023-10-30 12:00:00,444.73,448.57,439.18,444.94,444.94,6880600.0
max,2024-01-31 00:00:00,571.35,579.64,562.68,575.79,575.79,28074400.0
std,,60.85,61.32,60.72,61.19,61.19,3814621.4


In [18]:
# Calculate the total number of null values in the DataFrame
total_null_values = null_counts.sum()

# Display the total number of null values
print("Total number of null values in the DataFrame:", total_null_values)

Total number of null values in the DataFrame: 0


In [20]:
# Check if our Dataset contains NaN or Null Values
netflix.isna()
# This will return Boolean Series; True if NaN exist or False if NaN does Not exist

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False
2,False,False,False,False,False,False,False
3,False,False,False,False,False,False,False
4,False,False,False,False,False,False,False
...,...,...,...,...,...,...,...
246,False,False,False,False,False,False,False
247,False,False,False,False,False,False,False
248,False,False,False,False,False,False,False
249,False,False,False,False,False,False,False


In [21]:
# Drop the NaN values
netflix.dropna()

Unnamed: 0,Date,Open,High,Low,Close,Adj Close,Volume
0,2023-02-01,353.86,365.39,349.91,361.99,361.99,8005200
1,2023-02-02,365.16,368.32,358.43,366.89,366.89,7857000
2,2023-02-03,359.08,379.43,359.00,365.90,365.90,9402000
3,2023-02-06,363.64,368.45,360.68,361.48,361.48,4994900
4,2023-02-07,358.51,364.18,354.18,362.95,362.95,6289400
...,...,...,...,...,...,...,...
246,2024-01-25,551.95,563.46,548.46,562.00,562.00,9451900
247,2024-01-26,561.81,579.64,558.43,570.42,570.42,12754500
248,2024-01-29,571.35,578.55,562.68,575.79,575.79,6905400
249,2024-01-30,567.32,570.88,560.82,562.85,562.85,6181800


Lihat bentuknya masih 251 baris dan 7 kolom yang persis sama dengan yang dilakukan di atas pada Tajuk Ikhtisar, menggunakan netflix.shape. Hal ini menyiratkan bahwa tidak ada Nilai yang Hilang dalam kumpulan data.

## 4. Time Series Analysis