**Menganalis Data**

Perkenalkan nama saya Novita Purwonintyas, Kali ini saya akan menganalis data menggunakan bahasa pemograman Pyhton. Data yang akan di analisa merupakan dataset Kickstarter Projects. Tujuan yang akan di capai antara lain:
1. Melakukan data loading, data cleaning, dan eksplorasi data.

2. Mencari Measure of Central Tendency (Mean, Median, dan Modus).

3. Measure of Variance (Range, Variance, dan Standar Deviasi).

4. Mencari Confidence Intervals.

5. Melakukan 1 Hipotesis Testing.

In [None]:
#Library yang digunakan untuk analisa data kali ini adalah
import pandas as pd
import numpy as np
from scipy import stats

#Data Loading

In [None]:
#Membaca data file CSV menggunakan library pandas
data = pd.read_csv('/content/ks-projects-201801.csv')
data.head(5)

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,0.0,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,100.0,2421.0,30000.0
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,220.0,45000.0
3,1000007540,ToshiCapital Rekordz Needs Help to Complete Album,Music,Music,USD,2012-04-16,5000.0,2012-03-17 03:24:11,1.0,failed,1,US,1.0,1.0,5000.0
4,1000011046,Community Film Project: The Art of Neighborhoo...,Film & Video,Film & Video,USD,2015-08-29,19500.0,2015-07-04 08:35:03,1283.0,canceled,14,US,1283.0,1283.0,19500.0


In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 378661 entries, 0 to 378660
Data columns (total 15 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                378661 non-null  int64  
 1   name              378657 non-null  object 
 2   category          378661 non-null  object 
 3   main_category     378661 non-null  object 
 4   currency          378661 non-null  object 
 5   deadline          378661 non-null  object 
 6   goal              378661 non-null  float64
 7   launched          378661 non-null  object 
 8   pledged           378661 non-null  float64
 9   state             378661 non-null  object 
 10  backers           378661 non-null  int64  
 11  country           378661 non-null  object 
 12  usd pledged       374864 non-null  float64
 13  usd_pledged_real  378661 non-null  float64
 14  usd_goal_real     378661 non-null  float64
dtypes: float64(5), int64(2), object(8)
memory usage: 43.3+ MB


In [None]:
data.describe()

Unnamed: 0,ID,goal,pledged,backers,usd pledged,usd_pledged_real,usd_goal_real
count,378661.0,378661.0,378661.0,378661.0,374864.0,378661.0,378661.0
mean,1074731000.0,49080.79,9682.979,105.617476,7036.729,9058.924,45454.4
std,619086200.0,1183391.0,95636.01,907.185035,78639.75,90973.34,1152950.0
min,5971.0,0.01,0.0,0.0,0.0,0.0,0.01
25%,538263500.0,2000.0,30.0,2.0,16.98,31.0,2000.0
50%,1075276000.0,5200.0,620.0,12.0,394.72,624.33,5500.0
75%,1610149000.0,16000.0,4076.0,56.0,3034.09,4050.0,15500.0
max,2147476000.0,100000000.0,20338990.0,219382.0,20338990.0,20338990.0,166361400.0


#Data Cleaning

In [None]:
#Mengecek missing value pada tiap kolom data
data.isnull().sum()

ID                     0
name                   4
category               0
main_category          0
currency               0
deadline               0
goal                   0
launched               0
pledged                0
state                  0
backers                0
country                0
usd pledged         3797
usd_pledged_real       0
usd_goal_real          0
dtype: int64

Data yang missing pada kolom 'Name' adalah 4 data, sedangkan kolom 'USD Pledge' adalah 3797 missing data. 

In [None]:
#Mengatasi missing data pada kolom 'Name' dan 'USD Pledged' dengan cara menghapus kolom yang terdapat missing value
data.dropna(axis = 0, inplace = True)

In [None]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 374860 entries, 0 to 378660
Data columns (total 15 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   ID                374860 non-null  int64  
 1   name              374860 non-null  object 
 2   category          374860 non-null  object 
 3   main_category     374860 non-null  object 
 4   currency          374860 non-null  object 
 5   deadline          374860 non-null  object 
 6   goal              374860 non-null  float64
 7   launched          374860 non-null  object 
 8   pledged           374860 non-null  float64
 9   state             374860 non-null  object 
 10  backers           374860 non-null  int64  
 11  country           374860 non-null  object 
 12  usd pledged       374860 non-null  float64
 13  usd_pledged_real  374860 non-null  float64
 14  usd_goal_real     374860 non-null  float64
dtypes: float64(5), int64(2), object(8)
memory usage: 45.8+ MB


Sekarang sudah tidak ada data yang missing pada kolom data diatas.

#Explorasi Data

In [None]:
#Melakukan eksplorasi data menggunakan query, groupby, dan aggregating
query = data[
    (data['category'] == 'Film & Video') &
    (data['state'] == 'failed') &
    (data['goal'] > 100000) &
    (data['country'] == 'US')]
query.head(3)

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
754,1003666645,Life Online,Film & Video,Film & Video,USD,2012-05-06,300000.0,2012-04-06 17:22:29,1.0,failed,1,US,1.0,1.0,300000.0
1042,1005237669,The Old Soul of a Lion,Film & Video,Film & Video,USD,2014-10-14,3000000.0,2014-08-15 20:16:22,4.0,failed,2,US,4.0,4.0,3000000.0
4579,1023409922,BUILDING a FARM,Film & Video,Film & Video,USD,2012-02-03,200000.0,2012-01-04 05:08:18,36.0,failed,3,US,36.0,36.0,200000.0


Menampilkan project dengan kategori Film & Video yang statusnya Failed, dengan goal diatas 100.000, dan dari negara US.

In [None]:
data[
    (data['category'] == 'Zines') &
    (data['state'] == 'live')
].groupby(['name', 'main_category']) ['ID'].count()

name                                                        main_category
1212MAG | One step closer                                   Publishing       1
Cirsova 2018 Spring/Summer Subscription                     Publishing       1
Create, Connect, and Inspire with LEFAIR Magazine           Publishing       1
L'Ennui, fanzine numéro 3                                   Publishing       1
Make 100 | EXPAND - A Zine, First Issue 0001                Publishing       1
PELO                                                        Publishing       1
Queer Creative Collab Tour                                  Publishing       1
Relative Nowhere                                            Publishing       1
Surat: 1st magazine using an endangered script in 50 years  Publishing       1
Name: ID, dtype: int64

Menampilkan data yang kategori projectnya 'Zines' dengan status 'Live', dengan menampilan juga nama projectnya dan main kategorinya.

#Measure of Central Tendency

In [None]:
#Mencari Mean, Median, dan Modus dalam kolom data 'Goal'
print ('Mean: ' + str (data['goal'].mean()))
print ('Median: ' + str(data['goal'].median()))
print ('Mode: ' + str(data['goal'].mode()[0]))

Mean: 49522.988841087354
Median: 5500.0
Mode: 5000.0




1. Nilai mean (rata - rata) pada kolom data 'Goal' adalah 45978.96872498965
2. Nilai median (nilai tengah) pada kolom data 'Goal' adalah 5120.0
3. Nilai modus (nilai yang sering muncul pada suatu data) pada kolom data 'Goal' adalah 5000.0



#Measure of Variance

In [None]:
#Mencari Range, Variance, dan Standar Deviation dalam suatu data kolom
kolom_data = ['goal', 'usd_goal_real']
for kolom in kolom_data:
    print(data[kolom].name + ' range: ' + str(data[kolom].max() - data[kolom].min()))
print('')
for Variance in kolom_data:
    print(data[Variance].name + ' Variance: ' + str(data[Variance].var()))
print('')
for Standard_Deviation in kolom_data:
    print(data[Standard_Deviation].name + ' Standard Deviation: ' + str(data[Standard_Deviation].std()))

goal range: 99999999.99
usd_goal_real range: 166361390.70000002

goal Variance: 1414581018455.966
usd_goal_real Variance: 1342741824113.8914

goal Standard Deviation: 1189361.6012197325
usd_goal_real Standard Deviation: 1158767.3727344463


1. Mencari nilai range (rentang suatu data antara data terndah dan tertingginya) dalam kolom data 'Goal' dan 'USD Goal Real'. Adapun Range data 'Goal' adalah 99999999.0, dan Range 'USD Goal Real' adalah 166361390.22.\
2. Nilai Variance pada data kolom 'Goal' adalah 1414581018455.966, sedangkan pada kolom 'USD Goal Real' adalah 1342741824113.8914.
3. Standar Deviasi pada kolom data 'Goal' adalah 1189361.6012197325, sedangkan pada kolom data 'USD Goal Real' adalah 1158767.3727344463.

#Hypothesis Testing

In [None]:
#Mencari Confidence Intervals pada kolom 'Goal'
a = data['goal']
stats.norm.interval(0.95, loc=np.mean(a), scale=stats.sem(a))

(45715.59806265791, 53330.379619516796)

Nilai confidence intervals(rentang nilai pada rata - rata suatu data) untuk data kolom 'goal' adalah antara 45715.59806265791 sampai dengan 53330.379619516796.

In [None]:
#Membuat hipotesis dengan Chi-Squared test
chi_data = pd.read_csv('/content/ks-projects-201801.csv')
chi_data.head(3)

Unnamed: 0,ID,name,category,main_category,currency,deadline,goal,launched,pledged,state,backers,country,usd pledged,usd_pledged_real,usd_goal_real
0,1000002330,The Songs of Adelaide & Abullah,Poetry,Publishing,GBP,2015-10-09,1000.0,2015-08-11 12:12:28,0.0,failed,0,GB,0.0,0.0,1533.95
1,1000003930,Greeting From Earth: ZGAC Arts Capsule For ET,Narrative Film,Film & Video,USD,2017-11-01,30000.0,2017-09-02 04:43:57,2421.0,failed,15,US,100.0,2421.0,30000.0
2,1000004038,Where is Hank?,Narrative Film,Film & Video,USD,2013-02-26,45000.0,2013-01-12 00:20:50,220.0,failed,3,US,220.0,220.0,45000.0


**Apakah ada hubungan antara kategori project dengan status project saat ini?**\
H0 = Tidak ada kaitan antara status project saat ini dengan kategori project\
Ha = Ada kaitan antara status project saat ini dengan kategori project

In [None]:
#Membuat tabel contigency
contingency_table=pd.crosstab(chi_data['category'],chi_data['state'])
contingency_table

state,canceled,failed,live,successful,suspended,undefined
category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
3D Printing,91,326,8,242,15,1
Academic,115,589,11,188,13,0
Accessories,340,1667,53,1073,29,3
Action,109,514,7,107,3,0
Animals,18,166,3,63,5,0
...,...,...,...,...,...,...
Woodworking,92,766,11,292,6,0
Workshops,10,98,4,50,2,0
World Music,143,1018,13,922,6,0
Young Adult,96,538,10,172,5,0


In [None]:
stat, p, dof, expected = stats.chi2_contingency(contingency_table)
print('stat=%.3f, p=%.3f' % (stat, p))
if p > 0.05:
    print('Kemungkinan tidak berkaitan')
else:
    print('Kemungkinan berkaitan')

stat=83380.873, p=0.000
Kemungkinan berkaitan


Kesimpulan dari hipotesis 'Apakah ada hubungan antara kategori project dengan status project saat ini?' yang telah di uji dengan menggunakan Chi-Squared test adalah Ha diterima yang artinya ada hubungan antara status project saat ini dengan kategori project.

#Kesimpulan

Setelah melakukan pengolahan data terhadap dataset Kickstarter Projects dapat diambil hasil/kesimpulan dari pengolahan data tersebut, diantaranya adalah:
1. Membaca data set CSV menggunakan library pandas, adapun missing value pada data tersebut terdapat di kolom 'Name' dan 'USD Pledged' dan cara menangani missing valuenya dengan cara menghapus kolom yang terdapat missing data. Untuk eksplorasi data menggunakan query, groupby dan aggregating.

2. Adapun nilai Measure of Central Tendency pada kolom data 'Goal' adalah:
   - mean (rata - rata) adalah 45978.96872498965
   - median (nilai tengah) adalah 5120.0,
   - modus (nilai yang sering muncul pada suatu data) adalah 5000.0.

3. Adapun nilai Measure of Central Tendency pada kolom data 'goal' dan 'usd_goal_real' adalah:
   - nilai range 'Goal' adalah 99999999.0, dan Range 'USD Goal Real' adalah 166361390.22.
   - Nilai Variance pada data kolom 'Goal' adalah 1414581018455.966, sedangkan pada kolom 'USD Goal Real' adalah 1342741824113.8914.
   - Standar Deviasi pada kolom data 'Goal' adalah 1189361.6012197325, sedangkan pada kolom data 'USD Goal Real' adalah 1158767.3727344463

4. Nilai confidence intervals(rentang nilai pada rata - rata suatu data) untuk data kolom 'goal' adalah antara 45715.59806265791 sampai dengan 53330.379619516796.

5. Sedangkan untuk hipotesis testingnya menggunakan Chi-Squared test. Adapun hipotesis, H0, dan H1 nya adalah :
'**Apakah ada hubungan antara kategori project dengan status project saat ini?**'\
H0 = Tidak ada kaitan antara status project saat ini dengan kategori project\
Ha = Ada kaitan antara status project saat ini dengan kategori project

  Dan setelah dilakukan hipotesis testing menggunakan Chi-Squered test kesimpulan yang didapat adalah Ha diterima yang artinya ada hubungan antara status project saat ini dengan kategori project.