# 1. Preparing data

Dalam bab ini, Anda akan belajar tentang berbagai teknik yang dapat Anda gunakan untuk mengimpor banyak file ke DataFrames. Setelah mengimpor data Anda ke DataFrames individual, Anda akan belajar cara berbagi informasi antara DataFrames menggunakan indeks mereka. Memahami cara kerja indeks sangat penting untuk menggabungkan DataFrames, yang akan Anda pelajari nanti dalam kursus.

## Reading multiple data files

### Reading DataFrames from multiple files

Ketika data tersebar di antara beberapa file, Anda biasanya memanggil pandas `read_csv()` (atau fungsi impor data serupa) beberapa kali untuk memuat data ke dalam beberapa DataFrames.

File data untuk contoh ini berasal dari [daftar medali Olimpiade yang diberikan antara tahun 1896 & 2008](https://www.theguardian.com/sport/datablog/2012/jun/25/olympic-medal-winner-list-data) yang disusun oleh Guardian.

Label kolom masing-masing DataFrame adalah `NOC`, `Country`, & `Total` di mana `NOC` adalah kode tiga huruf untuk nama negara dan `Total` adalah jumlah medali dari jenis yang dimenangkan (perunggu, perak, atau emas).

In [9]:
# Import pandas
import pandas as pd

# Read 'Bronze.csv' into a DataFrame: bronze
bronze = pd.read_csv('datasets/olympic/Bronze.csv')

# Read 'Silver.csv' into a DataFrame: silver
silver = pd.read_csv('datasets/olympic/Silver.csv')

# Read 'Gold.csv' into a DataFrame: gold
gold = pd.read_csv('datasets/olympic/Gold.csv')

# Print the first five rows of gold
print(gold.head())

   NOC         Country   Total
0  USA   United States  2088.0
1  URS    Soviet Union   838.0
2  GBR  United Kingdom   498.0
3  FRA          France   378.0
4  GER         Germany   407.0


**Note** : Membaca file csv ke dalam DataFrames seperti ini seharusnya sudah menjadi kebiasaan Anda!

### Reading DataFrames from multiple files in a loop

Memuat data dari banyak file ke dalam DataFrames lebih efisien dengan *loop* atau *list comprehension*.

Perhatikan bahwa pendekatan ini tidak terbatas untuk bekerja dengan file CSV. Yaitu, bahkan jika data Anda dalam format lain, selama pandas memiliki fungsi impor data yang sesuai, Anda dapat menerapkan loop atau comprehension untuk menghasilkan list DataFrames yang diimpor dari file sumber.

Di sini, Anda akan terus bekerja dengan [dataset medali Olimpiade The Guardian](https://www.theguardian.com/sport/datablog/2012/jun/25/olympic-medal-winner-list-data).

In [15]:
# Import pandas
import pandas as pd

# Create the list of file names: filenames
filenames = ['datasets/olympic/Gold.csv', 'datasets/olympic/Silver.csv', 'datasets/olympic/Bronze.csv']

# Create the list of three DataFrames: dataframes
dataframes = []
for filename in filenames:
    dataframes.append(pd.read_csv(filename))

# Print top 5 rows of 1st DataFrame in dataframes
print(dataframes[0].head())

   NOC         Country   Total
0  USA   United States  2088.0
1  URS    Soviet Union   838.0
2  GBR  United Kingdom   498.0
3  FRA          France   378.0
4  GER         Germany   407.0


**Note** : Saat Anda berurusan dengan banyak file csv seperti ini, lebih efisien untuk membacanya di DataFrames menggunakan loop.

### Combining DataFrames from multiple data files

Dalam latihan ini, Anda akan menggabungkan ketiga DataFrames dari latihan sebelumnya - `gold`, `silver`, & `bronze` - menjadi satu DataFrame yang disebut `medals`. Pendekatan yang akan Anda gunakan di sini agak kaku. Kemudian dalam kursus, Anda akan melihat berbagai metode hebat yang sering digunakan dalam praktik untuk *concatenating* atau *merging* DataFrames.

Ingat, label kolom setiap DataFrame adalah `NOC`, `Country`, dan `Total`, di mana `NOC` adalah kode tiga huruf untuk nama negara dan `Total` adalah jumlah medali dari jenis yang dimenangkan.

In [17]:
# Import pandas
import pandas as pd

# Make a copy of gold: medals
medals = gold.copy()

# Create list of new column labels: new_labels
new_labels = ['NOC', 'Country', 'Gold']

# Rename the columns of medals using new_labels
medals.columns = new_labels

# Add columns 'Silver' & 'Bronze' to medals
medals['Silver'] = silver['Total']
medals['Bronze'] = bronze['Total']

# Print the head of medals
print(medals.head())

   NOC         Country    Gold  Silver  Bronze
0  USA   United States  2088.0  1195.0  1052.0
1  URS    Soviet Union   838.0   627.0   584.0
2  GBR  United Kingdom   498.0   591.0   505.0
3  FRA          France   378.0   461.0   475.0
4  GER         Germany   407.0   350.0   454.0


**Note** : Nanti dalam kursus ini, Anda akan belajar alat yang jauh lebih kuat untuk menggabungkan DataFrames!

## Reindexing DataFrames

### Sorting DataFrame with the Index & columns

Seringkali berguna untuk mengatur ulang urutan baris-baris DataFrame dengan menyortir. Anda tidak harus mengimplementasikannya sendiri; metode utama untuk melakukan ini adalah `.sort_index()` dan `.sort_values()`.

Dalam latihan ini, Anda akan menggunakan metode ini dengan DataFrame dari nilai suhu yang diindeks oleh nama bulan. Anda akan mengurutkan baris berdasarkan abjad menggunakan Indeks dan secara numerik menggunakan kolom. Perhatikan, untuk data ini, pengurutan awal mungkin paling bermanfaat dan intuitif: tujuan di sini adalah agar Anda memahami apa yang dilakukan metode penyortiran.

In [36]:
# Import pandas
import pandas as pd

# Read 'monthly_max_temp.csv' into a DataFrame: weather1
weather1 = pd.read_csv('datasets/monthly_max_temp.csv', index_col='Month')

# Print the head of weather1
print(weather1.head())

# Sort the index of weather1 in alphabetical order: weather2
weather2 = weather1.sort_index()

# Print the head of weather2
print(weather2.head())

# Sort the index of weather1 in reverse alphabetical order: weather3
weather3 = weather1.sort_index(ascending=False)

# Print the head of weather3
print(weather3.head())

# Sort weather1 numerically using the values of 'Max TemperatureF': weather4
weather4 = weather1.sort_values('Max TemperatureF')

# Print the head of weather4
print(weather4.head())

       Max TemperatureF
Month                  
Jan                  68
Feb                  60
Mar                  68
Apr                  84
May                  88
       Max TemperatureF
Month                  
Apr                  84
Aug                  86
Dec                  68
Feb                  60
Jan                  68
       Max TemperatureF
Month                  
Sep                  90
Oct                  84
Nov                  72
May                  88
Mar                  68
       Max TemperatureF
Month                  
Feb                  60
Jan                  68
Mar                  68
Dec                  68
Nov                  72


**Note** : Mampu mengurutkan DataFrames adalah keterampilan yang penting. Saat DataFrames Anda diurutkan, menjadi lebih mudah untuk melihat bagaimana Anda bisa menggabungkannya.

### Reindexing DataFrame from a list

Metode pengurutan bukan satu-satunya cara untuk mengubah Indeks DataFrame. Ada juga metode `.reindex()`.

Dalam latihan ini, Anda akan mengindeks ulang DataFrame dari nilai suhu rata-rata triwulanan yang berisi sampel bulanan (ini adalah contoh upsampling atau peningkatan laju sampel, yang dapat Anda ingat dari [Pandas Foundations](https://www.datacamp.com/courses/pandas-foundations)).

Data asli memiliki singkatan bulan pertama dari kuartal (interval tiga bulan) pada Indeks, yaitu `Apr`, `Jan`, `Jul`, dan `Oct`. Data ini telah dimuat ke dalam DataFrame yang disebut `weather1` dan telah dicetak secara keseluruhan di IPython Shell. Perhatikan hanya memiliki empat baris (sesuai dengan bulan pertama setiap kuartal) dan bahwa baris tidak diurutkan secara kronologis.

Pada awalnya Anda akan menggunakan daftar semua singkatan dua belas bulan dan selanjutnya menerapkan metode `.ffill()` untuk *forward-fill* entri nol saat upsampling. Daftar singkatan bulan ini telah dimuat sebelumnya sebagai `year`.

In [37]:
# Reindex
weather1 = weather1.reindex(['Apr', 'Jan', 'Jul', 'Oct'])

In [39]:
# List year
year = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']

In [40]:
# Reindex weather1 using the list year: weather2
weather2 = weather1.reindex(year)

# Print weather2
print(weather2)

# Reindex weather1 using the list year with forward-fill: weather3
weather3 = weather1.reindex(year).ffill()

# Print weather3
print(weather3)

       Max TemperatureF
Month                  
Jan                68.0
Feb                 NaN
Mar                 NaN
Apr                84.0
May                 NaN
Jun                 NaN
Jul                91.0
Aug                 NaN
Sep                 NaN
Oct                84.0
Nov                 NaN
Dec                 NaN
       Max TemperatureF
Month                  
Jan                68.0
Feb                68.0
Mar                68.0
Apr                84.0
May                84.0
Jun                84.0
Jul                91.0
Aug                91.0
Sep                91.0
Oct                84.0
Nov                84.0
Dec                84.0


**Note** : Perhatikan bahwa nilai yang terkait dengan bulan yang hilang dari `weather1` diisi dengan nilai `NaN` di `weather2`. Ini tidak terjadi di `weather3`, karena Anda menggunakan *forward-fill*.

### Reindexing using another DataFrame Index

Teknik umum lainnya adalah mengindeks ulang DataFrame menggunakan Indeks DataFrame lain. Metode DataFrame `.reindex()` dapat menerima Indeks DataFrame atau Series sebagai input. Anda dapat mengakses Indeks DataFrame dengan atribut `.index` nya.

[Baby Names Dataset](https://www.data.gov/developers/baby-names-dataset/) dari [data.gov](http://data.gov/) merangkum jumlah nama (dengan jenis kelamin) dari kelahiran yang terdaftar di AS sejak 1881. Dalam latihan ini, Anda akan mulai dengan DataFrames dua nama bayi yaitu `names_1981` dan `names_1881`.

DataFrames `names_1981` dan `names_1881` keduanya memiliki MultiIndex dengan level `name` dan `gender` yang memberikan label unik untuk dihitung di setiap baris. Jika Anda tertarik melihat bagaimana MultiIndexes diatur, `names_1981` dan `names_1881` dibaca menggunakan perintah berikut:

In [41]:
# Load data
names_1981 = pd.read_csv('datasets/baby-names/names1981.csv', header=None, names=['name','gender','count'], index_col=(0,1))
names_1881 = pd.read_csv('datasets/baby-names/names1881.csv', header=None, names=['name','gender','count'], index_col=(0,1))

DataFrame yang terkait dengan kelahiran tahun 1981 jauh lebih besar, yang mencerminkan keragaman nama yang lebih besar pada tahun 1981 dibandingkan dengan tahun 1881.

In [43]:
print('Shape of names_1981 DataFrame:', names_1981.shape)
print('Shape of names_1881 DataFrame:', names_1881.shape)

Shape of names_1981 DataFrame: (19455, 1)
Shape of names_1881 DataFrame: (1935, 1)


Tugas Anda di sini adalah menggunakan metode DataFrame `.reindex()` dan `.dropna()` untuk membuat DataFrame `common_names` yang menghitung nama dari tahun 1881 yang masih populer di tahun 1981.

In [44]:
# Import pandas
import pandas as pd

# Reindex names_1981 with index of names_1881: common_names
common_names = names_1981.reindex(names_1881.index)

# Print shape of common_names
print(common_names.shape)

# Drop rows with null counts: common_names
common_names = common_names.dropna()

# Print shape of new common_names
print(common_names.shape)

(1935, 1)
(1587, 1)


**Note** : Sepertinya 348 nama keluar dari mode antara 1881 dan 1981!

## Arithmetic with Series & DataFrames

### Adding unaligned DataFrames

DataFrames `january` dan `february` mewakili penjualan yang dilakukan perusahaan pada bulan-bulan yang sesuai.

Indeks di kedua DataFrames disebut `Company`, yang mengidentifikasi perusahaan mana yang membeli jumlah unit itu. Kolom `Units` adalah jumlah unit yang terjual.

In [57]:
# Create DataFrames
january = pd.DataFrame({ 'Company' : ['Acme Corporation', 'Hooli', 'Initech', 'Mediacore', 'Streeplex'], 
                         'Units' : [19, 17, 20, 10, 13]}).set_index('Company')
february = pd.DataFrame({ 'Company' : ['Acme Corporation', 'Hooli', 'Mediacore', 'Vandelay Inc'],
                          'Units' : [15, 3, 13, 25] }).set_index('Company')

In [58]:
print(january)
print(february)

                  Units
Company                
Acme Corporation     19
Hooli                17
Initech              20
Mediacore            10
Streeplex            13
                  Units
Company                
Acme Corporation     15
Hooli                 3
Mediacore            13
Vandelay Inc         25


Jika Anda menambahkan dua DataFrames ini dengan mengeksekusi perintah `total = january + february`, berapa banyak baris yang akan dimiliki DataFrame? 

In [59]:
total = january + february
print(total)

                  Units
Company                
Acme Corporation   34.0
Hooli              20.0
Initech             NaN
Mediacore          23.0
Streeplex           NaN
Vandelay Inc        NaN


**Note** : `january` dan `february` keduanya terdiri dari penjualan perusahaan `Acme Corporation`, `Hooli`, dan `Mediacore`. `january` memiliki tambahan dua perusahaan `Initech` dan `Streeplex`, sementara `february` memiliki perusahaan tambahan `Vandelay Inc`. Bersama-sama, mereka terdiri dari penjualan 6 perusahaan yang unik, sehingga `total` akan memiliki 6 baris.

### Broadcasting in arithmetic formulas

Dalam latihan ini, Anda akan bekerja dengan data cuaca yang diambil dari wunderground.com. DataFrame `weather` telah dimuat sebelumnya bersama dengan `pandas` sebagai `pd`. Ini memiliki 365 baris (diamati setiap hari tahun 2013 di Pittsburgh, PA) dan 22 kolom yang mencerminkan pengukuran cuaca yang berbeda setiap hari.

Anda akan mengelompokkan kumpulan kolom yang terkait dengan pengukuran suhu dalam derajat Fahrenheit, mengonversinya menjadi derajat Celcius, dan menandai ulang kolom-kolom DataFrame baru untuk mencerminkan perubahan unit.

Ingat, operator aritmatika biasa (seperti `+`, `-`, `*`, dan `/`) *broadcast* nilai skalar untuk menyesuaikan DataFrames saat menggabungkan skalar & DataFrames dalam ekspresi aritmatika. Broadcasting juga bekerja dengan pandas Series dan NumPy array.

In [65]:
# Assign file url
filename = 'https://assets.datacamp.com/production/repositories/516/datasets/58c1ead59818b2451324e9e84239db7bda6b11d3/pittsburgh2013.csv'
# Load data
weather = pd.read_csv(filename, parse_dates=True, index_col='Date')

In [66]:
# Extract selected columns from weather as new DataFrame: temps_f
temps_f = weather[['Min TemperatureF', 'Mean TemperatureF', 'Max TemperatureF']]

# Convert temps_f to celsius: temps_c
temps_c = (temps_f - 32) * 5/9

# Rename 'F' in column names with 'C': temps_c.columns
temps_c.columns = temps_c.columns.str.replace('F', 'C')

# Print first 5 rows of temps_c
print(temps_c.head())

            Min TemperatureC  Mean TemperatureC  Max TemperatureC
Date                                                             
2013-01-01         -6.111111          -2.222222          0.000000
2013-01-02         -8.333333          -6.111111         -3.888889
2013-01-03         -8.888889          -4.444444          0.000000
2013-01-04         -2.777778          -2.222222         -1.111111
2013-01-05         -3.888889          -1.111111          1.111111


**Note** : Hanya dalam tiga baris kode, Anda mengonversi satuan 365 titik data (lebih dari tiga kolom) dari derajat Fahrenheit ke derajat Celcius.

### Computing percentage growth of GDP

Tugas Anda dalam latihan ini adalah untuk menghitung persen-perubahan tahunan PDB AS ([Produk Domestik Bruto](https://en.wikipedia.org/wiki/Gross_domestic_product)) sejak 2008.

Data telah diperoleh dari [Federal Reserve Bank of St. Louis](https://fred.stlouisfed.org/series/GDP/downloaddata) dan tersedia dalam file `GDP.csv`, yang berisi data triwulanan; Anda akan mengubah sampel menjadi sampel tahunan dan kemudian menghitung pertumbuhan tahunan PDB. Untuk penyegaran pada resampling, periksa materi yang relevan dari [Pandas Foundations](https://campus.datacamp.com/courses/pandas-foundations/time-series-in-pandas?ex=7).

In [69]:
# Read 'GDP.csv' into a DataFrame: gdp
gdp = pd.read_csv('datasets/gdp/gdp_usa.csv', parse_dates=True, index_col='DATE')

# Slice all the gdp data from 2008 onward: post2008
post2008 = gdp.loc['2008':]

# Print the last 8 rows of post2008
print(post2008.tail(8))

# Resample post2008 by year, keeping last(): yearly
yearly = post2008.resample('A').last()

# Print yearly
print(yearly)

# Compute percentage growth of yearly: yearly['growth']
yearly['growth'] = yearly.pct_change() * 100

# Print yearly again
print(yearly)

              VALUE
DATE               
2014-07-01  17569.4
2014-10-01  17692.2
2015-01-01  17783.6
2015-04-01  17998.3
2015-07-01  18141.9
2015-10-01  18222.8
2016-01-01  18281.6
2016-04-01  18436.5
              VALUE
DATE               
2008-12-31  14549.9
2009-12-31  14566.5
2010-12-31  15230.2
2011-12-31  15785.3
2012-12-31  16297.3
2013-12-31  16999.9
2014-12-31  17692.2
2015-12-31  18222.8
2016-12-31  18436.5
              VALUE    growth
DATE                         
2008-12-31  14549.9       NaN
2009-12-31  14566.5  0.114090
2010-12-31  15230.2  4.556345
2011-12-31  15785.3  3.644732
2012-12-31  16297.3  3.243524
2013-12-31  16999.9  4.311144
2014-12-31  17692.2  4.072377
2015-12-31  18222.8  2.999062
2016-12-31  18436.5  1.172707


**Note** : Perhatikan bahwa kolom pertama dari kolom `'growth'` adalah `NaN` karena tidak ada data untuk tahun 2007.

### Converting currency of stocks

Dalam latihan ini, harga saham dalam Dolar AS untuk S&P 500 pada tahun 2015 telah diperoleh dari [Yahoo Finance](https://finance.yahoo.com/). File `sp500.csv` untuk sp500 dan `exchange.csv` untuk nilai tukar keduanya disediakan untuk Anda.

Menggunakan nilai tukar harian ke Poundsterling, tugas Anda adalah mengonversi harga kolom `Open` dan `Close`.

In [70]:
# Assign file url
exchange_url = 'https://assets.datacamp.com/production/repositories/516/datasets/e91482db6a7bae394653278e4e908e63ed9ac833/exchange.csv'
sp500_url = 'https://assets.datacamp.com/production/repositories/516/datasets/7a9b570a02ef589891d9576a86876a616ca5f3c8/sp500.csv'

In [71]:
# Import pandas
import pandas as pd

# Read 'sp500.csv' into a DataFrame: sp500
sp500 = pd.read_csv(sp500_url, parse_dates=True, index_col='Date')

# Read 'exchange.csv' into a DataFrame: exchange
exchange = pd.read_csv(exchange_url, parse_dates=True, index_col='Date')

# Subset 'Open' & 'Close' columns from sp500: dollars
dollars = sp500[['Open', 'Close']]

# Print the head of dollars
print(dollars.head())

# Convert dollars to pounds: pounds
pounds = dollars.multiply(exchange['GBP/USD'], axis='rows')

# Print the head of pounds
print(pounds.head())

                   Open        Close
Date                                
2015-01-02  2058.899902  2058.199951
2015-01-05  2054.439941  2020.579956
2015-01-06  2022.150024  2002.609985
2015-01-07  2005.550049  2025.900024
2015-01-08  2030.609985  2062.139893
                   Open        Close
Date                                
2015-01-02  1340.364425  1339.908750
2015-01-05  1348.616555  1326.389506
2015-01-06  1332.515980  1319.639876
2015-01-07  1330.562125  1344.063112
2015-01-08  1343.268811  1364.126161


Sekarang setelah Anda terbiasa dengan cara berbagi informasi antara DataFrames, Anda akan belajar tentang menggabungkan DataFrames di bab berikutnya.