# 2. Concatenating data

Anda akan belajar cara melakukan operasi gaya database untuk menggabungkan DataFrames. Secara khusus, Anda akan belajar tentang `appending` dan `concatenating` DataFrames sambil bekerja dengan berbagai dataset dunia nyata.

## Appending & concatenating Series

### Appending pandas Series

Dalam latihan ini, Anda akan memuat data penjualan dari bulan Januari, Februari, dan Maret ke dalam DataFrames. Kemudian, Anda akan mengekstrak Series dengan kolom `'Units'` dari masing-masing dan menambahkannya bersama dengan metode chaining menggunakan `.append()`.

Untuk memastikan bahwa susunan berfungsi, Anda akan mencetak irisan (*slices*) dari Series ini, dan akhirnya, Anda akan menambahkan hasilnya untuk mengetahui total unit yang terjual pada kuartal pertama.

In [1]:
# Import pandas
import pandas as pd

# Load 'sales-jan-2015.csv' into a DataFrame: jan
jan = pd.read_csv('datasets/sales/sales-jan-2015.csv', parse_dates=True, index_col='Date')

# Load 'sales-feb-2015.csv' into a DataFrame: feb
feb = pd.read_csv('datasets/sales/sales-feb-2015.csv', parse_dates=True, index_col='Date')

# Load 'sales-mar-2015.csv' into a DataFrame: mar
mar = pd.read_csv('datasets/sales/sales-mar-2015.csv', parse_dates=True, index_col='Date')

# Extract the 'Units' column from jan: jan_units
jan_units = jan['Units']

# Extract the 'Units' column from feb: feb_units
feb_units = feb['Units']

# Extract the 'Units' column from mar: mar_units
mar_units = mar['Units']

# Append feb_units and then mar_units to jan_units: quarter1
quarter1 = jan_units.append(feb_units).append(mar_units)

# Print the first slice from quarter1
print(quarter1.loc['jan 27, 2015':'feb 2, 2015'])

# Print the second slice from quarter1
print(quarter1.loc['feb 26, 2015':'mar 7, 2015'])

# Compute & print total sales in quarter1
print(quarter1.sum())

Date
2015-01-27 07:11:55    18
2015-02-02 08:33:01     3
2015-02-02 20:54:49     9
Name: Units, dtype: int64
Date
2015-02-26 08:57:45     4
2015-02-26 08:58:51     1
2015-03-06 10:11:45    17
2015-03-06 02:03:56    17
Name: Units, dtype: int64
642


**Note** : Seperti yang Anda lihat, menambahkan `pandas` Series sangat mudah!

### Concatenating pandas Series along row axis

Setelah mempelajari cara menambahkan Series, kini Anda akan belajar cara mencapai hasil yang sama dengan menggabungkan Series. Anda akan terus bekerja dengan data penjualan yang Anda lihat sebelumnya. Kali ini, DataFrames `jan`, `feb`, and `mar` telah dimuat sebelumnya.

Tugas Anda adalah menggunakan `pd.concat()` dengan list Series untuk mencapai hasil yang sama dengan yang Anda dapatkan dengan menghubungkan panggilan ke `.append()`.

Anda mungkin bertanya-tanya tentang perbedaan antara metode `pd.concat()` dan pandas `.append()`. Salah satu cara untuk memikirkan perbedaannya adalah `.append()` adalah kasus spesifik dari gabungan, sedangkan `pd.concat()` memberi Anda lebih banyak fleksibilitas, seperti yang akan Anda lihat di latihan selanjutnya.

In [2]:
# Initialize empty list: units
units = []

# Build the list of Series
for month in [jan, feb, mar]:
    units.append(month['Units'])

# Concatenate the list: quarter1
quarter1 = pd.concat(units, axis='rows')

# Print slices from quarter1
print(quarter1.loc['jan 27, 2015':'feb 2, 2015'])
print(quarter1.loc['feb 26, 2015':'mar 7, 2015'])

Date
2015-01-27 07:11:55    18
2015-02-02 08:33:01     3
2015-02-02 20:54:49     9
Name: Units, dtype: int64
Date
2015-02-26 08:57:45     4
2015-02-26 08:58:51     1
2015-03-06 10:11:45    17
2015-03-06 02:03:56    17
Name: Units, dtype: int64


**Note** : Seperti dalam latihan ini, Anda dapat mencapai hasil yang sama dengan menambahkan dengan *appending by concatenating* sumbu baris.

## Appending & concatenating DataFrames

### Appending DataFrames with ignore_index

Dalam latihan ini, Anda akan menggunakan dataset [Kumpulan Nama Bayi](https://www.data.gov/developers/baby-names-dataset/) (dari data.gov) lagi. Kali ini, baik DataFrames `names_1981` dan `names_1881` dimuat tanpa menentukan kolom Indeks (jadi Indeks default untuk keduanya adalah RangeIndexes).

Anda akan menggunakan metode DataFrame `.append()` untuk membuat DataFrame `combined_names`. Untuk membedakan baris dari dua DataFrames asli, Anda akan menambahkan kolom `'year'` untuk masing-masing tahun (1881 atau 1981 dalam kasus ini). Selain itu, Anda akan menentukan `ignore_index=True` sehingga nilai-nilai indeks tidak digunakan di sepanjang sumbu gabungan. Sumbu yang dihasilkan sebagai gantinya akan diberi label `0, 1, ..., n-1` yang berguna jika Anda menggabungkan objek di mana sumbu gabungan tidak memiliki informasi pengindeksan yang berarti.

In [7]:
# Load data
names_1881 = pd.read_csv('datasets/baby-names/names1881.csv', names=['name', 'gender', 'count'])
names_1981 = pd.read_csv('datasets/baby-names/names1981.csv', names=['name', 'gender', 'count'])

In [8]:
# Add 'year' column to names_1881 and names_1981
names_1881['year'] = 1881
names_1981['year'] = 1981

# Append names_1981 after names_1881 with ignore_index=True: combined_names
combined_names = names_1881.append(names_1981, ignore_index=True)

# Print shapes of names_1981, names_1881, and combined_names
print(names_1981.shape)
print(names_1881.shape)
print(combined_names.shape)

# Print all rows that contain the name 'Morgan'
print(combined_names.loc[combined_names.name == 'Morgan'])

(19455, 4)
(1935, 4)
(21390, 4)
         name gender  count  year
1283   Morgan      M     23  1881
2096   Morgan      F   1769  1981
14390  Morgan      M    766  1981


### Concatenating pandas DataFrames along column axis

Fungsi `pd.concat()` dapat menggabungkan DataFrames secara horizontal maupun vertikal (vertikal adalah default). Untuk membuat DataFrames stack secara horizontal, Anda harus menentukan keyword argument `axis=1` atau `axis='columns`.

Dalam latihan ini, Anda akan menggunakan data cuaca dengan suhu harian maksimum dan rata-rata yang diambil sampel dengan laju yang berbeda (triwulanan versus bulanan). Anda akan menggabungkan baris keduanya dan melihat bahwa, di mana baris tidak ada dalam DataFrame, nilai null dimasukkan dalam DataFrame gabungan. Ini sesuai dengan *outer join* (yang akan Anda jelajahi lebih rinci dalam latihan selanjutnya).

File `'quarterly_max_temp.csv'` dan `'Monthly_mean_temp.csv'` telah dimuat sebelumnya ke DataFrames `weather_max` dan `weather_mean`.

In [9]:
# Create DataFrame
weather_max = pd.DataFrame({ 'Month' : ['Jan', 'Apr', 'Jul', 'Oct'], 'Max TemperatureF' : [68, 89, 91, 84] }).set_index('Month')
weather_mean = pd.DataFrame({ 'Month' : ['Apr', 'Aug', 'Dec', 'Feb', 'Jan', 'Jul', 'Jun', 'Mar', 'May', 'Nov', 'Oct', 'Sep'], 'Mean TemperatureF' : [53.1, 70.0, 34.935483870967744, 28.714285714285715, 32.354838709677416, 72.87096774193549, 70.13333333333334, 35.0, 62.612903225806456, 39.8, 55.451612903225815, 63.76666666666666]}).set_index('Month')


In [12]:
# Create a list of weather_max and weather_mean
weather_list = [weather_max, weather_mean]

# Concatenate weather_list horizontally
weather = pd.concat(weather_list, axis=1, sort=True)

# Print weather
print(weather)

     Max TemperatureF  Mean TemperatureF
Apr              89.0          53.100000
Aug               NaN          70.000000
Dec               NaN          34.935484
Feb               NaN          28.714286
Jan              68.0          32.354839
Jul              91.0          72.870968
Jun               NaN          70.133333
Mar               NaN          35.000000
May               NaN          62.612903
Nov               NaN          39.800000
Oct              84.0          55.451613
Sep               NaN          63.766667


**Note** : Di sinilah Anda mulai melihat keuntungan dari menggabungkan (*concatenating*) daripada menambahkan (*appending*).

### Reading multiple files to build a DataFrame

Sering kali nyaman untuk membangun DataFrame besar dengan mem-parsing banyak file sebagai DataFrame dan menggabungkan semuanya sekaligus. Anda akan melakukan ini di sini dengan tiga file, tetapi, pada prinsipnya, pendekatan ini dapat digunakan untuk menggabungkan data dari lusinan atau ratusan file.

Di sini, Anda akan bekerja dengan DataFrames yang dikompilasi dari [The Guardian's Olympic medal dataset](https://www.theguardian.com/sport/datablog/2012/jun/25/olympic-medal-winner-list-data).

List `medal_types` telah dimuat sebelumnya untuk Anda, yang berisi string `'bronze'`, `'silver'`, dan `'gold'`.

In [22]:
medal_types = ['bronze', 'silver', 'gold']

In [23]:
#Initialize an empyy list: medals
medals =[]

for medal in medal_types:
    # Create the file name: file_name
    file_name = "datasets/olympic/%s_top5.csv" % medal
    # Create list of column names: columns
    columns = ['Country', medal]
    # Read file_name into a DataFrame: medal_df
    medal_df = pd.read_csv(file_name, header=0, index_col='Country', names=columns)
    # Append medal_df to medals
    medals.append(medal_df)

# Concatenate medals horizontally: medals_df
medals_df = pd.concat(medals, axis='columns', sort=True)

# Print medals_df
print(medals_df)

                bronze  silver    gold
France           475.0   461.0     NaN
Germany          454.0     NaN   407.0
Italy              NaN   394.0   460.0
Soviet Union     584.0   627.0   838.0
United Kingdom   505.0   591.0   498.0
United States   1052.0  1195.0  2088.0


**Note** : Mampu membangun DataFrames dari banyak file seperti ini bisa sangat berguna.

## Concatenation, keys, & MultiIndexes

### Concatenating vertically to get MultiIndexed rows

Ketika menumpuk urutan DataFrames secara vertikal, kadang-kadang diinginkan untuk membangun MultiIndex untuk menunjukkan DataFrame dari mana setiap baris berasal. Ini dapat dilakukan dengan menentukan parameter `keys` dalam panggilan ke `pd.concat()`, yang menghasilkan indeks hierarkis dengan label dari `keys` sebagai label indeks terluar. Jadi, Anda tidak perlu mengganti nama kolom setiap DataFrame saat Anda memuatnya. Sebaliknya, hanya kolom Indeks yang harus ditentukan.

Dua list telah dimuat sebelumnya: list kosong yang disebut `medals`, dan `medal_types`, yang berisi string `'bronze'`, `'silver'`, dan `'gold'`.

In [28]:
medals = []

for medal in medal_types:

    file_name = "datasets/olympic/%s_top5.csv" % medal
    
    # Read file_name into a DataFrame: medal_df
    medal_df = pd.read_csv(file_name, index_col='Country')
    
    # Append medal_df to medals
    medals.append(medal_df)
    
# Concatenate medals: medals
medals = pd.concat(medals, keys=['bronze', 'silver', 'gold'], sort=True)

# Print medals in entirety
print(medals)

                        Total
       Country               
bronze United States   1052.0
       Soviet Union     584.0
       United Kingdom   505.0
       France           475.0
       Germany          454.0
silver United States   1195.0
       Soviet Union     627.0
       United Kingdom   591.0
       France           461.0
       Italy            394.0
gold   United States   2088.0
       Soviet Union     838.0
       United Kingdom   498.0
       Italy            460.0
       Germany          407.0


**Note** : Perhatikan MultiIndex `medals`.

### Slicing MultiIndexed DataFrames

Anda diberikan dengan DataFrame MultiIndexed seperti yang dihasilkan pada akhir latihan sebelumnya. Tugas Anda adalah untuk mengurutkan DataFrame dan menggunakan `pd.IndexSlice` untuk mengekstraksi irisan tertentu. Lihat latihan ini dari [Memanipulasi DataFrames dengan pandas](https://campus.datacamp.com/courses/manipulating-dataframes-with-pandas/advanced-indexing?ex=10) untuk menyegarkan ingatan Anda tentang cara berurusan dengan MultiIndexed DataFrames.

In [29]:
# Sort the entries of medals: medals_sorted
medals_sorted = medals.sort_index(level=0)

# Print the number of Bronze medals won by Germany
print(medals_sorted.loc[('bronze','Germany')])

# Print data about silver medals
print(medals_sorted.loc['silver'])

# Create alias for pd.IndexSlice: idx
idx = pd.IndexSlice

# Print all the data on medals won by the United Kingdom
print(medals_sorted.loc[idx[:, 'United Kingdom'], :])

Total    454.0
Name: (bronze, Germany), dtype: float64
                 Total
Country               
France           461.0
Italy            394.0
Soviet Union     627.0
United Kingdom   591.0
United States   1195.0
                       Total
       Country              
bronze United Kingdom  505.0
gold   United Kingdom  498.0
silver United Kingdom  591.0


**Note** : Sepertinya hanya Amerika Serikat dan Uni Soviet yang memenangkan lebih banyak medali perak daripada Inggris.

### Concatenating horizontally to get MultiIndexed columns

Dimungkinkan juga untuk membuat DataFrame dengan kolom yang diindeks secara hierarkis. Untuk latihan ini, Anda akan mulai dengan tiga list DataFrames yang disebut `dataframes`. Ketiga DataFrame berisi kolom `'Company'`, `'Product'`, dan `'Units'` dengan kolom `'Date'` sebagai indeks yang berkaitan dengan transaksi penjualan selama bulan Februari, 2015. DataFrame pertama menggambarkan transaksi `perangkat keras`, yang kedua menjelaskan transaksi `Perangkat Lunak` , dan yang ketiga, transaksi `Layanan`.

Tugas Anda adalah menyatukan DataFrames secara horizontal dan membuat MultiIndex pada kolom. Dari sana, Anda dapat merangkum DataFrame yang dihasilkan dan mengiris beberapa informasi darinya.

In [30]:
sales_types = ['Hardware', 'Software', 'Service']

dataframes = []

for sales in sales_types:

    file_name = "datasets/sales/feb-sales-%s.csv" % sales
    
    # Read file_name into a DataFrame: medal_df
    sales_df = pd.read_csv(file_name, parse_dates=True, index_col='Date')
    
    # Append medal_df to medals
    dataframes.append(sales_df)

In [32]:
# Concatenate dataframes: february
february = pd.concat(dataframes, keys=['Hardware', 'Software', 'Service'], axis=1, sort=True)

# Print february.info()
print(february.info())

# Assign pd.IndexSlice: idx
idx = pd.IndexSlice

# Create the slice: slice_2_8
slice_2_8 = february.loc['2015-02-02':'2015-02-08', idx[:, 'Company']]

# Print slice_2_8
print(slice_2_8)

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 20 entries, 2015-02-02 08:33:01 to 2015-02-26 08:58:51
Data columns (total 9 columns):
(Hardware, Company)    5 non-null object
(Hardware, Product)    5 non-null object
(Hardware, Units)      5 non-null float64
(Software, Company)    9 non-null object
(Software, Product)    9 non-null object
(Software, Units)      9 non-null float64
(Service, Company)     6 non-null object
(Service, Product)     6 non-null object
(Service, Units)       6 non-null float64
dtypes: float64(3), object(6)
memory usage: 1.6+ KB
None
                            Hardware         Software Service
                             Company          Company Company
Date                                                         
2015-02-02 08:33:01              NaN            Hooli     NaN
2015-02-02 20:54:49        Mediacore              NaN     NaN
2015-02-03 14:14:18              NaN          Initech     NaN
2015-02-04 15:36:29              NaN        Streeplex     N

**Note** : Bekerja dengan MultiIndexes dan MultiIndexed kolom mungkin tampak rumit pada awalnya, tetapi dengan latihan, itu akan menjadi kebiasaan.

### Concatenating DataFrames from a dict

Anda sekarang akan meninjau kembali data penjualan yang Anda kerjakan sebelumnya di bab ini. Tiga DataFrames `jan`, `feb`, dan `mar` telah dimuat sebelumnya untuk Anda. Tugas Anda adalah untuk menjumlahkan jumlah semua penjualan di atas kolom `'Company'` menjadi satu DataFrame. Anda akan melakukan ini dengan membuat dictionary dari DataFrames ini dan kemudian menggabungkannya.

In [33]:
# Load 'sales-jan-2015.csv' into a DataFrame: jan
jan = pd.read_csv('datasets/sales/sales-jan-2015.csv')

# Load 'sales-feb-2015.csv' into a DataFrame: feb
feb = pd.read_csv('datasets/sales/sales-feb-2015.csv')

# Load 'sales-mar-2015.csv' into a DataFrame: mar
mar = pd.read_csv('datasets/sales/sales-mar-2015.csv')

In [34]:
# Make the list of tuples: month_list
month_list = [('january', jan), ('february', feb), ('march', mar)]

# Create an empty dictionary: month_dict
month_dict = {}

for month_name, month_data in month_list:

    # Group month_data: month_dict[month_name]
    month_dict[month_name] = month_data.groupby('Company').sum()

# Concatenate data in month_dict: sales
sales = pd.concat(month_dict)

# Print sales
print(sales)

# Print all sales by Mediacore
idx = pd.IndexSlice
print(sales.loc[idx[:, 'Mediacore'], :])

                          Units
         Company               
january  Acme Coporation     76
         Hooli               70
         Initech             37
         Mediacore           15
         Streeplex           50
february Acme Coporation     34
         Hooli               30
         Initech             30
         Mediacore           45
         Streeplex           37
march    Acme Coporation      5
         Hooli               37
         Initech             68
         Mediacore           68
         Streeplex           40
                    Units
         Company         
january  Mediacore     15
february Mediacore     45
march    Mediacore     68


**Note** : Sekarang setelah Anda menguasai dasar-dasar *concatenating* data Anda, sekarang saatnya untuk belajar tentang berbagai jenis *joins*!

## Outer & inner joins

### Concatenating DataFrames with inner join

Tugas Anda adalah menghitung *inner join*!. DataFrame yang digunakan dalam variabel `bronze`, `silver`, `gold`.

In [39]:
# Load data
bronze = pd.read_csv('datasets/olympic/Bronze.csv', nrows=5, usecols=['Country', 'Total'], index_col='Country')
silver = pd.read_csv('datasets/olympic/Silver.csv', nrows=5, usecols=['Country', 'Total'], index_col='Country')
gold = pd.read_csv('datasets/olympic/Gold.csv', nrows=5, usecols=['Country', 'Total'], index_col='Country')

In [40]:
# Create the list of DataFrames: medal_list
medal_list = [bronze, silver, gold]

# Concatenate medal_list horizontally using an inner join: medals
medals = pd.concat(medal_list, keys=['bronze', 'silver', 'gold'], axis=1, join='inner')

# Print medals
print(medals)

                bronze  silver    gold
                 Total   Total   Total
Country                               
United States   1052.0  1195.0  2088.0
Soviet Union     584.0   627.0   838.0
United Kingdom   505.0   591.0   498.0
France           475.0   461.0   378.0
Germany          454.0   350.0   407.0


### Resampling & concatenating DataFrames with inner join

Dalam latihan ini, Anda akan membandingkan pertumbuhan PDB 10-tahun (Produk Domestik Bruto) historis di AS dan di Tiongkok. Data untuk AS dimulai pada tahun 1947 dan dicatat setiap tiga bulan; sebaliknya, data untuk Tiongkok dimulai pada tahun 1961 dan dicatat setiap tahun.

Anda harus menggunakan kombinasi resampling dan inner join untuk meluruskan label indeks. Anda akan memerlukan [offset alias](http://pandas.pydata.org/pandas-docs/stable/timeseries.html#offset-aliases) yang sesuai untuk melakukan resampling, dan metode `.resample()` harus dirantai dengan semacam metode agregasi ( `.pct_change()` dan `.last()` dalam kasus ini).

DataFrames `china` dan `us` telah dimuat sebelumnya. Coba lihat output dari `china.head()` dan `us.head()` di IPython Shell.

In [90]:
# Load data
china = pd.read_csv('datasets/gdp/gdp_china_clean.csv', parse_dates=True, index_col='Year')
us = pd.read_csv('datasets/gdp/gdp_usa_clean.csv', parse_dates=True, index_col='Year')

In [91]:
# Resample and tidy china: china_annual
china_annual = china.resample('A').last().pct_change(10).dropna()

# Resample and tidy us: us_annual
us_annual = us.resample('A').last().pct_change(10).dropna()

# Concatenate china_annual and us_annual: gdp
gdp = pd.concat([china_annual, us_annual], join='inner', axis=1)

# Resample gdp and print
print(gdp.resample('10A').last())

               China        US
Year                          
1971-12-31  0.988860  1.052270
1981-12-31  0.972048  1.750922
1991-12-31  0.962528  0.912380
2001-12-31  2.492511  0.704219
2011-12-31  4.623958  0.475082
2021-12-31  3.789936  0.361780


**Note** : Sepertinya pertumbuhan PDB 10 tahun Tiongkok lebih tinggi daripada AS sejak 1990-an.