# 3. Combining data for analysis

Kemampuan untuk mengubah dan menggabungkan data Anda adalah keterampilan penting dalam ilmu data, karena data Anda mungkin tidak selalu datang dalam satu file atau tabel monolitik untuk Anda muat. Dataset besar dapat dipecah menjadi kumpulan data terpisah untuk memudahkan penyimpanan dan berbagi yang lebih mudah. Tetapi penting untuk dapat menjalankan analisis Anda pada satu dataset. Anda harus mempelajari cara menggabungkan dataset atau membersihkan setiap dataset secara terpisah sehingga Anda dapat menggabungkannya nanti untuk dianalisis.

## Concatenating data

### Combining rows of data

Dataset yang akan Anda gunakan di sini terkait dengan data [NYC Uber](http://data.beta.nyc/dataset/uber-trip-data-foiled-apr-sep-2014). Dataset asli memiliki semua lokasi pengambilan Uber yang berasal berdasarkan waktu dan lintang dan bujur. Untuk tujuan belajar, Anda akan bekerja dengan sebagian kecil dari data aktual.

Tiga DataFrames telah dimuat sebelumnya: `uber1`, yang berisi data untuk April 2014, `uber2`, yang berisi data untuk Mei 2014, dan `uber3`, yang berisi data untuk Juni 2014. Tugas Anda dalam latihan ini adalah menyatukan DataFrames ini bersama-sama sehingga DataFrame yang dihasilkan memiliki data selama tiga bulan.

Mulailah dengan menjelajahi struktur ketiga DataFrames di IPython Shell menggunakan metode seperti `.head()`.

In [None]:
# Concatenate uber1, uber2, and uber3: row_concat
row_concat = pd.concat([uber1, uber2, uber3])

# Print the shape of row_concat
print(row_concat.shape)

# Print the head of row_concat
print(row_concat.head())

### Combining columns of data

Pikirkan gabungan data kolom seperti menjahit data bersama-sama dari sisi, bukan atas dan bawah. Untuk melakukan tindakan ini, Anda menggunakan fungsi `pd.concat()` yang sama, tetapi kali ini dengan keyword argument `axis=1`. Defaultnya, `axis=0`, adalah untuk gabungan baris.

Anda akan kembali ke [dataset Ebola](https://data.humdata.org/dataset/ebola-cases-2014) yang Anda gunakan secara singkat di bab terakhir. Ini telah dimuat sebelumnya ke dalam DataFrame yang disebut `ebola_melt`. Dalam DataFrame ini, status dan negara pasien terkandung dalam satu kolom. Kolom ini telah diuraikan menjadi DataFrame baru, `status_country`, di mana ada kolom terpisah untuk status dan negara.

Jelajahi DataFrames `ebola_melt` dan `status_country` di IPython Shell. Tugas Anda adalah menggabungkannya secara kolom untuk mendapatkan DataFrame yang final dan bersih.

In [None]:
# Concatenate ebola_melt and status_country column-wise: ebola_tidy
ebola_tidy = pd.concat([ebola_melt, status_country], axis=1)

# Print the shape of ebola_tidy
print(ebola_tidy.shape)

# Print the head of ebola_tidy
print(ebola_tidy.head())

**Note** : DataFrame gabungan memiliki 6 kolom, sebagaimana mestinya. Perhatikan bagaimana kolom `status` dan `country` telah digabungkan berdasarkan kolom.

## Finding and concatenating data

### Finding files that match a pattern

Anda sekarang akan berlatih menggunakan modul `glob` untuk menemukan semua file csv di ruang kerja. Dalam latihan berikutnya, Anda secara terprogram akan memuatnya ke dalam DataFrames.

Modul `glob` memiliki fungsi yang disebut `glob` yang mengambil pola dan mengembalikan daftar file di direktori kerja yang cocok dengan pola itu.

Misalnya, jika Anda tahu polanya adalah `part_` `angka tunggal .csv`, Anda dapat menulis polanya sebagai `'part_?.csv'` (yang akan cocok dengan `part_1.csv`, `part_2.csv`, `part_3.csv`, dll.)

Demikian pula, Anda dapat menemukan semua file `.csv` dengan `'*.csv'`, atau semua bagian dengan `'part_*'`. Tanda `?` wildcard mewakili 1 karakter, dan `*` wildcard mewakili sejumlah karakter.

In [None]:
# Import necessary modules
import glob
import pandas as pd

# Write the pattern: pattern
pattern = '*.csv'

# Save all file matches: csv_files
csv_files = glob.glob(pattern)

# Print the file names
print(csv_files)

# Load the second file into a DataFrame: csv2
csv2 = pd.read_csv(csv_files[1])

# Print the head of csv2
print(csv2.head())

### Iterating and concatenating all matches

Sekarang Anda memiliki list nama file untuk dimuat, Anda dapat memuat semua file ke dalam list DataFrames yang kemudian dapat digabungkan.

Anda akan mulai dengan list kosong yang disebut `frames`. Tugas Anda adalah menggunakan `for` loop ke:

1. iterate melalui masing-masing nama file.
2. baca setiap nama file menjadi DataFrame.
3. append ke `frames` list.

Anda kemudian dapat menggabungkan list DataFrames ini menggunakan `pd.concat()`.

In [None]:
# Create an empty list: frames
frames = []

#  Iterate over csv_files
for csv in csv_files:

    #  Read csv into a DataFrame: df
    df = pd.read_csv(csv)
    
    # Append df to frames
    frames.append(df)

# Concatenate frames into a single DataFrame: uber
uber = pd.concat(frames)

# Print the shape of uber
print(uber.shape)

# Print the head of uber
print(uber.head())

**Note** : Sekarang Anda dapat secara terprogram menggabungkan kumpulan data yang dipecah menjadi banyak bagian yang lebih kecil. Anda akan menemukan banyak kumpulan data di luar sana yang akan disimpan dengan cara ini, khususnya data yang dikumpulkan secara bertahap.

## Merge data

### 1-to-1 data merge

Menggabungkan data memungkinkan Anda untuk menggabungkan dataset yang berbeda menjadi satu dataset tunggal untuk melakukan analisis yang lebih kompleks.

Di sini, Anda akan menggunakan data survei yang berisi bacaan yang diambil William Dyer, Frank Pabodie, dan Valentina Roerich pada akhir 1920-an dan 1930-an saat mereka melakukan ekspedisi ke Antartika. Dataset diambil dari database sqlite dari [Software Carpentry SQL lesson](http://swcarpentry.github.io/sql-novice-survey/).

Dua DataFrames telah dimuat sebelumnya: `site` dan `visited`. Jelajahi mereka di IPython Shell dan catat struktur dan nama kolomnya. Tugas Anda adalah melakukan penggabungan 1-ke-1 dari kedua DataFrames ini menggunakan kolom `'name'` dari `site` dan kolom `'site'` dari `visited`.

In [None]:
# Merge the DataFrames: o2o
o2o = pd.merge(left=site, right=visited, left_on='name', right_on='site')

# Print o2o
print(o2o)

**Note** : Perhatikan korespondensi 1-ke-1 antara DataFrame kolom `name` dari `site` dan kolom `site` dari `visited`. Inilah yang memungkinkan penggabungan 1-ke-1 menjadi mungkin.

### Many-to-1 data merge

Dalam penggabungan banyak-ke-satu (atau satu-ke-banyak), salah satu nilai akan diduplikasi dan didaur ulang dalam output. Artinya, salah satu kunci dalam penggabungan tidak unik.

Di sini, dua DataFrames `site` dan `visited` telah dimuat sekali lagi. Perhatikan bahwa saat ini, `visited` memiliki beberapa entri untuk kolom `site`. Konfirmasikan ini dengan menjelajahi di Shell IPython.

Pemanggilan metode `.merge()` sama dengan gabungan 1-ke-1 dari latihan sebelumnya, tetapi data dan output akan berbeda.

In [None]:
# Merge the DataFrames: m2o
m2o = pd.merge(left=site, right=visited, left_on='name', right_on='site')

# Print m2o
print(m2o)

**Note** : Perhatikan bagaimana data `site` diduplikasi selama penggabungan many-to-1 ini!

### Many-to-many data merge

Skenario penggabungan terakhir terjadi ketika kedua DataFrames tidak memiliki kunci unik untuk penggabungan. Apa yang terjadi di sini adalah bahwa untuk setiap kunci duplikat, setiap kombinasi berpasangan akan dibuat.

Dua contoh DataFrames yang berbagi nilai kunci umum telah dimuat sebelumnya: `df1` dan `df2`. DataFrame lainnya `df3`, yang merupakan hasil dari `df1` digabung dengan `df2`, telah dimuat sebelumnya. Ketiga DataFrames telah dicetak - lihat output dan perhatikan bagaimana kombinasi berpasangan telah dibuat. Contoh ini adalah untuk membantu Anda mengembangkan intuisi Anda untuk penggabungan `many-to-many`.

Di sini, Anda akan bekerja dengan DataFrames `site` dan `visited` dari sebelumnya, dan DataFrame baru `survey`. Tugas Anda adalah menggabungkan `site` dan `visited` seperti yang Anda lakukan pada latihan sebelumnya. Anda kemudian akan menggabungkan DataFrame gabungan ini dengan `survey`.

Mulailah dengan menjelajahi DataFrames `site`, `visited`, dan `survey` di IPython Shell.

In [None]:
# Merge site and visited: m2m
m2m = pd.merge(left=site, right=visited, left_on='name', right_on='site')

# Merge m2m and survey: m2m
m2m = pd.merge(left=m2m, right=survey, left_on='ident', right_on='taken')

# Print the first 20 lines of m2m
print(m2m.head(20))

**Note** : Perhatikan bagaimana kunci diduplikasi dalam penggabungan many-to-many ini!