# 1. Extracting and transforming data

Dalam bab ini, Anda akan belajar cara index, slice, filter, dan transform DataFrames menggunakan berbagai dataset, mulai dari data pemilu AS tahun 2012 untuk data cuaca Pennsylvania dan Pittsburgh.

## Indexing DataFrames

### Index ordering

Dalam latihan ini, DataFrame `election` disediakan untuk Anda. Ini berisi hasil pemilu AS 2012 untuk negara bagian Pennsylvania dengan nama county sebagai indeks baris. Tugas Anda adalah memilih county `'Bedford'` dan kolom `'winner'`. Metode mana yang lebih disukai?

In [14]:
# Import pandas
import pandas as pd

# Load data
data_url = 'https://assets.datacamp.com/production/repositories/502/datasets/502f4eedaf44ad1c94b3595c7691746f282e0b0a/pennsylvania2012_turnout.csv'
election = pd.read_csv(data_url, index_col='county')

# Print data
election.head()

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Adams,PA,41973,35.482334,63.112001,Romney,61156,68.632677,27.629667
Allegheny,PA,614671,56.640219,42.18582,Obama,924351,66.497575,14.454399
Armstrong,PA,28322,30.696985,67.901278,Romney,42147,67.19814,37.204293
Beaver,PA,80015,46.032619,52.63763,Romney,115157,69.483401,6.605012
Bedford,PA,21444,22.057452,76.98657,Romney,32189,66.619031,54.929118


In [15]:
election.loc['Bedford', 'winner']

'Romney'

### Positional and labeled indexing

Diberikan sepasang indeks berbasis label, kadang-kadang perlu untuk menemukan posisi yang sesuai. Dalam latihan ini, Anda akan menggunakan data hasil pemilihan Pennsylvania lagi. DataFrame disediakan untuk Anda sebagai `election`.

Temukan `x` dan `y` seperti `election.iloc[x, y] == election.loc['Bedford', 'winner']`. Artinya, apa posisi baris `'Bedford'`, dan posisi kolom `'winner'`? Ingatlah bahwa posisi pertama dalam Python adalah 0, bukan 1!

Untuk menjawab pertanyaan ini, pertama-tama jelajahi DataFrame menggunakan `election.head()` di IPython Shell dan memeriksanya.

*This course introduces a lot of new concepts, so if you ever need a quick refresher, download the [Pandas Cheat Sheet](https://datacamp-community-prod.s3.amazonaws.com/9f0f2ae1-8bd8-4302-a67b-e17f3059d9e8) and keep it handy!*

In [16]:
# Assign the row position of election.loc['Bedford']: x
x = 4

# Assign the column position of election['winner']: y
y = 4

# Print the boolean equivalence
print(election.iloc[x, y] == election.loc['Bedford', 'winner'])

True


**Note** : Bergantung pada situasinya, Anda mungkin ingin menggunakan `.iloc[]` di atas `.loc[]`, dan sebaliknya. Yang penting untuk disadari adalah Anda dapat mencapai hasil yang sama persis menggunakan kedua pendekatan tersebut.

### Indexing and column rearrangement

Ada beberapa kondisi yang berguna untuk mengubah urutan kolom DataFrame Anda. Kami melakukannya sekarang dengan mengekstraksi hanya dua kolom dari DataFrame hasil pemilihan Pennsylvania.

Tugas Anda adalah membaca file CSV dan mengatur indeks ke `'county'`. Anda kemudian akan menetapkan DataFrame baru dengan memilih list kolom `['winner', 'total', 'voters']`. File CSV disediakan untuk Anda dalam variabel `filename`.

In [17]:
# Assign url filename
filename = 'https://s3.amazonaws.com/assets.datacamp.com/production/course_1650/datasets/pennsylvania2012.csv'

In [18]:
# Import pandas
import pandas as pd

# Read in filename and set the index: election
election = pd.read_csv(filename, index_col='county')

# Create a separate dataframe with the columns ['winner', 'total', 'voters']: results
results = election[['winner', 'total', 'voters']]

# Print the output of results.head()
print(results.head())

           winner   total  voters
county                           
Adams      Romney   41973   61156
Allegheny   Obama  614671  924351
Armstrong  Romney   28322   42147
Beaver     Romney   80015  115157
Bedford    Romney   21444   32189


**Note** : DataFrame `election` asli memiliki 6 kolom, tetapi seperti yang Anda lihat, hasil Anda DataFrame sekarang hanya memiliki 3 kolom: `'winner'`, `'total'`, dan `'voters'`.

## Slicing DataFrames

### Slicing rows

Kumpulan data hasil pemilu Pennsylvania AS yang telah Anda gunakan sejauh ini digunakan dengan nama county. Ini berarti bahwa nama-nama county dapat diiris berdasarkan abjad. Dalam latihan ini, Anda akan melakukan pemotongan pada nama-nama daerah DataFrame `election` dari latihan sebelumnya.

In [26]:
# Load data
data_url = 'https://assets.datacamp.com/production/repositories/502/datasets/502f4eedaf44ad1c94b3595c7691746f282e0b0a/pennsylvania2012_turnout.csv'
election = pd.read_csv(data_url, index_col='county', usecols=['state', 'total', 'Obama', 'Romney', 'winner', 'voters', 'county'])

In [27]:
# Slice the row labels 'Perry' to 'Potter': p_counties
p_counties = election.loc['Perry':'Potter']

# Print the p_counties DataFrame
print(p_counties)

# Slice the row labels 'Potter' to 'Perry' in reverse order: p_counties_rev
p_counties_rev = election.loc['Potter':'Perry':-1]

# Print the p_counties_rev DataFrame
print(p_counties_rev)

             state   total      Obama     Romney  winner   voters
county                                                           
Perry           PA   18240  29.769737  68.591009  Romney    27245
Philadelphia    PA  653598  85.224251  14.051451   Obama  1099197
Pike            PA   23164  43.904334  54.882576  Romney    41840
Potter          PA    7205  26.259542  72.158223  Romney    10913
             state   total      Obama     Romney  winner   voters
county                                                           
Potter          PA    7205  26.259542  72.158223  Romney    10913
Pike            PA   23164  43.904334  54.882576  Romney    41840
Philadelphia    PA  653598  85.224251  14.051451   Obama  1099197
Perry           PA   18240  29.769737  68.591009  Romney    27245


**Note** : Sepertinya Obama melakukannya dengan sangat baik di Philadelphia.

### Slicing columns

Mirip dengan pengirisan baris, kolom dapat diiris berdasarkan nilai. Dalam latihan ini, tugas Anda adalah mengiris nama kolom dari hasil pemilihan Pennsylvania DataFrame menggunakan `.loc[]`.

In [28]:
# Slice the columns from the starting column to 'Obama': left_columns
left_columns = election.loc[:,:'Obama']

# Print the output of left_columns.head()
print(left_columns.head())

# Slice the columns from 'Obama' to 'winner': middle_columns
middle_columns = election.loc[:,'Obama':'winner']

# Print the output of middle_columns.head()
print(middle_columns.head())

# Slice the columns from 'Romney' to the end: 'right_columns'
right_columns = election.loc[:,'Romney':]

# Print the output of right_columns.head()
print(right_columns.head())

          state   total      Obama
county                            
Adams        PA   41973  35.482334
Allegheny    PA  614671  56.640219
Armstrong    PA   28322  30.696985
Beaver       PA   80015  46.032619
Bedford      PA   21444  22.057452
               Obama     Romney  winner
county                                 
Adams      35.482334  63.112001  Romney
Allegheny  56.640219  42.185820   Obama
Armstrong  30.696985  67.901278  Romney
Beaver     46.032619  52.637630  Romney
Bedford    22.057452  76.986570  Romney
              Romney  winner  voters
county                              
Adams      63.112001  Romney   61156
Allegheny  42.185820   Obama  924351
Armstrong  67.901278  Romney   42147
Beaver     52.637630  Romney  115157
Bedford    76.986570  Romney   32189


### Subselecting DataFrames with lists

Anda dapat menggunakan list untuk memilih label baris dan kolom tertentu dengan `.loc[]` accessor. Dalam latihan ini, tugas Anda adalah memilih kabupaten `['Philadelphia', 'Centre', 'Fulton']` dan kolom `['winner', 'Obama', 'Romney']` dari DataFrame `election`, yang telah ditentukan sebelumnya.

In [29]:
# Create the list of row labels: rows
rows = ['Philadelphia', 'Centre', 'Fulton']

# Create the list of column labels: cols
cols = ['winner', 'Obama', 'Romney']

# Create the new DataFrame: three_counties
three_counties = election.loc[rows, cols]

# Print the three_counties DataFrame
print(three_counties)

              winner      Obama     Romney
county                                    
Philadelphia   Obama  85.224251  14.051451
Centre        Romney  48.948416  48.977486
Fulton        Romney  21.096291  77.748861


**Note** : Jika Anda tahu persis baris dan kolom mana yang menarik bagi Anda, ini adalah pendekatan yang berguna untuk men-subseleksi DataFrames.

## Filtering DataFrames

Dalam latihan ini, kami telah menentukan data hasil pemilihan Pennsylvania dan menyertakan kolom `'turnout'` yang berisi persentase jumlah pemilih per county. Tugas Anda adalah menyiapkan array boolean untuk memilih semua baris dan kolom di mana partisipasi pemilih melebihi 70%.

In [31]:
# Load data
data_url = 'https://assets.datacamp.com/production/repositories/502/datasets/502f4eedaf44ad1c94b3595c7691746f282e0b0a/pennsylvania2012_turnout.csv'
election = pd.read_csv(data_url, index_col='county')

In [33]:
# Create the boolean array: high_turnout
high_turnout = election['turnout'] > 70

# Filter the election DataFrame with the high_turnout array: high_turnout_df
high_turnout_df = election[high_turnout]

# Print the high_turnout_results DataFrame
high_turnout_df

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bucks,PA,319407,49.96697,48.801686,Obama,435606,73.324748,1.165284
Butler,PA,88924,31.920516,66.816607,Romney,122762,72.436096,34.896091
Chester,PA,248295,49.228539,49.650617,Romney,337822,73.498766,0.422079
Forest,PA,2308,38.734835,59.835355,Romney,3232,71.410891,21.10052
Franklin,PA,62802,30.110506,68.583803,Romney,87406,71.850903,38.473297
Montgomery,PA,401787,56.637223,42.286834,Obama,551105,72.905708,14.35039
Westmoreland,PA,168709,37.567646,61.306154,Romney,238006,70.884347,23.738508


### Filtering columns using other columns

Hasil pemilihan DataFrame memiliki kolom berlabel `'margin'` yang menyatakan jumlah suara tambahan yang diterima pemenang atas kandidat yang kalah. Jumlah ini diberikan sebagai persentase dari total suara yang diberikan. Masuk akal untuk berasumsi bahwa di negara-negara di mana margin ini kurang dari 1%, hasilnya akan terlalu dekat-untuk-dipanggil.

Tugas Anda adalah menggunakan pilihan boolean untuk memfilter baris di mana margin kurang dari 1. Anda kemudian akan mengkonversi baris-baris ini dari kolom `'winner'` ke `np.nan` untuk menunjukkan bahwa hasil ini terlalu dekat untuk menyatakan pemenang.

In [34]:
# Import numpy
import numpy as np

# Create the boolean array: too_close
too_close = election['margin'] < 1

# Assign np.nan to the 'winner' column where the results were too close to call
election.loc[too_close] = np.nan

# Print the output of election.info()
print(election.info())

<class 'pandas.core.frame.DataFrame'>
Index: 67 entries, Adams to York
Data columns (total 8 columns):
state      64 non-null object
total      64 non-null float64
Obama      64 non-null float64
Romney     64 non-null float64
winner     64 non-null object
voters     64 non-null float64
turnout    64 non-null float64
margin     64 non-null float64
dtypes: float64(6), object(2)
memory usage: 4.7+ KB
None


### Filtering using NaNs

Dalam skenario tertentu, mungkin perlu untuk menghapus baris dan kolom dengan data yang hilang dari DataFrame. Metode `.dropna()` digunakan untuk melakukan tindakan ini. Anda sekarang akan berlatih menggunakan metode ini pada dataset yang diperoleh dari [Vanderbilt University](http://biostat.mc.vanderbilt.edu/wiki/pub/Main/DataSets/titanic.html), yang terdiri dari data dari penumpang di Titanic.

DataFrame telah dimuat sebelumnya untuk Anda sebagai `titanic`. Jelajahi di IPython Shell dan Anda akan mencatat bahwa ada banyak NaNs. Anda akan fokus secara khusus pada kolom `'age'` dan `'cabin'` dalam latihan ini. Tugas Anda adalah menggunakan `.dropna()` untuk menghapus baris di mana salah satu dari dua kolom ini berisi data yang hilang dan baris di mana semua kolom ini berisi data yang hilang.

Terakhir, Anda akan menggunakan `thresh=` keyword argument untuk menghilangkan kolom dari dataset lengkap yang memiliki nilai kurang dari 1000.

In [35]:
# Load data
filename = 'https://assets.datacamp.com/production/repositories/502/datasets/e280ed94bf4539afb57d8b1cbcc14bcf660d3c63/titanic.csv'
titanic = pd.read_csv(filename)

In [36]:
# Select the 'age' and 'cabin' columns: df
df = titanic[['age', 'cabin']]

# Print the shape of df
print(df.shape)

# Drop rows in df with how='any' and print the shape
print(df.dropna(how='any').shape)

# Drop rows in df with how='all' and print the shape
print(df.dropna(how='all').shape)

# Drop columns in titanic with less than 1000 non-missing values
print(titanic.dropna(thresh=1000, axis='columns').info())

(1309, 2)
(272, 2)
(1069, 2)
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 10 columns):
pclass      1309 non-null int64
survived    1309 non-null int64
name        1309 non-null object
sex         1309 non-null object
age         1046 non-null float64
sibsp       1309 non-null int64
parch       1309 non-null int64
ticket      1309 non-null object
fare        1308 non-null float64
embarked    1307 non-null object
dtypes: float64(2), int64(4), object(4)
memory usage: 102.4+ KB
None


**Note** : Biasanya Anda ingin menghindari untuk menghilangkan terlalu banyak data, tetapi dalam beberapa situasi, mungkin perlu.

## Transforming DataFrames

### Using apply() to transform a column

Metode `.apply()` dapat digunakan pada pandas DataFrame untuk menerapkan fungsi Python ke setiap elemen. Dalam latihan ini Anda akan mengambil data cuaca harian di Pittsburgh pada 2013 yang diperoleh dari [Weather Underground](https://www.wunderground.com/history).

Fungsi untuk mengubah derajat Fahrenheit ke derajat Celcius telah ditulis untuk Anda. Tugas Anda adalah menggunakan metode `.apply()` untuk melakukan konversi ini pada kolom `'Mean TemperatureF'` dan `'Mean Dew PointF'` dari DataFrame `weather`.

In [37]:
import pandas as pd

weather = pd.read_csv('https://assets.datacamp.com/production/repositories/502/datasets/6c4984cb81ea50971c1660434cc4535a6669a848/pittsburgh2013.csv')
weather.head()

Unnamed: 0,Date,Max TemperatureF,Mean TemperatureF,Min TemperatureF,Max Dew PointF,Mean Dew PointF,Min DewpointF,Max Humidity,Mean Humidity,Min Humidity,...,Max VisibilityMiles,Mean VisibilityMiles,Min VisibilityMiles,Max Wind SpeedMPH,Mean Wind SpeedMPH,Max Gust SpeedMPH,PrecipitationIn,CloudCover,Events,WindDirDegrees
0,2013-1-1,32,28,21,30,27,16,100,89,77,...,10,6,2,10,8,,0.0,8,Snow,277
1,2013-1-2,25,21,17,14,12,10,77,67,55,...,10,10,10,14,5,,0.0,4,,272
2,2013-1-3,32,24,16,19,15,9,77,67,56,...,10,10,10,17,8,26.0,0.0,3,,229
3,2013-1-4,30,28,27,21,19,17,75,68,59,...,10,10,6,23,16,32.0,0.0,4,,250
4,2013-1-5,34,30,25,23,20,16,75,68,61,...,10,10,10,16,10,23.0,0.21,5,,221


In [40]:
# Write a function to convert degrees Fahrenheit to degrees Celsius: to_celsius
def to_celsius(F):
    return 5/9*(F - 32)

# Apply the function over 'Mean TemperatureF' and 'Mean Dew PointF': df_celsius
# df_celsius = to_celsius(weather[['Mean TemperatureF','Mean Dew PointF']])
df_celsius = weather[['Mean TemperatureF','Mean Dew PointF']].apply(to_celsius)

# Reassign the column labels of df_celsius
df_celsius.columns = ['Mean TemperatureC', 'Mean Dew PointC']

# Print the output of df_celsius.head()
print(df_celsius.head())

   Mean TemperatureC  Mean Dew PointC
0          -2.222222        -2.777778
1          -6.111111       -11.111111
2          -4.444444        -9.444444
3          -2.222222        -7.222222
4          -1.111111        -6.666667


**Note** : lihatlah kolom yang diubah namanya dan suhu terkonversi!

### Using .map() with a dictionary

Metode `.map()` digunakan untuk mengubah nilai menurut pencarian dictionary Python. Dalam latihan ini Anda akan berlatih metode ini sambil kembali bekerja dengan DataFrame `election`, yang telah dimuat sebelumnya untuk Anda.

Tugas Anda adalah menggunakan dictionary untuk memetakan nilai `'Obama'` dan `'Romney'` di kolom `'winner'` ke nilai `'blue'` dan `'red'`, dan menetapkan output ke kolom baru `'color'`.

In [43]:
# Create the dictionary: red_vs_blue
red_vs_blue = {'Obama':'blue', 'Romney':'red'}

# Use the dictionary to map the 'winner' column to the new column: election['color']
election['color'] = election['winner'].map(red_vs_blue)

# Print the output of election.head()
election.head()

Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin,color
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Adams,PA,41973.0,35.482334,63.112001,Romney,61156.0,68.632677,27.629667,red
Allegheny,PA,614671.0,56.640219,42.18582,Obama,924351.0,66.497575,14.454399,blue
Armstrong,PA,28322.0,30.696985,67.901278,Romney,42147.0,67.19814,37.204293,red
Beaver,PA,80015.0,46.032619,52.63763,Romney,115157.0,69.483401,6.605012,red
Bedford,PA,21444.0,22.057452,76.98657,Romney,32189.0,66.619031,54.929118,red


**Note** : Perhatikan kolom baru `color`.

### Using vectorized functions

Ketika kinerja sangat penting, Anda harus menghindari menggunakan `.apply()` dan `.map()` karena konstruk tersebut melakukan for-loop Python atas data yang disimpan dalam pandas Series atau DataFrame. Dengan menggunakan fungsi vektor, Anda dapat mengulang data dengan kecepatan yang sama dengan kode yang dikompilasi (C, Fortran, dll.)! NumPy, SciPy dan pandas datang dengan berbagai fungsi vektor (disebut Fungsi Universal atau UFuncs dalam NumPy).

Anda bahkan dapat menulis fungsi vektor Anda sendiri, tetapi untuk saat ini kami akan fokus pada yang didistribusikan oleh NumPy dan pandas.

Dalam latihan ini Anda akan mengimpor fungsi `zscore` dari `scipy.stats` dan menggunakannya untuk menghitung deviasi dalam partisipasi pemilih di Pennsylvania dari rata-rata dalam fraksi dari standar deviasi. **Dalam statistik, z-score adalah jumlah standar deviasi yang mana pengamatan berada di atas rata-rata - jadi jika negatif, itu berarti pengamatan di bawah rata-rata.**

Alih-alih menggunakan `.apply()` seperti yang Anda lakukan pada latihan sebelumnya, `zscore` UFunc akan mengambil Series pandas sebagai input dan mengembalikan array NumPy. Anda kemudian akan menetapkan nilai-nilai array NumPy ke kolom baru di DataFrame. Anda akan bekerja dengan DataFrame `election` - itu telah dimuat sebelumnya untuk Anda.

In [48]:
# Load data
filename = 'https://assets.datacamp.com/production/repositories/502/datasets/502f4eedaf44ad1c94b3595c7691746f282e0b0a/pennsylvania2012_turnout.csv'
election = pd.read_csv(filename, index_col='county')

In [49]:
# Import zscore from scipy.stats
from scipy.stats import zscore

# Call zscore with election['turnout'] as input: turnout_zscore
turnout_zscore = zscore(election['turnout'])

# Print the type of turnout_zscore
print(type(turnout_zscore))

# Assign turnout_zscore to a new column: election['turnout_zscore']
election['turnout_zscore'] = turnout_zscore

# Print the output of election.head()
election.head()

<class 'numpy.ndarray'>


Unnamed: 0_level_0,state,total,Obama,Romney,winner,voters,turnout,margin,turnout_zscore
county,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
Adams,PA,41973,35.482334,63.112001,Romney,61156,68.632677,27.629667,0.853734
Allegheny,PA,614671,56.640219,42.18582,Obama,924351,66.497575,14.454399,0.439846
Armstrong,PA,28322,30.696985,67.901278,Romney,42147,67.19814,37.204293,0.57565
Beaver,PA,80015,46.032619,52.63763,Romney,115157,69.483401,6.605012,1.018647
Bedford,PA,21444,22.057452,76.98657,Romney,32189,66.619031,54.929118,0.463391


**Note** : Menggunakan fungsi vektor seperti ini sepenuhnya memanfaatkan kekuatan pandas.