# Pandas

In this series of exercises you will learn to use the library `pandas`. Pandas is a very popular library for storing and manipualting data. We will be relying on the [Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook/).

Below each of the exercises is a set of assertions that test whether you gave the correct answer.

## Series 

Start by reading the introduction of `panda` objects [here](https://jakevdp.github.io/PythonDataScienceHandbook/03.01-introducing-pandas-objects.html).

### Exercise 1

Create a `Series`-object named `earnings` containing the following *figures* and using the *sources* as its index.

In [93]:
from pandas import Series
import pandas as pd

earnings_sources = ["sales", "ads", "subscriptions", "donations"]
earnings_figures = [39041, 8702, 13200, 292]

### BEGIN SOLUTION
earnings = Series(earnings_figures, index=earnings_sources)
### END SOLUTION

display(earnings)

sales            39041
ads               8702
subscriptions    13200
donations          292
dtype: int64

Check your answer

In [None]:
assert type(earnings) is Series

solution = pd.read_msgpack(b'\x87\xa3typ\xa6series\xa5klass\xa6Series\xa4name\xc0\xa5index\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x94\xa5sales\xa3ads\xadsubscriptions\xa9donations\xa8compress\xc0\xa5dtype\xa5int64\xa4data\xc7 \x00\x81\x98\x00\x00\x00\x00\x00\x00\xfe!\x00\x00\x00\x00\x00\x00\x903\x00\x00\x00\x00\x00\x00$\x01\x00\x00\x00\x00\x00\x00\xa8compress\xc0')
pd.testing.assert_series_equal(earnings, solution)

print("Success!")

## DataFrames

### Exercise 2

Create a `DataFrame` named `skittles` with the *columns* `amount` and `rating`, using the different colors as the *index*.

|&nbsp;      | amount | rating |
|------------|--------|--------|
| **red**    | 7      | 3      |
| **green**  | 4      | 4      |
| **blue**   | 6      | 2      |
| **purple** | 5      | 4      |
| **pink**   | 6      | 3.5    |

In [95]:
from pandas import DataFrame

### BEGIN SOLUTION
skittles = DataFrame([(7, 3), (4, 4), (6, 2), (5, 4), (6, 3.5)],
                     columns=["amount", "rating"],
                     index=["red", "green", "blue", "purple", "pink"])
### END SOLUTION
display(skittles)

Unnamed: 0,amount,rating
red,7,3.0
green,4,4.0
blue,6,2.0
purple,5,4.0
pink,6,3.5


In [96]:
assert type(skittles) is DataFrame
assert list(skittles.index) == ["red", "green", "blue", "purple", "pink"]
assert list(skittles.columns) == ["amount", "rating"]
assert skittles.loc["red", "amount"] == 7
assert skittles.loc["blue", "rating"] == 2

solution = pd.read_msgpack(b'\x84\xa3typ\xadblock_manager\xa5klass\xa9DataFrame\xa4axes\x92\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x92\xa6amount\xa6rating\xa8compress\xc0\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x95\xa3red\xa5green\xa4blue\xa6purple\xa4pink\xa8compress\xc0\xa6blocks\x92\x86\xa4locs\x86\xa3typ\xa7ndarray\xa5shape\x91\x01\xa4ndim\x01\xa5dtype\xa5int64\xa4data\xd7\x00\x01\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6values\xc7(\x00\x00\x00\x00\x00\x00\x00\x08@\x00\x00\x00\x00\x00\x00\x10@\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x10@\x00\x00\x00\x00\x00\x00\x0c@\xa5shape\x92\x01\x05\xa5dtype\xa7float64\xa5klass\xaaFloatBlock\xa8compress\xc0\x86\xa4locs\x86\xa3typ\xa7ndarray\xa5shape\x91\x01\xa4ndim\x01\xa5dtype\xa5int64\xa4data\xd7\x00\x00\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6values\xc7(\x00\x07\x00\x00\x00\x00\x00\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00\x05\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00\xa5shape\x92\x01\x05\xa5dtype\xa5int64\xa5klass\xa8IntBlock\xa8compress\xc0')
pd.testing.assert_frame_equal(skittles, solution)
print("Success!")

Success!


### Exercise 3

Select the column `amount` as a series and save as `skittles_amount`.

In [97]:
### BEGIN SOLUTION
skittles_amount = skittles["amount"]
### END SOLUTION
display(skittles_amount)

red       7
green     4
blue      6
purple    5
pink      6
Name: amount, dtype: int64

In [8]:
float(skittles_average)
assert skittles_average == 3.3
print("Success!")

### Exercise 4

Add a new column to the skittles `DataFrame` called `score`. The score of a color is equal to `amount * rating`.

In [100]:
### BEGIN SOLUTION
skittles["score"] = skittles["amount"] * skittles["rating"]
### END SOLUTION
display(skittles)

Unnamed: 0,amount,rating,score
red,7,3.0,21.0
green,4,4.0,16.0
blue,6,2.0,12.0
purple,5,4.0,20.0
pink,6,3.5,21.0


In [101]:
assert "score" in skittles
solution = pd.read_msgpack(b'\x87\xa3typ\xa6series\xa5klass\xa6Series\xa4name\xa5score\xa5index\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x95\xa3red\xa5green\xa4blue\xa6purple\xa4pink\xa8compress\xc0\xa5dtype\xa7float64\xa4data\xc7(\x00\x00\x00\x00\x00\x00\x005@\x00\x00\x00\x00\x00\x000@\x00\x00\x00\x00\x00\x00(@\x00\x00\x00\x00\x00\x004@\x00\x00\x00\x00\x00\x005@\xa8compress\xc0')
pd.testing.assert_series_equal(skittles["score"], solution)
print("Success!")

Success!


## Indexing and selection

Read the [next](https://jakevdp.github.io/PythonDataScienceHandbook/03.02-data-indexing-and-selection.html) part of the reference.

### Exercise 5

For the given `DataFrame` select only columns 'a', 'c', and 'e', and rows 10, 20, 50, 60 and store the result in the variable `frame2`.

In [102]:
import numpy as np

frame = DataFrame(np.arange(6 * 7.).reshape((6, 7)), index=[10, 20, 30, 40, 50, 60], columns=list('abcdefg'))

### BEGIN SOLUTION
frame2 = frame.loc[[10, 20, 50, 60], ['a', 'c', 'e']]
### END SOLUTION
display(frame2)

Unnamed: 0,a,c,e
10,0.0,2.0,4.0
20,7.0,9.0,11.0
50,28.0,30.0,32.0
60,35.0,37.0,39.0


In [103]:
assert type(frame2) == DataFrame
solution = pd.read_msgpack(b'\x84\xa3typ\xadblock_manager\xa5klass\xa9DataFrame\xa4axes\x92\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x93\xa1a\xa1c\xa1e\xa8compress\xc0\x86\xa3typ\xa5index\xa5klass\xaaInt64Index\xa4name\xc0\xa5dtype\xa5int64\xa4data\xc7 \x00\n\x00\x00\x00\x00\x00\x00\x00\x14\x00\x00\x00\x00\x00\x00\x002\x00\x00\x00\x00\x00\x00\x00<\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6blocks\x91\x86\xa4locs\x86\xa3typ\xa7ndarray\xa5shape\x91\x03\xa4ndim\x01\xa5dtype\xa5int64\xa4data\xc7\x18\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6values\xc7`\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x1c@\x00\x00\x00\x00\x00\x00<@\x00\x00\x00\x00\x00\x80A@\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00"@\x00\x00\x00\x00\x00\x00>@\x00\x00\x00\x00\x00\x80B@\x00\x00\x00\x00\x00\x00\x10@\x00\x00\x00\x00\x00\x00&@\x00\x00\x00\x00\x00\x00@@\x00\x00\x00\x00\x00\x80C@\xa5shape\x92\x03\x04\xa5dtype\xa7float64\xa5klass\xaaFloatBlock\xa8compress\xc0')
pd.testing.assert_frame_equal(frame2, solution)
print("Success!")

Success!


### Exercise 6

Replace all values in the data frame `frame` that are *divisible by 3* with the value *0*.

In [105]:
frame = DataFrame(np.arange(6 * 7.).reshape((6, 7)), index=[10, 20, 30, 40, 50, 60], columns=list('abcdefg'))
### BEGIN SOLUTION
frame[frame % 3 == 0] = 0
### END SOLUTION
display(frame)

Unnamed: 0,a,b,c,d,e,f,g
10,0.0,1.0,2.0,0.0,4.0,5.0,0.0
20,7.0,8.0,0.0,10.0,11.0,0.0,13.0
30,14.0,0.0,16.0,17.0,0.0,19.0,20.0
40,0.0,22.0,23.0,0.0,25.0,26.0,0.0
50,28.0,29.0,0.0,31.0,32.0,0.0,34.0
60,35.0,0.0,37.0,38.0,0.0,40.0,41.0


In [106]:
assert type(frame) == DataFrame

solution = pd.read_msgpack(b'\x84\xa3typ\xadblock_manager\xa5klass\xa9DataFrame\xa4axes\x92\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x97\xa1a\xa1b\xa1c\xa1d\xa1e\xa1f\xa1g\xa8compress\xc0\x86\xa3typ\xa5index\xa5klass\xaaInt64Index\xa4name\xc0\xa5dtype\xa5int64\xa4data\xc70\x00\n\x00\x00\x00\x00\x00\x00\x00\x14\x00\x00\x00\x00\x00\x00\x00\x1e\x00\x00\x00\x00\x00\x00\x00(\x00\x00\x00\x00\x00\x00\x002\x00\x00\x00\x00\x00\x00\x00<\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6blocks\x91\x86\xa4locs\x86\xa3typ\xa7ndarray\xa5shape\x91\x07\xa4ndim\x01\xa5dtype\xa5int64\xa4data\xc78\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00\x05\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6values\xc8\x01P\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x1c@\x00\x00\x00\x00\x00\x00,@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00<@\x00\x00\x00\x00\x00\x80A@\x00\x00\x00\x00\x00\x00\xf0?\x00\x00\x00\x00\x00\x00 @\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x006@\x00\x00\x00\x00\x00\x00=@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x000@\x00\x00\x00\x00\x00\x007@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x80B@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00$@\x00\x00\x00\x00\x00\x001@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00?@\x00\x00\x00\x00\x00\x00C@\x00\x00\x00\x00\x00\x00\x10@\x00\x00\x00\x00\x00\x00&@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x009@\x00\x00\x00\x00\x00\x00@@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x14@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x003@\x00\x00\x00\x00\x00\x00:@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00D@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00*@\x00\x00\x00\x00\x00\x004@\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00\x00A@\x00\x00\x00\x00\x00\x80D@\xa5shape\x92\x07\x06\xa5dtype\xa7float64\xa5klass\xaaFloatBlock\xa8compress\xc0')
pd.testing.assert_frame_equal(frame, solution)
print("Success!")

Success!


### Exercise 7

Select all rows from `frame` where `a > 20`, save the result in `frame3`.

In [107]:
frame = DataFrame(np.concatenate((np.arange(2 * 7.), np.arange(4 * 7., 0, -1))).reshape((6, 7)),
                  index=[10, 20, 30, 40, 50, 60], columns=list('abcdefg'))

### BEGIN SOLUTION
frame3 = frame[frame['a'] > 20]
### END SOLUTION
display(frame3)

Unnamed: 0,a,b,c,d,e,f,g
30,28.0,27.0,26.0,25.0,24.0,23.0,22.0
40,21.0,20.0,19.0,18.0,17.0,16.0,15.0


In [108]:
solution = pd.read_msgpack(b'\x84\xa3typ\xadblock_manager\xa5klass\xa9DataFrame\xa4axes\x92\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x97\xa1a\xa1b\xa1c\xa1d\xa1e\xa1f\xa1g\xa8compress\xc0\x86\xa3typ\xa5index\xa5klass\xaaInt64Index\xa4name\xc0\xa5dtype\xa5int64\xa4data\xd8\x00\x1e\x00\x00\x00\x00\x00\x00\x00(\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6blocks\x91\x86\xa4locs\x86\xa3typ\xa7ndarray\xa5shape\x91\x07\xa4ndim\x01\xa5dtype\xa5int64\xa4data\xc78\x00\x00\x00\x00\x00\x00\x00\x00\x00\x01\x00\x00\x00\x00\x00\x00\x00\x02\x00\x00\x00\x00\x00\x00\x00\x03\x00\x00\x00\x00\x00\x00\x00\x04\x00\x00\x00\x00\x00\x00\x00\x05\x00\x00\x00\x00\x00\x00\x00\x06\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa6values\xc7p\x00\x00\x00\x00\x00\x00\x00<@\x00\x00\x00\x00\x00\x005@\x00\x00\x00\x00\x00\x00;@\x00\x00\x00\x00\x00\x004@\x00\x00\x00\x00\x00\x00:@\x00\x00\x00\x00\x00\x003@\x00\x00\x00\x00\x00\x009@\x00\x00\x00\x00\x00\x002@\x00\x00\x00\x00\x00\x008@\x00\x00\x00\x00\x00\x001@\x00\x00\x00\x00\x00\x007@\x00\x00\x00\x00\x00\x000@\x00\x00\x00\x00\x00\x006@\x00\x00\x00\x00\x00\x00.@\xa5shape\x92\x07\x02\xa5dtype\xa7float64\xa5klass\xaaFloatBlock\xa8compress\xc0')
pd.testing.assert_frame_equal(frame3, solution)
print("Success!")

Success!


## Operating on dataframes

Read about [operations in pandas](https://jakevdp.github.io/PythonDataScienceHandbook/03.03-operations-in-pandas.html).

### Exercise 8
Compute the mean for each column of `frame` below. Store the result in a Series called `mean`.

In [81]:
frame = DataFrame(np.arange(6 * 7.).reshape((6, 7)), index=[10, 20, 30, 40, 50, 60], columns=list('abcdefg'))

### BEGIN SOLUTION
mean = frame.mean()
### END SOLUTION
display(mean)

a    17.5
b    18.5
c    19.5
d    20.5
e    21.5
f    22.5
g    23.5
dtype: float64

In [82]:
assert type(mean) is Series

solution = pd.read_msgpack(b'\x87\xa3typ\xa6series\xa5klass\xa6Series\xa4name\xc0\xa5index\x86\xa3typ\xa5index\xa5klass\xa5Index\xa4name\xc0\xa5dtype\xa6object\xa4data\x97\xa1a\xa1b\xa1c\xa1d\xa1e\xa1f\xa1g\xa8compress\xc0\xa5dtype\xa7float64\xa4data\xc78\x00\x00\x00\x00\x00\x00\x801@\x00\x00\x00\x00\x00\x802@\x00\x00\x00\x00\x00\x803@\x00\x00\x00\x00\x00\x804@\x00\x00\x00\x00\x00\x805@\x00\x00\x00\x00\x00\x806@\x00\x00\x00\x00\x00\x807@\xa8compress\xc0')
pd.testing.assert_series_equal(mean, solution)

print("Success!")

Success!


### Exercise 9

Do the same as above, but compute the mean of each row instead of column.

In [87]:
frame = DataFrame(np.arange(6 * 7.).reshape((6, 7)), index=[10, 20, 30, 40, 50, 60], columns=list('abcdefg'))

### BEGIN SOLUTION
mean = frame.mean(axis = 1)
### END SOLUTION
display(mean)

10     3.0
20    10.0
30    17.0
40    24.0
50    31.0
60    38.0
dtype: float64

In [86]:
assert type(mean) is Series

solution = pd.read_msgpack(b'\x87\xa3typ\xa6series\xa5klass\xa6Series\xa4name\xc0\xa5index\x86\xa3typ\xa5index\xa5klass\xaaInt64Index\xa4name\xc0\xa5dtype\xa5int64\xa4data\xc70\x00\n\x00\x00\x00\x00\x00\x00\x00\x14\x00\x00\x00\x00\x00\x00\x00\x1e\x00\x00\x00\x00\x00\x00\x00(\x00\x00\x00\x00\x00\x00\x002\x00\x00\x00\x00\x00\x00\x00<\x00\x00\x00\x00\x00\x00\x00\xa8compress\xc0\xa5dtype\xa7float64\xa4data\xc70\x00\x00\x00\x00\x00\x00\x00\x08@\x00\x00\x00\x00\x00\x00$@\x00\x00\x00\x00\x00\x001@\x00\x00\x00\x00\x00\x008@\x00\x00\x00\x00\x00\x00?@\x00\x00\x00\x00\x00\x00C@\xa8compress\xc0')
pd.testing.assert_series_equal(mean, solution)

print("Success!")

Success!


This completes this `pandas` introduction.