forked from wireservice/csvkit
/
test_join.py
79 lines (68 loc) · 3.98 KB
/
test_join.py
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
#!/usr/bin/env python
import unittest
from csvkit import join
class TestJoin(unittest.TestCase):
def setUp(self):
self.tab1 = [
['id', 'name', 'i_work_here'],
[u'1', u'Chicago Reader', u'first'],
[u'2', u'Chicago Sun-Times', u'only'],
[u'3', u'Chicago Tribune', u'only'],
[u'1', u'Chicago Reader', u'second']]
self.tab2 = [
['id', 'age', 'i_work_here'],
[u'1', u'first', u'0'],
[u'4', u'only', u'0'],
[u'1', u'second', u'0'],
[u'2', u'only', u'0', u'0']] # Note extra value in this column
def test_get_ordered_keys(self):
self.assertEqual(join._get_ordered_keys(self.tab1[1:], 0), [u'1', u'2', u'3', u'1'])
self.assertEqual(join._get_ordered_keys(self.tab2[1:], 0), [u'1', u'4', u'1', u'2'])
def test_get_mapped_keys(self):
self.assertEqual(join._get_mapped_keys(self.tab1[1:], 0), {
u'1': [[u'1', u'Chicago Reader', u'first'], [u'1', u'Chicago Reader', u'second']],
u'2': [[u'2', u'Chicago Sun-Times', u'only']],
u'3': [[u'3', u'Chicago Tribune', u'only']]})
def test_sequential_join(self):
self.assertEqual(join.sequential_join(self.tab1, self.tab2), [
['id', 'name', 'i_work_here', 'id', 'age', 'i_work_here'],
[u'1', u'Chicago Reader', u'first', u'1', u'first', u'0'],
[u'2', u'Chicago Sun-Times', u'only', u'4', u'only', u'0'],
[u'3', u'Chicago Tribune', u'only', u'1', u'second', u'0'],
[u'1', u'Chicago Reader', u'second', u'2', u'only', u'0', u'0']])
def test_inner_join(self):
self.assertEqual(join.inner_join(self.tab1, 0, self.tab2, 0), [
['id', 'name', 'i_work_here', 'id', 'age', 'i_work_here'],
[u'1', u'Chicago Reader', u'first', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'first', u'1', u'second', u'0'],
[u'2', u'Chicago Sun-Times', u'only', u'2', u'only', u'0', u'0'],
[u'1', u'Chicago Reader', u'second', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'second', u'1', u'second', u'0']])
def test_full_outer_join(self):
self.assertEqual(join.full_outer_join(self.tab1, 0, self.tab2, 0), [
['id', 'name', 'i_work_here', 'id', 'age', 'i_work_here'],
[u'1', u'Chicago Reader', u'first', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'first', u'1', u'second', u'0'],
[u'2', u'Chicago Sun-Times', u'only', u'2', u'only', u'0', u'0'],
[u'3', u'Chicago Tribune', u'only', u'', u'', u''],
[u'1', u'Chicago Reader', u'second', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'second', u'1', u'second', u'0'],
[u'', u'', u'', u'4', u'only', u'0']])
def test_left_outer_join(self):
self.assertEqual(join.left_outer_join(self.tab1, 0, self.tab2, 0), [
['id', 'name', 'i_work_here', 'id', 'age', 'i_work_here'],
[u'1', u'Chicago Reader', u'first', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'first', u'1', u'second', u'0'],
[u'2', u'Chicago Sun-Times', u'only', u'2', u'only', u'0', u'0'],
[u'3', u'Chicago Tribune', u'only', u'', u'', u''],
[u'1', u'Chicago Reader', u'second', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'second', u'1', u'second', u'0']])
def test_right_outer_join(self):
self.assertEqual(join.right_outer_join(self.tab1, 0, self.tab2, 0), [
['id', 'name', 'i_work_here', 'id', 'age', 'i_work_here'],
[u'1', u'Chicago Reader', u'first', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'first', u'1', u'second', u'0'],
[u'2', u'Chicago Sun-Times', u'only', u'2', u'only', u'0', u'0'],
[u'1', u'Chicago Reader', u'second', u'1', u'first', u'0'],
[u'1', u'Chicago Reader', u'second', u'1', u'second', u'0'],
[u'', u'', u'', u'4', u'only', u'0']])