# 数据分析课程参考资料
**模块 1: Python Preliminaries**
* 李林-成都
* 更多信息，参考网站(https://github.com/lilin201501/lilin201501)。

# 模块 1 内容

* 1.1.节：课程简介  [[Notebook]](01_1_overview.ipynb)
* 1.2.节：Python简介[[Notebook]](01_2_intro_python.ipynb)
* **1.3.节：Python列表,字典，集合和JSON** [[Notebook]](01_3_python_collections.ipynb)
* 1.4.节：文件处理 [[Notebook]](01_4_python_files.ipynb)
* 1.5.节：函数，Lambda表达以及Map/Reduce操作 [[Notebook]](01_5_python_functional.ipynb)

# 1.3.节：Python列表,字典，集合和JSON

和大多数现代编程语言一样，python也包括列表和字典。这两种方法的语法外观与JSON相似。可以在Python定义中包含语法正确的JSON。

In [1]:
c = ['a', 'b', 'c', 'd']
print(c)

和许多语言一样，python也有for-each语句。这允许您循环集合中的每个元素。

In [2]:
# Iterate over a collection.
for s in c:
    print(s)

**enumerate**函数对于枚举集合以及访问当前所在元素的索引非常有用。

In [3]:
# Iterate over a collection, and know where your index.  (Python is zero-based!)
for i,c in enumerate(c):
    print(f"{i}:{c}")

一个**列表/数组**可以添加多个对象，例如字符串。  

In [4]:
# Manually add items, lists allow duplicates
c = []
c.append('a')
c.append('b')
c.append('c')
c.append('c')
print(c)

一个**集合**可以包含对象/字符串，但是

In [1]:
# 手动添加项，集合不允许重复
# 集合添加，列表附加。
c = set()
c.add('a')
c.add('b')
c.add('c')
c.add('c')
print(c)

{'b', 'a', 'c'}


**列表**可以插入或删除项目。对于插入，必须指定索引。

In [6]:
# Insert
c = ['a', 'b', 'c']
c.insert(0, 'a0')
print(c)
# Remove
c.remove('b')
print(c)
# Remove at index
del c[0]
print(c)

## Maps/Dictionaries/Hash Tables

许多编程语言包括映射、字典或哈希表的概念。这些都是非常相关的概念。这本质上是名称-值对的集合。

In [7]:
d = {'name': "Jeff", 'address':"123 Main"}
print(d)
print(d['name'])

if 'name' in d:
    print("Name is defined")

if 'age' in d:
    print("age defined")
else:
    print("age undefined")

您还可以访问字典的各个键和值。

In [8]:
d = {'name': "Jeff", 'address':"123 Main"}
# All of the keys
print(f"Key: {d.keys()}")

# All of the values
print(f"Values: {d.values()}")

字典和列表可以组合在一起。此语法与[json密切相关](https://en.wikipedia.org/wiki/json)。通过这种方式可以构建非常复杂的数据结构。虽然python允许对字符串使用引号（“）和撇号（“），但json只允许双引号（“）。

In [9]:
# Python list & map structures
customers = [
    {"name": "Jeff & Tracy Heaton", "pets": ["Wynton", "Cricket", "Hickory"]},
    {"name": "John Smith", "pets": ["rover"]},
    {"name": "Jane Doe"}
]

print(customers)

for customer in customers:
    print(f"{customer['name']}:{customer.get('pets', 'no pets')}")

## 更高级的列表

两个列表可以压缩在一起。

In [10]:
a = [1,2,3,4,5]
b = [5,4,3,2,1]

print(zip(a,b))

要实际查看它，请将其转换为列表。

In [11]:
a = [1,2,3,4,5]
b = [5,4,3,2,1]

print(list(zip(a,b)))

[(1, 5), (2, 4), (3, 3), (4, 2), (5, 1)]


这可以在循环中使用。

In [12]:
a = [1,2,3,4,5]
b = [5,4,3,2,1]

for x,y in zip(a,b):
    print(f'{x} - {y}')

1 - 5
2 - 4
3 - 3
4 - 2
5 - 1


使用list-enumerate函数跟踪列表元素的索引位置。

In [13]:
a = ['one','two','three','four','five']
list(enumerate(a))

[(0, 'one'), (1, 'two'), (2, 'three'), (3, 'four'), (4, 'five')]

当您需要知道自己在哪个索引上时，这在列表中非常方便。

In [14]:
a = ['one','two','three','four','five']
for idx, item in enumerate(a):
    print(f'Index {idx} holds "{item}"')

Index 0 holds "one"
Index 1 holds "two"
Index 2 holds "three"
Index 3 holds "four"
Index 4 holds "five"


理解可以用来动态地建立一个列表。下面的理解从0到9计算，并将每个值（乘以10）添加到一个列表中。

In [15]:
lst = [x*10 for x in range(10)]
print(lst)

[0, 10, 20, 30, 40, 50, 60, 70, 80, 90]


字典也是一种理解。一般格式如下：  dict_variable = {key:value for (key,value) in dictonary.items()}

这种方法的一个常见用途是建立对符号列名的索引。

In [16]:
text = ['col-zero','col-one', 'col-two', 'col-three']
lookup = {key:value for (value,key) in enumerate(text)}
print(lookup)

{'col-zero': 0, 'col-one': 1, 'col-two': 2, 'col-three': 3}


这可以用来方便地按名称查找列的索引。

In [17]:
print(f'The index of "col-two" is {lookup["col-two"]}')

The index of "col-two" is 2
