In [None]:
{
 "cells": [
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 3 内置数据格式与函数"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 本部分讲述各种各样的python内置数据格式。\n",
    "# python的内部内置了许多的数据格式，但是我们只会提到其中的一部分数据类型的一部分功能，剩余的如果有需要，请自己参阅其他资料\n",
    "# 数据分析里用的最多的是python内置的list，numpy库的ndarray，和pandas库的DataFrame。结合这三种基本能解决大部分数据分析问题\n",
    "# 我们将以这三种为重点，把我们常用的数据结构讲清楚。\n",
    "\n",
    "# 因时间有限本部分将讲解字符串、列表（list）、元组（tuple）、集合（set）和字典（dict）五种，其中以列表为主。\n",
    "# 本次课仍然不会涉及到实际的数据，等到DataFrame被讲解完后，我们会只基于真实数据开展我们的分析工作，编写面向实际应用的程序"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3.1 字符串"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 3.1.1 定义及基本功能"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 2,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 字符串就根本而言，是一连串的字符。例如，字符串'alpha'实际上是五个字符'a','l','p','h','a'拼成的数组。\n",
    "# 字符串的许多功能和后面的列表，乃至numpy.ndarray和pandas.DataFrame很像，留到这里来讲，希望用string帮助大家理解后面一些相似的操作\n",
    "\n",
    "# # 我们首先把基本的东西过一下：\n",
    "# # 1、字符串用单引号或者双引号定义，它的数据类型是str，这个名称是一个保留字\n",
    "# print('string A')\n",
    "# print(\"string B\")\n",
    "# type('STRING')\n",
    "\n",
    "# # 2、可以使用\\t,\\n,\\\\这种转义字符，表示制表位、换行、单独输出单引号和双引号（还有很多其他的）；\n",
    "# # 可以使用r修饰字符串，将字符串变成纯文本\n",
    "# print('str\\ting A')\n",
    "# print(r'str\\ting A')\n",
    "\n",
    "# # 3、利用str函数，将数字变成字符串形式\n",
    "# print(str(1.2)) # 转换数字\n",
    "# print(str([1,2,3])) # 转换列表\n",
    "\n",
    "# # 4、利用 + 符号进行字符串拼接\n",
    "# str1 = 'alpha_'\n",
    "# str2 = 'beta_'\n",
    "# print(str1 + str2)\n",
    "\n",
    "# # 5、利用 * 符号将字符串复制很多份（只能乘整数）；数字在后面在前面均可\n",
    "# # 字符串之间没有减和除功能\n",
    "# str1 = 'alpha_'\n",
    "# str2 = 'beta_'\n",
    "# print(str1 * 10)\n",
    "# print(5 * str2)\n",
    "\n",
    "# # 6、字符的统一码（char）；例如在大小写转换时会有用\n",
    "# print(ord('a'))# 用ord返回ch的ASCII码\n",
    "# print(ord('A'))\n",
    "# print(chr(98))  # 用chr返回数字（标准ACSII是0~127）所代表的字符\n",
    "\n",
    "# # 7、字符串的比较。字符串比较实际上就是一个一个char值的比较，规则是先比较两字符串第一个ASCII码，\n",
    "# # 如果相同，再比较第二个ASCII码，逐步比较下去，直到返回第一个不相同的结果为止。\n",
    "# # 如果比较到最后一个可比较的值仍然一样，但两个字符串长度不等，认为较长的大\n",
    "# print('123' < '234') # 在第一个值时1的ACSII码小于2的\n",
    "# print('aazsee' > 'aazcss') # 比较到第四个值，s的ACSII码大于c的\n",
    "# print('aazsee' < 'aazseexx') # 比较到最后一个可比较的值仍然一样，但两个字符串长度不等，认为较长的大\n",
    "# print('aazsee' == 'aazsee') # 如果两字符串等长，且每一个字符都相等，则认为两字符串相等\n",
    "# # 再说一遍，字符串是没有减法的"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 3.1.2 切片"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 接下来，我们讲一下字符串的切片。切片里面的机制对于列表等后续的高级数据结构也是有用的，所以值得好好讲一下。\n",
    "# # 我们刚刚提到过，字符串实际上是一个字符的序列，我们可以像访问list一样访问字符串：\n",
    "# # 字符串的下标也是从0开始取，因此 'a','l','p','h','a' 的下标值分别是 [0, 1, 2, 3, 4] \n",
    "# # 我们定义一个便于观察结果的字符串：\n",
    "# string = '1234567890'\n",
    "\n",
    "# # 访问一个值，下标允许是负数，看作是反向去取。-1是最后一个值，-2是倒数第二个值，以此类推\n",
    "# # 或者我们可以认为字符串的切片，合法的下标值是 [ -len(string), len(string) ) (左闭右开的区间)，当它是负值时，系统自动加一个len(string)\n",
    "# print(string[0])\n",
    "# print(string[-2])\n",
    "\n",
    "# # string对象在定义后，不支持重新赋值\n",
    "# string[0] = 3 # 会报错\n",
    "\n",
    "# # 利用冒号 : 访问一个切片，即字符串的一个片段。\n",
    "# # 这是我们第一次见到这个符号，它访问的是自冒号前下标值开始，到冒号之后的下标值（不包括）为止\n",
    "# # 如果冒号前面没有值，表示从开始取，如果冒号后面没有值，表示取到整个字符串的最后一个值\n",
    "# # 而且冒号后面的数字大于长度时，不会报错，而是返回后面的所有值；前面数字小于0长度时，是返回从开头至今的所有值。\n",
    "# # 这个特性，是非常重要的切片特性，对后面numpy数组、pandas数据结构都是如此。\n",
    "# print(string[2:100])\n",
    "# print(string[:7])\n",
    "# print(string[4:])\n",
    "# print(string[:])\n",
    "# # 根据这种规则，当访问一个切片string[a:b]时，访问的长度是b - a。a为空时，默认值为0，b为空时，是整个字符串的长度。\n",
    "\n",
    "# # 利用两个冒号 :: 跳跃式访问。我们将演示的字符串加长，第二组的1至0当做11-20：\n",
    "# string = '12345678901234567890'\n",
    "# print(string[::1])\n",
    "# print(string[::2])\n",
    "# print(string[::3])\n",
    "# # 左边的数字依然是起始的下标，右边的数字 N 既可以理解成，我依次访问的时候，每 N 个数值返回一个\n",
    "# # 也可以理解成，下标循环访问时，每次等于原来加上N，按顺序依次输出。\n",
    "# # 但是第二种理解我认为更合适，因为它也可以接负值：\n",
    "# print(string[::-1])\n",
    "# # 这个方式，就把整个字符串反向输出了\n",
    "\n",
    "# # 这个对于列表以及其他数据格式都有用，是一个有意思的小技巧:\n",
    "# a = ['alpha', 'beta', 'gamma', 'sigma']\n",
    "# print(a[::-1])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 在讲完切片之后，这里有一件事情需要强调，就是字符串可以基于切片进行访问，但是不能基于切片或是其他方式进行部分修改\n",
    "# # 例如：\n",
    "# string = '1234567890'\n",
    "# string[2:4] = '***' # 会报错\n",
    "\n",
    "# # 除非对字符串全部重新定义，否则不可直接修改其中的一份片段\n",
    "# # 这一点对后续所讲的元组也适用，需要牢记"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 3.1.4 常用函数"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 最后，我们讲一下字符串应用里常用到的函数。\n",
    "# python里面的字符串函数，是字符串对象的成员函数。\n",
    "# 简单的说，我们拿到一个字符串string，调用这个字符串对象的成员函数，使用用的语法是string.function()\n",
    "\n",
    "# # len函数，返回字符串的长度，这个不需要多介绍，用的很多。\n",
    "# STRING = ' alpha , beta , gamma , sigma '\n",
    "# LEN = len(STRING)\n",
    "# print(LEN)\n",
    "\n",
    "# # split函数，将字符串拆分，传入的参数是分隔符，如果没有传入，分隔符是空格。\n",
    "# SPLIT = STRING.split(',')\n",
    "# print(SPLIT)\n",
    "\n",
    "# # strip函数，将字符串的空格清除，在这里将SPLIT四个值的左边和右边空格去除\n",
    "# for i in range(len(SPLIT)):\n",
    "#     SPLIT[i] = SPLIT[i].strip()\n",
    "# print(SPLIT)\n",
    "\n",
    "# # join函数，将一个字符串列表用某个字符串连接起来，调用的是连接字符串的函数对象，及concatstr.join()\n",
    "# JOIN = '-%-'.join(SPLIT)\n",
    "# print(JOIN)\n",
    "\n",
    "# # index和find函数，确定一个字符串是否包含一个子字符串，也可以用in关键字\n",
    "# print(JOIN.find('-%-'))\n",
    "# print(JOIN.index('-%-'))\n",
    "# print('-%-' in JOIN)\n",
    "# # 如果一个字符串没有找到，find返回-1，index会报错，而in关键字最后会返回False\n",
    "# print(JOIN.find('-@-'))\n",
    "# # print(JOIN.index('-@-'))\n",
    "# print('-@-' in JOIN)\n",
    "\n",
    "# # count函数，返回一个子字符串在字符串中出现的次数\n",
    "# print(JOIN.count('-%-'))\n",
    "\n",
    "# # replace函数，将一个子字符串替换为另一个，也可以用来删除某个固定片段，但并不会改变原来的对象。\n",
    "# JOIN.replace('-%-', '-@-')\n",
    "# print(JOIN)\n",
    "# JOIN = JOIN.replace('-%-', '-@-')\n",
    "# print(JOIN)\n",
    "# JOIN = JOIN.replace('-@-', '')\n",
    "# print(JOIN)\n",
    "\n",
    "# 等到介绍numpy和pandas的时候，还会再对相关字符串处理进行一次介绍，现在是对单独的一个字符串，在未来就是对一整个字符串向量。\n",
    "# 正则表达式在此不做介绍，它的内容十分庞大，如果有机会我们开专题介绍。仅仅对其做初步了解的话，对于实战帮助不大。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3.2 列表（List）"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 列表是我们最为灵活的一个数据结构，它的元素可变，长度也可变，里面可以存储各种各样的（而且一个列表可以有多种）数据结构，\n",
    "# 因而作为一个内置工具，得到广泛使用，我们在此会对这个数据格式进行较多介绍"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 列表用方括号 [] 定义，之中的元素用逗号 , 分隔，内部允许有多个不同类型的元素，允许对内部元素进行修改。\n",
    "# 一个list里面可以容纳很多的值，同一个list里面也能容纳不同的对象，list里面的元素用逗号分隔。\n",
    "# 例如\n",
    "# print([2, 3, 4, 5])\n",
    "# print([2, 'three', 4, 'five'])\n",
    "\n",
    "# 列表元素的访问，访问特定的值，我们应用列表的下标。与其他语言相同，下标从0开始：\n",
    "# 对于一个长度为 N 的数组，数组的下标值从0 一直取到 N-1\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# print(a[0], a[2])\n",
    "\n",
    "# 定义列表建议不要用list作为变量名，因为list本身是保留字。\n",
    "# list = [1,2,3,4,5] # 不建议的定义形式\n",
    "\n",
    "# # 在此补充两个小知识，一个是，我们定义一个列表的时候，允许最后一个逗号写完后，不给值，此时会忽略掉这个逗号：\n",
    "# a = [1, 2, 3, ]\n",
    "# print(a)\n",
    "# # 另一个是，list在定义的时候，可以换行，如：\n",
    "# a = [1, 2, 3, 4,\n",
    "#     5, 6, 7, 8] # 定义一个较长的一维列表\n",
    "# b = [[1, 2, 3, 4],\n",
    "#     [5, 6, 7, 8],\n",
    "#     [9, 10, 11, 12],] # 定义一个3 * 4的二维列表，最后一个值逗号后面没有值，会被自动忽略。\n",
    "# print(a)\n",
    "# print(b)\n",
    "# # 这种可以在定义时换行的特性能让我们在写程序时，对数据的定义比较清楚。\n",
    "# # 对于后续的元组、集合、字典等等数据格式都适用，对之后数据格式的讲解不再重复\n",
    "\n",
    "# # list函数，将其他类型的数据转为列表\n",
    "# a = range(10)\n",
    "# list_a = list(a)\n",
    "# print(a, list_a)\n",
    "\n",
    "# # 计算list的长度\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# print(len(a))\n",
    "\n",
    "# # 列表的嵌套、多维列表：\n",
    "# # 实际上，因为列表可以包含列表，自然而然地，列表就能够包括列表，这就是我们所谓的多维列表，或者是列表的嵌套\n",
    "# a = [1, 2, 3, [4, 5, 6]]\n",
    "# print(len(a)) # 它的长度是4，前面三个值是数值，最后一个值是列表。\n",
    "# for i in a:\n",
    "#     print(i)\n",
    "\n",
    "# # list的比较\n",
    "# # list与list是可以比较的，而且是可以有大于、小于和等于的结果，比较规则也和字符串的比较规则相同\n",
    "# # list比较的规则是，首先同时取出第一个元素比较，如果相同，接着取出第二个元素比较，一直比较到最后一个。比较规则按照各种元素的比较规则\n",
    "# # 如果出现第一个大于或小于关系，就返回这个大于或小于的结果；\n",
    "# # 如果在出现大于或小于关系前，出现第一个不可比（如字符串和数字、字符串和列表）关系，就会报错\n",
    "# # 如果两个列表不等，但一直比到最后一个可比元素都一样，那么认为长的较大，如果两个列表相等且每个元素都对应相等，那么认为量列表相等\n",
    "# print([2, 2, 3, 1, 10] < [2, 9, 5, 8, 3])\n",
    "# print([10, 8, 3, 1, 10] > [10, 'string', 5, 8, 3]) # 会报错，因为不可比\n",
    "# print([1, 2, 3, 4, 5, 0] > [1, 2, 3, 4 ,5])\n",
    "# print([1, 2, 3, 4, 5, 'True'] > [1, 2, 3, 4, 5])\n",
    "# print([1, 2, 3, 4, 5] == [1, 2, 3, 4, 5])\n",
    "# print([1, 3, '123'] == [1, 3, '123'])"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 列表的访问与切片。首先，我们先讲讲一维列表和多维列表。\n",
    "\n",
    "# # 一维列表的访问我们都清楚了，基于下标，对于多维列表，也是相似的：\n",
    "# a = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]\n",
    "# print(a[0]) # 列表a的第一个元素\n",
    "# print(a[0][1]) # 列表a的第一个元素下的第二个元素\n",
    "# # 后续numpy里面有a[0,1]这样的访问形式，但是这里没有，需要一层一层地访问，需要注意。\n",
    "\n",
    "# # 列表的切片也和字符串很像：\n",
    "# # 当访问一个切片list[a:b]时，访问的长度是b - a。a为空时，默认值为0，b为空时，是整个列表的长度。\n",
    "# a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 0]\n",
    "# print(a[2:5])\n",
    "# print(a[:5])\n",
    "# print(a[2:])\n",
    "# print(a[:])\n",
    "\n",
    "# # 同样，利用两个冒号 :: 跳跃式访问。\n",
    "# a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20] # 当然写list(range(20))就可以达到类似的了\n",
    "# print(a[::1])\n",
    "# print(a[::2])\n",
    "# print(a[::3])\n",
    "# # 还是可以理解成，下标循环访问时，每次等于原来加上N，按顺序依次输出。\n",
    "# # 倒序输出列表仍然可以用类似于字符串的方式，这个我们在讲字符串时提到过。\n",
    "# print(a[::-1])\n",
    "# print(a[::-2])\n",
    "\n",
    "# # 之前，字符串是不可变的，因此我们原来在切片引用字符串时，并不能改变它的值，\n",
    "# # 但是之前说过列表是可变的，现在我们就可以对列表元素根据切片进行修改了：\n",
    "# a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]\n",
    "# print(a[3:7])\n",
    "# print(a[5::-2])\n",
    "# # 对切片数据修改，我们直接可以修改一个切片，但需要传递的是一个等长的list\n",
    "# # 不能只传一个值，期望所有切片的元素都被这个值替换。\n",
    "# a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]\n",
    "# a[3:7] = [-1, -2, -3, -4]\n",
    "# print(a)\n",
    "# # 再举一例，对一些等间隔的值进行修改\n",
    "# a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]\n",
    "# a[5::-2] = [-1, -2, -3] # 从这个结果可以观察修改的顺序\n",
    "# print(a)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 接下来我们讲列表的拼接、复制、增添、删除、包含（不包含）\n",
    "\n",
    "# # 列表的拼接和复制： + 和 *\n",
    "# # 类似于刚刚的字符串，用 + 可以实现两个列表的拼接；\n",
    "# 只允许列表和列表的拼接.列表和数字等其他格式不能直接拼接，要用方括号括起来\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# b = 6\n",
    "# print(a + b) # 会报错\n",
    "# b = [6]\n",
    "# print(a + b) \n",
    "\n",
    "# # extend函数也是实现了 + 的功能，相比 + ，有好处有坏处，这是从机理上决定的\n",
    "# # + 的机理是新建了一个list,将两个值复制并保存在这个新list里，而extend则是将待拼接的列表的元素追加到原列表去\n",
    "# # 因此，extend的效率更高，但是extend会修改原始的数据结构，当然连续拼接多个list时，extend的写法相对没有 + 简洁也算是一个缺点。\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# b = [6, 7, 8, 9, 10]\n",
    "# print(a + b)\n",
    "# print(a, b)\n",
    "# 应用extend()的例子\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# b = [6, 7, 8, 9, 10]\n",
    "# print(a.extend(b))\n",
    "# print(a, b)\n",
    "# # 这里我们可以发现，做了a + b后，a，b都不会变化，我们可以新拿一个tmp来保存a + b\n",
    "# # 但是如果是extend用了之后，a发生了变化，b没有发生变化。而且a.extend(b)并不返回任何结果，只是a被修改了，后续的一些内置方法也是如此\n",
    "\n",
    "# # 同样，用 * 可以实现列表的复制，数字在前面在后面都可以\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# b = [6, 7, 8, 9, 10]\n",
    "# print(a * 2)\n",
    "# print(b * 3)\n",
    "\n",
    "# # 列表追加元素：append、insert\n",
    "# # 相比list，它追加、删除的是元素，而且也是会修改原数组的。\n",
    "# # 期望a.append(b)能够变成一个长度为10的列表就错了，它把列表当成一个元素，最后一个元素是一个长度为5的列表\n",
    "# # 同样，a.append()是没有任何返回值的，这里就不试验了\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# b = [6, 7, 8, 9, 10]\n",
    "# c = 11\n",
    "# a.append(b) \n",
    "# print(a)\n",
    "# a.append(c)\n",
    "# print(a)\n",
    "\n",
    "# # insert相比append就是多了一个位置参数，它将待插入的元素放置到该下标，两个参数都要有\n",
    "# # 原参数里面该下标的元素及其后面的值，都整体向后移动一位。因此insert它的开销是相对大的；同样.insert()没有返回值\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# b = [6, 7, 8, 9, 10]\n",
    "# c = 11\n",
    "# a.insert(1, b)\n",
    "# print(a)\n",
    "# a.insert(1, c)\n",
    "# print(a)\n",
    "\n",
    "# # 列表删除元素pop()，remove()\n",
    "# # pop是与insert恰好相反的函数，删除指定下标的元素，返回值是被删除的元素，这个元素后面的所有元素整体前移一位\n",
    "# # pop可以不带下标参数，不传下标参数时，默认删除最后一个值\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# print(a.pop())\n",
    "# print(a)\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# print(a.pop(2))\n",
    "# print(a)\n",
    "\n",
    "# # remove是删除掉指定值的元素，它删掉的是第一个符合要求的值，它没有返回值：\n",
    "# # 它只删除第一个值，而且如果列表中已经没有这个值，它会报错\n",
    "# a = [2, 4, 6, 8, 10, 2, 4, 6]\n",
    "# a.remove(2)\n",
    "# print(a)\n",
    "# a.remove(2)\n",
    "# print(a)\n",
    "# a.remove(2)\n",
    "# print(a)\n",
    "\n",
    "# # count函数，统计一个数字在列表中出现的次数，返回值是出现的次数，没有出现过则返回0：\n",
    "# a = [1, 2, 3, 4, 5, 1, 2, 2, 3]\n",
    "# print(a.count(8))\n",
    "\n",
    "# # 最后是 in 和 not in关键字, 看某个元素是否在列表中，这个比较简单，类似于我们字符串的方法，简单举一例：\n",
    "# a = [1, 2, 3, 4, 5]\n",
    "# print(1 in a, 6 in a, 1 not in a, 6 not in a)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 最后我们讲列表的排序问题\n",
    "\n",
    "# # 排序函数sort()和sorted()，原排序结果是从小到大，比较规则按照各种元素（如数值、字符串、列表等）自己比较规则。\n",
    "# 它可以接两个参数，key和reverse。这个函数没有返回值，也是在原列表上修改。\n",
    "# # key是一个函数的名字，表示我可以不用原值排，而可以用一个函数处理的值排，我们拿例子来看。\n",
    "# # reverse是表示是否需要再做一次反序，将结果从大到小。\n",
    "# # ?a.sort()\n",
    "# # 先讲解reverse：\n",
    "# a = [1, -3, 5, 6, -9]\n",
    "# a.sort()\n",
    "# print(a)\n",
    "# a = [1, -3, 5, 6, -9]\n",
    "# a.sort(reverse = True)\n",
    "# print(a)\n",
    "\n",
    "# # 再来讲解key，它引用我们的一个函数名\n",
    "#  # 传入key参数后，不是对原始值，对函数处理list每一个元素的结果进行排序：\n",
    "# def a2(a):\n",
    "#     return a ** 2\n",
    "# a = [1, -3, 5, 6, -9]\n",
    "# a.sort(key = a2) # 对a的平方值进行排序\n",
    "# print(a)\n",
    "# # 当然，也可以用我们的内置函数的名字作为key值，例如根据字符串的长度进行排序：\n",
    "# a = ['one', 'two', 'three', 'four']\n",
    "# a.sort(key = len)\n",
    "# print(a)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3.3 元组"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 元组(tuple)简单地说，是一个内部元素不能修改（值和顺序都是）的列表。除此之外，它的其他用法与列表几乎相同。\n",
    "\n",
    "# # 元组用圆括号 () 定义, 或者不加括号也可以，只需逗号分隔。一个元组可以允许有多个类型的值\n",
    "# a = (1, 2, 3)\n",
    "# print(a)\n",
    "# a = 3, 4, 5\n",
    "# print(a)\n",
    "# a = 3, 'alpha', [1, 2]\n",
    "# print(a)\n",
    "\n",
    "# # 当然从元组定义可以不要括号来看，元组的至少要有两个元素\n",
    "# # 实际上没有元素的元组也可以被定义，它是空的元组数据的类型。一个元素的元组，会被系统自动拆除元组的包装\n",
    "# a = ()\n",
    "# print(a)\n",
    "# print(type(a))\n",
    "# a = (1)\n",
    "# print(a)\n",
    "# print(type(a))\n",
    "\n",
    "# # 元组同样支持基于下标的访问，基于下标的访问还是用中括号（函数调用是圆括号）：\n",
    "# a = 3, 'alpha', [1, 2]\n",
    "# print(a[1], a[2])\n",
    "\n",
    "# # 在字符串的讲解时顺带提到过，元组是不可以进行部分修改的：\n",
    "# a = (3, 'alpha', [1, 2])\n",
    "# a[1] = 'beta' # 会报错，元组在定义后不支持元素修改，请注意\n",
    "\n",
    "# # 元组也可以用 + 和 * ，因为 + 和 * 返回的是一个新的元组，没有改变原值，所以可以使用\n",
    "# a = (1, 3, 5)\n",
    "# b = ('one', 'two', 'three')\n",
    "# c, d = a + b, a * 3\n",
    "# print(c, d)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3.4 集合"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 集合就像是我们学习过的集合一样，无序、不重复元素\n",
    "# 集合我们用 set 定义，或是用{ } 定义。如果没有元素会报错，因为那是在定义一个空字典，字典我们接着会讲"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 集合的定义有两种，一种是从元组、列表以及以后的各种各样的numpy或是pandas序列中进行定义：\n",
    "# a = [1, 2, 3, 3, 4, 4, 4, 5]\n",
    "# print(set(a))\n",
    "# a = (1, 2, 3, 3, 4, 4, 4, 5)\n",
    "# print(set(a))\n",
    "\n",
    "# # 另一种是直接写一个{}, 在里面描述自己想要提到的元素。\n",
    "# a = {1, 2, 3, 3, 4, 4, 4, 5}\n",
    "# print(a)\n",
    "\n",
    "# # 如果我们要定义一个空集，我们用二者之一都可以：\n",
    "# a = set([])\n",
    "# b = set()\n",
    "# print(a, b)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 其他的函数用的比较少，因此暂且不讲，可以参阅《利用Python进行数据分析》第三章的集合部分P67-69。\n",
    "# # 这里讲一下运算符。运算符我们用的最多的就是交并差：\n",
    "# a = {1, 2, 3, 4, 5}\n",
    "# b = {4, 5, 6, 7, 8}\n",
    "# print(a & b) # 交集\n",
    "# print(a | b) # 并集\n",
    "# print(a - b) # 差集，返回属于a但不属于b的元素\n",
    "# print(a ^ b) # 异或，返回不同时存在于两个集合的元素\n",
    "\n",
    "# # 这种方式也同时支持结合赋值运算，像数值运算中+=、-=一样：\n",
    "# a &= b\n",
    "# print(a)\n",
    "\n",
    "# 集合的运算场景简单举两个：\n",
    "# 1、我们要找到一张表中某一列的所有元素，例如从一张总的销售记录表中找到所有商品的编码\n",
    "# 2、我们用一些集合运算去找到我们要处理的值。例如A和B销售的所有产品，求交集找到所有可以横向比较的，求并集找到所有正在售卖的"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 3.5 字典"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 在我们的内置数据格式里，最后要讲一个字典。\n",
    "# 字典是所谓键-值匹配的关系，也就是我们所说的key-value体系。\n",
    "# 字典用花括号表示，用冒号将标识键和值，用逗号将键值对分隔{ }。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 16,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 我们定义一个字典，键的名字不一定是字符串，数字也可以：\n",
    "# a = {'key1':[1, 2, 3], 'key2':300, 'key3':'alpha'} \n",
    "# b = {0:[1, 2, 3], 1:[2, 3, 4], 2:[3, 4, 5]}\n",
    "# print(a)\n",
    "# print(b)\n",
    "\n",
    "# # 访问：如果要访问一个键的值，我们通过访问这个键：\n",
    "# print(a['key1'])\n",
    "\n",
    "# # 字典有是没有下标的，它只允许我们通过键去访问，这也就代表，我们没有办法切片：\n",
    "# a = {'key1':[1, 2, 3], 'key2':300, 'key3':'alpha'} \n",
    "# print(a[0]) # 会报错\n",
    "# # 但我们可以在定义键的时候下点功夫，看上去好像它是在通过下标访问一样：\n",
    "# b = {0:[1, 2, 3], 1:[2, 3, 4], 2:[3, 4, 5]}\n",
    "# print(b[0])\n",
    "\n",
    "# # 接下来是在list里面常用的in，in只对键有用，对值没有用。\n",
    "# print('key1' in a)\n",
    "# print('key5' in a)\n",
    "# print(300 in a)\n",
    "\n",
    "# # 我们访问它的键和值，用.keys()和.values()方法,这两个值用list函数可以将之转成列表\n",
    "# print(a.keys(), list(a.keys()))\n",
    "# print(a.values(), list(a.keys()))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 17,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 修改与删除：\n",
    "# # 如果要修改某个键的值，直接访问这个值并重新赋值即可。也可以给一个不存在的键赋值，代表新建了一个键值对\n",
    "# a['key1'] = [12, 23, 34]\n",
    "# print(a)\n",
    "# a['key4'] = 'new value'\n",
    "# print(a)\n",
    "\n",
    "# #字典键的删除：用del和pop，二者的调用方式是不同的，但除了pop会返回待删除的值之外，没有任何不同\n",
    "# a = {'key1':[1, 2, 3], 'key2':300, 'key3':'alpha'} \n",
    "# del a['key1']\n",
    "# # del a['key1'] # 报错，没有这个键时不能删除\n",
    "# print(a)\n",
    "\n",
    "# a = {'key1':[1, 2, 3], 'key2':300, 'key3':'alpha'} \n",
    "# a.pop('key2') \n",
    "# # print(a.pop('key2'))\n",
    "# a.pop('key2') # 报错，没有这个键时不能删除\n",
    "# a.pop(['key2','key3']) # 报错\n",
    "# a.pop(('key2','key3')) # 报错\n",
    "# print(a)\n",
    "# # 这里面我们可以发现，del和pop都不能通过传一个列表或元组来达到批量删除键，而只能写一个循环，一个一个删"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 4 Numpy数据结构"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 18,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 本次课程里，我们着重讲一下我们除了内置数据结构外，最重要的两个数据结构，Numpy和Pandas两个数据结构的读取和访问\n",
    "# 等到下一课，我们会开始利用我们已有的知识来讲解功能"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4.1 numpy数组的初始化"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 19,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 1、numpy数组的初始化\n",
    "# # 我们简单地利用列表或元组，利用array函数初始化一个numpy数组：\n",
    "# a = np.array([1, 2, 3])\n",
    "# b = np.array((4, 5, 6))\n",
    "# print(a)\n",
    "# print(b)\n",
    "# # 也可以建立一个字符串对象：\n",
    "# c = np.array(['alpha', 'beta', 'gamma'])\n",
    "# print(c)\n",
    "\n",
    "# # 这样子，我们就建立了一个一维数组，我们接下来尝试建立一个高维的数组，我们这里用二维列表来建立：\n",
    "# # 当然要注意，我们这里只是一个列表的样例，我们一般会传入一个一个其他的已定义的列表\n",
    "# d = np.array([[1.2, 2.3, 3.4], [4.5, 5.6, 6.7], [7.8, 8.9, 9.0]])\n",
    "# print(d)\n",
    "\n",
    "# # 构建全零、全1等数组的方式。对于前三种，数据类型是float64，对于最后一种，数据类型和传的值有关\n",
    "# # 我们访问numpy数组的内置的dtpye元素来了解其数据类型：\n",
    "# a = np.ones(5) # 全1的数组\n",
    "# b = np.zeros(10) # 全0的数组\n",
    "# c = np.empty(15) # 全部是没有初始化值的数组，这种方式构建全0数组并不安全，可能会有些没释放的数据。\n",
    "# d = np.full(20, fill_value = 4) # 全部是同一个特殊值的初始化，填进去的值用fill_value定义\n",
    "# print(a, a.dtype)\n",
    "# print(b, b.dtype)\n",
    "# print(c, c.dtype)\n",
    "# print(d, d.dtype)\n",
    "\n",
    "# # 如果想初始化一个高维数组，我们传入一个元组即可，对造zeros、empty、full是一样的：\n",
    "# a_2d = np.ones((5, 8))\n",
    "# print(a_2d, a_2d.dtype)\n",
    "\n",
    "# a_ori2 = np.array([[1, 2, 3, 4], [5, 6, 7, 8]])\n",
    "# a_sti2 = np.ones_like(a_ori2)\n",
    "# print(a_sti2, a_sti2.dtype)\n",
    "\n",
    "# # 利用内置函数的range的numpy版初始化numpy数组，用法一样，不过可以传关键字参数了，初始化的数据类型是int32\n",
    "# g = np.arange(15) \n",
    "# h = np.arange(start = 15, stop = 20, step = 2)\n",
    "# print(g, g.dtype)\n",
    "# print(h, h.dtype)\n",
    "\n",
    "# # 与arange相似的还有一个linspace函数，来自于Matlab，它也可以初始化一个数组，同样需要起止点，但传递的不是步长而是数组长度\n",
    "# # 按位置传递的三个参数是起始值、终止值和元素个数（即数组长度），最终形成一个由该起止值、所定义元素个数组成的等差数列\n",
    "# # 其中，起止点必须有，而元素个数默认为50。其他有两个参数可自行通过?np.linspace()查看\n",
    "# i = np.linspace(0, 98) \n",
    "# j = np.linspace(0, 98, num = 8)\n",
    "# print(i, g.dtype)\n",
    "# print(j, h.dtype)\n",
    "\n",
    "# # 我们在numpy数组中，可以使用.T，或是.transpose()获得这个数组的转置\n",
    "# # 这个特性对我们之后的pandas dataframe同样适用\n",
    "# h = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])\n",
    "# print(h)\n",
    "# print(h.T)\n",
    "# print(h.transpose())"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4.2 numpy数组的运算"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 20,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 我们定义几个数组\n",
    "# a = np.array([1, 2, 3, 4, 5, 6])\n",
    "# b = np.array([1, 2, 3, 4])\n",
    "# c = np.array([1, 2, 3])\n",
    "# d = np.array(['alpha', 'beta', 'gamma'])\n",
    "\n",
    "# # 首先，一个数组做我们之前课程里讲的各种算术操作，是一个数组的所有元素进行一次这个计算。\n",
    "# print(a + 1)\n",
    "# print(a * 3)\n",
    "# print(a > 3) # 不仅可以做算术操作，也可以做比较运算，返回逻辑值\n",
    "# print(1 / a) # 不要求数组在前，本计算返回的结果是每个元素的倒数\n",
    "# print(2 - a)\n",
    "# print(2 ** a)\n",
    "\n",
    "# # 也可以结合赋值运算符，做成 += %=等形式\n",
    "# a = np.array([1, 2, 3, 4, 5, 6])\n",
    "# a *= 2\n",
    "# print(a)\n",
    "# a = np.array([1, 2, 3, 4, 5, 6])\n",
    "# a %= 2\n",
    "# print(a)\n",
    "\n",
    "# # 但是，字符串的数组并不支持类似于 + 、 * 之类的操作\n",
    "# d += '_Add' # 这里会报错\n",
    "\n",
    "# # 其次，一个numpy数组和其他numpy数组的相互运算：这里是元素的一一对应计算\n",
    "# a = np.array([1, 2, 3, 4, 5, 6])\n",
    "# b = np.array([-1, 1, 3, 5, 7, 9])\n",
    "# c = np.array([1, 2, 3])\n",
    "# d = np.array(['alpha', 'beta', 'gamma'])\n",
    "# e = np.array(['one', 'two', 'three'])\n",
    "\n",
    "# # 这种计算发生在元素的一一对应之间，同时也可以进行比较运算。因为一维数组之间的运算多，我们重点提它，高维的姑且略过。\n",
    "# # 两个一维numpy数组的计算必须要求其具有相等的形状，且对应元素要能发生相互的计算\n",
    "# print(a + b) # 算数运算会返回一串一一对应计算的数值数组\n",
    "# print(a * b)\n",
    "# print(a >= b) # 比较运算会返回一串一一对应比较布尔值数组。这种比较会经常用于数组的筛选。\n",
    "# print(a == b)\n",
    "# # 如下两种情况就会报错：\n",
    "# print(a + c) # 两个数组不等长，即便是a和c存在倍数关系\n",
    "# print(d + e) # 如前所述，numpy的字符串数组之间不能用+进行拼接"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 4.3 numpy数组的访问与修改"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 4.3.1 基于下标切片"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 21,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 4、数据的访问与修改 - 基于下标切片\n",
    "# # 数据的索引有许多部分值得和列表相比较。我们先来看一维数组基本的切片与访问：\n",
    "# a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])\n",
    "# print(a[2]) # 访问元素\n",
    "# print(a[3:5]) # 访问一个切片，给出了起点和终点\n",
    "# print(a[2:]) #访问一个切片，只给出了起点，会访问从起点开始直到列表的最后一个值。\n",
    "# print(a[:]) #访问一个没有起点和终点的切片，等同于访问原数组。\n",
    "\n",
    "# # 接下来，我们会访问高维数组，一般用一个包含了所有维度下标的列表来访问：\n",
    "# # 这个有些地方稍微有些复杂。\n",
    "# b = np.array([[1, 2, 3, 4, 5, 6],\n",
    "#              [7, 8, 9, 10, 11, 12],\n",
    "#              [13, 14, 15, 16, 17, 18]]) #这是一个(3, 6)的数组\n",
    "\n",
    "# print(b[0]) # 如果没有后续维度，返回结果就是我们的这个维度的切片，例如这里会返回一个一维数组。\n",
    "# print(b[0:1, :])# 想要访问某些行，就将列只写一个冒号，表示访问所有列\n",
    "# print(b[:, 1:4])# 想要访问某些列，就将行只写一个冒号，表示访问所有行"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 22,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 对于切片，我们可以直接进行修改，可以只传一个值，也可以传一组等长（等形状）的值\n",
    "# a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])\n",
    "# a[3:5] = 0\n",
    "# print(a)\n",
    "# a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 10])\n",
    "# a[4:8] = [-1, -2, -3, -4] \n",
    "# # a[4:8] = [-1, -2] # 会报错\n",
    "# print(a)\n",
    "\n",
    "# b = np.array([[1, 2, 3, 4, 5, 6],\n",
    "#              [7, 8, 9, 10, 11, 12],\n",
    "#              [13, 14, 15, 16, 17, 18]]) \n",
    "# b[:2, :3] = 0\n",
    "# print(b)\n",
    "\n",
    "# b = np.array([[1, 2, 3, 4, 5, 6],\n",
    "#              [7, 8, 9, 10, 11, 12],\n",
    "#              [13, 14, 15, 16, 17, 18]]) \n",
    "# b[:2, :3] = [[-1, -2, -3], [-4, -5, -6]]\n",
    "# # b[:2, :3] = [-1, -2, -3, -4, -5, -6] # 会报错\n",
    "# print(b)"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 4.3.2 基于整数列表"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 23,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 4、数据的访问与修改 - 基于整数列表\n",
    "# # 当我们需要访问特定某几行的数据，或是特定访问某几列的数据，是不能基于切片的。最多只能一行一行访问出来，接着再将之拼接。\n",
    "# # 但numpy提供了基于整数列表的访问，我们可以一次性访问多行，乃至于多个特定的元素。这种调用的方式如下：\n",
    "# a = np.array([1, 2, 3, 4, 5, 6, 7, 8, 9, 0])\n",
    "# b = np.array([[1,  2,  3,  4,  5,  6  ],\n",
    "#               [7,  8,  9,  10, 11, 12 ],\n",
    "#               [13, 14, 15, 16, 17, 18 ],\n",
    "#               [19, 20, 21, 22, 23, 24]]) \n",
    "\n",
    "# # 例如，我们访问这个一维数组的某几个值，访问这个二维数组的某几行：\n",
    "# # print(a[[2, 5, 7, 8]])\n",
    "# # print(b[[0, 2, 3]]), # 等价于print(b[[0, 2, 3], :])\n",
    "\n",
    "# # 如果我们想要访问二维数组的某几列，我们可以使用：\n",
    "# print(b[:, [1, 3, 4]])\n",
    "\n",
    "# # 如果我们想要访问数组内固定的一些元素，我们可以同时传递一组等长的列表\n",
    "# # 列表数目与数组的维度相同，这些列表元素一一对应组成的下标的列表，就是原数组将要访问元素的下标：\n",
    "# # 此访问形式在第9课做筛选、查找等处理时会再次接触。numpy工具筛选常常返回一组如下的列表，用原数组访问该列表能得到所有满足条件的值\n",
    "# print(b[[1, 0, 2], [1, 3, 4]]) # 访问b[1, 1]、b[0, 3]、b[2, 4]\n",
    "\n",
    "# # 这种基于整数列表的访问，在pandas里面经常的使用，例如我们一次性按顺序选择多行或多列。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 4.3.3 基于逻辑筛选"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 24,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 这是一种另外的索引方式，用起来就很好理解了，例如我们定义a：\n",
    "# a = np.array([1, 2, 3, 4, 5, 6])\n",
    "\n",
    "# # 对于一个一维数组，我们如果传递一个等长的布尔数组作为访问的对象，这个数组里所有是True的元素对应的值会被返回，例如：\n",
    "# print(a[[True, False, True, False, True, False]]) # 注意这个布尔数组要和这个一维数组等长\n",
    "\n",
    "# # 我们再想一件事，之前我们在数组的运算部分,曾经说过数组之间的比较会返回一串逻辑值，例如：\n",
    "# a = np.array([1, 2, 3, 4, 5, 6])\n",
    "# b = np.array([-1, 1, 3, 5, 7, 9])\n",
    "# print(a >= b)\n",
    "\n",
    "# # 所以，我们自然而然地想要把这两个东西结合起来，就做成了我们的下面的表达式，筛选出了所有对应元素里a比b大的值：\n",
    "# print(a[ a >= b ])\n",
    "\n",
    "# # 这就是布尔索引的含义。我们再看一个例子，我们考察一个相对实用一点的情况：\n",
    "# name = np.array(['Bob', 'Joe', 'Joe', 'Joe','Will', 'Will', 'Alex'])\n",
    "# purchase = np.array([3.3, 6.9, 2.1, 4.2, 5.5, 3.9, 3.0])\n",
    "\n",
    "# # 上述是一串消费记录，关于每个人进行的历次消费的情境，name和purchase一一对应。此时，我们去找Joe的消费记录：\n",
    "# print(purchase[name == 'Joe'])\n",
    "\n",
    "# # 如果我们想继续找Joe超过3元的消费记录，我们希望通过：\n",
    "# print(purchase[name == 'Joe' and purchase > 3]) # 报错\n",
    "\n",
    "# # 这个语句报错了，原因是利用布尔数组的时候，逻辑条件的拼接需要用我们之前讲过的逻辑运算符 &, |,和 ~，而不能用and or not。\n",
    "# # 同时，每一个逻辑条件需要用括号括起来，这是因为这些逻辑运算符相比比较运算符优先级高，会优先进行计算。\n",
    "# print(purchase[(name == 'Joe') & (purchase > 3)]) # 选取Joe消费大于3元的所有消费金额\n",
    "# print(purchase[~(name == 'Joe')]) # 选取不是Joe的所有消费金额，~表示取反。~ 实际上是位运算的取反符号，可以接整型数据和布尔型数据。\n",
    "\n",
    "# # 接着，既然可以基于布尔值访问元素，我们同样也能基于布尔值修改元素\n",
    "# b = np.array([[1, 2, 3, 4, 5, 6],\n",
    "#              [7, 8, 9, 10, 11, 12],\n",
    "#              [13, 14, 15, 16, 17, 18]]) \n",
    "# b[b > 10] = 10\n",
    "# print(b)\n",
    "# # 那么基于逻辑值的索引就讲完了。在pandas里面还会再涉及到一次。除此之外，这里面很有意思的事情是直接访问：\n",
    "# print(b[b > 10])\n",
    "# # 单独基于逻辑值访问高维列表的话，返回的结果是一维列表，至于顺序，就要和我们接下来的数组形状的重塑有关系了"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "# 5 pandas数据结构"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 25,
   "metadata": {},
   "outputs": [],
   "source": [
    "# pandas的底层是numpy，因此许多可以比较的特性。我们接触的两个数据结构，一是Series，二是DataFrame。主要是用来处理我们的数据表类型的数据的。\n",
    "# Series是一维的数组，而DataFrame是二维的数组，结合他们的主要功能，从很通俗地理解上，DataFrame就是我们的表，Series就是我们的列\n",
    "# 那么我们从Series开始，接着对DataFrame进行一个讲解\n",
    "\n",
    "# # 我们先引用这个包：\n",
    "# import pandas as pd"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5.1 Series数据结构"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.1.1 Series的构建"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 26,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 构建一个Series利用pd.Series()函数，传入的是列表或是numpy数组都可以\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60])\n",
    "# print(a)\n",
    "\n",
    "# # 从这个输出我们就能感觉到和numpy数组或list的不一样，一个一维数组是竖着写的，而且它的左边带了下标值(索引)。\n",
    "# # 这个值我们用.values和.index访问值和下标，顺带提一下返回数组长度还是用len()：\n",
    "# print(len(a))\n",
    "# print(a.values) # 看上去像一个numpy数组\n",
    "# print(a.index)\n",
    "\n",
    "# # 简单提一下Series的切片，用法和我们的字符串、列表、numpy数组一样，这里就提一下：\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60])\n",
    "# print(a[4])\n",
    "# print(a[:3])\n",
    "# print(a[1::2])\n",
    "\n",
    "# # 以及它转换成列表：\n",
    "# print(list(a))\n",
    "\n",
    "# # 上面的是list和numpy都提到的功能，在这里一样能用，就没有必要重复讲解了\n",
    "# # 在这里着重讲解Series兼具数组和字典的特性，这些拿到DataFrame里面也能用到。\n",
    "# # 我们在一维numpy数组和列表里面，它的下标就是从0到整个数组的长度，而若是新建了一列Series，初始的索引是0到数组长度减一，但它可以被修改。\n",
    "# # 例如，修改索引直接重新赋值就可以，但必须一次给所有索引重新赋值。如果需要修改某一个，就把它变成list，改动其中的一个再赋值吧：\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60])\n",
    "# a.index = ['num1', 'num2', 'num3', 'num4', 'num5', 'num6']\n",
    "# print(a)\n",
    "# # 此时，它的索引就变了。或者我们直接在建立Series的时候就传入一个索引参数亦可：\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60], index = ['num1', 'num2', 'num3', 'num4', 'num5', 'num6'])\n",
    "# print(a)\n",
    "# # 现在，我们访问一个值，通过它的位置下标或者索引值都可以：\n",
    "# print(a[2], a['num3']) # 两个都是成立的\n",
    "\n",
    "# # 如果我们把这个index看做键，我们似乎发现这个Series似乎同时具备了和字典的功能，因为数组只能通过下标访问元素，它却还能通过索引访问元素，\n",
    "# # 而正是如此，它与我们python内置的字典数据能做一些联系和区别：\n",
    "\n",
    "# # 联系1：我们新定义一个值,只用给出一个新的索引值即可，这就像是我们的字典一样。\n",
    "# # 在此之前提一个需要分析的点，就是位置下标是从0到数组长度的整数，而我们访问一个Series的值，首先会尝试通过位置下标访问。\n",
    "# # 由于上面的原因，索引值不能给成整数，因为它会和整个Series的位置下标冲突:\n",
    "# a['num7'] = 70\n",
    "# print(a)\n",
    "# a[0.2] = 3\n",
    "# print(a)\n",
    "# # a[100] = 90 # 会报错，它会优先按照位置下标的方式去访问一个值\n",
    "# # print(a)\n",
    "\n",
    "# # 联系2：Series如果给它重复的索引，并不会报错，访问时会把所有值返回，这是和字典不一样的：\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60])\n",
    "# a.index = ['num1', 'num2', 'num1', 'num4', 'num1', 'num6']\n",
    "# print(a['num1'])\n",
    "\n",
    "# # 联系3：我们在构建一个序列里面，每个值不要求数据类型一致。这也像是字典一样\n",
    "# # Series也只有一种数据类型，但和numpy不同的是，如果一个Series具备两种数据类型，它自己的类型就直接变成object\n",
    "# # 而不像numpy一样，int和float在一起就是float，再和字符串拼在一起则会变成字符串\n",
    "# a = pd.Series([10, 20])\n",
    "# print(a)\n",
    "# a['str1'] = 'qwe'\n",
    "# print(a)\n",
    "# a['list1'] = [1, 2, 3]\n",
    "# print(a, '\\n')\n",
    "\n",
    "# # 联系4：我们可以通过in来访问一个元素是不是在Series内，但元素是他的键，也即索引，这里重温一下键必须是不可变元素\n",
    "# print(a, '\\n')\n",
    "# print(1 in a, 10 in a) # 1是a的第一个键, 10是这个键的值\n",
    "# print('str1' in a, 'qwe' in a) # str1是a的一个键, qwe是这个键的值\n",
    "# print('list1' in a) # 'list1'是a的一个键\n",
    "# # print([1, 2, 3] in a) # 报错，因为键必须是不可变的元素，列表是可变元素\n",
    "\n",
    "# # 联系5：我们其实可以通过字典直接生成一个Series，此时Series的键值是对键排序过的：\n",
    "# a_dit = {'num1':10, 'list1':[1, 2, 3], 'str1':'alpha'}\n",
    "# a = pd.Series(a_dit)\n",
    "# print(a)\n",
    "# a = pd.Series(a_dit, index = ['list1', 'str1']) # 可以为传递的字典补充一个index参数，指示Series的顺序和保存哪些值\n",
    "# print(a)\n",
    "# a = pd.Series(a_dit, index = ['list1', 'str1', 'num2']) # 可以为传递的字典里面如果没有index参数，依然照index来，但是是缺失值\n",
    "# # 这个缺失值叫做NaN，是pandas的缺失值形式，以后会在缺失值部分专门讲到\n",
    "# print(a)\n",
    "\n",
    "# # 最后有一个问题值得注意：\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60])\n",
    "# # 但当index被我们修改过，例如为一串字符串之后，切片照样可以做，而且也是根据行的顺序\n",
    "# # 但在这里，不像一般的切片，最后一个值会被保留：\n",
    "# a.index = ['num_q', 'num_w', 'num_e', 'num_r', 'num_t', 'num_y']\n",
    "# print(a['num_q':'num_e'])\n",
    "# print(a['num_q':'num_y'])"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.1.2 Series的运算"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 27,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 接着，我们来讲解它的加减乘除，之所以将这部分放在索引这部分的后面，是因为这个加减乘除和索引有极大的联系：\n",
    "\n",
    "# # 如果是一个Series和一个数字做数学运算或比较运算，用法和一维numpy数组是一样的，就不详述：\n",
    "# a = pd.Series([1, 2, 3, 4, 5, 6])\n",
    "# print(a * 3)\n",
    "# print(a % 2)\n",
    "# print(a > 2)\n",
    "\n",
    "# # 如果是两个序列之间进行计算，如果都不特别设置自己的索引，看上去其计算就像numpy数组一样一一对应处理：\n",
    "# a = pd.Series([1, 2, 3, 4, 5, 6])\n",
    "# b = pd.Series([3, 5, 7, 9, 11, 13])\n",
    "# print(a * b)\n",
    "# print(a > 2)\n",
    "\n",
    "# # 但是我们稍微变动一下，就不一样了：\n",
    "# a = pd.Series([1, 2, 3, 4, 5, 6, 7])\n",
    "# b = pd.Series([3, 5, 7, 9, 11, 13])\n",
    "# print(a * b) # a和b不等长，在numpy计算时会报错，但是在此处是返回一个NaN\n",
    "\n",
    "# # 这是因为，我们的Serie在计算时，并不是下标一一对应，而是索引一一对应计算。\n",
    "# # 在两个Series都没有设置自己的索引时，索引都是0至5，当a有了一个索引6，而b没有\n",
    "# # 那么a的索引6在寻找b的索引6时找不到，就会在计算中给b的索引6赋予一个nan值\n",
    "# # 这时，a索引为6的值与b索引为6的值（nan）发生计算，返回一个结果，我们先预告一下，nan值和其他数据的运算，在不报错的情况下都返回nan。\n",
    "# # 我们用两个新例子，把这个问题看得更清楚一些：\n",
    "# a = pd.Series([20, 30, 40, 50, 60], index = ['num1', 'num2', 'num3', 'num4', 'num5'])\n",
    "# b = pd.Series([4, 8, 16, 32, 64], index = ['num2', 'num3', 'num4', 'num5', 'num6'])\n",
    "# print(a * b)\n",
    "# 比较极端的情况例如Series的值相互运算，如果索引值全都对不上会，返回的结果就全部变成nan\n",
    "# a = pd.Series([20, 30, 40, 50, 60], index = ['num1', 'num2', 'num3', 'num4', 'num5'])\n",
    "# b = pd.Series([4, 8, 16, 32, 64], index = ['num6', 'num7', 'num8', 'num9', 'num0'])\n",
    "# print(a + b)\n",
    "\n",
    "# 对于Series的讲解就到此为止。我们把Series的相对位置叫做位置下标（下标），它的index叫做索引，我们只用记得：\n",
    "# 第一，我们可以传入一个序列、或是一个字典构建一个Series，其值和其索引都是可以修改的\n",
    "# 但是通过.index修改索引，需要对所有的索引值进行重建；给一个不存在的索引赋值会新建一个值。\n",
    "# 第二，访问的时候可以同时用下标和索引访问，但传入整数或是切片，认为是通过下标访问（因此给一个不存在的整数下标赋值就会报错），\n",
    "# 传入其他数据类型，包括小数、字符串、元组等不可变对象（因此列表不行）通过索引访问。\n",
    "# 第三，Series之间的计算和比较是同索引值对应元素的计算，对于计算，索引在顺序和元素不完全一致时会发生重排\n",
    "# 对于比较运算，只有索引完全一样的两个Series才能进行比较。"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5.2 DataFrame的基本构建和读取方法"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 28,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 我们之前说，我们可以把Series看成列，DataFrame看成表。因此DataFrame的运算，主要是基于Series的，它没有特别的计算法则\n",
    "# # 我们等下逐渐发现，它会有许多有意思的特性。\n",
    "# # 首先讲一下DataFrame的构建，利用pd.DataFrame()函数。\n",
    "# # 这里有两种主要的方式，一种是通过字典，我们的键会变成列，列的值是传入的数组：\n",
    "# # 通过字典\n",
    "# a = {'num':[1, 2, 3, 4, 5, 6],\n",
    "#      'str':['a', 'b', 'c', 'd', 'e', 'f'],\n",
    "#      'list':[[1, 3], [2, 4], [3, 5], [4, 6], [5, 7], [6, 8]],\n",
    "#     }\n",
    "# a_df = pd.DataFrame(a)\n",
    "# print(a_df)\n",
    "\n",
    "# # 另一种是通过列表，我们的每一组值是一行的元素，它没有直接的元素\n",
    "# # 因此下列的值，实际上返回了六列三行，每一列一个数字、一个字符、一个列表：\n",
    "# b = [[1, 2, 3, 4, 5, 6],\n",
    "#      ['a', 'b', 'c', 'd', 'e', 'f'],\n",
    "#      [[1, 3], [2, 4], [3, 5], [4, 6], [5, 7], [6, 8]]\n",
    "#     ]\n",
    "# b_df = pd.DataFrame(b)\n",
    "# print(b_df)\n",
    "\n",
    "# # 因为我们一般认为一列数据它是相似的，所以我们一般喜欢见到a_df的形状，我们就应该定义：\n",
    "# b = [[1, 'a', [1, 3]],\n",
    "#      [2, 'b', [2, 4]],\n",
    "#      [3, 'c', [3, 5]],\n",
    "#      [4, 'd', [4, 6]],\n",
    "#      [5, 'e', [5, 7]],\n",
    "#      [6, 'f', [6, 8]],\n",
    "#     ]\n",
    "\n",
    "# b_df = pd.DataFrame(b, columns = ['num', 'str', 'list']) # 顺带指定它的列名\n",
    "# print(b_df)\n",
    "# # 这就达到了我们的目的。\n",
    "# # 其他的建立方法和特点就不讲了，因为我们一般不需要这么手工的建立。\n",
    "\n",
    "# # 我们在讲numpy数组中讲过，可以使用.T，或是.transpose()获得转置，这个特性对我们pandas dataframe同样适用\n",
    "# print(b_df.T)\n",
    "# print(b_df.transpose())"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 29,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 我们就直接讲一下DataFrame的读取，我们找一个csv文件，这个csv文件会陪大家几次课：\n",
    "# # 我们一般读取进行分析的，是.csv文件，它可以直接用记事本或是excel打开，它其实就是逗号分隔的文件。关于文件的读取，我们以后也会开一个专题\n",
    "# # 注意这个文件不要轻易用excel打开，因为它的210X12列实际上是写成数字的日期数据，非常的长，有可能在一些处理后会被截断。\n",
    "# dataframe = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# dataframe\n",
    "# # 这个pd.read_csv有两个常用的参数，一个是delimiter,指示我们csv的分隔符，我们默认值是逗号','，这个参数改的不多。\n",
    "# # encoding是这个csv文件的编码，一般指定的时候会用'utf-8', 当打开中文文档时，需要用到'gbk'。\n",
    "\n",
    "# # 在这里一并把保存也提一下。保存一个数据为csv用to_csv()函数。我们重新拿之前的那个dataframe：\n",
    "# b = [[1, 'a', [1, 3]],\n",
    "#      [2, 'b', [2, 4]],\n",
    "#      [3, 'c', [3, 5]],\n",
    "#      [4, 'd', [4, 6]],\n",
    "#      [5, 'e', [5, 7]],\n",
    "#      [6, 'f', [6, 8]],\n",
    "#     ]\n",
    "# b_df = pd.DataFrame(b, columns = ['num', 'str', 'list']) \n",
    "# b_df.to_csv('temp.csv', index = False)\n",
    "# # 保存的时候不指定目录，那么就是与本文件夹同一个目录，我们也可以指定其他目录，关于文件管理在未来和文件读取一块讲。\n",
    "# # 这个index是索引号，如果需要保存就是True，False代表不保存索引。\n",
    "# # 需要注意的是，在保存时如果已有原来的csv文件，原来的会被替换掉，不会被询问。"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 30,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 我们还记得Series的DataFrame的访问可以通过下标和索引值来访问，我们先打开我们这个例子文件，将dataframe简写成df：\n",
    "# # 在这里，我们的最终结果就不再用print()函数输出，而是作为返回的最后一个元素\n",
    "# # 因为对于DataFrame，Jupyter自己会有一个很好的展示：\n",
    "# df = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "\n",
    "# # 最初，我们需要对数据有一个基本了解：\n",
    "# # 我们用.head()和.tail()返回它的前几行和后几行，这是用来观察自己的数据形式和分布的重要方法。\n",
    "# # head和tail都可以传入一个数字，表示自己要最后多少行，默认是返回五行\n",
    "# print(df.head())\n",
    "# print(df.tail(3)) \n",
    "\n",
    "# # 如果想要查看看一下这个dataframe的基本情况，我们就直接用.describe()方法即可\n",
    "# # 想要查看其他属性特征，我们也有相应的方法，这些将在后面的课程里描述\n",
    "# dataframe.describe()\n",
    "\n",
    "# # 仍然用内置的len就可以查看数据有多少行，用.columns查看它的列，用index查看它的行，用values查看它的所有值()\n",
    "# print(len(df))\n",
    "# print(df.columns)\n",
    "# print(df.index)\n",
    "# print(df.shape) # dataframe的大小\n",
    "# print(df.values) # 看上去像一个二维的numpy数组"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 5.3 DataFrame的访问与修改"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.3.1 基于行切片和列索引"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 31,
   "metadata": {},
   "outputs": [],
   "source": [
    "# 数据访问——基于行切片和列索引的访问的访问（1）-列索引：\n",
    "# 接下来，我们看看我们数据的访问，我们先考察我们通过下标的访问。\n",
    "# 我们因为我们知道我们的Series具有数组和字典的双重特性，因此我们需要对此稍加小心：\n",
    "\n",
    "# # 实际上，直接访问某个元素，DataFrame默认我们是在访问列，我们把数据列的最后一列改成0再访问：\n",
    "# print(df.columns)\n",
    "# df.columns = list(df.columns[:-1]) + [0]\n",
    "# df_0 = df[0]\n",
    "# df_0\n",
    "# # 仔细想一想，我们通过字典建立DataFrame时，列是keys也就是键。\n",
    "# # 我们也可以一次性用一个选择多个列，利用列表将选出来的列框起来即可，列的顺序是列表里定义的顺序：\n",
    "# df_4col = df[['210X4', '210X2', '210X3', 'TOOL']]\n",
    "# df_4col\n",
    "# # 另外，我们可以像字典或Series一样，给一个不存在的索引赋值来建一个新值，给一个存在的索引赋值来更新它的值\n",
    "# DataFrame的列可以用等长的列表、numpy数组、Series建立：\n",
    "# import numpy as np\n",
    "# df['newcol_1'] = list(range(len(df))) # 从list建立一列\n",
    "# df['newcol_2'] = np.arange(len(df)) * 2 # 从numpy数组建立一列\n",
    "# df['newcol_3'] = pd.Series(range(len(df))) * 3 # 从Series访问一列"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 32,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 数据访问——基于行切片和列索引的访问（2）-行切片：\n",
    "# # 根据上述的尝试，我们基于下标访问某一特定行的希望是失败的。那么如果我想要访问一些行，又当如何：\n",
    "# # 实际上，我们有一个一直贯穿于列表、numpy数组至此的工具，叫做切片：\n",
    "# df = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# # （1）简单地基于行位置下标切片，选出数行\n",
    "# # 切片的访问规则和我们这是一样的，我们要返回一行的话，只用设置冒号前后的差距为1即可了：\n",
    "# df[1:2]\n",
    "# df[::4]\n",
    "# # 即便切片里df行数是1乃至是0，其数据形式还是DataFrame,其他的属性仍然保存着：\n",
    "# print(type(df[1:2]))\n",
    "# print(type(df[1:1]))\n",
    "# print(df[1:1].columns)\n",
    "\n",
    "# # （2）通过行位置下标切片、列名索引切片访问特定行列区域，\n",
    "# # 可以在对行进行切片的基础上，数据的列名的数组进行切片，然后径自访问这一组切片的列，达到取列的效果：\n",
    "# # 列的切片其实并不算是对列本身的切片，而是对列名的切片后，传入了一个列名的数组，但姑且这样叫\n",
    "# # 而且两个切片因为一个是切行，一个是切列，所以相互之间并不影响，二者没有固定的顺序\n",
    "# # 在这里的切片，是按照我们行、列的顺序位置来的。我们把数据根据values排序，把索引打乱后仍然是访问第1-10行、1-4列：\n",
    "# df = df.sort_values('Value')\n",
    "# print(df.columns[1:4])\n",
    "# df[1:10][df.columns[1:4]]\n",
    "# df[df.columns[1:4]][1:10]\n",
    "\n",
    "# 总结而言，对于DataFrame而言，访问一个索引值是在访问列，访问一个切片是在访问行，\n",
    "# 可以对行位置下标或者索引进行两类切片，在我们传入切片是数字的一般场景下都是根据位置做的切片\n",
    "# 直接对列名做切片是失败的，对列切片的访问其实是传入列名数组切片的数组。二者结合起来就可以达到取特定行特定列的目的"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.3.2 基于行切片和列索引"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 33,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 数据访问——通过iloc、loc[]访问\n",
    "# # 之前我们利用的两类相对通用的方法解决DataFrame的访问，而iloc、loc是专门用于pandas的数据访问工具\n",
    "# # 它把访问数据做成了好像numpy数组的访问方式一样，是访问一个DataFrame最通用的方式。我们还是读取原数据，并通过排序把原有数据的索引打乱：\n",
    "# df = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# df = df.sort_values('Value')\n",
    "# df\n",
    "\n",
    "# # 这里面两个方法很相似，但实际上大不一样。我们先讲.iloc。\n",
    "\n",
    "# # 1、.iloc，是基于位置下标的访问，它只传数字，不传值，即不能传列名：\n",
    "# # 如下返回了第1-10行、第2-8列的值，用这种方式即可，就像numpy二维数组一样：\n",
    "# df.iloc[1:10, 2:8]\n",
    "# # 也可以为行或者列的值传递一个整数的列表，它就访问指定的行和列，也像numpy二维数组一样\n",
    "# df.iloc[[1, 2, 3], [4, 5, 6]] #就是在返回第1、2、3行的第4、5、6列\n",
    "\n",
    "# # 如果行只有一个值而有多列，或是列只有一个值而有多行，那么会返回一个Series，其索引分别是列名（列索引）和行索引：\n",
    "# # 如果行和列都只有一个值，那么会返回对应下标的值\n",
    "# # 而如果行和列传的都是切片，即便是一列（行）乃至零列（行）的切片，返回的都是原来形式的DataFrame\n",
    "# df.iloc[0, 4:10]\n",
    "# df.iloc[0:1, 4:10]\n",
    "\n",
    "# df.iloc[2:8, 1]\n",
    "# df.iloc[2:8, 1:2]\n",
    "\n",
    "# df.iloc[1, 2]\n",
    "# df.iloc[1:2, 2:3]\n",
    "\n",
    "# # 2、.loc，是基于索引的访问，逗号左边是数据的索引，右边是列的索引，无论左边还是右边，都可以运用切片，也可以用具体的索引值\n",
    "# # 这里我们可以看到，我们访问的列是如上三列，而访问的行却不是相对位置的行1、2、3、4或是行0-10，而是索引是这些值的数据。\n",
    "# df.loc[[1, 2, 3, 4], ['210X1', '210X2', '210X3']]\n",
    "# df.loc[range(10), ['210X1', '210X2', '210X3']]\n",
    "\n",
    "# # 我们对于列可以切片，但列的部分传入的必须是列名，因此列切片传入的是列名的切片而不是列的位置下标的切片：\n",
    "# df.loc[range(10), df.columns[2:6]]\n",
    "# # 或是：\n",
    "# df.loc[range(10), '210X2':'210X5']\n",
    "\n",
    "# # 对于行同样可以切片，但是在索引混乱的数据，用.loc有一个陷阱，即：\n",
    "# df.loc[1:4, ['210X1', '210X2', '210X3']]\n",
    "# # 我们刚刚讲过Series和DataFrame的切片，对于数值型索引没讲，对于字符串型的，如果是用切片，它访问的是冒号前的值的行号直到冒号后的值的行号。\n",
    "# # 这也就是我们现在看到的结果\n",
    "\n",
    "# # 与.iloc一样，如果行只有一个值而有多列，或是列只有一个值而有多行，那么会返回一个Series，其索引分别是列名（列索引）和行索引：\n",
    "# # 如果行和列都只有一个值，那么会返回对应位置下标的值\n",
    "# # 而如果行和列传的都是切片，即便是一列（行）乃至零列（行）的切片，返回的都是原来形式的DataFrame\n",
    "# df.loc[1, '210X1':'210X3']\n",
    "# df.loc[1:1, '210X1':'210X3']\n",
    "\n",
    "# df.loc[1:4, '210X1']\n",
    "# df.loc[1:4, '210X1':'210X1']\n",
    "\n",
    "# df.loc[31, '210X1']\n",
    "# df.loc[31:31, '210X1':'210X1']\n",
    "\n",
    "# # 因为.loc是基于索引值的访问，所以当我们想筛选某一列中值为特定值的行（元素）时，我们有一个很有意思的方法\n",
    "# # 我们之前曾经说过在Series里面访问一个重复的索引会将所有的重复的索引值都输出出来：\n",
    "# a = pd.Series([10, 20, 30, 40, 50, 60])\n",
    "# a.index = ['num1', 'num2', 'num1', 'num4', 'num1', 'num6']\n",
    "# a['num1']\n",
    "\n",
    "# # 而在这里，我们是同样的，如果我们将这一列作为整个dataframe的索引，就可以用.loc访问所有索引值等于某个值的行\n",
    "# # 这样方法虽然巧妙，但是这样我们的原索引就被破坏了，这个需要注意\n",
    "# df_tmp = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# df_tmp.index = df['TOOL']\n",
    "# df_tmp.loc[['O', 'M'], :]"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.3.3 基于布尔值的访问"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 34,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 数据访问——通过布尔值访问\n",
    "# # 这个实际上是我们用的非常多的一个部分，因为我们经常需要对数据进行筛选\n",
    "# df = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# # 它的用法和numpy数组的用法一样，访问的时候传入一个等长的布尔型的列表或数组，我们最多的传递的就是这种：\n",
    "# # 选出Value大于2.8的值：\n",
    "# df[df['Value'] > 2.8]\n",
    "# # 选取210X10列不为0且210X13在0707及以后（它是一个生产日期）的数据：\n",
    "# df[(df['210X10'] != 0) & (df['210X13'] >= 20170707)] # 多个逻辑条件还是用逻辑运算符号& | ~结合，不能用and or not\n",
    "\n",
    "# # 这里提醒一下，我们只要传递一个与df等长（行）的布尔数组即可访问，不一定都要通过自身的值来判断。\n",
    "# # 因为它和numpy数组的布尔索引访问是一样的，而且易于理解，就不多提了，但它实际上很重要"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.3.4 数据修改"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 35,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 数据修改——对访问数据的值进行修改\n",
    "\n",
    "# 最后，对于访问结果（一维或二维的）上数字的设置修改，有两种，\n",
    "# 一种是赋予一个相同的形状的列表或numpy数组，另一种是赋予一个特定值，所有区域里的值全部被替换为这个值\n",
    "\n",
    "# # 1、对基于行切片和列索引访问结果的修改：\n",
    "# b = [[1, 'a', [1, 3]],\n",
    "#      [2, 'b', [2, 4]],\n",
    "#      [3, 'c', [3, 5]],\n",
    "#      [4, 'd', [4, 6]],\n",
    "#      [5, 'e', [5, 7]],\n",
    "#      [6, 'f', [6, 8]],\n",
    "#     ]\n",
    "\n",
    "# # （1）同时改整行的数据，能够成功\n",
    "# b_df = pd.DataFrame(b, columns = ['num', 'str', 'list'])\n",
    "# b_df[1:4]  = [[11, 12, 13], [13, 14, 15], [15, 16, 17]]\n",
    "# b_df\n",
    "\n",
    "# # （2）对同时选取行列之后的区域进行的赋值，要求新数据的数据格式要与原数据本身的数据格式对应，否则就传不进去\n",
    "# b_df = pd.DataFrame(b, columns = ['num', 'str', 'list'])\n",
    "# b_df[1:4][b_df.columns[0:2]]  = [[11, 12], [13, 14], [15, 16]] # 第二列是字符串，传入整数似乎不会对原值修改\n",
    "# b_df\n",
    "\n",
    "# b_df = pd.DataFrame(b, columns = ['num', 'str', 'list'])\n",
    "# b_df[1:4][b_df.columns[0:2]]  = [[11, 'qwe'], [13, 'wer'], [15, 'ert']] # str列传入字符串而不是整数，可以成功赋值\n",
    "# b_df\n",
    "\n",
    "# # 2、对基于loc、iloc访问结果的修改：\n",
    "# df = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# df.iloc[1:5, 3:6] = [[120, 'alpha', 0.2], \n",
    "#                     [120, 0.8, 0.2], \n",
    "#                     [120, 0.8, 'beta'],\n",
    "#                     ['gamma', 0.8, 0.2],]\n",
    "# df\n",
    "\n",
    "# df.iloc[1:5, 7:11] = 9\n",
    "# df\n",
    "\n",
    "# # 3、对布尔型索引结果的修改，这种情况经常发生在对某一列，如果一列有数据偏离了某个范围，就将之做为空值或者填个值\n",
    "\n",
    "# df[(df['TOOL'] == 'M') & (df['Value'] >= 2.8)] = -1\n",
    "# df"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "### 5.4 DataFrame的拼接"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 36,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 关于dataframe的拼接有两种，第一种是像numpy的numpy.concatenate()函数，DataFrame的拼接也有concat()函数。\n",
    "# # 但由于DataFrame是基于索引进行的拼接，它里面的规则相比numpy要复杂一些，拼接同样带有横向拼接和纵向拼接两种，值得仔细讲一下。\n",
    "\n",
    "# # http://pandas.pydata.org/pandas-docs/stable/generated/pandas.concat.html\n",
    "# # http://pandas.pydata.org/pandas-docs/stable/merging.html\n",
    "\n",
    "# # 整个函数一般我们主要会用到两个参数：\n",
    "# # 一个是待拼接的数组们，objs，用列表的形式表示，\n",
    "# # 另一个是拼接的轴axis，0表示横向、根据行索引的拼接，1表示纵向、根据列索引的拼接，默认值是0\n",
    "# # 此外还有两个参数：\n",
    "# # 一个是可能会用到的参数join，指示这些数据是外连接还是内连接，即不共有的列索引/行索引会否保存\n",
    "# # 另一个新参数是sort，指示拼接的最终结果是否会按照列、行索引排序。这个参数是在0.23版本的pandas才有，我们这里不提\n",
    "# # pd.concat(objs, axis = 0, join = 'outer', sort = None) \n",
    "\n",
    "# # 为了便于讲解，我们就直接拿着我们这份数据集来做，我们将数据集按照TOOL横向拆分成三份，来讲解横向拼接：\n",
    "# df = pd.read_csv('data_test.csv', encoding = 'utf-8')\n",
    "# df_M = df[df['TOOL'] == 'M'][df.columns[:]]\n",
    "# df_O = df[df['TOOL'] == 'O'][df.columns[:]]\n",
    "# df_N = df[df['TOOL'] == 'N'][df.columns[:]]\n",
    "\n",
    "# # 准备两个数据集，只有其中一部分列的那种\n",
    "# df_O1 = df[df['TOOL'] == 'O'][df.columns[2:]]\n",
    "# df_N1 = df[df['TOOL'] == 'N'][df.columns[:13]]\n",
    "\n",
    "# # 我们利用横向拼接，函数的调用方式如下，注意默认值axis = 0, join = 'outer'：\n",
    "# pd.concat([df_M, df_O, df_N]) \n",
    "\n",
    "# # 如果我们将df_O1和df_N1拼接，由于我们事先删了几列，因此这里有行不完全对应情况\n",
    "# # 如果两个数据存在列索引不能完整地一一匹配的情况，默认是保留全部的列，对于各自缺失的列，全部填空值（NaN）：\n",
    "# # 另外，如果两者列索引不能完全匹配，会形成列索引的重排\n",
    "# pd.concat([df_M, df_O1, df_N1])\n",
    "\n",
    "# # 当join参数选择'inner'时，只有相同的列会被保存下来，此时列不会被重排：\n",
    "# pd.concat([df_M, df_O1, df_N1], join = 'inner')\n",
    "\n",
    "# # 刚刚讲的是dataframe按行拼接的状况，现在来讲纵向拼接，我们将数据集按照列纵向拆成三份：\n",
    "# # 在拼接之前，我们先根据values排个序，将原索引打乱：\n",
    "# df = df.sort_values('Value')\n",
    "# df_1 = df[df.columns[:5]]\n",
    "# df_2 = df[df.columns[5:10]]\n",
    "# df_3 = df[df.columns[10:]]\n",
    "\n",
    "# # 也是准备两个数据集，只有其中一部分行的那种\n",
    "# df_1x = df_1[df['Value'] > 2.7]\n",
    "# df_2x = df_2[df['Value'] < 3.0]\n",
    "# len(df_1x) # 稍微比原来的DataFrame少了几个元素\n",
    "# len(df_2x)\n",
    "\n",
    "# # 选择纵向拼接只要设置axis = 1即可：\n",
    "# pd.concat([df_1, df_2, df_3], axis = 1)\n",
    "\n",
    "# # 同样，我们将带有缺行数据的列进行拼接同样是默认保留全部的行，根据行索引进行拼接；对于各自缺失的行填空值：\n",
    "# # 而且这里我们也能发现，如果两者的行索引不能完全地一一匹配，行也会根据列表进行重排：\n",
    "# pd.concat([df_1x, df_2x, df_3], axis = 1)\n",
    "\n",
    "# # 最后，和行拼接一样，如果我们选择join = 'inner'，行的索引不会被重排\n",
    "# pd.concat([df_1x, df_2x, df_3], axis = 1, join = 'inner')"
   ]
  },
  {
   "cell_type": "markdown",
   "metadata": {},
   "source": [
    "## 作业"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 37,
   "metadata": {},
   "outputs": [],
   "source": [
    "# # 1、解释a[0:2][0] 和a[0][0:2]的结果\n",
    "# a = [[1, 2, 3], [4, 5, 6], [7, 8, 9]]\n",
    "# # 2、解释b[0:2][0:2] 和b[0:2, 0:2]的结果\n",
    "# b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])\n",
    "# # 3、将第一题中的a的元素整体乘以3\n",
    "# # 4、执行如下代码，思考对于字符串，它的负值索引到底是怎样的机制\n",
    "# string = '1234567890'\n",
    "# print(string[-8:6])\n",
    "# print(string[::-1])\n",
    "# print(string[4::-1])\n",
    "# print(string[-2::-1])\n",
    "# # 4、对data_test.csv文件，新建一列为210X4和210X6的和，并筛选二者比值在0.5-2范围内的值\n",
    "# # 5、对data_test.csv文件，删除所有带有0值的行\n",
    "# # 4、对data_test.csv文件，210X12和210X13列是数值形式表示的时间，将之做成年月日时分秒的字符串形式\n",
    "# # 5、对data_test.csv文件，手工实现基于其Value列由大到小的排序"
   ]
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.6.2"
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}

