# matplotliab.pyplot折线与散点图

## 绘制折线图

In [None]:
import matplotlib.pyplot as plt

value = [1 ,2, 3, 4, 5]
squres = [1, 4, 9, 16, 25]

#1.设置线条粗细
plt.plot(value, squres, linewidth = 5)   #不输入横轴坐标，matplotliab将默认从0开始递增，而不是从1开始递增

#2.设置图标题
#3.坐标轴加标签
plt.title('Squre Numbers', fontsize = 24)
plt.xlabel('Value', fontsize = 14)
plt.ylabel('Squre of value', fontsize = 14)

#4.设置刻度标记大小
plt.tick_params(axis = 'both', labelsize = 14)

#5.plt.show()打开matplotlib查看器，并显示绘制的图形
plt.show()


## 绘制散点图

**(1):要绘制单个点，可使用函数scatter()，并向它传递一对x和y坐标，它将在指定位置绘制一
个点**

In [None]:
import matplotlib.pyplot as plt

plt.scatter(2, 4)
plt.show()


**(2):多个散点，进一步修饰**

In [None]:
import matplotlib.pyplot as plt

# 1.采用list()+range()函数创建数字列表1~5
x = list(range(1,6))
y = [1, 4, 9, 16, 25]

# 2.在scatter()中采用s参数设置点大小
plt.scatter(x, y, s=200)

# 3.设置图片标题，x-y轴标题，设置刻度大小
plt.title("Square Numbers", fontsize=24)
plt.xlabel("Value", fontsize=14)
plt.ylabel("Square of Value", fontsize=14)
plt.tick_params(axis='both', which='major', labelsize=14)  #which表示设置什么参数？

plt.show()


## 自动计算数据

**1.自动计算序列平方语法：y_value = \[x\*\*2 for x in x_value\]**

**2.设置x,y轴坐标刻度范围语法：plt.axis(\[0, 1100, 0, 1100000\])**

**3.删除数据点轮廓，防止连接在一起：在plt.scatter()中设置参数edgecolor = 'none'**

**4.更改散点图中数据点的颜色：在plt.scatter()中设置参数c='red'或者采用元组指定向量进行混色c=(0, 0, 0.8)**

**5.更改图片尺寸：plt.figure(figsize=(10, 6)) ; 函数figure()用于指定图表的宽度、高度、分辨率和背景色**

In [None]:
import matplotlib.pyplot as plt

# 1.注意y_value的使用语法
x_value = list(range(1,1001))
y_value = [x**2 for x in x_value]

# 2.删除数据点的黑色轮廓
# 3.将散点设置为红色
plt.scatter(x_value, y_value, edgecolor='none',c='red', s=40)

# 4.设置x,y坐标轴的刻度范围
plt.axis([0, 1100, 0, 1100000])

# 5.figsize设定图片尺寸
# 6.dpi设定图片像素
plt.figure(dpi=2000, figsize=(10, 10))

plt.show()


## 使用颜色映射突出规律

**1.颜色映射（colormap）是一系列颜色，它们从起始颜色渐变到结束颜色。在可视化中，颜色
映射用于突出数据的规律，例如，你可能用较浅的颜色来显示较小的值，并使用较深的颜色来显
示较大的值。模块pyplot内置了一组颜色映射;**

**2.保存图片：plt.savefig('name.png', bbox_inches='tight')，bbox_inches='tight'命令用来裁掉图片白边；该命令不能和plt.show()同时使用；**

In [None]:
import matplotlib.pyplot as plt

x_values = list(range(1001))
y_values = [x**2 for x in x_values]

# 1.设置渐变颜色
plt.scatter(x_values, y_values, c=y_values, cmap=plt.cm.Blues,
           edgecolor='none', s=40)

# plt.show()
# plt.savefig()命令存在就不能有plt.show()命令
# 2.保存图片：bbox_inches='tight'命令用来裁掉图片白边
plt.savefig('squre_plot.png', bbox_inches='tight') 


# Random Walk

## 创建RandomWalk()类

In [None]:
%%writefile random_walk.py
"""随机游走类"""
from random import choice

class RandomWalk():
    """生成一个随机游走类"""
    
    def __init__(self, nu = 5000):
        #设置列表长度
        self.nu = nu
        #所有随机游走都始于(0,0)坐标
        self.x_values = [0]
        self.y_values = [0]
        
    def fill_walk(self):
        """计算随机漫步包含的所有点"""
        
        # 不断漫步，直到列表达到指定的长度
        while len(self.x_values) < self.nu:
            x_direction = choice([-1, 1])         #1.随机选择-1或者1，表示向左或者右
            x_distance = choice([0, 1, 2, 3, 4])     #2.随机选择1~4作为在指定方向上行进的距离
            x_step = x_direction*x_distance       #3.步长由距离和方向决定
            
            y_direction = choice([-1, 1])        
            y_distance = choice([0, 1, 2, 3, 4])     
            y_step = y_direction*y_distance     
            
            # 拒绝原地踏步,pyton中使用"and"和"or"检查多个条件
            if x_step == 0 and y_step == 0:
                continue
        
            # 使用索引[-1]定位最后一个x_values值
            next_x = self.x_values[-1] + x_step
            next_y = self.y_values[-1] + y_step
        
            self.x_values.append(next_x)
            self.y_values.append(next_y)
    

## 绘制随机游走图

In [None]:
import matplotlib.pyplot as plt
from random_walk import RandomWalk

# import pdb: 该命令可以用来在jupyter notebook中进行调试
# pdb.set_trace()
my_rw = RandomWalk()
my_rw.fill_walk()
plt.scatter(my_rw.x_values, my_rw.y_values, s=1)

# 1.隐藏x轴和y轴
plt.axes().get_xaxis().set_visible(False)
plt.axes().get_yaxis().set_visible(False)

plt.show()


# Paygal生成图形

# CSV格式数据分析

## CSV文件格式

**要在文本文件中存储数据，最简单的方式是将数据作为一系列以逗号分隔的值（CSV）写入文件**

### 分析CSV文件头

**csv模块包含在Python标准库中，可用于分析CSV文件中的数据行，让我们能够快速提取感兴趣的值。**

In [None]:
import csv

filename = 'sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)   #我们调用csv.reader()，从而创建一个与该文件相关联的阅读器（reader）对象
    head_row = next(reader)  #模块csv包含函数next()，调用它并将阅读器对象传递给它时，它将返回文件中的下一行
    print(head_row)
    

### 打开文件头及其位置索引

**(1):enumerator()函数**

In [None]:
import csv

filename = 'sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)   
    head_row = next(reader)  

# 1.采用enumerate()函数获取表头各列名称和对应的位置索引
for index, column_header in enumerate(head_row):
    print(index, column_header)
    

**(2):结合列索引逐行读取数据，从而得到某一列数据**

**(3):从csv文件中读取最高气温后绘制成折线图**

**(4):将x轴刻度转化为日期**

**(5):从文件中读取最低温度绘制在同一张图中**

**(6):在最高和最低气温线条之间填充颜色:plt.fill_between()**

In [None]:
import csv
from datetime import datetime

filename = 'sitka_weather_07-2014.csv'
with open(filename) as f:
    reader = csv.reader(f)   
    head_row = next(reader)
    
    # 1.结合列索引逐行读取数据，从而得到某一列数据
    # 2.获取某日最高气温存储在highs列表中
    # 3.读取日期存储在dates列表中
    # 4.以下3行代码必须放在with代码块中，否则离开with代码块reader关闭
    highs, dates, lows = [], [], []
    for row in reader:
        high = int(row[1])   #将字符串转化为整数
        highs.append(high)   #由上一个代码块得到的结果可知第0列为日期，第1列为最高气温，采用row[1]
        
        low = int(row[3])
        lows.append(low)
        
        # 5.提取日期
        date = datetime.strptime(row[0], '%Y-%m-%d')
        dates.append(date)
        
print(highs)

# 6.绘制最高气温折线图
import matplotlib.pyplot as plt

# 7.在同一幅图中绘制两条折线最高温度和最低温度
plt.plot(dates, highs, color='red', linewidth = 0.4)
plt.plot(dates, lows, color='blue', linewidth = 0.4)

# 8.在最高和最低温度线之间填充颜色
plt.fill_between(dates, highs, lows, facecolor='blue', alpha=0.1)
plt.show()


## 缺失值

**1.文件death_valley_2014.csv文件中存在缺失值,处理缺失值方法如下：**

**缺失值：没有记录2014年2月16日的数据，表示最高温度的字符串为空**

In [None]:
import csv
import matplotlib.pyplot as plt
from datetime import datetime

filename = 'death_valley_2014.csv'
with open(filename) as fo:
    reader = csv.reader(fo)
    head_line = next(reader)
    
    highs, lows, dates = [], [], []
    for row in reader:
        try:
            high = int(row[1])
            highs.append(high)
        
            low = int(row[3])
            lows.append(low)
        
            date = datetime.strptime(row[0], '%Y-%m-%d')
            dates.append(date)
        except ValueError:
            print("The some varibles don not have observations.")
        else:
            plt.plot(dates, highs, c='red')
        

# 制作世界人口地图： JSON 格式数据

**本节将下载JSON格式的人口数据，并使用json模块来处理它们。 Pygal提供了一个
适合初学者使用的地图创建工具，你将使用它来对人口数据进行可视化，以探索全球人口的分布
情况**

**1.列印各个国家地区的2010年人口数：**

In [None]:
import json

filename = 'population_data.json'
with open(filename) as fo:
    pop_data = json.load(fo)
    
for pop_dict in pop_data:
    if pop_dict['Year'] == '2010':
        country_name = pop_dict['Country Name']
        population = int(float(pop_dict['Value'])) #float()返回一个浮点数，int()则舍去小数点后数字返回整数
        print(country_name + ': ' + str(population))
    

**2.**

In [None]:
from pygal.i18n

# 使用Web应用编程接口(API)

**Web API是网站的一部分，用于与使用非常具体的URL请求特定信息的程序交互。这种请求称为API调用。请求的数据将以易于处理的格式（如JSON或CSV）返回。依赖于外部数据源的大多数应用程序都依赖于API调用，如集成社交媒体网站的应用程序;**

**在本章中，我们将编写一个程序，它自动下载GitHub上星级最高的Python项目的信息，并对这些信息进行可视化。**

## 处理API响应

**下面来编写一个程序，它执行API调用并处理结果，找出GitHub上星级最高的Python项目：**

In [None]:
import requests
import json

# 1.执行API调用并储存响应 
#   url存储API调用的URL
url = 'https://api.github.com/search/repositories?q=language:python&sort=star'

# 2.执行requests语句来执行调用，我们调用get()并将URL传递给它，再将响应对象存储在变量r中
r = requests.get(url)

# 3.响应对象包含一个名为status_code的属性，它让我们知道请求是否成功了（状态码200表示请求成功）
print('Status code:', r.status_code)

# 4.将API响应储存在一个变量中
response_dict = r.json()

# 5.将response_dict内容储存在名为“response_dictionary.json”文件中
file_name = 'response_dictionary.json'
with open(file_name, 'w') as fo:
    json.dump(response_dict, fo)

# 6.处理结果：返回的字典中有三个键'total_count', 'incomplete_results', 'items'；
##  其中‘items’键对应的值是一个列表，而这个列表的元素又是字典，因而孙然看起来有很多
##  内容，但一级字典的键只有三个；
# 7.采用".keys()"方法获取键的名称
print(response_dict.keys())

# 8.打印总的仓库数
print('Total Repositories: ', response_dict['total_count'])

# 9.探索有关残仓库信息
##  将键"items"对应的字典储存在变量“repo_dicts”中，items中的每一个字典都对应一个有关python仓库的信息
repo_dicts = response_dict['items']

# 10.使用len()函数查看items中储存了多少个字典
print("Repositories returned:", len(repo_dicts))

# 11.研究items中第一个仓库的信息
repo_dict = repo_dicts[0]  #提取第一个字典的信息
print("\nKeys:", len(repo_dict))  #items中的第一个字典中储存有多少个键

# 12.打印repo_dict中所有键的信息
for key in repo_dict.keys():
    print(key)

# 13.打印打repo_dic字典中所存仓库的owner
##   ower键所对应的值也是一个字典，所以该处用了两次引用键的方式
print("Owner: ", repo_dict['owner']['login'])

# 14.打印第一个仓库（repo_dict）的基本信息
print("\nSelected information about first repository:")
print('Name:', repo_dict['name'])
print('Owner:', repo_dict['owner']['login'])
print('Stars:', repo_dict['stargazers_count'])   #该仓库获得的星
print('Repository:', repo_dict['html_url'])      #获得仓库地址URL
print('Created:', repo_dict['created_at'])       #仓库创立时间
print('Updated:', repo_dict['updated_at'])       #仓库更新时间
print('Description:', repo_dict['description'])   #仓库描述


## 可视化API获得的数据

In [1]:
import json
import pygal
from pygal.style import LightColorizedStyle as LCS, LightenStyle as LS

# 1.从文件'response_dictionary.json'中导出数据
fname = 'response_dictionary.json'
with open(fname) as f:
    response_dict = json.load(f)
    
repo_dicts = response_dict['items']
names, plot_dicts = [], []

for repo_dict in repo_dicts:
    names.append(repo_dict['name'])
    
    # 仓库的描述可能为空，所以要增加一段判断代码，保证后面的chart.add()函数可正确执行
    if repo_dict['description']:
        plot_dict = {
            'value': repo_dict['stargazers_count'],
            'label': repo_dict['description'],
            'xlink': repo_dict['html_url'],
        }
    else:
        plot_dict = {
            'value': repo_dict['stargazers_count'],
            'label': 'none',
            'xlink': repo_dict['html_url'],
        }        
    plot_dicts.append(plot_dict)
                       
# 2.可视化
# 3.设置条形图的style,其中style是Bar()类的一个属性，但style属性本身是以一个类做属性
my_style = LS('#333366', base_style=LCS) 

# 4.设置图片细节,采用pygal.Config()方法
my_config = pygal.Config()        #创建了一个实例my_config
my_config.x_label_rotation = 45   #修改该实例的属性
my_config.show_legend = False
my_config.title_font_size = 24
my_config.label_font_size = 14
my_config.major_label_font_size = 18
my_config.truncate_label = 15
my_config.show_y_guides = False    #show_y_guides设置为False，以隐藏图表中的水平线
my_config.width = 1000

chart = pygal.Bar(my_config, style=my_style)  # 关键词输入实参要放在后面
chart.title = 'Most-Starred Python Projects on GitHub'
chart.x_labels = names   

# 5.加入需要显示的数据，该处条形图需要显示的数据为star数量
chart.add('', plot_dicts)

# 4.pygal储存文件,图片以网页形式储存
chart.render_to_file('python_repos.svg') 
