In [1]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')
print(df.info())
print("缺失值统计：\n", df.isnull().sum())
print("重复值统计：\n", df.duplicated().sum())



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 240 entries, 0 to 239
Data columns (total 10 columns):
 #   Column                            Non-Null Count  Dtype  
---  ------                            --------------  -----  
 0   code                              240 non-null    object 
 1   entity                            240 non-null    object 
 2   continent                         240 non-null    object 
 3   year                              240 non-null    int64  
 4   gdp_per_cap                       195 non-null    float64
 5   plastic_waste_per_cap             189 non-null    float64
 6   mismanaged_plastic_waste_per_cap  189 non-null    float64
 7   mismanaged_plastic_waste          189 non-null    float64
 8   coastal_pop                       189 non-null    float64
 9   total_pop                         230 non-null    float64
dtypes: float64(6), int64(1), object(3)
memory usage: 18.9+ KB
None
缺失值统计：
 code                                 0
entity                  

In [2]:
# 1. 去除重复行
df = df.drop_duplicates()

# 2. 处理缺失值
# 如果缺失值较多，可以选择删除这些列或行，或者使用填充策略
df['gdp_per_cap'] = df['gdp_per_cap'].fillna(df['gdp_per_cap'].mean())  # 用平均值填充GDP缺失值
df['plastic_waste_per_cap'] = df['plastic_waste_per_cap'].fillna(0)  # 用0填充塑料废物缺失值

# 针对其他列，可以根据需求选择填充方式或删除缺失行
df = df.dropna(subset=['mismanaged_plastic_waste', 'coastal_pop', 'total_pop'])  # 删除这些列中包含缺失值的行


In [3]:
print("清洗后的数据：\n", df.head())
print("清洗后的缺失值统计：\n", df.isnull().sum())

清洗后的数据：
   code               entity      continent  year   gdp_per_cap  \
1  ALB              Albania         Europe  2010   9927.181841   
2  DZA              Algeria         Africa  2010  12870.602699   
5  AGO               Angola         Africa  2010   5897.682841   
6  AIA             Anguilla  North America  2010  17682.596116   
7  ATG  Antigua and Barbuda  North America  2010  19212.720131   

   plastic_waste_per_cap  mismanaged_plastic_waste_per_cap  \
1                  0.069                             0.032   
2                  0.144                             0.086   
5                  0.062                             0.045   
6                  0.252                             0.010   
7                  0.660                             0.051   

   mismanaged_plastic_waste  coastal_pop   total_pop  
1                   29705.0    2530533.0   3204284.0  
2                  520555.0   16556580.0  35468208.0  
5                   62528.0    3790041.0  19081912.0  
6

In [4]:
# 打印出各大洲人均塑料垃圾的基本统计信息
print(df.groupby('continent')['plastic_waste_per_cap'].describe())

# 使用 letsplot 绘制各大洲人均塑料垃圾的分布（直方图）
ggplot(df) + aes(x='plastic_waste_per_cap', fill='continent') + \
    geom_histogram(position='dodge', bins=30) + \
    facet_wrap('continent') + \
    labs(title='Distribution of Plastic Waste per Capita by Continent',
         x='Plastic Waste per Capita (tons)',
         y='Count')

               count      mean       std    min      25%     50%     75%  \
continent                                                                  
Africa          40.0  0.096725  0.071755  0.015  0.04500  0.0710  0.1440   
Asia            39.0  0.173359  0.128898  0.010  0.08900  0.1440  0.2300   
Europe          35.0  0.193829  0.107916  0.042  0.11800  0.1920  0.2520   
North America   34.0  0.348618  0.594674  0.034  0.14425  0.2520  0.2745   
Oceania         20.0  0.184650  0.073642  0.103  0.10975  0.1665  0.2520   
South America   11.0  0.209000  0.132353  0.119  0.14400  0.1630  0.2175   

                 max  
continent             
Africa         0.358  
Asia           0.686  
Europe         0.485  
North America  3.600  
Oceania        0.331  
South America  0.586  


北美和欧洲的均值较高，反映出这些地区的消费模式和废物处理能力较为突出，特别是北美的塑料废物排放远高于其他大洲。北美的最大值（3.6吨/人）特别显眼，这表明一些国家（如美国）的塑料废物排放量非常大，可能与高消费水平、大量生产和消费的包装塑料有关。
非洲和亚洲的人均塑料废物相对较低，尤其是非洲的大部分国家人均塑料废物排放较少。亚洲虽然也有一些国家塑料废物较高（如中国、印度等），但整体来看，它的人均塑料废物排放并没有北美和欧洲那样普遍高。
大洋洲和南美的情况较为接近，虽然南美洲的人均塑料废物排放较欧洲和北美低，但相对于非洲，南美的排放量还是较为可观，反映出这些地区在塑料消费上仍存在一定的压力。
北美和亚洲的标准差最大，意味着在这些大洲内，不同国家之间在人均塑料废物排放方面差异较大。北美的标准差（0.562）尤为突出，这表明美国与其他北美国家在塑料废物排放上有很大差异。
非洲、大洋洲和欧洲的标准差相对较小，尤其是非洲，大部分国家的排放量都集中在较低的区间，差异较小。
南美洲的标准差相对较大，显示出该地区国家之间塑料废物排放水平的差异，可能与经济发展水平、基础设施建设和环保措施的不同有关。

In [5]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')

# 打印出各大洲人均塑料垃圾的基本统计信息
print(df.groupby('continent')['plastic_waste_per_cap'].describe())

# 使用 letsplot 绘制各大洲人均塑料垃圾的分布（小提琴图）
ggplot(df) + aes(x='continent', y='plastic_waste_per_cap', fill='continent') + \
    geom_violin() + \
    labs(title='Distribution of Plastic Waste per Capita by Continent',
         x='Continent',
         y='Plastic Waste per Capita (tons)')


               count      mean       std    min     25%    50%     75%    max
continent                                                                    
Africa          40.0  0.096725  0.071755  0.015  0.0450  0.071  0.1440  0.358
Asia            41.0  0.168951  0.127249  0.010  0.0840  0.144  0.2120  0.686
Europe          36.0  0.195444  0.106804  0.042  0.1210  0.196  0.2520  0.485
North America   38.0  0.338447  0.562413  0.034  0.1455  0.252  0.2565  3.600
Oceania         22.0  0.177227  0.074053  0.103  0.1030  0.144  0.2520  0.331
South America   12.0  0.212583  0.126803  0.119  0.1440  0.164  0.2520  0.586


小提琴图的宽度代表数据在某一值区间的密度，能够清晰展示数据的分布形态。相比之下，方框图只显示数据的五个数字摘要（最小值、下四分位数、中位数、上四分位数、最大值），无法展示数据的分布曲线和密度信息。
小提琴图通过形状展示了数据的偏态（左偏或右偏），如果分布不对称，小提琴图的左右部分会呈现不同的宽度。方框图无法显示这种信息，方框图只能显示数据的范围和四分位数，难以判断数据的偏斜程度。
 小提琴图有时能显示多个峰值（即多峰分布），这在方框图中可能不明显。对于某些数据集，小提琴图可能揭示数据的分布有多个集中区域，而方框图可能仅展示单一的中位数和四分位数。

 方框图清楚地标出了异常值（通常是小于下四分位数或大于上四分位数的点）。小提琴图虽然也能显示异常值，但它的密度图可能会使得异常值看起来较为模糊，尤其是当数据量较大时，异常值可能会被分布密度所掩盖。

 方框图能够更清晰地展示离群点，特别是当离群点显著偏离数据的集中区域时。小提琴图的对称性和曲线形态可能使得离群点不容易被直观地识别，尤其是当数据密集时，离群点可能被密度分布所隐藏。

In [6]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')

# 清除缺失值，确保两个变量都存在
df_clean = df.dropna(subset=['plastic_waste_per_cap', 'mismanaged_plastic_waste_per_cap'])

# 显示人均塑料垃圾与管理不善的人均塑料垃圾的关系
ggplot(df_clean) + aes(x='plastic_waste_per_cap', y='mismanaged_plastic_waste_per_cap') + \
    geom_point(size=3, alpha=0.7) + \
    labs(title='Scatter Plot of Plastic Waste per Capita vs Mismanaged Plastic Waste per Capita',
         x='Plastic Waste per Capita (tons)',
         y='Mismanaged Plastic Waste per Capita (tons)')


从散点图上可以直观观察到 人均塑料垃圾 和 管理不善的人均塑料垃圾 之间似乎存在一定的正相关性，即一个地区人均塑料垃圾越多，管理不善的塑料垃圾也往往越多。这意味着在某些区域，塑料垃圾的增加与废物管理不善呈现同步增长。说明两者之间可能存在较强的线性关系

In [7]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')

# 清除缺失值，确保两个变量都存在
df_clean = df.dropna(subset=['plastic_waste_per_cap', 'mismanaged_plastic_waste_per_cap'])

# 绘制按大洲着色的散点图
ggplot(df_clean) + aes(x='plastic_waste_per_cap', y='mismanaged_plastic_waste_per_cap', color='continent') + \
    geom_point(size=3, alpha=0.7) + \
    labs(title='Plastic Waste per Capita vs Mismanaged Plastic Waste per Capita by Continent',
         x='Plastic Waste per Capita (tons)',
         y='Mismanaged Plastic Waste per Capita (tons)') + \
    theme(legend_position='right')


各大洲在人均塑料废物和管理不善塑料废物之间的关系可能有所不同。比如，某些大洲（如北美、欧洲）可能在人均塑料废物和管理不善塑料废物之间呈现出更强的正相关关系，而其他大洲（如非洲、亚洲）可能表现出较为松散或弱相关的关系。一些大洲的点可能集中在较高或较低的区域，显示出这些地区在塑料废物管理上的差异。例如，北美的散点可能会集中在较高的人均塑料废物区域，而亚洲或非洲则可能集中在较低的区域。

In [8]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')

# 清除缺失值，确保两个变量都存在
df_clean = df.dropna(subset=['plastic_waste_per_cap', 'total_pop', 'coastal_pop'])

# 绘制人均塑料垃圾与总人口之间的关系
ggplot(df_clean) + aes(x='plastic_waste_per_cap', y='total_pop') + \
    geom_point(size=3, alpha=0.7) + \
    labs(title='Plastic Waste per Capita vs Total Population',
         x='Plastic Waste per Capita (tons)',
         y='Total Population')



In [9]:
# 绘制人均塑料垃圾与沿海人口之间的关系
ggplot(df_clean) + aes(x='plastic_waste_per_cap', y='coastal_pop') + \
    geom_point(size=3, alpha=0.7) + \
    labs(title='Plastic Waste per Capita vs Coastal Population',
         x='Plastic Waste per Capita (tons)',
         y='Coastal Population')

人均塑料垃圾与沿海人口 可能会呈现出更强的线性关系，尤其是在沿海城市和海滩垃圾的管理方面，塑料废物的产生可能与沿海地区的活动、旅游业等高度相关。
人均塑料垃圾与总人口 的关系可能不如与沿海人口的关系那么强，主要是因为总人口较大的国家，塑料垃圾的产生与人口数量的关系可能受到更多因素的影响（如地区差异、垃圾管理政策等）。

In [10]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')

# 计算沿海人口比例（沿海人口 / 总人口）
df['coastal_pop_ratio'] = df['coastal_pop'] / df['total_pop']

# 清除缺失值，确保所有必要的变量存在
df_clean = df.dropna(subset=['coastal_pop_ratio', 'plastic_waste_per_cap', 'continent'])

# 使用 letsplot 绘制按大陆着色的散点图
ggplot(df_clean) + aes(x='coastal_pop_ratio', y='plastic_waste_per_cap', color='continent') + \
    geom_point(size=3, alpha=0.7) + \
    labs(title='Plastic Waste per Capita vs Coastal Population Ratio by Continent',
         x='Coastal Population Ratio (Coastal Population / Total Population)',
         y='Plastic Waste per Capita (tons)') + \
    scale_y_continuous(breaks=[0, 0.2, 0.4, 0.6,0.8]) +  coord_cartesian(ylim=(0, 0.6)) +  theme(legend_position='right')


In [None]:
import pandas as pd
from lets_plot import *
LetsPlot.setup_html()

# 读取数据
df = pd.read_csv('plastic-waste.csv')

# 计算沿海人口比例（沿海人口 / 总人口）
df['coastal_pop_ratio'] = df['coastal_pop'] / df['total_pop']

# 清除缺失值，确保所有必要的变量存在
df_clean = df.dropna(subset=['coastal_pop_ratio', 'plastic_waste_per_cap', 'continent'])

# 使用 letsplot 绘制按大陆着色的散点图，添加趋势线和置信区间
ggplot(df_clean) + aes(x='coastal_pop_ratio', y='plastic_waste_per_cap', color='continent') + \
    geom_point(size=3, alpha=0.7) + \
    geom_smooth(method='loess', se=True, color='black') + \
    labs(title='Plastic Waste per Capita vs Coastal Population Ratio by Continent',
         x='Coastal Population Ratio (Coastal Population / Total Population)',
         y='Plastic Waste per Capita (tons)') + \
    scale_y_continuous(breaks=[0, 0.2, 0.4, 0.6, 0.8]) + \
    coord_cartesian(ylim=(0, 0.8)) + \
    theme(legend_position='right')


   coastal_pop_ratio  plastic_waste_per_cap      continent
1           0.789734                  0.069         Europe
2           0.466801                  0.144         Africa
5           0.198620                  0.062         Africa
6           0.948105                  0.252  North America
7           0.753500                  0.660  North America


通常可以看到，在某些大洲，如亚洲和非洲，沿海人口比例与人均塑料废物排放量之间的关系较弱，可能是由于这些地区塑料废物管理水平较低，或者塑料废物排放量与经济水平关系较大。
极端情况：在一些经济发达的大洲（如北美和欧洲），可能看到更高的人均塑料废物排放量，因为这些地区的人均消费水平较高，塑料废物管理水平较低。