
# pandas

![30DaysOfPython_banner3@2x.png](attachment:30DaysOfPython_banner3@2x.png)

Pandas是一个开源的、高性能的、易于使用的数据结构和数据分析工具，用于Python编程语言。Pandas增加了数据结构和工具，旨在处理类似表格的数据，这就是系列和数据框架。Pandas提供了数据操作的工具。

- reshaping
- merging
- sorting
- slicing
- aggregation
- imputation.如果你使用的是anaconda，你不需要安装pandas。

## 安装pandas

for mac：

pip install conda
conda install pandas

for windows:

pip install conda
pip install pandas



In [2]:
pip install conda

Note: you may need to restart the kernel to use updated packages.


In [4]:
conda install pandas

Collecting package metadata (current_repodata.json): done
Solving environment: done

# All requested packages already installed.


Note: you may need to restart the kernel to use updated packages.


Pandas 数据结构基于 Series 和 DataFrames。

Series是一列，DataFrame是由Series集合组成的多维表，为了创建一个pandas series，我们应该使用numpy来创建一个一维数组或一个python列表。让我们来看看一个系列的例子。

pandas series名字

![image.png](attachment:image.png)

国家series

![image-2.png](attachment:image-2.png)

城市series

![image-3.png](attachment:image-3.png)


正如你所看到的，pandas series只是一列数据。如果我们想有多列，我们就使用数据框架。下面的例子显示了pandas数据框架。

让我们看看，一个pandas数据框架的例子。

![image-4.png](attachment:image-4.png)

数据框架是一个行和列的集合。请看下面的表格；它比上面的例子多了很多列。

![image-5.png](attachment:image-5.png)


接下来，我们将看到如何导入pandas以及如何使用pandas创建Series和DataFrames

## importing pandas

In [None]:
import pandas as pd # importing pandas as pd
import numpy  as np # importing numpy as np

In [16]:
import pandas as pd
import numpy as np

nums = [1,2,3,4,5]
s = pd.Series(nums)
print(s)

0    1
1    2
2    3
3    4
4    5
dtype: int64


## 使用自定义索引创建 Pandas 系列

In [2]:
import pandas as pd
import numpy as np

nums = [1,2,3,4,5]
s = pd.Series(nums, index=[1,2,3,4,5])
print(s)

1    1
2    2
3    3
4    4
5    5
dtype: int64


In [3]:
fruits = ['Orange','Banana','Mango']
fruits = pd.Series(fruits, index=[1,2,3])
print(fruits)

1    Orange
2    Banana
3     Mango
dtype: object


## 从字典创建 Pandas 系列

In [4]:
dct = {'name':'liang','country':'china','city':'xxx'}

s = pd.Series(dct)
print(s)

name       liang
country    china
city         xxx
dtype: object


In [None]:
## 创建一个常量 Pandas 系列

In [5]:
s = pd.Series(10, index=[1,2,3])
print(s)

1    10
2    10
3    10
dtype: int64


In [None]:
## 通过Linspace创建pandas序列

In [2]:
import pandas as pd
import numpy as np

s = pd.Series(np.linspace(5,20,10))
print(s)

0     5.000000
1     6.666667
2     8.333333
3    10.000000
4    11.666667
5    13.333333
6    15.000000
7    16.666667
8    18.333333
9    20.000000
dtype: float64


In [None]:
# DataFrames

Pandas数据框架可以通过不同的方式创建。

In [4]:
## 从列表创建DataFrame

data = [
    ['liang','china','xxx'],
    ['zhangsan','china','yyy'],
    ['lisi','china','zzz']
]

df = pd.DataFrame(data, columns=['Names','Country','City'])
print(df)

      Names Country City
0     liang   china  xxx
1  zhangsan   china  yyy
2      lisi   china  zzz


## 使用字典创建DataFrame

In [6]:
data = {'name':['liang','zhangsan','lisi'],'country':['china','japan','englind'],'city':['北京','东京','英国']}
df = pd.DataFrame(data)
print(df)

       name  country city
0     liang    china   北京
1  zhangsan    japan   东京
2      lisi  englind   英国


## 从字典列表中创建DataFrames

In [7]:
data = [
    {'Name': 'Asabeneh', 'Country': 'Finland', 'City': 'Helsinki'},
    {'Name': 'David', 'Country': 'UK', 'City': 'London'},
    {'Name': 'John', 'Country': 'Sweden', 'City': 'Stockholm'}]
df = pd.DataFrame(data)
print(df)

       Name  Country       City
0  Asabeneh  Finland   Helsinki
1     David       UK     London
2      John   Sweden  Stockholm


# 使用 Pandas 读取 CSV 文件

要下载CSV文件，在这个例子中需要的是控制台/命令行，这就足够了。

curl -O https://raw.githubusercontent.com/Asabeneh/30-Days-Of-Python/master/data/weight-height.csv

将下载的文件放在您的工作目录中。

In [8]:
import pandas as pd

df = pd.read_csv('weight-height.csv')
print(df)

      Gender     Height      Weight
0       Male  73.847017  241.893563
1       Male  68.781904  162.310473
2       Male  74.110105  212.740856
3       Male  71.730978  220.042470
4       Male  69.881796  206.349801
...      ...        ...         ...
9995  Female  66.172652  136.777454
9996  Female  67.067155  170.867906
9997  Female  63.867992  128.475319
9998  Female  69.034243  163.852461
9999  Female  61.944246  113.649103

[10000 rows x 3 columns]


## 数据探索

让我们使用 head() 仅读取前 5 行

In [10]:
print(df.head())

  Gender     Height      Weight
0   Male  73.847017  241.893563
1   Male  68.781904  162.310473
2   Male  74.110105  212.740856
3   Male  71.730978  220.042470
4   Male  69.881796  206.349801


我们也使用tail()方法来探索数据框架的最后一次记录

In [12]:
print(df.tail())

      Gender     Height      Weight
9995  Female  66.172652  136.777454
9996  Female  67.067155  170.867906
9997  Female  63.867992  128.475319
9998  Female  69.034243  163.852461
9999  Female  61.944246  113.649103


如你所见，csv文件有三行。性别、身高和体重。如果DataFrame有很长的行，那么就很难知道所有的列。因此，我们应该使用一种方法来知道列。我们不知道行的数量。让我们使用shape方法。

In [13]:
print(df.shape)

(10000, 3)


让我们使用列获取所有列。

In [14]:
print(df.columns)

Index(['Gender', 'Height', 'Weight'], dtype='object')


现在，让我们使用列键获取特定列

In [17]:
heights = df['Height']
print(heights)

weights = df['Weight']
print(weights)

print(len(heights) == len(weights))

0       73.847017
1       68.781904
2       74.110105
3       71.730978
4       69.881796
          ...    
9995    66.172652
9996    67.067155
9997    63.867992
9998    69.034243
9999    61.944246
Name: Height, Length: 10000, dtype: float64
0       241.893563
1       162.310473
2       212.740856
3       220.042470
4       206.349801
           ...    
9995    136.777454
9996    170.867906
9997    128.475319
9998    163.852461
9999    113.649103
Name: Weight, Length: 10000, dtype: float64
True


describe()方法提供了一个数据集的描述性统计值。

In [20]:
print(heights.describe())

print(weights.describe())

count    10000.000000
mean        66.367560
std          3.847528
min         54.263133
25%         63.505620
50%         66.318070
75%         69.174262
max         78.998742
Name: Height, dtype: float64
count    10000.000000
mean       161.440357
std         32.108439
min         64.700127
25%        135.818051
50%        161.212928
75%        187.169525
max        269.989699
Name: Weight, dtype: float64


In [21]:
print(df.describe())

             Height        Weight
count  10000.000000  10000.000000
mean      66.367560    161.440357
std        3.847528     32.108439
min       54.263133     64.700127
25%       63.505620    135.818051
50%       66.318070    161.212928
75%       69.174262    187.169525
max       78.998742    269.989699


与describe()类似，info()方法也给出了关于数据集的信息。

# 修改DataFrame

* 我们可以创建一个新的DataFrame 
* 我们可以创建一个新的列并将其添加到DataFrame中， 
* 我们可以从DataFrame中删除一个现有的列， 
* 我们可以修改DataFrame中的一个现有列， 
* 我们可以改变DataFrame中列值的数据类型。

## 创建DataFrame

与往常一样，首先我们导入必要的包。现在，让我们导入 pandas 和 numpy，这两个最好的朋友。

In [26]:
data = [
    {'Name': 'Asabeneh', 'Country': 'Finland', 'City': 'Helsinki'},
    {'Name': 'David', 'Country': 'UK', 'City': 'London'},
    {'Name': 'John', 'Country': 'Sweden', 'City': 'Stockholm'}]
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Country,City
0,Asabeneh,Finland,Helsinki
1,David,UK,London
2,John,Sweden,Stockholm


在DataFrame中添加一个列就像在字典中添加一个键。

首先让我们使用前面的示例来创建一个 DataFrame。创建 DataFrame 后，我们将开始修改列和列值。

## 添加一个列

让我们在DataFrame中添加一个权重列

In [25]:
weights = [74,87,99]
df['weights'] = weights
df

Unnamed: 0,Name,Country,City,weights
0,Asabeneh,Finland,Helsinki,74
1,David,UK,London,87
2,John,Sweden,Stockholm,99


再添加一个heights

In [27]:
heights = [171,154,187]
df['heights'] = heights
df

Unnamed: 0,Name,Country,City,heights
0,Asabeneh,Finland,Helsinki,171
1,David,UK,London,154
2,John,Sweden,Stockholm,187


正如你在上面的数据框架中看到的，我们确实添加了新的列，即体重和身高。让我们再增加一列，叫做BMI（身体质量指数），用他们的体重和身高来计算他们的BMI。
BMI是质量除以高度的平方（米）--体重/身高*高度。
正如你所看到的，高度的单位是厘米，所以我们应该把它改为米。让我们来修改高度行。

## 修改列的值

In [31]:
df['height'] = df['heights'] * 0.01
df

Unnamed: 0,Name,Country,City,heights,height
0,Asabeneh,Finland,Helsinki,171,1.71
1,David,UK,London,154,1.54
2,John,Sweden,Stockholm,187,1.87


In [35]:
data = [
    {'Name': 'Asabeneh', 'Country': 'Finland', 'City': 'Helsinki'},
    {'Name': 'David', 'Country': 'UK', 'City': 'London'},
    {'Name': 'John', 'Country': 'Sweden', 'City': 'Stockholm'}]

weights = [74,87,99]
df['weights'] = weights

heights = [171,154,187]
df['heights'] = heights


# 使用函数使我们的代码变得干净，但你可以不使用函数来计算BMI。
def calculate_bmi():
    weights = df['weights']
    heights = df['heights']
    bmi = []
    for w,h in zip(weights, heights):
        b = w/(h*h)
        bmi.append(b)
    return bmi

bmi = calculate_bmi()

df['BMI'] = bmi
df

Unnamed: 0,Name,Country,City,heights,height,weights,BMI
0,Asabeneh,Finland,Helsinki,171,1.71,74,0.002531
1,David,UK,London,154,1.54,87,0.003668
2,John,Sweden,Stockholm,187,1.87,99,0.002831


## 格式化 DataFrame 列

DataFrame的BMI列值是浮动的，小数点后有许多有效数字。让我们把它改成小数点后一位有效数字。

In [36]:
df['BMI'] = round(df['BMI'], 1)
print(df)

       Name  Country       City  heights  height  weights  BMI
0  Asabeneh  Finland   Helsinki      171    1.71       74  0.0
1     David       UK     London      154    1.54       87  0.0
2      John   Sweden  Stockholm      187    1.87       99  0.0


数据框架中的信息似乎还不完整，让我们添加出生年份和当前年份两栏。

In [52]:
birth_year = ['1769','1985','1990']
current_year = pd.Series(2020, index=[0,1,2])
df['Birth Year'] = birth_year
df['Current_year'] = current_year
df

Unnamed: 0,Name,Country,City,heights,height,weights,BMI,Birth Year,Current_year
0,Asabeneh,Finland,Helsinki,171,1.71,74,0.0,1769,2020
1,David,UK,London,154,1.54,87,0.0,1985,2020
2,John,Sweden,Stockholm,187,1.87,99,0.0,1990,2020


检查列值的数据类型

In [54]:
print(df.weights.dtype)

int64


In [56]:
df['Birth Year'].dtype

# 它给出了字符串对象，我们应该将其更改为数字

df['Birth Year'] = df['Birth Year'].astype('int')
df['Current_year'] = df['Current_year'].astype('int')
df['Current_year'].dtype
df['Birth Year'].dtype

dtype('int64')

现在，出生年份和当前年份的列值为整数。我们可以计算年龄。

In [61]:
print(df)
ages = df['Current_year'] - df['Birth Year']
ages

df['Ages'] = ages
print(df)

       Name  Country       City  heights  height  weights  BMI  Birth Year  \
0  Asabeneh  Finland   Helsinki      171    1.71       74  0.0        1769   
1     David       UK     London      154    1.54       87  0.0        1985   
2      John   Sweden  Stockholm      187    1.87       99  0.0        1990   

   Current_year  
0          2020  
1          2020  
2          2020  
       Name  Country       City  heights  height  weights  BMI  Birth Year  \
0  Asabeneh  Finland   Helsinki      171    1.71       74  0.0        1769   
1     David       UK     London      154    1.54       87  0.0        1985   
2      John   Sweden  Stockholm      187    1.87       99  0.0        1990   

   Current_year  Ages  
0          2020   251  
1          2020    35  
2          2020    30  


第一行的人到目前为止活了251年。一个人不太可能活这么久。要么是打错了，要么是数据被篡改了。因此，让我们用各列的平均数来填补这个数据，不包括离群值。

mean = (35 + 30) / 2

In [59]:
mean = (35 + 30) / 2
print('mean', mean)

mean 32.5


## boolean索引

In [63]:
print(df[df['Ages'] > 120])

       Name  Country      City  heights  height  weights  BMI  Birth Year  \
0  Asabeneh  Finland  Helsinki      171    1.71       74  0.0        1769   

   Current_year  Ages  
0          2020   251  


In [64]:
print(df[df['Ages'] < 120])

    Name Country       City  heights  height  weights  BMI  Birth Year  \
1  David      UK     London      154    1.54       87  0.0        1985   
2   John  Sweden  Stockholm      187    1.87       99  0.0        1990   

   Current_year  Ages  
1          2020    35  
2          2020    30  
