# Pandas
## Dataframe Basic

In [28]:
import pandas as pd
import sqlite3
import numpy as np

# 1. Creating，Reading，Writing Dataframe

## (1) using `pd.Series([],index=[],name=)` to create series
`series.index`: return the index of sereis\
`series.values`:return the values of series

In [7]:
ingredients = pd.Series(['4 cups', '1 cup', '2 large', '1 can'],index=['Flour','Milk','Eggs','Spam'],name='Dinner')
print(ingredients)
print(ingredients.index)
print(ingredients.values)

Flour     4 cups
Milk       1 cup
Eggs     2 large
Spam       1 can
Name: Dinner, dtype: object
Index(['Flour', 'Milk', 'Eggs', 'Spam'], dtype='object')
['4 cups' '1 cup' '2 large' '1 can']


## using series to create dataframe 

In [15]:
# 通过Series对象创建DataFrame
series = pd.Series([1, 2, 3])
df = pd.DataFrame({'A': series})
df

Unnamed: 0,A
0,1
1,2
2,3


## (2) using `pd.DataFrame({'col_name':[],..},index=['index_name',])` to create dataframe

In [8]:
fruit_sales = pd.DataFrame({'Apples':[35,41],'Bananas':[21,34]},index=['2017 Sales','2018 Sales'])
fruit_sales

Unnamed: 0,Apples,Bananas
2017 Sales,35,21
2018 Sales,41,34


## （3）using a list to create dataframe

In [9]:
# 从列表创建DataFrame
data = [['Alice', 25], ['Bob', 30], ['Charlie', 35]]
df = pd.DataFrame(data, columns=['Name', 'Age'])
df

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Charlie,35


## （4）using a dictionary to create dataframe

In [10]:
# 从字典创建DataFrame
data = {'Name': ['Alice', 'Bob', 'Charlie'],
        'Age': [25, 30, 35]}
df = pd.DataFrame(data)
df

Unnamed: 0,Name,Age
0,Alice,25
1,Bob,30
2,Charlie,35


## (5) using numpy array to create dataframe

In [13]:
# 使用NumPy数组创建DataFrame
data = np.array([[1, 2, 3], [4, 5, 6]])
df = pd.DataFrame(data, columns=['A', 'B', 'C'])
df

Unnamed: 0,A,B,C
0,1,2,3
1,4,5,6


## (6) Data type
`type()` returns the type of the object (any object in python)  

`.dtype` returns the element type in a numpy array

In [3]:

# 创建一个示例 DataFrame
data = {'date': ['2023-10-23', '2023-10-24', '2023-10-25']}
df = pd.DataFrame(data)

# 将 "date" 列转换为 datetime 格式
df['date'] = pd.to_datetime(df['date'])

# 打印 Pandas Series 对象的类型
print(type(df.date))  # 输出: <class 'pandas.core.series.Series'>

# 打印 Series 中数据的数据类型
print(df.date.dtype)  # 输出: datetime64[ns]


<class 'pandas.core.series.Series'>
datetime64[ns]


# 2. Reading and Storing files--csv/xls/xlsx

### (1) `read_csv` 用于从逗号分隔值（CSV）文件中读取数据。
语法示例：`pandas.read_csv(filepath_or_buffer, sep=',', header='infer',index_col=0 ...)`  
`filepath_or_buffer` 是 CSV 文件的路径或 URL。  
`sep` 参数表示分隔符，默认为逗号，但你可以指定不同的分隔符。  
`header` 参数表示是否使用第一行作为列名，通常设置为 'infer'，表示自动检测。  
`index_col=0` 表示设置index列不是默认的数值行标签(0,1,2,...)
其他参数允许你指定数据的编码、日期格式等。

### (2) `read_excel`  用于从 Excel 文件中读取数据的函数
`io`: Excel 文件的路径或 URL  
`sheet_name`: 要读取的工作表的名称或索引，默认为 0（第一个工作表）。  
`header`: 用作列名的行，默认为 0（第一行）。  
`names`: 可选，用于指定列名的列表，如果不指定将使用 Excel 文件中的列名。  
`index_col`: 可选，用于指定作为行标签的列，默认为 None。  
`usecols`: 可选，用于指定要读取的列的列表。

### (3) `.to_csv()`   `.to_excel()` 用于将dataframe文件存储与本地 作为csv或excel文件  

### (4). pd.read_html()
使用pandas的read_html函数直接获取指定url网页中的所有表格,它会搜索 HTML 中的 `<table>` 标签，并尝试将它们解析为 DataFrame 对象。这个函数特别适合用于快速提取网页上格式良好的表格数据，而无需进行复杂的 HTML 解析或爬虫编程。

如果 HTML 中包含多个表格，read_html() 会返回一个 DataFrame **列表**，列表中的每个元素 对应一个表格。

灵活性：该函数可以处理来自网页 URL 或本地 HTML 文件的内容，也可以处理已经加载到字符串变量中的 HTML 内容。
- `read_html('url')`:获取指定网页url的内容
- `response=requests.get()`\
`read_html(response.text)`:获取通过get()得到的requests对象内容的text字符串形式,并转换为df




#### 限制
- 只限表格：read_html() 只能提取 `<table>` 标签内的数据，无法处理其他类型的 HTML 内容或结构。
- 格式依赖：对于复杂或格式不规则的表格，read_html() 可能无法正确解析，或者需要额外的清洗和格式化工作。
- 不含复杂互动：无法处理 JavaScript 生成或动态加载的内容，仅适用于静态 HTML 页面中的表格。

#   读取数据库文件`read_sql_query`

In [29]:
#使用 sqlite3 库连接到你的 SQLite 文件：
conn = sqlite3.connect("E:/Programming/Dataset_prac/million_us_wildfires/FPA_FOD_20170508.sqlite")
# 编写 SQL 查询，以从数据库中检索数据。例如，如果你有一个名为 "my_table" 的表，你可以执行以下查询：
query = "SELECT * FROM my_table;"
# 如果你不确定数据库中有哪些表，你可以使用以下查询来列出所有表的名称：
query = "SELECT name FROM sqlite_master WHERE type='table';"
# 使用 Pandas 的 read_sql_query 函数执行查询并将结果读取到 DataFrame 中：
table_name = pd.read_sql_query(query, conn)
print('Names of all tables in the dataset\n',table_name.head(),'\n')

#选取某一个标存入dataframe
query='SELECT * FROM spatialite_history'
df1=pd.read_sql_query(query, conn)
print('spatialite_history:\n',df1.head())
conn.close()


Names of all tables in the dataset
                   name
0      spatial_ref_sys
1   spatialite_history
2      sqlite_sequence
3     geometry_columns
4  spatial_ref_sys_aux 

spatialite_history:
    event_id        table_name geometry_column  \
0         1   spatial_ref_sys            None   
1         2  geometry_columns            None   
2         3  geometry_columns            None   
3         4  geometry_columns            None   
4         5  geometry_columns            None   

                                               event  \
0                         table successfully created   
1                         table successfully created   
2  trigger 'geometry_columns_f_table_name_insert'...   
3  trigger 'geometry_columns_f_table_name_update'...   
4  trigger 'geometry_columns_f_geometry_column_in...   

                  timestamp ver_sqlite ver_splite  
0  2017-05-17T22:00:26.772Z      3.9.2  4.4.0-RC0  
1  2017-05-17T22:00:26.796Z      3.9.2  4.4.0-RC0  
2  2017-05-17T2

# 3. Dataframe:  Indexing，Selecting，Assigning

In [30]:
# Dataset: wine dataset with decription and region..
import pandas as pd
df=pd.read_csv("E:\Programming\Dataset_prac\winemag_data\winemag-data-130k-v2.csv")
df.head()


Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
1,1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Quinta dos Avidagos 2011 Avidagos Red (Douro),Portuguese Red,Quinta dos Avidagos
2,2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Rainstorm 2013 Pinot Gris (Willamette Valley),Pinot Gris,Rainstorm
3,3,US,"Pineapple rind, lemon pith and orange blossom ...",Reserve Late Harvest,87,13.0,Michigan,Lake Michigan Shore,,Alexander Peartree,,St. Julian 2013 Reserve Late Harvest Riesling ...,Riesling,St. Julian
4,4,US,"Much like the regular bottling from 2012, this...",Vintner's Reserve Wild Child Block,87,65.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Sweet Cheeks 2012 Vintner's Reserve Wild Child...,Pinot Noir,Sweet Cheeks


<big>`DataFrame.rename(index={'old_name or number':'new_name'}, columns={'old_name':'new_name'}, inplace=False)`  </big>

index：用于指定新的行标签，可以是字典、函数、映射或索引对象。这个参数允许你对行标签进行重命名。  
columns：用于指定新的列标签，也可以是字典、函数、映射或索引对象。这个参数允许你对列标签进行重命名。

In [108]:
data = {'OldName1': [1, 2, 3], 'OldName2': [4, 5, 6]}
df = pd.DataFrame(data)

df.rename(columns={'OldName2':'Time'})

Unnamed: 0,OldName1,Time
0,1,4
1,2,5
2,3,6


## 1. query and modify

In [86]:
print(df.country.head())
print(df['country'].head()) #same as df.country
print(df[['country','price']][2:5]) #df[col][row]

0       Italy
1    Portugal
2          US
3          US
4          US
Name: country, dtype: object
0       Italy
1    Portugal
2          US
3          US
4          US
Name: country, dtype: object
  country  price
2      US   14.0
3      US   13.0
4      US   65.0


## 2. `loc[]` and `iloc[]` 
  <big>`loc[行索引名称或条件，列索引名称]`； `iloc[行索引位置，列索引位置]`\
  注意：iloc只接受数字num作为index参数，若是需要输入列名，应该用loc[]\
  当两者都以num作为index行参数，iloc与python计数相同[0:3]表示（0，1，2）； loc[0:3]表示（0，1，2，3）

`iloc` uses the Python stdlib indexing scheme, where the first element of the range is included and the last one excluded. `loc`, meanwhile, indexes inclusively.

This is particularly confusing when the DataFrame index is a simple numerical list, e.g. 0,...,1000. In this case `df.iloc[0:1000]` will return 1000 entries, while `df.loc[0:1000]` return 1001 of them! To get 1000 elements using loc, you will need to go one lower and ask for df.iloc[0:999].

In [3]:
df.loc[0:3,['price','region_1']]

Unnamed: 0,price,region_1
0,,Etna
1,15.0,
2,14.0,Willamette Valley
3,13.0,Lake Michigan Shore


###   **条件切片 slicing**
   - `.loc[[行条件],[列名]]`
   - `.loc[df.col.isin([list])]` 用于根据某一列的值是否包含在指定列表中，来筛选数据。

In [88]:
#select col_ country and winery, where country is Italy
df.loc[(df['country']=='Italy'),['country','winery']].head(3)

Unnamed: 0,country,winery
0,Italy,Nicosia
6,Italy,Terre di Giurfo
13,Italy,Masseria Setteporte


In [89]:
#select country is in Italy or France
df.loc[df.country.isin(['Italy','France'])].head(3)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
6,6,Italy,"Here's a bright, informal red that opens with ...",Belsito,87,16.0,Sicily & Sardinia,Vittoria,,Kerin O’Keefe,@kerinokeefe,Terre di Giurfo 2013 Belsito Frappato (Vittoria),Frappato,Terre di Giurfo
7,7,France,This dry and restrained wine offers spice in p...,,87,24.0,Alsace,Alsace,,Roger Voss,@vossroger,Trimbach 2012 Gewurztraminer (Alsace),Gewürztraminer,Trimbach


## 3. `.set_index('')` set special column as the index col

In [5]:
df.set_index('title').head(3)

Unnamed: 0_level_0,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,variety,winery
title,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
Nicosia 2013 Vulkà Bianco (Etna),0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,White Blend,Nicosia
Quinta dos Avidagos 2011 Avidagos Red (Douro),1,Portugal,"This is ripe and fruity, a wine that is smooth...",Avidagos,87,15.0,Douro,,,Roger Voss,@vossroger,Portuguese Red,Quinta dos Avidagos
Rainstorm 2013 Pinot Gris (Willamette Valley),2,US,"Tart and snappy, the flavors of lime flesh and...",,87,14.0,Oregon,Willamette Valley,Willamette Valley,Paul Gregutt,@paulgwine,Pinot Gris,Rainstorm


## 4. `.isnull()` and `notnull()`  
   highlight values which are (or are not) empty (NaN).

In [7]:
df.loc[df.price.isnull()].head(3)

Unnamed: 0.1,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
0,0,Italy,"Aromas include tropical fruit, broom, brimston...",Vulkà Bianco,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Nicosia 2013 Vulkà Bianco (Etna),White Blend,Nicosia
13,13,Italy,This is dominated by oak and oak-driven aromas...,Rosso,87,,Sicily & Sardinia,Etna,,Kerin O’Keefe,@kerinokeefe,Masseria Setteporte 2012 Rosso (Etna),Nerello Mascalese,Masseria Setteporte
30,30,France,Red cherry fruit comes laced with light tannin...,Nouveau,86,,Beaujolais,Beaujolais-Villages,,Roger Voss,@vossroger,Domaine de la Madone 2012 Nouveau (Beaujolais...,Gamay,Domaine de la Madone



## 5. Add columns

In [97]:
df['new_price']=df['price']*0.8
df[['price','new_price']].head(3)

Unnamed: 0,price,new_price
0,,
1,15.0,12.0
2,14.0,11.2


## 6. Delet data 
<big>`DataFrame.drop(labels, axis=0, index=None, columns=None, level=None, inplace=False, errors='raise')`

通常，最常用的是labels、axis和inplace参数，其中labels是要删除的标签，axis指定要删除的轴，inplace控制是否在原始DataFrame上进行修改。


## 7. Rename row/cols
DataFrame.rename() 方法用于重命名DataFrame的行索引、列标签或它们的组合。以下是DataFrame.rename() 方法的基本语法：

In [26]:
# 创建一个示例DataFrame
data = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df = pd.DataFrame(data)
print(df)

# 重命名列标签
df.rename(columns={'A': 'X', 'B': 'Y'}, inplace=True)
print(df)

# 重命名行索引
df.rename(index={0: 'row1', 1: 'row2', 2: 'row3'}, inplace=True)
print(df)

print(df.rename(index=str.upper)) # 大写index名称
print(df.rename(columns=lambda x: x.lower())) # 小写col名称

   A  B
0  1  4
1  2  5
2  3  6
   X  Y
0  1  4
1  2  5
2  3  6
      X  Y
row1  1  4
row2  2  5
row3  3  6
      X  Y
ROW1  1  4
ROW2  2  5
ROW3  3  6
      x  y
row1  1  4
row2  2  5
row3  3  6




# 4. Summary Funtions and Maps

## 1. Summary function

`.describe()` return the high-level summary of one or more columns.  
- 指定参数`include='all'`，可以得到所有列的汇总统计信息。如果不指定，只会对数值列进行汇总统计。
    
`.mean()` return the mean of a series of num  
    
`.unique()` to see a list of unique values  
    
`.value_counts()` return the counts of specified col
    
 `.idxmax()` return the index of the maximum value


In [6]:
df.price.describe()  #for numbs

count    120975.000000
mean         35.363389
std          41.022218
min           4.000000
25%          17.000000
50%          25.000000
75%          42.000000
max        3300.000000
Name: price, dtype: float64

In [5]:
df.country.describe()  #for strings

count     129908
unique        43
top           US
freq       54504
Name: country, dtype: object

In [7]:
df.points.mean()

88.44713820775404

In [12]:
df['country'].unique()[0:10]

array(['Italy', 'Portugal', 'US', 'Spain', 'France', 'Germany',
       'Argentina', 'Chile', 'Australia', 'Austria'], dtype=object)

In [16]:
df.country.value_counts()[0:5]

US          54504
France      22093
Italy       19540
Spain        6645
Portugal     5691
Name: country, dtype: int64

  <big>`idxmax()` returns the index of max value in specified columns  </big>  
  try to find the most_bargain wine (using 'title')---> highest points-price ratio

In [46]:
bargain_idx=(df.points/df.price).idxmax()
bargain_wine=df.loc[bargain_idx,'title']
bargain_wine

'Bandit NV Merlot (California)'

## 2. Map and Apply

1. apply 方法：\
`DataFrame.apply(func, axis=0, raw=False, result_type=None, args=(), **kwds)`\
`Series.apply(func, convert_dtype=True, args=(), **kwds)`

apply 方法用于在DataFrame的行或列上执行函数操作。
它可以用于DataFrame的每一行或每一列，你可以通过指定axis参数来控制是在行上还是列上执行操作。默认情况下，axis=0，表示在列上执行操作。
apply 可以接受一个自定义的函数，该函数将作用于每个元素，并返回一个Series或DataFrame，结果的形状可以不同于原始数据。
apply 还可以接受一个lambda函数或NumPy函数。
通常用于执行更复杂的操作，例如对整列进行聚合、变换等。

2. map 方法：\
`Series.map(arg, na_action=None)`

map 方法用于Series对象，并且通常用于在Series上执行映射操作。
它接受一个映射字典或一个函数，将每个元素映射到另一个值。
通常用于将一列的元素映射为另一列的值，例如将类别标签映射为数值。

### Mapping

<big>`map(function, sequence)` can be a function or a method, the result is same.</big>

<big>`new_series=dataframe['col_name'].map(function)`  using `.map()` apply the function to the specified column and store it in the new_series
** THE funtion can be defined by `def` or using simple annonymous function:`lambda arg: expression`   
    
    
    


    
 <big>`.apply(function,axis=)`, axis='columns'表示按行使用function； axis=‘rows’表示按列使用function
  
Note that map() and apply() return new, transformed Series and DataFrames, respectively. They don't modify the original data they're called on. If we look at the first row of reviews, we can see that it still has its original points value.</big>

In [27]:
mean_price=df.price.mean() #35.36
df.price.map(lambda x:x-mean_price).head()  # 对price每行都计算该行`price - mean_price`

0          NaN
1   -20.363389
2   -21.363389
3   -22.363389
4    29.636611
Name: price, dtype: float64

In [36]:
def remean_price(row):
    row.price = row.price - mean_price
    return row
df.apply(remean_price, axis='columns')['price'].head() #返回一个新的dataframe，且其中price列被修改为减去mean_price后的值

0          NaN
1   -20.363389
2   -21.363389
3   -22.363389
4    29.636611
Name: price, dtype: float64

In [39]:
# a faster way to show the mean price for each row
mean_price=df.price.mean()
(df.price-mean_price)[0:5]

0          NaN
1   -20.363389
2   -21.363389
3   -22.363389
4    29.636611
Name: price, dtype: float64

In [42]:
# an easy way of combining two string columns
(df.country + ' : ' + df.region_1)[0:5]

0                Italy : Etna
1                         NaN
2      US : Willamette Valley
3    US : Lake Michigan Shore
4      US : Willamette Valley
dtype: object

<big>__EX1__:`.map()`</big>

Create a Series `descriptor_counts` counting how many times each of these two words appears in the `description` column in the dataset. (For simplicity, let's ignore the capitalized versions of these words.)  
 
 Hint: Use a map to check each description for the string tropical, then count up the number of times this is True. Repeat this for fruity. Finally, create a Series combining the two values.



In [55]:
tropical=df.description.map(lambda desc:'tropical' in desc)
fruity=df.description.map(lambda desc:'fruity' in desc)
print(tropical.head()) # a Bool sereies
print(tropical.sum()) # if true-->count+1

count_tropical=tropical.sum()
count_fruity=fruity.sum()

description_counts = pd.Series([count_tropical,count_fruity],index=['tropical','fruity'])
description_counts

0     True
1    False
2    False
3    False
4    False
Name: description, dtype: bool
3607


tropical    3607
fruity      9090
dtype: int64

### apply()

<big>`object.apply(function)`</big>

__EX2__. A score of 95 or higher counts as 3 stars, a score of at least 85 but less than 95 is 2 stars. Any other score is 1 star.

Also, the Canadian Vintners Association bought a lot of ads on the site, so any wines from Canada should automatically get 3 stars, regardless of points.

Create a series star_ratings with the number of stars corresponding to each review in the dataset.

<font color="red"><big>__apply() is only a method in Pandas, while map() is a built-in function or method__</big></font>


In [82]:
def stars(row):
    if row.country == 'Canada':
        return 3
    elif row.points >= 95:
        return 3
    elif row.points >= 85:
        return 2
    else:
        return 1

star_ratings = df.apply(stars, axis='columns')
star_ratings

0         2
1         2
2         2
3         2
4         2
         ..
129966    2
129967    2
129968    2
129969    2
129970    2
Length: 129971, dtype: int64

# 5. Grouping and Sorting

## 1. Groupwise analysis  
`.groupby('col_name')` make the dataframe grouped by specified columns as you wish.  
`.groupby().apply(function)` apply the specified function to the grouped data  
`.groupby().agg([fun1,fun2])` apply each function list to all the grouped data  

**groupby()**之后得到一个**GroupBy**对象，无法对该对象之间进行sort_values操作，因为该对象可以包含多个组，每个组内都有多个数据点。如果你想对每个组内的数据进行排序，你需要在每个组上应用排序函数，而不是在整个数据集上进行排序。  
即groupby之后需要进行聚合（agg,apply,max,mean, size()等）来处理每个组内的数据，然后再根据需要进行排序。  

如果你使用了类似mean、max这样的聚合函数，你将得到一个Series，其中索引是分组的标签，值是聚合的结果。  
如果你使用了agg（）或apply（）进行多个聚合函数，你将得到一个DataFrame，其中索引是分组的标签，列是不同聚合函数的结果
也可以使用`.reset_index()`,这样就可以得到一个新的dataframe，其中包含了之前的index和聚合结果

In [41]:
df.groupby(['country', 'province']).apply(lambda df: df.loc[df.points.idxmax()]).head(3)
# this code will group the df by country then by province, and retrun the max_points_row of each group

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 0,country,description,designation,points,price,province,region_1,region_2,taster_name,taster_twitter_handle,title,variety,winery
country,province,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Argentina,Mendoza Province,82754,Argentina,"If the color doesn't tell the full story, the ...",Nicasia Vineyard,97,120.0,Mendoza Province,Mendoza,,Michael Schachner,@wineschach,Bodega Catena Zapata 2006 Nicasia Vineyard Mal...,Malbec,Bodega Catena Zapata
Argentina,Other,78303,Argentina,"Take note, this could be the best wine Colomé ...",Reserva,95,90.0,Other,Salta,,Michael Schachner,@wineschach,Colomé 2010 Reserva Malbec (Salta),Malbec,Colomé
Armenia,Armenia,66146,Armenia,"Deep salmon in color, this wine offers a bouqu...",Estate Bottled,88,15.0,Armenia,,,Mike DeSimone,@worldwineguys,Van Ardi 2015 Estate Bottled Rosé (Armenia),Rosé,Van Ardi


In [20]:
df.groupby('country').price.agg([len,min,max]).head(3)
# group by country, apply len(get the count of specified column), min, max to the price col

Unnamed: 0_level_0,len,min,max
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Argentina,3800,4.0,230.0
Armenia,2,14.0,15.0
Australia,2329,5.0,850.0


<big>`.groupby().size()` 返回分组后各组的大小（每个组有多少条数据）  
`.groupby('col_name')['col_name'].count()` 与size()结果一致</big>

In [9]:
data = {'Category': ['A', 'A', 'B', 'B', 'A'],
        'Value': [10, 20, 15, 25, 30]}
df = pd.DataFrame(data)

# 使用.groupby()方法对'Category'列进行分组，并使用.size()方法计算每个组的大小
group_sizes = df.groupby('Category').size()
print(group_sizes)
#使用count（）方法计算每个组大小
group_sizes=df.groupby('Category')['Category'].count()
print(group_sizes)

Category
A    3
B    2
dtype: int64
Category
A    3
B    2
Name: Category, dtype: int64


## 2. agg() method to aggregate
<big>`df[['col1','col2']].agg([func1,func2])` apply func1 and func2 respectively in both col1 and col2  </big>
    
<big>`df.agg({'col1': func1, 'col2': [func2,func3]})` apply func1 on col1, func2 and func3 on col2</big>
    
    
    


## 3. apply() method to aggregate  
<big>`df[['col1','cpol2']].apply(function)` apply can only use one function on multiple columns</big>




## 4. transform() method to aggregate
<big>`transform()` 方法在 Pandas 中用于执行聚合操作，但与 agg() 或 groupby() 不同，它会将聚合的结果返回到原始数据的每个行，而不是返回一个汇总的数据帧。这可以在对原始数据的每一行应用聚合操作时非常有用。</big>

In [50]:
data = {
    'Category': ['A', 'B', 'A', 'B', 'A'],
    'Value': [5, 15, 20, 80, 30]
}
df = pd.DataFrame(data)

# 使用 transform 计算每个类别的均值，并将结果添加为新列 'Mean'
df['Mean'] = df.groupby('Category')['Value'].transform('mean')
df

Unnamed: 0,Category,Value,Mean
0,A,5,18.333333
1,B,15,47.5
2,A,20,18.333333
3,B,80,47.5
4,A,30,18.333333


In [52]:
# 可以看到 agg执行mean函数后，返回一个series，是分组后的汇总表示，而transform会直接添加一个新的列，每一行计算对应group的mean
agg_result = df.groupby('Category')['Value'].agg('mean')
agg_result

Category
A    18.333333
B    47.500000
Name: Value, dtype: float64

## 5. Multi-indexes
<big>`.set_index(['col1','col2'])` 可直接得到一个重新设置过multi-index的dataframe  
也可以用groupby对多列分组，会产生multi-index的**Series**  
multi-indexs is a type in Pandas, you can check it by `type()`  
the multi-index method you will use most often is the one for converting back to a regular index, the `reset_index()` method:</big>

In [36]:
import pandas as pd

# 创建一个具有多重索引的示例数据帧
data = {'Year': [2021, 2021, 2022, 2022],
        'Quarter': [1, 2, 1, 2],
        'Sales': [100, 120, 90, 110]}
df = pd.DataFrame(data)
print('original\n',df)
df.set_index(['Year', 'Quarter'], inplace=True)
print('multi-index\n',df)


# 使用 reset_index 重置索引
df_reset = df.reset_index()

# 现在 df_reset 具有默认整数索引，并且多重索引信息已移至列
print('\n',df_reset) # 此时与original dataframe相同


original
    Year  Quarter  Sales
0  2021        1    100
1  2021        2    120
2  2022        1     90
3  2022        2    110
multi-index
               Sales
Year Quarter       
2021 1          100
     2          120
2022 1           90
     2          110

    Year  Quarter  Sales
0  2021        1    100
1  2021        2    120
2  2022        1     90
3  2022        2    110


## 6. Sorting

    
<big>`.sort_values(by='',ascending=T/F)` will get data **value** in the order by specified column and we can sort data by more than one column at a time</big>

In [10]:
# 创建一个示例数据帧
data = {'Name': ['Alice', 'Bob', 'Charlie', 'David','Jack'],
        'Age': [25, 30, 22, 35,30],
        'Salary': [50000, 60000, 45000, 70000,2000]}
df = pd.DataFrame(data)
print(df)

# 使用 sort_values 对数据帧按照 'Age' 列进行升序排序
df_sorted = df.sort_values(by='Salary')

# 打印排序后的数据帧
df_sorted

      Name  Age  Salary
0    Alice   25   50000
1      Bob   30   60000
2  Charlie   22   45000
3    David   35   70000
4     Jack   30    2000


Unnamed: 0,Name,Age,Salary
4,Jack,30,2000
2,Charlie,22,45000
0,Alice,25,50000
1,Bob,30,60000
3,David,35,70000


In [41]:
df.sort_values(by=['Age','Salary'])

Unnamed: 0,Name,Age,Salary
2,Charlie,22,45000
0,Alice,25,50000
4,Jack,30,2000
1,Bob,30,60000
3,David,35,70000


# 6. DataFrame Concatation


## 1. concat 堆叠合并
<big>`.concat(objs, axis=0, join='outer', ignore_index=False)`  </big>

objs：要拼接的数据结构，通常是一个包含多个数据帧或 Series 的列表。

axis：指定拼接的轴，可以是 0（默认，按行拼接,纵向堆叠）   或 1（按列拼接，横向堆叠）。

join：指定如何处理不匹配的索引（行或列标签），可以是 'inner'（只保留共同的标签）或 'outer'（保留所有标签，默认值）。

ignore_index：如果设置为 True，则将忽略拼接后的数据结构中的索引，并创建一个新的整数索引。

In [116]:
# 创建两个示例数据帧
data1 = {'A': [1, 2], 'B': [3, 4]}
data2 = {'A': [5, 6], 'B': [7, 8]}
df1 = pd.DataFrame(data1)
df2 = pd.DataFrame(data2)

print(df1,'\n',df2,'\n')

# 在行方向拼接两个数据帧
result1 = pd.concat([df1, df2], axis=0)
print(result1)
# 在列方向拼接两个数据帧
result2 = pd.concat([df1, df2], axis=1)
print(result2)
# 忽略原始索引，创建新的整数索引
result3 = pd.concat([df1, df2], ignore_index=True)
print(result3)

   A  B
0  1  3
1  2  4 
    A  B
0  5  7
1  6  8 

   A  B
0  1  3
1  2  4
0  5  7
1  6  8
   A  B  A  B
0  1  3  5  7
1  2  4  6  8
   A  B
0  1  3
1  2  4
2  5  7
3  6  8


## 2. Merge 主键合并

<big>`merged_df = df1.merge(df2,how='inner' on='key')` </big>  

merge： merge 是 Pandas 中用于合并数据的功能非常强大的函数，它允许你基于一个或多个键（通常是列）将两个数据框连接起来。你可以指定连接的方式（内连接、外连接、左连接、右连接）以及连接键。这使得你可以根据共享的列将数据框连接在一起，类似于 SQL 中的 JOIN 操作。

df1：左侧的数据框，通常是要合并的主数据框。

df2：右侧的数据框，通常是要与主数据框合并的数据框。

how：指定合并方式，可以是 'inner'（只保留共同的标签）或 'outer'（保留所有标签，默认值）、'left'（左连接）、'right'（右连接）。

on：用于指定连接键的列名。如果两个数据框具有相同的列名，可以只指定一个列名，它将用作连接键。


In [125]:
# 创建示例数据帧 df1（员工信息）
data1 = {'EmployeeID': [1, 2, 3, 4],
         'Name': ['Alice', 'Bob', 'Charlie', 'David'],
         'DepartmentID': [101, 102, 101, 103]}

df1 = pd.DataFrame(data1)
print(df1)

# 创建示例数据帧 df2（部门信息）
data2 = {'DepartmentID': [101, 102, 103, 104],
         'DepartmentName': ['HR', 'Finance', 'IT', 'Marketing']}

df2 = pd.DataFrame(data2)
print(df2)

# 使用 merge 函数进行合并
merged_df = df1.merge(df2, on='DepartmentID', how='inner')

print(merged_df)

   EmployeeID     Name  DepartmentID
0           1    Alice           101
1           2      Bob           102
2           3  Charlie           101
3           4    David           103
   DepartmentID DepartmentName
0           101             HR
1           102        Finance
2           103             IT
3           104      Marketing
   EmployeeID     Name  DepartmentID DepartmentName
0           1    Alice           101             HR
1           3  Charlie           101             HR
2           2      Bob           102        Finance
3           4    David           103             IT


## 3. join() 主键合并
<big>`DataFrame.join(other, on=None, how='left', lsuffix='', rsuffix='', sort=False)`</big>

other：要连接的另一个数据帧。dataframe或Series

on：用于连接的列或索引名称。默认情况下，join 方法使用两个数据帧的索引进行连接。

how：连接方式，可以是 'left'、'right'、'inner' 或 'outer'。默认是 'left'，表示左连接。

lsuffix 和 rsuffix：用于处理重叠列名的后缀。如果两个数据帧具有相同的列名，可以使用这些参数来添加后缀以区分它们。

sort：默认为 False。如果设置为 True，则在连接之前会对索引进行排序。


In [131]:

# 创建示例数据帧 df1
data1 = {'A': [1, 2, 3], 'B': [4, 5, 6]}
df1 = pd.DataFrame(data1, index=['X', 'Y', 'Z'])
print(df1,'\n')

# 创建示例数据帧 df2
data2 = {'C': [7, 8, 9], 'D': [10, 11, 12]}
df2 = pd.DataFrame(data2, index=['X', 'Y', 'Z'])
print(df2,'\n')

# 使用 join 方法连接两个数据帧
result = df1.join(df2, how='right')

print(result)


   A  B
X  1  4
Y  2  5
Z  3  6 

   C   D
X  7  10
Y  8  11
Z  9  12 

   A  B  C   D
X  1  4  7  10
Y  2  5  8  11
Z  3  6  9  12
