# Series

Series giống như mảng 1 chiều (1D-array)

1D-array sẽ trông như thế này: `[1, 2, 3, 4]`

Series cũng giống như 1D-array, nhưng cấu trúc của nó phức tạp hơn một chút.

Cú pháp chuyển đổi 1D-array sang Series

```python
series = pd.Series(array)
```

In [None]:
import pandas as pd

In [None]:
# Chuyển đổi python list (1D-array) sang Series
arr = ['Apple', 'Banana', 'Orange']
series = pd.Series(arr)

print(series)

0     Apple
1    Banana
2    Orange
dtype: object


In [None]:
# Numpy array cũng có thể chuyển đổi được sang Series
import numpy as np

arr = np.array([1, 2, 3, 4])
series = pd.Series(arr)

print(series)

0    1
1    2
2    3
3    4
dtype: int64


Các phần tử của Series sẽ phức tạp hơn phần tử của array bình thường một chút

Phần tử của Series sẽ bao gồm một cặp `(index, value)` và tên Series.

Giả sử in ra 1 Series, nó hiện như thế này:

```
0     Apple
1    Banana
2    Orange
dtype: object
```

- Số 0, 1, 2 là `index`. Nếu không khai báo gì thêm, index sẽ tự tăng dần như thế.
- Apple, Banana, Orange là `value`.
- Nếu chưa khai báo gì thêm, Series trên không có tên.


Khai báo đầy đủ thành phần của Series.

```python
pd.Series([30, 35, 40], index=['2015 Sales', '2016 Sales', '2017 Sales'], name='Annual Sales')
```

Lúc này, tưởng tượng như trong Excel:
- **Index**: Tên hàng
- **Value**: Giá trị trong một cột
- **Name**: Tên cột

|            | Annual Sales |
| ---------- | ------------ |
| 2015 Sales | 30           |
| 2016 Sales | 35           |
| 2017 Sales | 40           |

In [None]:
series = pd.Series([30, 35, 40],
                   index=['2015 Sales', '2016 Sales', '2017 Sales'],
                   name='Annual Sales')

print(series)

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Product A, dtype: int64


In [None]:
series = pd.Series([30, 35, 40],
                   index=['2015 Sales', '2016 Sales', '2017 Sales'],
                   name='Annual Sales')

print(series['2016 Sales'])

35


Ta có thể khởi tạo 1 Series bằng Dictionary, với key là index.

In [None]:
annual_sales_dict = {
    '2015 Sales': 30,
    '2016 Sales': 35,
    '2017 Sales': 40
}

series = pd.Series(annual_sales_dict, name='Annual Sales')

print(series)

2015 Sales    30
2016 Sales    35
2017 Sales    40
Name: Annual Sales, dtype: int64


In [None]:
series.sum()

105

# DataFrame

Nhắc lại về Series:

```python
data = {
    'Name': 30,
    'Age': 35,
    'City': 40
}

series = pd.Series(data, name='Poppulation')
```

Tưởng tượng, 30, 35, 40 sẽ hoá thành 1 cục gì đó

```python
data = {
    'Name': object,
    'Age': object,
    'City': object
}

series = pd.Series(data, name='Poppulation')
```

In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

series = pd.Series(data, name='Poppulation')

print(series)
print('------------------------------')
print(series['Name'])
print(series['Name'][0])
print('------------------------------')
print(series['Age'])
# print(series['Age'].sum())  # Error, không thể ứng dụng linh hoạt được

| Name    | Age | City        |
|---------|-----|-------------|
| Alice   | 24  | New York    |
| Bob     | 27  | Los Angeles |
| Charlie | 22  | Chicago     |
| David   | 32  | Houston     |
| Eve     | 29  | Phoenix     |

In [None]:
# Tính tổng của cột "Age"
# print(series['Age'].sum())  # Error, không thể ứng dụng linh hoạt được

# Lấy ra row thứ 3
# ??????? Huhu

Đã đến lúc sử dụng 1 thứ hay ho hơn, đó là **DataFrame**.

**DataFrame** giống như mảng 2 chiều (2D-array)

2D-array sẽ có dạng trông như thế này

```python
[
  [1, 2, 3],
  [4, 5, 6],
  [7, 8, 9]
]
```

In [None]:
import pandas as pd

sample_2d_arr = [
  [1, 2, 3],
  [4, 5, 6],
  [7, 8, 9]
]

df = pd.DataFrame(sample_2d_arr)

print(df)

   0  1  2
0  1  2  3
1  4  5  6
2  7  8  9


| Name    | Age | City        |
|---------|-----|-------------|
| Alice   | 24  | New York    |
| Bob     | 27  | Los Angeles |
| Charlie | 22  | Chicago     |
| David   | 32  | Houston     |
| Eve     | 29  | Phoenix     |

In [None]:
# Trong Python Dictionary, hoặc JSON. Mỗi cặp key-value sẽ ứng với name-value
# 'Age': [24, 27, 22, 32, 29]
# Tương đương với
# series = pd.Series([24, 27, 22, 32, 29], name='Age')
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)

print(df)

# Còn index thì sao nhỉ =))

      Name  Age         City
0    Alice   24     New York
1      Bob   27  Los Angeles
2  Charlie   22      Chicago
3    David   32      Houston
4      Eve   29      Phoenix


Các Series trong DataFrame sẽ sử dụng chung index với nhau cho cả DataFrame.



In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data, index=['A', 'B', 'C', 'D', 'E'])

print(df)
print('----------------------')
print(df['Name']['A'])
print(df['Age']['C'])
print(df['City']['E'])

      Name  Age         City
A    Alice   24     New York
B      Bob   27  Los Angeles
C  Charlie   22      Chicago
D    David   32      Houston
E      Eve   29      Phoenix
----------------------
Alice
22
Phoenix


Nếu lười quá thì có thể sử dụng đại 1 cột nào đó, làm index đại diện

In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)
df = df.set_index('Name')

print(df)
print('----------------------')
print(df['Age']['Alice'])
print(df['City']['Charlie'])

         Age         City
Name                     
Alice     24     New York
Bob       27  Los Angeles
Charlie   22      Chicago
David     32      Houston
Eve       29      Phoenix
----------------------
24
Chicago


In [None]:
print(df['Age'].sum())

134


In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)
df = df.set_index('Name')

print(df.iloc[0])
print('----------------------')
print(df.loc['Alice'])
print('----------------------')
print(df.iloc[0, 1])
print('----------------------')
print(df.loc['Alice', 'City'])

Age           24
City    New York
Name: Alice, dtype: object
----------------------
Age           24
City    New York
Name: Alice, dtype: object
----------------------
New York
----------------------
New York
<class 'str'>


In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)
df = df.set_index('Name')

print(df.iloc[[0, 1]])
print(type(df.iloc[[0, 1]]))
print('----------------------')
print(df.loc[['Alice', 'Bob']])
print(type(df.loc[['Alice', 'Bob']]))
print('----------------------')
print(df.iloc[[0, 1], 1])
print(type(df.iloc[[0, 1], 1]))
print('----------------------')
print(df.loc[['Alice', 'Bob'], 'Age'])
print(type(df.loc[['Alice', 'Bob'], 'Age']))

       Age         City
Name                   
Alice   24     New York
Bob     27  Los Angeles
<class 'pandas.core.frame.DataFrame'>
----------------------
       Age         City
Name                   
Alice   24     New York
Bob     27  Los Angeles
<class 'pandas.core.frame.DataFrame'>
----------------------
Name
Alice       New York
Bob      Los Angeles
Name: City, dtype: object
<class 'pandas.core.series.Series'>
----------------------
Name
Alice    24
Bob      27
Name: Age, dtype: int64
<class 'pandas.core.series.Series'>


In [None]:
data = {
    'Name': ['Alice', 'Bob', 'Charlie', 'David', 'Eve'],
    'Age': [24, 27, 22, 32, 29],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix']
}

df = pd.DataFrame(data)

print(df['Age'])
print(type(df['Age']))
print('----------------------')
print(df[['Age']])
print(type(df[['Age']]))
print('----------------------')
print(df[['Age', 'City']])
print(type(df[['Age', 'City']]))

0    24
1    27
2    22
3    32
4    29
Name: Age, dtype: int64
<class 'pandas.core.series.Series'>
----------------------
   Age
0   24
1   27
2   22
3   32
4   29
<class 'pandas.core.frame.DataFrame'>
----------------------
   Age         City
0   24     New York
1   27  Los Angeles
2   22      Chicago
3   32      Houston
4   29      Phoenix
<class 'pandas.core.frame.DataFrame'>


# Group By

Những hàm liên quan tính toán: `sum(), count(), mean()`.

Đối với những hàm trên, nếu:
- Không có `groupby()`: Index sẽ là tên cột
- Có `groupby()`: Index sẽ là những giá trị đã nhóm

Ví dụ:

| Visibility_km | Press_kPa | Weather |
|---------------|-----------|---------|
|           8.0 | 101.27    | Fog     |
|           4.0 | 101.23    | Snow    |
|           9.7 |    101.24 | Fog     |

Nếu thực thi câu lệnh

```python
data.count()
```
|               | 0 |
|---------------|---|
| Visibility_km | 3 |
|     Press_kPa | 3 |
|       Weather | 3 |

```python
data.groupby('Weather').count()
```
|      | Visibility_km | Press_kPa |
|------|---------------|-----------|
| Fog  | 2             | 2         |
| Snow | 1             | 1         |


Nếu thực hiện các phép tính dựa trên những cột mang giá trị "String" thì nó sẽ cố gắng làm một thứ gì đó để thay thế, như cộng chuỗi hoặc thứ gì đó.

Nhưng nếu không thể tính toán được, ví dụ hàm `mean()` thì sẽ báo lỗi

In [None]:
# Group By