## Installing and Using Pandas

In [53]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split 


In [7]:
pd.__version__

'1.4.2'

In [9]:
pd.__path__

['c:\\users\\hoang\\appdata\\local\\programs\\python\\python39\\lib\\site-packages\\pandas']

In [10]:
pd?

[1;31mType:[0m        module
[1;31mString form:[0m <module 'pandas' from 'c:\\users\\hoang\\appdata\\local\\programs\\python\\python39\\lib\\site-packages\\pandas\\__init__.py'>
[1;31mFile:[0m        c:\users\hoang\appdata\local\programs\python\python39\lib\site-packages\pandas\__init__.py
[1;31mDocstring:[0m  
pandas - a powerful data analysis and manipulation library for Python

**pandas** is a Python package providing fast, flexible, and expressive data
structures designed to make working with "relational" or "labeled" data both
easy and intuitive. It aims to be the fundamental high-level building block for
doing practical, **real world** data analysis in Python. Additionally, it has
the broader goal of becoming **the most powerful and flexible open source data
analysis / manipulation tool available in any language**. It is already well on
its way toward this goal.

Main Features
-------------
Here are just a few of the things that pandas does well:

  - Easy handling of mis

# Introducing Pandas Objects

## The Pandas Series Object

*A Pandas Series is a one-dimensional array of indexed data*

In [65]:
data= pd.Series([0.25,1,2.1,1])
data

0    0.25
1    1.00
2    2.10
3    1.00
dtype: float64

In [66]:
data.values

array([0.25, 1.  , 2.1 , 1.  ])

In [67]:
data.index

RangeIndex(start=0, stop=4, step=1)

### Series as generalized NumPy array

**Array trong numpy rất giống pandas nhưng khác nhau ở chỗ numpy array có index là số nguyên xác định, trong khi pandas có chỉ mục được xác định đến value mà có thể là int hoăc kiểu dữ liệu khác**

In [69]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [70]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

### Series as specialized dictionary

In [77]:
area_obj = {'California': 423967, 'Texas': 695662, 'New York': 141297,
 'Florida': 170312, 'Illinois': 149995}
population_obj= {'California': 38332521, 'Texas': 19552860, 'New York': 12882135,
 'Florida': 19651127, 'Illinois': 26448193}

In [78]:
areaSeries= pd.Series(area_obj)
populationSeries= pd.Series(population_obj)

In [75]:
areaSeries['California']

423967

In [76]:
areaSeries['California':'New York']

California    423967
Texas         695662
New York      141297
dtype: int64

### Constructing Series objects

In [81]:
data=pd.Series(5, index= np.arange(0,6))
data

0    5
1    5
2    5
3    5
4    5
5    5
dtype: int64

In [83]:
data=pd.Series(5, index=['a','t', 'u'])
data

a    5
t    5
u    5
dtype: int64

In [84]:
pd.Series({1:'a', 2:'b',3:'c'})

1    a
2    b
3    c
dtype: object

In [85]:
pd.Series({1:'a', 2:'b',3:'c'}, index=[3,2])

3    c
2    b
dtype: object

## The Pandas DataFrame Object

### DataFrame as a generalized NumPy array

In [91]:
area_obj = {'California': 423967, 'Texas': 695662, 'New York': 141297,
 'Florida': 170312, 'Illinois': 149995}
population_obj= {'California': 38332521, 'Texas': 19552860, 'New York': 12882135,
 'Florida': 19651127, 'Illinois': 26448193}
areaSeries= pd.Series(area_obj)
populationSeries= pd.Series(population_obj)
areaSeries

populationSeries

California    38332521
Texas         19552860
New York      12882135
Florida       19651127
Illinois      26448193
dtype: int64

In [88]:
states = pd.DataFrame({'population': populationSeries, 'area': areaSeries})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,19552860,695662
New York,12882135,141297
Florida,19651127,170312
Illinois,26448193,149995


In [42]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

In [43]:
states.columns

Index(['population', 'area'], dtype='object')

### DataFrame as specialized dictionary

In [89]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

### Constructing DataFrame objects

In [95]:
pd.DataFrame(populationSeries, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,19552860
New York,12882135
Florida,19651127
Illinois,26448193


In [97]:
pd.DataFrame([{'a':i, 'b':2*i} for i in range(3)])

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [99]:
np.random.rand(3)

array([0.43360554, 0.48241735, 0.53661675])

In [98]:
randomDt= np.random.rand(3,2)
randomDt

array([[0.10972701, 0.35069638],
       [0.89126845, 0.25327973],
       [0.76592513, 0.07742151]])

In [None]:
randomDf= pd.DataFrame(randomDt, columns=['foo', 'bar'], index=['a','b','c'])

In [62]:
randomDf

Unnamed: 0,foo,bar
a,0.435198,0.582638
b,0.094607,0.677522
c,0.643499,0.354187


### From a NumPy structured array

In [102]:
#file:///D:/develop/Data%20Science/data-science/Books/Python%20Data%20Science%20Handbook_%20(1).pdf#page=110&zoom=100,0,707
A= np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

## The Pandas Index Object

In [104]:
ind= pd.Index([2,3,4,5,6])
ind

Int64Index([2, 3, 4, 5, 6], dtype='int64')

### Index as immutable array

nó như một np array, có thể lấy value hoặc slices, có các attributes 

In [105]:
ind[0]

2

In [106]:
ind[0:2]

Int64Index([2, 3], dtype='int64')

In [107]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Điều khác biệt giữa np array và pd index obj là pd index obj không thể thay đổi giá trị

ind[1]=10 => sai
Điều này giúp an toàn khi chia sẻ index này cho nhiều dataframe, không bị ảnh hưởng vì sự thay đổi

### Index as ordered set

In [6]:
iris_dataset= load_iris()
X_train, X_test, y_train, y_test= train_test_split(iris_dataset['data'] ,iris_dataset['target'], random_state=0)
iris_dataframe= pd.DataFrame(X_train, columns= iris_dataset.feature_names)

In [12]:
iris_dataset

{'data': array([[5.1, 3.5, 1.4, 0.2],
        [4.9, 3. , 1.4, 0.2],
        [4.7, 3.2, 1.3, 0.2],
        [4.6, 3.1, 1.5, 0.2],
        [5. , 3.6, 1.4, 0.2],
        [5.4, 3.9, 1.7, 0.4],
        [4.6, 3.4, 1.4, 0.3],
        [5. , 3.4, 1.5, 0.2],
        [4.4, 2.9, 1.4, 0.2],
        [4.9, 3.1, 1.5, 0.1],
        [5.4, 3.7, 1.5, 0.2],
        [4.8, 3.4, 1.6, 0.2],
        [4.8, 3. , 1.4, 0.1],
        [4.3, 3. , 1.1, 0.1],
        [5.8, 4. , 1.2, 0.2],
        [5.7, 4.4, 1.5, 0.4],
        [5.4, 3.9, 1.3, 0.4],
        [5.1, 3.5, 1.4, 0.3],
        [5.7, 3.8, 1.7, 0.3],
        [5.1, 3.8, 1.5, 0.3],
        [5.4, 3.4, 1.7, 0.2],
        [5.1, 3.7, 1.5, 0.4],
        [4.6, 3.6, 1. , 0.2],
        [5.1, 3.3, 1.7, 0.5],
        [4.8, 3.4, 1.9, 0.2],
        [5. , 3. , 1.6, 0.2],
        [5. , 3.4, 1.6, 0.4],
        [5.2, 3.5, 1.5, 0.2],
        [5.2, 3.4, 1.4, 0.2],
        [4.7, 3.2, 1.6, 0.2],
        [4.8, 3.1, 1.6, 0.2],
        [5.4, 3.4, 1.5, 0.4],
        [5.2, 4.1, 1.5, 0.1],
  

In [27]:
data= pd.Series(iris_dataset)
data

data             [[5.1, 3.5, 1.4, 0.2], [4.9, 3.0, 1.4, 0.2], [...
target           [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...
frame                                                         None
target_names                       [setosa, versicolor, virginica]
DESCR            .. _iris_dataset:\n\nIris plants dataset\n----...
feature_names    [sepal length (cm), sepal width (cm), petal le...
filename         c:\users\hoang\appdata\local\programs\python\p...
dtype: object

In [30]:
data1= pd.Series(iris_dataset['DESCR'])
data1

0    .. _iris_dataset:\n\nIris plants dataset\n----...
dtype: object

### Các hàm thông dụng của dataframe

In [17]:
iris_dataframe.info(verbose=True) #thông tin của dataframe như tên cột, kiểu dữ liệu

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  112 non-null    float64
 1   sepal width (cm)   112 non-null    float64
 2   petal length (cm)  112 non-null    float64
 3   petal width (cm)   112 non-null    float64
dtypes: float64(4)
memory usage: 3.6 KB


In [15]:
iris_dataframe.info() #thông tin của dataframe như tên cột, kiểu dữ liệu

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 112 entries, 0 to 111
Data columns (total 4 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   sepal length (cm)  112 non-null    float64
 1   sepal width (cm)   112 non-null    float64
 2   petal length (cm)  112 non-null    float64
 3   petal width (cm)   112 non-null    float64
dtypes: float64(4)
memory usage: 3.6 KB


In [4]:
iris_dataframe.columns #tên các comlums, nó ở dạng obj

Index(['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)',
       'petal width (cm)'],
      dtype='object')

In [5]:
list(iris_dataframe.columns)#tên các comlums, để trong 1 list

['sepal length (cm)',
 'sepal width (cm)',
 'petal length (cm)',
 'petal width (cm)']

In [6]:
iris_dataframe.index #đánh số từ bao nhiêu đến bao nhiêu, index=1 => liên tục, không bị ngắt quãng

RangeIndex(start=0, stop=112, step=1)

In [13]:
iris_dataframe.describe() #thống kê lại cả bảng
#count: số tổng (được áp dụng với cột nào kiểu dữ liệu là số, nếu cột kiểu dữ liệu là obj/ string => không hiển thị)
#mean: giá trị trung bình
#std: độ lệch chuẩn

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,112.0,112.0,112.0,112.0
mean,5.886607,3.051786,3.796429,1.223214
std,0.871314,0.436196,1.800697,0.781427
min,4.3,2.0,1.1,0.1
25%,5.1,2.8,1.575,0.3
50%,5.8,3.0,4.25,1.3
75%,6.5,3.3,5.2,1.9
max,7.9,4.4,6.9,2.5


In [8]:
iris_dataframe.describe(include="all") #thống kê lại cả bảng bao gồm cả cột mà datatype là string /obj
#những gì thống kê được nó sẽ thông kê ra

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
count,112.0,112.0,112.0,112.0
mean,5.886607,3.051786,3.796429,1.223214
std,0.871314,0.436196,1.800697,0.781427
min,4.3,2.0,1.1,0.1
25%,5.1,2.8,1.575,0.3
50%,5.8,3.0,4.25,1.3
75%,6.5,3.3,5.2,1.9
max,7.9,4.4,6.9,2.5


### loc and iloc

In [9]:
iris_dataframe.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.9,3.0,4.2,1.5
1,5.8,2.6,4.0,1.2
2,6.8,3.0,5.5,2.1
3,4.7,3.2,1.3,0.2
4,6.9,3.1,5.1,2.3


In [10]:
iris_dataframe.loc[(iris_dataframe['sepal length (cm)']==6.9)  & (iris_dataframe['petal length (cm)']==5.1), ['sepal length (cm)', 'sepal width (cm)']] 
#lọc ra những giá trị theo yêu cầu
#trong trường hợp bình thườn, tên cột không chứa dấu "cách" =>iris_dataframe.loc[iris_dataframe.colName == 6.9]
#cái argument thứ 2 là 1 list các cột mình muốn hiển thị ra

Unnamed: 0,sepal length (cm),sepal width (cm)
4,6.9,3.1


In [11]:
iris_dataframe.iloc[10]

sepal length (cm)    6.0
sepal width (cm)     2.2
petal length (cm)    5.0
petal width (cm)     1.5
Name: 10, dtype: float64

In [12]:
type(iris_dataframe.iloc[10])
#nó có kiểu dữ liệu là series

pandas.core.series.Series

In [13]:
iris_dataframe.iloc[[10]] #thêm dấu [] bên trong thì nó return ra kiểu là dataframe

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
10,6.0,2.2,5.0,1.5


In [14]:
iris_dataframe.iloc[3:11] #từ hàng 3 CHO ĐẾN 10 nên phải dùng 11

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
3,4.7,3.2,1.3,0.2
4,6.9,3.1,5.1,2.3
5,5.0,3.5,1.6,0.6
6,5.4,3.7,1.5,0.2
7,5.0,2.0,3.5,1.0
8,6.5,3.0,5.5,1.8
9,6.7,3.3,5.7,2.5
10,6.0,2.2,5.0,1.5


In [15]:
iris_dataframe.iloc[3:5] 
# đằng trước : không có gì => ngầm hiểu đó là từ 0 đến -1 là cái áp chót

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
3,4.7,3.2,1.3,0.2
4,6.9,3.1,5.1,2.3


In [16]:
iris_dataframe.iloc[3:5, :-2]

Unnamed: 0,sepal length (cm),sepal width (cm)
3,4.7,3.2
4,6.9,3.1


In [17]:
iris_dataframe.iloc[3:5, -1] #chỉ lấy cột nào

3    0.2
4    2.3
Name: petal width (cm), dtype: float64

### Data Manipulation

In [18]:
#do data ban đầu không có cột nào chứa ký tự là chữ vd như '$'
# => tạo ra một dataframe mới
X_new_data_manipulation= {'Name':['phong','phong','huong','van','son'],'Month':[1,2,5,7,10], 'Salary':['$5','$90','$4', '$2', '$10']}
df_new_data_manipulation=pd.DataFrame(X_new_data_manipulation)
print(X_new_data_manipulation)
print(df_new_data_manipulation)
#X_new_data_manipulation[2].dtype

{'Name': ['phong', 'phong', 'huong', 'van', 'son'], 'Month': [1, 2, 5, 7, 10], 'Salary': ['$5', '$90', '$4', '$2', '$10']}
    Name  Month Salary
0  phong      1     $5
1  phong      2    $90
2  huong      5     $4
3    van      7     $2
4    son     10    $10


In [19]:
df_new_data_manipulation.Salary.dtype
df_new_data_manipulation.Name.dtype
#type 'o' => obj trong python
# https://github.com/CodexploreRepo/data_science/blob/main/Pages/A02_Pandas_Cheat_Sheet.md

dtype('O')

In [20]:
# ví dụ sau này cần lấy salary đẻ build model => cần convert từ obj sang số 
df_new_data_manipulation.Salary.apply(lambda x : x.replace('$',''))
#đơn giản là dùng lamda để thay thế tất cả '$' =>''

0     5
1    90
2     4
3     2
4    10
Name: Salary, dtype: object

In [21]:
# bây giờ cần chuyển nó thành fload
df_new_data_manipulation.Salary.apply(lambda x : float(x.replace('$','')))
# số thực 64 bit

0     5.0
1    90.0
2     4.0
3     2.0
4    10.0
Name: Salary, dtype: float64

In [22]:
df_new_data_manipulation.Salary=df_new_data_manipulation.Salary.apply(lambda x : float(x.replace('$','')))
df_new_data_manipulation.head()

Unnamed: 0,Name,Month,Salary
0,phong,1,5.0
1,phong,2,90.0
2,huong,5,4.0
3,van,7,2.0
4,son,10,10.0


### tạo thêm cột cho df

In [23]:
df_new_data_manipulation['total_money'] = df_new_data_manipulation.Month*df_new_data_manipulation.Salary
df_new_data_manipulation

Unnamed: 0,Name,Month,Salary,total_money
0,phong,1,5.0,5.0
1,phong,2,90.0,180.0
2,huong,5,4.0,20.0
3,van,7,2.0,14.0
4,son,10,10.0,100.0


### Tính tổng 1 cột

In [24]:
revenue=df_new_data_manipulation['total_money'].sum()
print(revenue)

319.0


In [25]:
not_sort=df_new_data_manipulation.groupby("Name")['total_money'].sum()
#groupby tất cả theo tên rồi chỉ lấy cột tiền sau đó sum thì ra của mỗi người 

In [26]:
not_sort.sort_values()
#sort tăng dần

Name
van       14.0
huong     20.0
son      100.0
phong    185.0
Name: total_money, dtype: float64

In [27]:
not_sort.sort_values(ascending=False)
#sort giảm dần

Name
phong    185.0
son      100.0
huong     20.0
van       14.0
Name: total_money, dtype: float64

### unique value

In [28]:
df_new_data_manipulation.Name.value_counts()
#số lượng xuất hiện theo tên

phong    2
son      1
huong    1
van      1
Name: Name, dtype: int64

In [29]:
df_new_data_manipulation.Name.value_counts().count()
#số lượng tên xuất hiện

4

In [30]:
df_new_data_manipulation.Name.nunique()
#tương tự trên

4

### The Pandas Series Object

In [20]:
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [22]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [23]:
data.index

RangeIndex(start=0, stop=4, step=1)

This explicit index definition gives the Series object additional capabilities. For
example, the index need not be an integer, but can consist of values of any desired
type. For example, if we wish, we can use strings as an index

In [25]:
data= pd.Series([0.25,0.5,0.75,1.0], index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64