### Pandas
- 데이터 분석을 위한 쉽고 성능이 좋은 오픈소스 python 라이브러리
- Series : index, value로 이루어진 데이터 타입
- DataFrame : index, column, value로 이루어진 데이터 타입
    - CRUD : create, read, update, delete
    - IO

In [1]:
import pandas as pd

In [None]:
# 1. Series

In [2]:
datas = pd.Series([3, 1, 9])
datas

0    3
1    1
2    9
dtype: int64

In [3]:
list(datas.index), datas.values, datas.dtype

([0, 1, 2], array([3, 1, 9], dtype=int64), dtype('int64'))

In [4]:
# 2. DateFrame

In [5]:
# create

In [6]:
# 리스트 안에 딕셔너리 : row 데이터를 기준으로 저장

In [7]:
datas = [
    {"name": "peter", "email": "peter@gmail.com", "id": 1},
    {"name": "jhon", "email": "jhon@gmail.com", "id": 2},
    {"name": "andy", "email": "andy@naver.com", "id": 3},
]
df = pd.DataFrame(datas)
df

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,1
1,jhon,jhon@gmail.com,2
2,andy,andy@naver.com,3


In [8]:
# 딕셔너리 안에 리스트 : column 데이터를 기준으로 저장

In [10]:
# from_dict

datas = df.to_dict("list")
print(datas)
df = pd.DataFrame(datas)
df

{'name': ['peter', 'jhon', 'andy'], 'email': ['peter@gmail.com', 'jhon@gmail.com', 'andy@naver.com'], 'id': [1, 2, 3]}


Unnamed: 0,name,email,id
0,peter,peter@gmail.com,1
1,jhon,jhon@gmail.com,2
2,andy,andy@naver.com,3


In [11]:
list(df.index), list(df.columns), df.values

([0, 1, 2],
 ['name', 'email', 'id'],
 array([['peter', 'peter@gmail.com', 1],
        ['jhon', 'jhon@gmail.com', 2],
        ['andy', 'andy@naver.com', 3]], dtype=object))

In [12]:
df.name.values

array(['peter', 'jhon', 'andy'], dtype=object)

In [13]:
df.dtypes

name     object
email    object
id        int64
dtype: object

In [14]:
# read

In [15]:
# row : df.loc[row] : [index], [start:end], [start:end:stride]
# df.loc[1]
# df.loc[:1]
df.loc[::-1]

Unnamed: 0,name,email,id
2,andy,andy@naver.com,3
1,jhon,jhon@gmail.com,2
0,peter,peter@gmail.com,1


In [16]:
# column : df[column](Series), df[[columns]](DataFrame)
# df["name"]
df[["id", "name"]]

Unnamed: 0,id,name
0,1,peter
1,2,jhon
2,3,andy


In [17]:
# row + column : df.loc[row, columns]
df.loc[1:, ["id", "name"]]

Unnamed: 0,id,name
1,2,jhon
2,3,andy


In [18]:
# condition : df[df[column] condition]

In [19]:
# 브로드캐스팅
df["id"] % 2 != 0

0     True
1    False
2     True
Name: id, dtype: bool

In [24]:
#df['name'].apply(lambda x: x+'_name')

def my_func(x):
    return x
df.apply(lambda x: my_func(x))

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,1
1,jhon,jhon@gmail.com,2
2,andy,andy@naver.com,3


In [21]:
df[df["id"] % 2 != 0]

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,1
2,andy,andy@naver.com,3


In [25]:
# update

In [26]:
df["id"] = 4
df

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,4
1,jhon,jhon@gmail.com,4
2,andy,andy@naver.com,4


In [27]:
df["id"] = [5, 6, 7]
df

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,5
1,jhon,jhon@gmail.com,6
2,andy,andy@naver.com,7


In [28]:
# delete : df.drop(index=[], columns=[])

In [29]:
df.drop(index=[1], columns=["email"])

Unnamed: 0,name,id
0,peter,5
2,andy,7


In [31]:
# IO : .csv

In [32]:
# save
df.to_csv("user.csv", index=False)

In [44]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2284-1A14

 C:\Users\gmlkd\TIL\머신러닝Advance 디렉터리

2022-05-23  오후 05:08    <DIR>          .
2022-05-23  오후 05:08    <DIR>          ..
2022-05-23  오후 04:59    <DIR>          .ipynb_checkpoints
2022-05-23  오후 04:53           682,221 01-머신러닝과 딥러닝 기본_정리.ipynb
2022-05-23  오후 05:08            36,648 02-pandas-핵심정리.ipynb
2022-05-23  오후 05:04                86 user.csv
2022-05-23  오후 05:06             5,508 user.xlsx
               4개 파일             724,463 바이트
               3개 디렉터리  747,982,979,072 바이트 남음


In [35]:
# load
load_df = pd.read_csv("user.csv")
load_df

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,5
1,jhon,jhon@gmail.com,6
2,andy,andy@naver.com,7


In [37]:
!pip install xlrd openpyxl xlsxwriter

Collecting xlrd
  Downloading xlrd-2.0.1-py2.py3-none-any.whl (96 kB)
     ---------------------------------------- 96.5/96.5 KB ? eta 0:00:00
Collecting xlsxwriter
  Downloading XlsxWriter-3.0.3-py3-none-any.whl (149 kB)
     ---------------------------------------- 150.0/150.0 KB ? eta 0:00:00
Installing collected packages: xlsxwriter, xlrd
Successfully installed xlrd-2.0.1 xlsxwriter-3.0.3


In [38]:
df.to_excel(
    "user.xlsx", index=False, engine="xlsxwriter", encoding="utf-8-sig"
)

In [42]:
%ls

 C 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 2284-1A14

 C:\Users\gmlkd\TIL\머신러닝Advance 디렉터리

2022-05-23  오후 05:06    <DIR>          .
2022-05-23  오후 05:06    <DIR>          ..
2022-05-23  오후 04:59    <DIR>          .ipynb_checkpoints
2022-05-23  오후 04:53           682,221 01-머신러닝과 딥러닝 기본_정리.ipynb
2022-05-23  오후 05:06            36,648 02-pandas-핵심정리.ipynb
2022-05-23  오후 05:04                86 user.csv
2022-05-23  오후 05:06             5,508 user.xlsx
               4개 파일             724,463 바이트
               3개 디렉터리  747,982,979,072 바이트 남음


In [40]:
load_df = pd.read_excel("user.xlsx")
load_df

Unnamed: 0,name,email,id
0,peter,peter@gmail.com,5
1,jhon,jhon@gmail.com,6
2,andy,andy@naver.com,7
