# pandas

In [94]:
# pip install pandas
# conda install pandas

* numpy를 내부적으로 활용
* 데이터 분석에 특화된 데이터 구조 제공(테이블, dataframe)
* 다양한 데이터 분석 함수 제공
* 데이터베이스에 쉽게 연결 가능
* json 데이터 html의 table 요소를 dataframe으로 손쉽게 변형 가능

# pandas에서 다루는 데이터 타입 2가지
## 1) DataFrame: 2차원의 표현식 데이터
* python의 dict와도 비슷 하나의 key에 list 형태의 value가 매칭되어 있는 형태
* {key : [value1, value2, value3], key2 : [value1, value2, value3]}
## 2) Series: 1차원의 벡터 형식 데이터
* python의 list, tuple, ndarray의 1차원 상태와 비슷


In [1]:
import pandas as pd

# 데이터프레임 만들기
pd.DataFrame({key1: [value1, value2] key2: [value1, value2]})

In [96]:
df = pd.DataFrame(
        {'이름' : ['홍길동', '둘리', '또치', '도우너'],
        '주소' : ['서울', '의정부', '고양', '성남'],
        '취미' : ['음악감상', '놀기', '달리기', '바이올린']}
        )

In [97]:
df

Unnamed: 0,이름,주소,취미
0,홍길동,서울,음악감상
1,둘리,의정부,놀기
2,또치,고양,달리기
3,도우너,성남,바이올린


In [98]:
df['이름']

0    홍길동
1     둘리
2     또치
3    도우너
Name: 이름, dtype: object

In [99]:
df['이름'][0]

'홍길동'

In [100]:
df['이름'][:2]

0    홍길동
1     둘리
Name: 이름, dtype: object

# Series 만들기
* pd.Series([리스트 자료/튜플], name="컬럼명")
* 이름을 가지고 있는 list/벡터
* dataframe에서 컬럼 1개를 잘라온 형태

In [101]:
ages = pd.Series([22, 53, 35], name="나이")

In [102]:
ages

0    22
1    53
2    35
Name: 나이, dtype: int64

In [103]:
ages[::-1]

2    35
1    53
0    22
Name: 나이, dtype: int64

In [104]:
ages.min()

np.int64(22)

In [105]:
ages.max()

np.int64(53)

In [106]:
ages.median()

np.float64(35.0)

# 판다스에서 자료 불러오기, 저장하기
* csv, excel, tsv, json, html, sql
* pd.read_확장자명(파일경로, 옵션)

excel 파일 불러오기

In [107]:
df_excel = pd.read_excel("./data/Online Retail.xlsx")
df_excel

KeyboardInterrupt: 

In [None]:
df_excel2 = pd.read_excel("./data/아파트(매매)_실거래가_20240806113828.xlsx", header=12, index_col = 0)
df_excel2

In [None]:
df_csv = pd.read_csv("./data/아파트(매매)_실거래가_20240806113828.csv", header= 12)
df_csv

In [None]:
df_json = pd.read_json("./data/서울특별시_관광지입장정보_2011_2016.json")
df_json

In [None]:
df_html = pd.read_html("./data/corpList.htm")
df_html[0]

DB에서 자료 읽어오기

In [None]:
from sqlalchemy import create_engine
import pymysql
pymysql.install_as_MySQLdb()

In [None]:
engine = create_engine("mysql+pymysql://root:1234@localhost:3306/exchange_rate")

In [None]:
conn = engine.connect()
df_sql = pd.read_sql("exchange_rate", con=conn)
df_sql

# 타이타닉 데이터셋으로 pandas 기능 익히기

In [2]:
df = pd.read_csv("./data/Titanic_train.csv")
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* 데이터의 일부먼 보기
* 앞쪽 head(행개수). 뒤쪽 tail(행개수)
* 기본값은 5행

In [None]:
df.head()

In [None]:
df.tail()

In [None]:
df.head(2)

In [None]:
df.tail(1)

In [None]:
# 데이터 프레임의 각 컬럼의 데이터타입
df.dtypes

# .info()
* 컬럼명, null이 아닌 데이터 개수, 데이터 타입을 동시에 출력

In [None]:
df.info()

# .describe()
* 데이터 프레임의 숫자 데이터의 기초 통계를 보여주는 함수
* count, mean, std, min, 25%, 50%, 75%, max

In [None]:
df.describe(include="all")

# 판다스 데이터 프레임에서 일부 자료 추출하기

* 데이터프레임에서 1개 컬럼만 가져오기

In [None]:
df.head(1)

In [None]:
df['Name']

In [None]:
df[['Name']]

In [None]:
print(type(df['Name']))

* 2개 이상의 컬럼을 가져오기

In [None]:
df[['Name', 'Age']]

In [None]:
df[['Age', 'Name', 'Pclass']]

* 데이터프레임의 컬럼 순서 바꾸기

In [None]:
df.columns

In [None]:
df2 = df[['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']]
df2

# 데이터프레임에서 일부 컬럼만 가져오기2
* loc: 인덱스 이름과 컬럼명으로 데이터의 일부를 추출해 가져옴
    * df.loc[시작_row_인덱스 : 끝_row_인덱스, ['컬럼명1', '컬럼명2']
* iloc: 인덱스를 이용해 슬라이싱으로 데이터의 일부를 가져옴
    * df.iloc[시작_row_index : 끝_row_index, 시작_column_index : 끝_column_index]

## loc[시작_row_인덱스 : 끝_row_인덱스, ['컬럼명1', '컬럼명2']

In [None]:
df.loc[100:130, ['Name', 'Age']]

In [None]:
#값 업데이트 가능
df.loc[109, ['Age']] = 29

In [None]:
df.loc[109, ['Age']]

In [None]:
df.iloc[0:10, 0:13]

In [None]:
df.iloc[4, 4] = 'female'

In [None]:
df.iloc[4, 4] 


df.iloc[시작_row_index : 끝_row_index, 시작_column_index : 끝_column_index]

In [None]:

df.iloc[4:, -5:]

In [None]:

df.iloc[4, 4] = 'female'

In [None]:

df.iloc[4, 4]

In [None]:

df.iloc[:10:-1, ::-1]

* 특정 컬럼에서 유일값(중복되지 않은 고유한 값) 출력하기
* .unique()

In [None]:
df['Embarked'].unique()

* .unique()
* 유일값의 개수를 출력
* nan 값은 무시

In [None]:
df['Embarked'].nunique()

* 카테고리 컬럼에서 유일값 별 개수를 세는 함수
* value_counts()

In [None]:
df['Embarked'].value_counts()

In [None]:
df['Pclass']

In [None]:
df['Pclass'].value_counts(ascending=False) #내림차순

In [None]:
df['Pclass'].value_counts(ascending=True) #오름차순

In [None]:
df['Pclass'].value_counts(sort=True)

* 데이터를 정렬하는 함수
* sort_values(by="컬럼명")
* order by

In [None]:
df.sort_values(by="Age", ascending=False)

* 기준컬럼 2개로 정렬할 때

In [None]:
df.sort_values(by=["Pclass", "Age"], ascending=False)

* 컬럼을 인덱스로 지정하기
* set_index("컬럼명")

In [None]:
#재할당을 하거나 inplace=True를 사용하여 자동 할당

df = df.set_index("PassengerId")
df

In [3]:
df = df.set_index(["Name", "PassengerId"])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,PassengerId,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


In [None]:
df.loc[(889, 'Johnston, Miss. Catherine Helen "Carrie"'): (891, 'Dooley, Mr. Patrick') , ['Pclass', 'Age'] ]

In [5]:
df.iloc[888:, [1,3]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Pclass,Age
Name,PassengerId,Unnamed: 2_level_1,Unnamed: 3_level_1
"Johnston, Miss. Catherine Helen ""Carrie""",889,3,
"Behr, Mr. Karl Howell",890,1,26.0
"Dooley, Mr. Patrick",891,3,32.0


* 인덱스를 숫자로 초기화
* reset_index(drop=True)

In [7]:
df

Unnamed: 0,Name,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
4,"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
887,"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
888,"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
889,"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


In [4]:
# df.reset_index(drop=True)
df = df.reset_index()
df

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
1,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
2,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,1,1,female,35.0,1,0,113803,53.1000,C123,S
4,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,211536,13.0000,,S
887,1,1,female,19.0,0,0,112053,30.0000,B42,S
888,0,3,female,,1,2,W./C. 6607,23.4500,,S
889,1,1,male,26.0,0,0,111369,30.0000,C148,C


* 컬럼이름 출력하기, 바꾸기
* df.columns

In [12]:
df.columns

Index(['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked'],
      dtype='object')

* 컬럼 이름 변경하기
* rename(columns={'원래 이름': '새이름', '원래 이름' : '새이름2'}): 

In [5]:
df.rename(columns={'PassengerId' : 'Pid', 'Survived': 'surv'}, inplace=True)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,surv,Pclass,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
Name,PassengerId,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
"Braund, Mr. Owen Harris",1,0,3,male,22.0,1,0,A/5 21171,7.2500,,S
"Cumings, Mrs. John Bradley (Florence Briggs Thayer)",2,1,1,female,38.0,1,0,PC 17599,71.2833,C85,C
"Heikkinen, Miss. Laina",3,1,3,female,26.0,0,0,STON/O2. 3101282,7.9250,,S
"Futrelle, Mrs. Jacques Heath (Lily May Peel)",4,1,1,female,35.0,1,0,113803,53.1000,C123,S
"Allen, Mr. William Henry",5,0,3,male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...
"Montvila, Rev. Juozas",887,0,2,male,27.0,0,0,211536,13.0000,,S
"Graham, Miss. Margaret Edith",888,1,1,female,19.0,0,0,112053,30.0000,B42,S
"Johnston, Miss. Catherine Helen ""Carrie""",889,0,3,female,,1,2,W./C. 6607,23.4500,,S
"Behr, Mr. Karl Howell",890,1,1,male,26.0,0,0,111369,30.0000,C148,C


* df.columns로 출력되는 리스트 길이와 같은 새로운 이름의 리스트로 덮어쓰기

In [20]:
df.columns

Index(['surv', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked'],
      dtype='object')

In [24]:
newName = ['생존여부', '선실등급', '성별', '나이', 'SibSp', 'Parch', 'Ticket', 'Fare',
       'Cabin', 'Embarked']

* 컬럼 추가하기
* 변수명['컬럼명'] = value

In [25]:
df

['생존여부',
 '선실등급',
 '성별',
 '나이',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked']

* 컬럼 삭제하기
* del df['컬럼명']
* df.drop('컬럼명', axis=1, inplace=True)

* 데이터 타입 바꾸기
* astype(자료형)
* apply(형변환함수)

In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 891 entries, ('Braund, Mr. Owen Harris', np.int64(1)) to ('Dooley, Mr. Patrick', np.int64(891))
Data columns (total 10 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   surv      891 non-null    int64  
 1   Pclass    891 non-null    int64  
 2   Sex       891 non-null    object 
 3   Age       714 non-null    float64
 4   SibSp     891 non-null    int64  
 5   Parch     891 non-null    int64  
 6   Ticket    891 non-null    object 
 7   Fare      891 non-null    float64
 8   Cabin     204 non-null    object 
 9   Embarked  889 non-null    object 
dtypes: float64(2), int64(4), object(4)
memory usage: 151.7+ KB


In [10]:
df['surv'].astype('float')

Name                                                 PassengerId
Braund, Mr. Owen Harris                              1              0.0
Cumings, Mrs. John Bradley (Florence Briggs Thayer)  2              1.0
Heikkinen, Miss. Laina                               3              1.0
Futrelle, Mrs. Jacques Heath (Lily May Peel)         4              1.0
Allen, Mr. William Henry                             5              0.0
                                                                   ... 
Montvila, Rev. Juozas                                887            0.0
Graham, Miss. Margaret Edith                         888            1.0
Johnston, Miss. Catherine Helen "Carrie"             889            0.0
Behr, Mr. Karl Howell                                890            1.0
Dooley, Mr. Patrick                                  891            0.0
Name: surv, Length: 891, dtype: float64

In [None]:
df['승객번호'].apply(str)

# Pandas 데이터프레임에서 조건에 맞는 행만 가져오기
* df[df['컬럼명']_조건식]
* 조건식 연산자 <, <=, >, >=, 

In [11]:
df[df['PassengerId'] == "홀수"]

KeyError: 'PassengerId'

In [None]:
# 나이가 35 초과인 사람만 필터링
df['나이'] > 35

* 여성이면서 나이가 35세 초과인 행 찾기 and 조건

In [None]:
df[(df['성별'] == 'female') & (df['나이'] > 35)]

* 성별이 male, 선실 등급 1, 생존여부 1인 사람을 찾으세요

In [None]:
df[(df['성별'] == 'male') & (df['나이'] > 35)]

* 선실 등급별 승차권 금액의 최소, 최대, 평균 등 4분위수를 보고싶다

In [None]:
# 선실 등급이 1등석인 사람들의 승차권 금액 통계량
df[df['선실등급'] == 1]['티켓가격'].describe()

# 조건에 맞는 행을 찾은 후 특정 컬럼만 조회

* 선실등급이 1이거나 2이면서 생존한 여성 중에서 이름 컬럼만 보고 싶을 때

# 특정 단어를 포함한 행 찾기
* 이름에 Joseph가 들어간 사람 찾기

* like %단어% - SQL

* .str.contains("찾을 단어")

In [None]:
data['이름'] == "Joseph"