### 판다스(Pandas)
#### 파이썬 데이터분석 패키지(모듈) 가장 인기있는 모듈이다.
#### 설치 - pip install pandas
#### import pandas

In [2]:
pip install pandas

Note: you may need to restart the kernel to use updated packages.


#### 시리즈(Series)
##### 한개의 칼럼과 인덱스가 짝 형태로 이루어진 클래스이다.

In [13]:
import pandas

series1 = pandas.Series(["사과", "귤", "바나나"])
print(series1)
print(type(series1))

series2 = pandas.Series([3000, 1000, 2000])
print(series2)

0     사과
1      귤
2    바나나
dtype: object
<class 'pandas.core.series.Series'>
0    3000
1    1000
2    2000
dtype: int64


#### 데이터프레임(DataFrame)
##### Series를 결합한 형태이다.
##### 행과 열을 가진 2차원 형태이다.

In [20]:
import pandas as pd

name = pd.Series(["사과", "귤", "바나나"])
price = pandas.Series([3000, 1000, 2000])

# 딕셔너리 형태로 데이터프레임을 생성
df = pd.DataFrame({
    "name": name,
    "price": price
})
print(df)
print(type(df))

# csv 파일 생성
df.to_csv("fruit.csv")

  name  price
0   사과   3000
1    귤   1000
2  바나나   2000
<class 'pandas.core.frame.DataFrame'>


In [15]:
import pandas as pd

# DataFrame을 만드는 방법2
data = {
    "name": ["사과", "귤", "바나나"],
    "price": [3000, 1000, 2000]
}

df = pd.DataFrame(data)
df

# 칼럼 속성 보기
df.columns

# 새 칼럼 추가
df["중량(g)"] = "100g"
df

# 칼럼 이름 변경 - rename()
df = df.rename(columns={"name": "이름", "price": "가격"})
df

# csv 파일 저장
df.to_csv("fruit2.csv", index=False)

# csv 파일 읽기
pd.read_csv("fruit2.csv")

Unnamed: 0,이름,가격,중량(g)
0,사과,3000,100g
1,귤,1000,100g
2,바나나,2000,100g


In [53]:
# 카페 데이터프레임 생성, 탐색
import pandas as pd

cafe = pd.DataFrame({
    "메뉴": ['아메리카노', '카페라떼', '카페모카', '카푸치노', '에스프레소', '허브차', '녹차'],
    "가격": [4500, 5000, 5500, 5000, 4000, 6000, 5000],
    "칼로리": [10.0, 110.0, 250.0, 110.0, 20.0, 110.0, 0.0]
})
cafe

# 데이터 정보
cafe.info()

# 데이터 조회
cafe.head()  #5개
cafe.tail(3)

# 통계 요약 - describe() : 기본적으로 숫자 칼럼 정보가 출력
print(cafe.describe(include="number"))
print(cafe.describe(include="object"))

# 칼럼 추가(파생 칼럼) - 할인가(20% 할인)
cafe["할인가"] = cafe["가격"] * 0.8
cafe

# 자료형 변경 - astype()
cafe["칼로리"] = cafe["칼로리"].astype("int")
cafe
cafe.info()

cafe.to_csv("cafe.csv", index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      7 non-null      object 
 1   가격      7 non-null      int64  
 2   칼로리     7 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 300.0+ bytes
                가격         칼로리
count     7.000000    7.000000
mean   5000.000000   87.142857
std     645.497224   87.695360
min    4000.000000    0.000000
25%    4750.000000   15.000000
50%    5000.000000  110.000000
75%    5250.000000  110.000000
max    6000.000000  250.000000
           메뉴
count       7
unique      7
top     아메리카노
freq        1
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   메뉴      7 non-null      object 
 1   가격      7 non-null      int64  
 2   칼로리     7 non-null      int32  
 3   할인가     7

In [79]:
import pandas as pd

# csv 파일 읽기 - read_csv()
df = pd.read_csv("cafe.csv")
df

# 칼럼명 검색
df["메뉴"]
df[["메뉴", "가격"]]

# 조건에 따른 검색
# '가격' 5000원 이상인 데이터 출력
df[df['가격'] >= 5000]

# '메뉴'가 아메리카노인 데이터 검색
df[df['메뉴'] == '아메리카노']

# '가격' 5000원 이상이고, '칼로리'가 150이상인 데이터
# & - 두 조건을 동시에 만족할때 사용, | - 두조건중 하나만 충족되어도 되는 경우
df[(df['가격'] >= 5000) & (df['칼로리'] >= 150)]

result1 = df['가격'] >= 5000
result2 = df['칼로리'] >= 150
df[ result1 | result2 ]

Unnamed: 0,메뉴,가격,칼로리,할인가
1,카페라떼,5000,110,4000.0
2,카페모카,5500,250,4400.0
3,카푸치노,5000,110,4000.0
5,허브차,6000,110,4800.0
6,녹차,5000,0,4000.0


In [99]:
# loc(행, 열-칼럼명) 속성
print(df)

# print(df.loc[2, "메뉴"])
# print(df.loc[1:3, "메뉴"])
print(df.loc[:, "가격"])
# df.loc[:, ["메뉴", "가격"]]

# iloc(행, 열-인덱스) 속성
# print(df.iloc[2, 0])
print(df.iloc[1:3, 0])
print(df.iloc[:, 1])

      메뉴    가격  칼로리     할인가
0  아메리카노  4500   10  3600.0
1   카페라떼  5000  110  4000.0
2   카페모카  5500  250  4400.0
3   카푸치노  5000  110  4000.0
4  에스프레소  4000   20  3200.0
5    허브차  6000  110  4800.0
6     녹차  5000    0  4000.0
0    4500
1    5000
2    5500
3    5000
4    4000
5    6000
6    5000
Name: 가격, dtype: int64
1    카페라떼
2    카페모카
Name: 메뉴, dtype: object
0    4500
1    5000
2    5500
3    5000
4    4000
5    6000
6    5000
Name: 가격, dtype: int64


In [3]:
# 결측치 - 데이터가 누락되었거나, 자료형이 다른 경우 등의 문제가 있는 데이터
# 결측치 삭제 - dropna(), drop()
import pandas as pd

df = pd.DataFrame({
    'A': [1, None, 3],
    'B': [4, 5, None],
    'C': [7, None, 9]
})
print(df)

# 전체 행에서 NaN - Not a Number을 삭제
# axis=0 -> 행, axis = 1 -> 열
# df = df.dropna(axis=0)
# print(df)

# 특정 칼럼(열)에 있는 NaN을 삭제
# df = df.dropna(subset=['A'], axis=0)
# print(df)

# drop()을 사용해서 'C'열 삭제
df = df.drop('C', axis=1)
print(df)

     A    B    C
0  1.0  4.0  7.0
1  NaN  5.0  NaN
2  3.0  NaN  9.0
     A    B
0  1.0  4.0
1  NaN  5.0
2  3.0  NaN
