In [55]:
import pandas as pd
import numpy as np

# 데이터 추가 / 변경
df = pd.read_csv("cafe.csv")

# 결측치 대입
df["원산지"] = np.nan

# loc를 활용한 값 추가
df.loc["시즌"] = ['크리스마스라떼', 6000, 300, "한국"]
df.loc[7] = {'메뉴': "달달라떼", '가격': 2000, '칼로리': 20}

# 값 변경
df.loc[1, "원산지"] = "베트남"
df.loc[3, "원산지"] = "과테말라"

df.drop("시즌", axis=0, inplace=True)
df.to_csv("cafe2.csv", index=False)

In [57]:
# 정렬
df = pd.read_csv("cafe2.csv")
df

df.sort_index(ascending = False)

df.sort_values("메뉴", ascending=False)

df.sort_values(["가격", "메뉴"], ascending=[False, True])

# 정렬 초기화
df.reset_index(drop=True)

Unnamed: 0,메뉴,가격,칼로리,원산지
0,아메리카노,4500,10,
1,카페라떼,5000,110,베트남
2,카페모카,5500,250,
3,카푸치노,5000,110,과테말라
4,에스프레소,4000,20,
5,밀크티,5900,210,
6,녹차,5300,0,
7,달달라떼,2000,20,


In [69]:
# 필터링
df = pd.read_csv("cafe2.csv")

df["칼로리"] < 50
# df[df["칼로리"]< 50]

cond = df["칼로리"]< 50
df[cond]

# Not 연산자
df[~cond]

# &(and), |(or)
cond2 = df['가격'] >= 5000
cond3 = df['칼로리'] > 100
df[cond2 & cond3]

df[cond2 | cond3]

# 일치하는 조건 조회
df[df["원산지"] == "베트남"]

# isin()
df[df["메뉴"].isin(["녹차"])]

box = ["녹차", "카푸치노", "카페라떼"]
cond4 = df["메뉴"].isin(box)
print(df[cond4])

     메뉴    가격  칼로리   원산지
1  카페라떼  5000  110   베트남
3  카푸치노  5000  110  과테말라
6    녹차  5300    0   NaN


In [103]:
# 결측치 처리
df = pd.read_csv("cafe2.csv")
df.info()
df.isnull()
df.isnull().sum()

# 결측치 채우기
df["원산지"] = df['원산지'].fillna("코스타리카")
# df = df['원산지'].fillna("코스타리카")

# replace()
df = df.replace('아메리카노', '허브차')
update = {"허브차": "아메리카노", "녹차": "녹차라떼"}
df = df.replace(update)

# loc / iloc
df.loc[6, "원산지"] = "대한민국"

df.loc[1:2, "이벤트가"] = 1000
df

df.to_csv("cafe3.csv", index=False)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8 entries, 0 to 7
Data columns (total 4 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   메뉴      8 non-null      object
 1   가격      8 non-null      int64 
 2   칼로리     8 non-null      int64 
 3   원산지     2 non-null      object
dtypes: int64(2), object(2)
memory usage: 388.0+ bytes


In [155]:
# 문자열
import pandas as pd

df = pd.DataFrame({
    'A': ['데이터 분석', '기본 학습서', '퇴근 후 열공'],
    'B': [10, 20, 30],
    'C': ['ab cd', 'AB CD', 'ab cd ']
})

# str 속성 사용
df['A'] = df['A'].str.replace("분석", "시각화")
df['B'] = df['B'].replace(20, 200)

print(df['A'].str.split())
print(df['A'].str.split()[1])
df['D'] = df['A'].str.split().str[0]

df['A'].str.contains('학습서')
df["학습서포함유무"] = df['A'].str.contains('학습서')

df["문자길이"] = df['A'].str.len()

df["C"] = df["C"].str.lower()
df

0     [데이터, 시각화]
1      [기본, 학습서]
2    [퇴근, 후, 열공]
Name: A, dtype: object
['기본', '학습서']


Unnamed: 0,A,B,C,D,학습서포함유무,문자길이
0,데이터 시각화,10,ab cd,데이터,False,7
1,기본 학습서,200,ab cd,기본,True,6
2,퇴근 후 열공,30,ab cd,퇴근,False,7


In [165]:
df['C'] == "ab cd"

# 공백 제거
# df['C'] = df['C'].str.strip()

df['C'] = df['C'].str.replace(" ", "")
df['C']
df['C'].str[1:3]

df['C'][1:3]

1    abcd
2    abcd
Name: C, dtype: object

In [221]:
# 내장 함수
import pandas as pd

df = pd.read_csv("cafe3.csv")
print(df)

print(len(df))
print(df.shape[0])

# 조건에 맞는 합계(개수)
cond = df["가격"] > 5000
print(sum(cond))
print(len(df[cond]))

# 열별 합계
df.sum(numeric_only=True)

# 행별 합계
df.T
df.sum(numeric_only=True, axis=1)

      메뉴    가격  칼로리    원산지    이벤트가
0  아메리카노  4500   10  코스타리카     NaN
1   카페라떼  5000  110    베트남  1000.0
2   카페모카  5500  250  코스타리카  1000.0
3   카푸치노  5000  110   과테말라     NaN
4  에스프레소  4000   20  코스타리카     NaN
5    밀크티  5900  210  코스타리카     NaN
6   녹차라떼  5300    0   대한민국     NaN
7   달달라떼  2000   20  코스타리카     NaN
8
8
3
3


0    4510.0
1    6110.0
2    6750.0
3    5110.0
4    4020.0
5    6110.0
6    5300.0
7    2020.0
dtype: float64

In [195]:
print("최대값: ",df['가격'].max())
print("최소값: ",df['가격'].min())
print("평균값: ",df['가격'].mean())
print("중앙값: ",df['가격'].median())
print("합계: ",df['가격'].sum())
print("표준편차: ",df['가격'].std())
print("분산: ",df['가격'].var())

최대값:  5900
최소값:  2000
평균값:  4650.0
중앙값:  5000.0
합계:  37200
표준편차:  1220.070255588353
분산:  1488571.4285714286


In [223]:
# 사분위 수
print(df["가격"].quantile(.25))
print(df["가격"].quantile(.75))

df[df["가격"].quantile(.25) > df["가격"]]

# 최빈값
df["원산지"].mode()[0]

df["가격"].max()
max(df["가격"])
max_idx = df["가격"].idxmax()

print(df.loc[max_idx]["메뉴"])
print(df.loc[max_idx, "메뉴"])
print(df.iloc[max_idx, 0])

4375.0
5350.0
밀크티
밀크티
밀크티


In [237]:
df.nlargest(3, "가격")

df.nsmallest(3, "가격")

df.groupby(['원산지']).mean(numeric_only=True)

# df.groupby(['원산지', '칼로리']).mean(numeric_only=True)

df.groupby(["원산지", "메뉴"]).agg(["mean", "sum"])

Unnamed: 0_level_0,Unnamed: 1_level_0,가격,가격,칼로리,칼로리,이벤트가,이벤트가
Unnamed: 0_level_1,Unnamed: 1_level_1,mean,sum,mean,sum,mean,sum
원산지,메뉴,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
과테말라,카푸치노,5000.0,5000,110.0,110,,0.0
대한민국,녹차라떼,5300.0,5300,0.0,0,,0.0
베트남,카페라떼,5000.0,5000,110.0,110,1000.0,1000.0
코스타리카,달달라떼,2000.0,2000,20.0,20,,0.0
코스타리카,밀크티,5900.0,5900,210.0,210,,0.0
코스타리카,아메리카노,4500.0,4500,10.0,10,,0.0
코스타리카,에스프레소,4000.0,4000,20.0,20,,0.0
코스타리카,카페모카,5500.0,5500,250.0,250,1000.0,1000.0
