# Pandas란?

- Pandas는 데이터를 분석, 정리, 탐색 및 조작하는 기능을 제공한다.
- "Pandas"라는 이름은 "Panel Data"와 "Python Data Analysis"를 의미한다.
- 2008년 Wes McKinney가 만들었다

# pandas 자료형

• 시리즈(series)
- 1차원 배열과 비슷하지만 각 데이터의 의미를 표시하는 인덱스(index)를 붙일 수 있다.
- 데이터 자체는 값(value)라고 한다.

• 데이타프레임(dataframe)
- 2차원 행렬 데이터에 인덱스를 붙인 것과 비슷하다.
- 각각의 행 데이터의 이름이 되는 행 인덱스(row index) 뿐 아니라 각각의 열 데이터의 이름이 되는 열 인덱스
(column index)도 붙일 수 있다.

In [3]:
#Series 예제

import pandas as pd

grade = [87,68,89,93,66]
myvar = pd.Series(grade)
print(myvar)

0    87
1    68
2    89
3    93
4    66
dtype: int64


In [4]:
#Series : index 지정 (데이터 파악에 용이)

grade = [87,68,89,93,66]
myvar = pd.Series(grade, index = ["Kim", "hong", "Lee", "jason", "Cho"])
print(myvar)

Kim      87
hong     68
Lee      89
jason    93
Cho      66
dtype: int64


In [5]:
#Series : index 참조

grade = [87,68,89,93,66]
myvar = pd.Series(grade, index = ["Kim", "hong", "Lee", "jason", "Cho"])
print(myvar["Lee"]) # Lee에 해당하는 데이터를 참조하겠다는 의미

89


In [6]:
# Key : Value Objects as Series

grade = {"Kim":87, "hong":68, "Lee":89, "jason":93, "Cho":66}
myvar = pd.Series(grade)
print(myvar)

Kim      87
hong     68
Lee      89
jason    93
Cho      66
dtype: int64


In [7]:
# DataFrame 예제

import pandas as pd

data = {
    "calories": [420,380,390],
    "duration" :[50,40,45]
}

myvar2 = pd.DataFrame(data)
print(myvar2)

   calories  duration
0       420        50
1       380        40
2       390        45


In [8]:
# DataFrame : 열 데이터 출력

data = {
    "calories": [420,380,390],
    "duration" :[50,40,45]
}

myvar2 = pd.DataFrame(data)
#print(myvar2.loc[1])
print(myvar2.loc[0:1]) # 0~1번째 데이터를 출력

   calories  duration
0       420        50
1       380        40


In [9]:
# DataFrame : 인덱스 지정

data = {
    "calories": [420,380,390],
    "duration" :[50,40,45]
}

df = pd.DataFrame(data, index = ["day1","day2","day3"])
print(df)

      calories  duration
day1       420        50
day2       380        40
day3       390        45


In [10]:
# DataFrame : 인덱스 데이터 출력

data = {
    "calories": [420,380,390],
    "duration" :[50,40,45]
}

df = pd.DataFrame(data, index = ["day1","day2","day3"])
print(df.loc["day2"])

calories    380
duration     40
Name: day2, dtype: int64


## csv 파일 읽어오기
- CSV 파일은 데이터를 테이블 구조 형식으로 저장할 수 있는 특정 형식의 텍스트 파일입니다.
- 쉽표(,)를 넣어 구분하며 excel과 비교해서 용량이 작기 때문에 널리 사용되고 있음
- 쉼표를 사용하는 숫자 데이터의 경우에 쉼표 대신 탭 문자(\t)를 구분자로 사용
    - TSV: Tab Separated Values

## 인터넷에서 파일 읽어오기(URL)

In [11]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

url = "https://raw.githubusercontent.com/rfordatascience/tidytuesday/master/data/2020/2020-02-18/food_consumption.csv"

df2 = pd.read_csv(url, header=0) # 컬럼값으로 사용할 문자열들이 header=0에 있다
print(df2)

         country             food_category  consumption  co2_emmission
0      Argentina                      Pork        10.51          37.20
1      Argentina                   Poultry        38.66          41.53
2      Argentina                      Beef        55.48        1712.00
3      Argentina               Lamb & Goat         1.56          54.63
4      Argentina                      Fish         4.36           6.96
...          ...                       ...          ...            ...
1425  Bangladesh        Milk - inc. cheese        21.91          31.21
1426  Bangladesh  Wheat and Wheat Products        17.47           3.33
1427  Bangladesh                      Rice       171.73         219.76
1428  Bangladesh                  Soybeans         0.61           0.27
1429  Bangladesh   Nuts inc. Peanut Butter         0.72           1.27

[1430 rows x 4 columns]


In [12]:
df2.head()

Unnamed: 0,country,food_category,consumption,co2_emmission
0,Argentina,Pork,10.51,37.2
1,Argentina,Poultry,38.66,41.53
2,Argentina,Beef,55.48,1712.0
3,Argentina,Lamb & Goat,1.56,54.63
4,Argentina,Fish,4.36,6.96


In [13]:
df2.tail()

Unnamed: 0,country,food_category,consumption,co2_emmission
1425,Bangladesh,Milk - inc. cheese,21.91,31.21
1426,Bangladesh,Wheat and Wheat Products,17.47,3.33
1427,Bangladesh,Rice,171.73,219.76
1428,Bangladesh,Soybeans,0.61,0.27
1429,Bangladesh,Nuts inc. Peanut Butter,0.72,1.27


In [14]:
print(df2.columns)

Index(['country', 'food_category', 'consumption', 'co2_emmission'], dtype='object')


In [15]:
print(df2.index)

RangeIndex(start=0, stop=1430, step=1)


In [16]:
print(df2.shape)

(1430, 4)


In [17]:
# 데이터 전반의 정보

df2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1430 entries, 0 to 1429
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   country        1430 non-null   object 
 1   food_category  1430 non-null   object 
 2   consumption    1430 non-null   float64
 3   co2_emmission  1430 non-null   float64
dtypes: float64(2), object(2)
memory usage: 44.8+ KB


In [18]:
df2.describe()

Unnamed: 0,consumption,co2_emmission
count,1430.0,1430.0
mean,28.110406,74.383993
std,49.818044,152.098566
min,0.0,0.0
25%,2.365,5.21
50%,8.89,16.53
75%,28.1325,62.5975
max,430.76,1712.0


In [19]:
# 데이터 프레임에서 컬럼 값의 종류별 개수를 카운트

df2['country'].value_counts()

Argentina     11
Zimbabwe      11
Belize        11
Namibia       11
Jamaica       11
              ..
Russia        11
Germany       11
Belgium       11
Venezuela     11
Bangladesh    11
Name: country, Length: 130, dtype: int64

In [20]:
# dataframe에서 컬럼 값의 종류 카운트

df2['food_category'].unique()

array(['Pork', 'Poultry', 'Beef', 'Lamb & Goat', 'Fish', 'Eggs',
       'Milk - inc. cheese', 'Wheat and Wheat Products', 'Rice',
       'Soybeans', 'Nuts inc. Peanut Butter'], dtype=object)

In [21]:
df2['country'].unique()

array(['Argentina', 'Australia', 'Albania', 'Iceland', 'New Zealand',
       'USA', 'Uruguay', 'Luxembourg', 'Brazil', 'Kazakhstan', 'Sweden',
       'Bermuda', 'Denmark', 'Finland', 'Ireland', 'Greece', 'France',
       'Canada', 'Norway', 'Hong Kong SAR. China', 'French Polynesia',
       'Israel', 'Switzerland', 'Netherlands', 'Kuwait', 'United Kingdom',
       'Austria', 'Oman', 'Italy', 'Bahamas', 'Portugal', 'Malta',
       'Armenia', 'Slovenia', 'Chile', 'Venezuela', 'Belgium', 'Germany',
       'Russia', 'Croatia', 'Belarus', 'Spain', 'Paraguay',
       'New Caledonia', 'South Africa', 'Barbados', 'Lithuania', 'Turkey',
       'Estonia', 'Mexico', 'Costa Rica', 'Bolivia', 'Ecuador', 'Panama',
       'Czech Republic', 'Romania', 'Colombia', 'Maldives', 'Cyprus',
       'Serbia', 'United Arab Emirates', 'Algeria', 'Ukraine', 'Pakistan',
       'Swaziland', 'Latvia', 'Bosnia and Herzegovina', 'Fiji',
       'South Korea', 'Poland', 'Saudi Arabia', 'Botswana', 'Macedonia',
       '

In [22]:
# 데이터프레임과 시리즈에 상관없이 하나의 스칼라 값에 접근
# 값 가져오기 : result = df.at['행', '열']
# 값 설정하기 : df.at['행', '열'] = value

print(df2.at[1, 'country'])
print(df2.at[21, 'country'])
print(df2.at[220, 'consumption'])

Argentina
Australia
14.75
