<a href="https://colab.research.google.com/github/rca32/pythoncs_201904/blob/master/pandas_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [0]:
!git clone https://github.com/rca32/pythoncs_2019.git data

##  Pandas 소개

Pandas는 열 중심 데이터 분석 API입니다. 입력 데이터를 처리하고 분석하는 데 효과적인 도구이며, 여러 ML 프레임워크에서도 Pandas 데이터 구조를 입력으로 지원합니다. Pandas API를 전체적으로 소개하려면 길어지겠지만 중요한 개념은 꽤 간단하므로 아래에서 소개하도록 하겠습니다. 전체 내용을 참조할 수 있도록 Pandas 문서 사이트에서 광범위한 문서와 여러 가이드를 제공하고 있습니다.



In [0]:
%matplotlib inline
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

pd.options.display.max_rows = 8

# 1. 기능 시연

#### Case 1: titanic survival data

In [0]:
df = pd.read_csv("data/titanic.csv")

In [0]:
!head data/titanic.csv

In [0]:
df.head()

Survived: 생존 여부 => 0 = No, 1 = Yes

pclass: 티켓 등급 => 1 = 1st, 2 = 2nd, 3 = 3rd

Sex: 성별

Age: 나이

Sibsp: 함께 탑승한 형제자매, 배우자의 수

Parch: 함께 탑승한 부모, 자식의 수

Ticket: 티켓 번호

Fare: 운임

Cabin: 객실 번호

Embarked: 탑승 항구 => C = Cherbourg, Q = Queenstown, S = Southampton

## 이 data로 부터 다음의 질문에 답해보시요~

**승객 들의 나이의 분포는?**

In [0]:
df['Age'].hist()

**승객들의 생존율이 성별에 따라 어떻게 다른가?**

In [0]:
df.groupby('Sex')[['Survived']].aggregate(lambda x: x.sum() / len(x))

**아니면 다른 Pclass(등급) 사이에 어떻게 다른가?**

In [0]:
df.groupby('Pclass')['Survived'].aggregate(lambda x: x.sum() / len(x)).plot(kind='bar')

#### Case 2: air quality measurement timeseries

AirBase(유럽공기질 데이터 베이스): 유럽발 공기질 측정소 전시간 측정

In [0]:
!head data/20000101_20161231-NO2.csv

In [0]:
no2 = pd.read_csv('data/20000101_20161231-NO2.csv', sep=';', skiprows=[1], na_values=['n/d'], index_col=0, parse_dates=True)

In [0]:
data.head()

**대기 오염은  감소하는 추세를 보이는가?**

In [0]:
data['1999':].resample('M').mean().plot(ylim=[0,120])

In [0]:
data['1999':].resample('A').mean().plot(ylim=[0,100])

**평일과 주말의 시간대별 차이는?**

In [0]:
data['weekday'] = data.index.weekday
data['weekend'] = data['weekday'].isin([5, 6])
data_weekend = data.groupby(['weekend', data.index.hour])['BASCH'].mean().unstack(level=0)
data_weekend.plot()

 # Pandas 간단 소개
 
[*Pandas*](http://Pandas.pydata.org/)는 열 중심 데이터 분석 API입니다. 입력 데이터를 처리하고 분석하는 데 효과적인 도구이며, 여러 ML 프레임워크에서도 *Pandas* 데이터 구조를 입력으로 지원합니다.
*Pandas* API를 전체적으로 소개하려면 길어지겠지만 중요한 개념은 꽤 간단하므로 아래에서 소개하도록 하겠습니다. 전체 내용을 참조할 수 있도록 [*Pandas* 문서 사이트](http://pandas.pydata.org/pandas-docs/stable/index.html)에서 광범위한 문서와 여러 가이드를 제공하고 있습니다.

#  `DataFrame`   `Series`

 
 

In [0]:
df

### DataFrame의 주요 속성
 

In [0]:
df.index

In [0]:
df.columns

타입 점검..

In [0]:
df.dtypes

전체 data 상태 확인

In [0]:
df.info()

values

In [0]:
df.values

dictionary 에서 df 만들기

In [0]:
data = {'국가': ['Belgium', 'France', 'Germany', 'Netherlands', 'United Kingdom'],
        '인구': [11.3, 64.3, 81.3, 16.9, 64.9],
        '지역': [30510, 671308, 357050, 41526, 244820],
        '수도': ['Brussels', 'Paris', 'Berlin', 'Amsterdam', 'London']}
df_countries = pd.DataFrame(data)
df_countries

### Series

Series은 1차원 data

In [0]:
df['Age']

In [0]:
age = df['Age']

### `index` and `values`

`columns` 이 없음...

In [0]:
age.index

RangeIndex(start=0, stop=891, step=1)

In [0]:
age.values[:10]

In [0]:
age[0]

list와 차이

In [0]:
df = df.set_index('Name')
df

In [0]:
age = df['Age']
age

In [0]:
age['Dooley, Mr. Patrick']

32.0

Eg element-wise operations:

In [0]:
age * 1000

A range of methods:

In [0]:
age.mean()

29.69911764705882

Fancy indexing

In [0]:
age[age > 70]

pandas specific methods

In [0]:
df['Embarked'].value_counts()

## 연습 1

운임 최대 값

운임 중간값 

## 연습 2

전체 승객의 평균 생존율을 계산
 

# data 읽기 쓰기


* CSV, text
* SQL database
* Excel
* HDF5
* json
* html
* pickle
* sas, stata
* (parquet)
* ...

In [0]:
#pd.read

In [0]:
#df.to

 csv reader:

In [0]:
pd.read_csv?

거의 자동

In [0]:
df = pd.read_csv("data/titanic.csv")

In [0]:
df.head()

In [0]:
 data/20000101_20161231-NO2.csv

In [0]:
pd.read_json()

# 데이터 조사

 

`head` and `tail`

In [0]:
df.head(3)

In [0]:
df.tail()

`info()`

In [0]:
no2.info()

statistics `describe`:

In [0]:
no2.describe()

visualizing

In [0]:
no2.plot(kind='box', ylim=[0,250])

In [0]:
no2['BASCH'].plot(kind='hist', bins=50)

# 연습

승객 나이 분포도 

The default plo 

In [0]:
no2.plot(figsize=(12,6))

너무 많네...


500개만

In [0]:
no2[-500:].plot(figsize=(12,6))