# 'Tidy data' with Python
---
#### We współpracy z *Sergiy Tkachuk*  
[@TkachukSergiy](https://twitter.com/TkachukSergiy)  
tkachuk.sergiy23@gmail.com

<details><summary>Sprawdź materiały do prezentacji</summary>
<p>
    
Autor: **Hadley Wickham**  
[Wikipedia](https://en.wikipedia.org/wiki/Tidy_data)  
[Link do artykułu](https://www.jstatsoft.org/index.php/jss/article/view/v059i10/v59i10.pdf)

</p>
</details>

In [3]:
import pandas as pd
import numpy as np

### Zadanie - Python 4

#### Zadanie 1

Napraw `df_e` biorąc maksimum wartości `baz` dla pary `foo`, `bar` (odrzuć konflikty)

In [None]:
df_e = pd.DataFrame({"foo": ['one', 'one', 'two', 'two'],
                   "bar": ['A', 'A', 'B', 'C'],
                   "baz": [1, 2, 3, 4]})

In [None]:
df_e.groupby(['foo','bar']).aggregate('max')

In [None]:
df_e.groupby(['foo','bar']).aggregate('max').reset_index()

### Zadanie 2

Do poniższego DataFrame:
    
`df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, 10))`

Dołożyć:
    
- kolumnę z sumą po wierszach
- wiersz z sumą po kolumnach

In [None]:
df = pd.DataFrame(np.random.randint(1,100, 80).reshape(8, 10))

In [None]:
def sumy(df):
    df['Total'] = df.sum(axis=1)
    i, j = df.shape
    df.loc[i+1] = df.sum(axis=0)
    return df

sumy(df)

#### Zadanie 3

Przerobic DataFrame:

In [None]:
data = {'weekday': ["Monday", "Tuesday", "Wednesday", 
         "Thursday", "Friday", "Saturday", "Sunday"],
        'Person 1': [12, 6, 5, 8, 11, 6, 4],
        'Person 2': [10, 6, 11, 5, 8, 9, 12],
        'Person 3': [8, 5, 7, 3, 7, 11, 15]}
df = pd.DataFrame(data, columns=['weekday',
        'Person 1', 'Person 2', 'Person 3'])

In [None]:
df

Na postać "tidy" (1 wiersz na ocenę)

In [None]:
melted = pd.melt(df, id_vars=["weekday"], 
                 var_name="Person", value_name="Score")
melted

#### Zadanie 4

Biorąc następujący DataFrame:

In [None]:
df = pd.DataFrame(data = {
    'Day' : ['MON', 'TUE', 'WED', 'THU', 'FRI'], 
    'Google' : [1129,1132,1134,1152,1152], 
    'Apple' : [191,192,190,190,188] 
})
df

In [None]:
reshaped_df = df.melt(id_vars=['Day'], var_name='Company', value_name='Closing Price')
reshaped_df

Stworzyć korzystając z `reshaped_df` przy uzyciu `pivot` DataFrame identyczny z `df`

In [None]:
original_df = reshaped_df.pivot(index='Day', columns='Company')['Closing Price'].reset_index()
original_df.columns.name = None
original_df

---

## Pamiętajmy o podstawowych zasadach:  
1. Każda zmienna tworzy kolumnę.
2. Każda obserwacja stanowi wiersz.
3. Dane w jednej kolumnie są przechowywane w jednym formacie.

In [None]:
url1 = 'https://s3.amazonaws.com/assets.datacamp.com/production/course_1273/datasets/df1.csv'
url2 = 'https://s3.amazonaws.com/assets.datacamp.com/production/course_1273/datasets/df2.csv'

df1 = pd.read_csv(url1, sep = ',')
df2 = pd.read_csv(url2, sep = ',')

#### Jakie zasady nie spełniają załadowane tabele?

In [None]:
df1

In [None]:
df2

<details><summary>Odpowiedź</summary>
<p>

df2 --> reguła 2  
Obserwujemy coś w jakimś momencie, dlatego czasowe dane nie mogą stanowić nagłówków.

</p>
</details>

#### Zrób dane bardziej 'tidy'

<details><summary>Odpowiedź</summary>
<p>

<code>pd.melt(df2, id_vars=['Country'])</code>

</p>
</details>

In [None]:
df2_melted = pd.melt(df2, id_vars=['Country'])
df2_melted

#### Metoda 'split'

In [None]:
columns = [c if c != 'owner' else 'name' for c in df1.columns]
columns

In [None]:
df1['surnames'] = ['Escobar', 'Potter', 'Connor']
df1

In [None]:
df1['full name'] = df1.owner + ' ' + df1.surnames
df1 = df1.drop(['owner', 'surnames'], axis=1)
df1

In [None]:
# error
df1['name'] = df1['full name'].split(' ')

In [None]:
df1['name'] = df1['full name'].apply(lambda x: x.split(' '))
df1

In [None]:
df1['name'] = df1['full name'].apply(lambda x: x.split(' ')[0])
df1

In [None]:
df2_tidy = df2_melted.rename(columns = {'variable': 'Year', 'value': 'Income'})
df2_tidy

In [None]:
df2_melted

In [None]:
df2_melted.rename(columns = {'variable': 'Year', 'value': 'Income'}, inplace=True)
df2_melted

#### Braki danych

In [None]:
missing_f = pd.DataFrame([[1,1,1,1,2,2,2,2],[1,np.nan,np.nan,np.nan,2,np.nan,np.nan,np.nan]])
missing_b = pd.DataFrame([[1,1,1,1,2,2,2,2],[np.nan,np.nan,np.nan,1,np.nan,np.nan,np.nan,2]])
display(missing_f)

In [None]:
missing_f.T

In [None]:
missing_f.T.fillna(method='ffill')

##### Uzupełnić braki w missing_b metodą 'bfill'

In [None]:
missing_b.T

In [None]:
missing_b.T.fillna(method='bfill')

#### Formatowanie

In [None]:
df2_melted.dtypes

In [None]:
df2_melted['Year'] = df2_melted['Year'].apply(lambda x: x[1:5])
df2_melted

In [None]:
df2_melted['Year'].apply(pd.to_numeric)

In [None]:
df2_melted['Year'].astype('int64')

### Więcej zabawy z danymi

In [None]:
messy = pd.DataFrame({'First' : ['John', 'Jane', 'Mary'], 
                      'Last' : ['Smith', 'Doe', 'Johnson'], 
                      'Treatment A' : [np.nan, 16, 3], 
                      'Treatment B' : [2, 11, 1]})
messy

In [None]:
messy.transpose()

In [None]:
messy.T

In [None]:
tidy = pd.melt(messy, 
               id_vars=['First','Last'], 
               var_name='treatment', 
               value_name='result')
tidy

In [None]:
tidy['Name'] = tidy['First'] + ' ' + tidy['Last']

In [None]:
messy1 = tidy.pivot(index='Name',columns='treatment',values='result')
messy1

In [None]:
messy1.index

In [None]:
messy1.reset_index(inplace=True)
messy1

#### Wiele zmiennych przechowywanych w jednej kolumnie

In [None]:
messy_df = pd.read_csv('https://raw.githubusercontent.com/hadley/tidy-data/master/data/tb.csv', sep=',')

display(messy_df.head())

print(messy_df.columns)

print('\nIlość obserwacji - %d.\nIlość zmiennych - %d.' % messy_df.shape)

In [None]:
messy_df.columns = messy_df.columns.str.replace('new_sp_','')
messy_df.tail()

In [None]:
messy_df.rename(columns = {'iso2' : 'country'}, inplace=True)
messy_df.tail()

In [None]:
messy_df = messy_df[messy_df['year'] == 2000]
messy_df.head()

In [None]:
messy_df.drop(['new_sp','m04','m514','f04','f514'], axis=1, inplace=True)
messy_df.head()

In [None]:
messy_df.iloc[:,:11].head(10)
messy_df.head()

In [None]:
molten = pd.melt(messy_df, id_vars=['country', 'year'], value_name='cases')
molten.head()

In [None]:
molten.sort_values(by=['year', 'country'], inplace=True)
molten.head()

In [None]:
tidy = molten[molten['variable'] != 'mu'].copy()

def parse_age(s):
    s = s[1:]
    if s == '65':
        return '65+'
    else:
        return s[:-2]+'-'+s[-2:]

tidy['sex'] = tidy['variable'].apply(lambda s: s[:1])
tidy['age'] = tidy['variable'].apply(parse_age)
tidy = tidy[['country', 'year', 'sex', 'age', 'cases']]
tidy.head(10)

In [None]:
tidy.fillna(0)

### More pandas

![title](http://www.slate.fr/sites/default/files/styles/1060x523/public/rtx1tglo.jpg)

In [7]:
import yfinance as yf  
data = yf.download('AAPL','2016-01-01','2018-01-01')
data.head()

[*********************100%***********************]  1 of 1 completed


Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2015-12-31,107.010002,107.029999,104.82,105.260002,98.362572,40912300
2016-01-04,102.610001,105.370003,102.0,105.349998,98.446655,67649400
2016-01-05,105.75,105.849998,102.410004,102.709999,95.979675,55791000
2016-01-06,100.559998,102.370003,99.870003,100.699997,94.101387,68457400
2016-01-07,98.68,100.129997,96.43,96.449997,90.129868,81094400


In [9]:
data['Close'].shift().head()

Date
2015-12-31           NaN
2016-01-04    105.260002
2016-01-05    105.349998
2016-01-06    102.709999
2016-01-07    100.699997
Name: Close, dtype: float64

In [10]:
pd.Series(data['Close'] - data['Close'].shift()).head()

Date
2015-12-31         NaN
2016-01-04    0.089996
2016-01-05   -2.639999
2016-01-06   -2.010002
2016-01-07   -4.250000
Name: Close, dtype: float64

... albo po prostu

In [11]:
data['Close'].diff().head()

Date
2015-12-31         NaN
2016-01-04    0.089996
2016-01-05   -2.639999
2016-01-06   -2.010002
2016-01-07   -4.250000
Name: Close, dtype: float64

In [12]:
data.Close.rolling(window=2).mean().head()

Date
2015-12-31           NaN
2016-01-04    105.305000
2016-01-05    104.029999
2016-01-06    101.704998
2016-01-07     98.574997
Name: Close, dtype: float64

#### Znajdź dzienną procentową zmianę akcji

<details><summary>Odpowiedź</summary>
<p>

<code>data.Close.diff() / data.Close.shift()</code>

</p>
</details>

### Zadanie domowe



#### 0.Znajdź dzienną procentową zmianę akcji

In [None]:
data = pd.read_csv('https://assets.datacamp.com/production/course_2023/datasets/dob_job_application_filings_subset.csv', sep=',')
data.head()

[O danych](https://data.cityofnewyork.us/Housing-Development/DOB-Job-Application-Filings/ic3t-wcy2)

---

#### 1. Wybierz następujące kolumny (Job Type, Job Status, City, Doc #, Initial Cost, Total Est. Fee)  dla stanu 'NY'. Wynik zapisz do df.

#### 2. Konwertuj kolumny 'Initial Cost', 'Total Est. Fee' na numeryczny format

#### 3. Grupując po City i Job Type znajdź sumy dla Initial Cost i średnie dla Total Est. Fee

---

In [5]:
pd.read_excel('Matma1.xlsx', index_col=0)

Unnamed: 0_level_0,"Jeżeli jesteś absolwentem studiów licencjackich SGH, w którym roku zdobyłeś(-aś) ten dyplom?",Jaką liczbę punktów uzyskałeś(-aś) w postępowaniu rekrutacyjnym?,Płeć:,\tW jakim trybie studiujesz/studiowałeś na studiach licencjackich w SGH?,Jaki jest/był Twój kierunek na studiach licencjackich w SGH?,Czy w ciągu 2 pierwszych semestrów studiów licencjackich działałeś(-aś) w organizacjach studenckich?,"Wybierz z listy imię i nazwisko wykładowcy, u którego realizowałeś(-aś) Matematykę.",Jak często uczęszczałeś(-aś) na wykłady,W którym terminie zaliczyłeś(-aś) egzamin?,Jaką uzyskałeś(-aś) końcową ocenę z przedmiotu?,...,Dlaczego poleciłbyś/nie poleciłbyś danego ćwiczeniowca innym studentom?,Unnamed: 50,Unnamed: 51,Unnamed: 52,Unnamed: 53,Unnamed: 54,Unnamed: 55,Unnamed: 56,Unnamed: 57,Unnamed: 58
Który semestr aktualnie realizujesz?,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
I (studia licencjackie),,311 - 333,Kobieta,Stacjonarne,Brak wybranego kierunku,"Tak, aktywnie",prof. dr hab. Sławomir Dorosiewicz,Byłem(-am) na większości,I termin,30,...,Ciekawie prowadzone zajęcia,,,,,,,,Szwankujące umiejętności przekazania wiedzy,
II (studia licencjackie),,271 - 290,Mężczyzna,Stacjonarne,Brak wybranego kierunku,"Tak, sporadycznie",dr hab. Agata Boratyńska,Byłem(-am) na wszystkich,I termin,45,...,Ciekawie prowadzone zajęcia,,,Umiejętność przekazywania wiedzy,,,,Bardzo wymagające zaliczenie ćwiczeń,,
II (studia licencjackie),,250 - 270,Kobieta,Stacjonarne,Brak wybranego kierunku,Nie,dr Mariusz Kozakiewicz,Byłem(-am) na większości,I termin,40,...,,,Łatwość zaliczenia ćwiczeń,,,Niezbyt porywające zajęcia,,,Szwankujące umiejętności przekazania wiedzy,Brak możliwości zaliczenia ćwiczeń inaczej niż...
II (studia licencjackie),,250 - 270,Mężczyzna,Stacjonarne,Brak wybranego kierunku,"Tak, aktywnie",prof. dr hab. Jerzy Nowakowski,Byłem(-am) kilka razy,I termin,45,...,,,Łatwość zaliczenia ćwiczeń,Umiejętność przekazywania wiedzy,,,,,,
II (studia licencjackie),,< 250,Kobieta,Niestacjonarne w trybie popołudniowym,Brak wybranego kierunku,"Tak, aktywnie",dr Łukasz Pawelec,Byłem(-am) na większości,I termin,35,...,,,Łatwość zaliczenia ćwiczeń,,,Niezbyt porywające zajęcia,,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
IV (studia licencjackie),,291 - 310,Mężczyzna,Stacjonarne,Finanse i rachunkowość,"Tak, aktywnie",dr hab. Barbara Kowalczyk,Byłem(-am) na większości,I termin,40,...,,,,,,Niezbyt porywające zajęcia,,,,
II (studia licencjackie),,271 - 290,Kobieta,Stacjonarne,Zarządzanie,"Tak, aktywnie",dr. inż. Artur Bryk,Byłem(-am) na większości,II termin,30,...,Ciekawie prowadzone zajęcia,"Interakcje ćwiczeniowca ze studentami (debaty,...",,Umiejętność przekazywania wiedzy,,,,Bardzo wymagające zaliczenie ćwiczeń,,
VI (studia licencjackie),,311 - 333,Kobieta,Stacjonarne,Metody ilościowe w ekonomii i systemy informac...,Nie,dr hab. Agata Boratyńska,Byłem(-am) na wszystkich,I termin,50,...,Ciekawie prowadzone zajęcia,"Interakcje ćwiczeniowca ze studentami (debaty,...",,Umiejętność przekazywania wiedzy,,,,,,
II (studia licencjackie),,< 250,Mężczyzna,Niestacjonarne w trybie popołudniowym,"Globalny biznes, finanse i zarządzanie (Govern...",Nie,dr Dorota Juszczak,Byłem(-am) na wszystkich,II termin,30,...,,,,,,,Tylko monolog ćwiczeniowca podczas zajęć,Bardzo wymagające zaliczenie ćwiczeń,Szwankujące umiejętności przekazania wiedzy,Brak możliwości zaliczenia ćwiczeń inaczej niż...


In [1]:
#### 5. Wyczyść w/w dane