# Pandas - DataFrame - przekształcenia - zadania

In [111]:
import pandas as pd
import numpy as np
from doctest import testmod

## DataFrame NaN

1. Użyj danych z sekcji "Input" (patrz poniżej)
1. Wczytaj dane z ``DATA`` jako ``iris: pd.DataFrame``
1. Pomiń pierwszą linię z metadanymi
1. Zmień nazwy kolumn na:

    * Sepal length
    * Sepal width
    * Petal length
    * Petal width
    * Species

1. Podmień wartości w kolumnie species

    * 0 -> 'setosa',
    * 1 -> 'versicolor',
    * 2 -> 'virginica'

1. Wybierz wartości w kolumnie 'Petal length' mniejsze od 4
1. Wybrane wartości ustaw na ``NaN``
1. Interpoluj liniowo wszystkie wartości ``NaN``
1. Usuń wiersze z pozostałymi wartościami ``NaN``
1. Wypisz dwa pierwsze wiersze
1. Wypisz liczbę wierszy

In [11]:
DATA = 'https://python.astrotech.io/_static/iris-dirty.csv'

COLUMNS = [
    'Sepal length',
    'Sepal width',
    'Petal length',
    'Petal width',
    'Species']

SPECIES = {
    0: 'setosa',
    1: 'versicolor',
    2: 'virginica'}


iris = pd.read_csv(DATA, names=COLUMNS, skiprows=1)

In [13]:
iris['Species'].replace(SPECIES, inplace=True)
iris[iris['Petal length'] < 4] = np.nan

In [16]:
iris = iris.interpolate()
iris = iris.dropna()

In [18]:
iris.head(2)

Unnamed: 0,Sepal length,Sepal width,Petal length,Petal width,Species
1,5.9,3.0,5.1,1.8,virginica
2,6.0,3.4,4.5,1.6,versicolor


In [19]:
len(iris)

89

## DataFrame Mapping Split

1. Użyj danych z sekcji "Input" (patrz poniżej)
1. Wczytaj dane z ``DATA`` jako ``phones: pd.DataFrame``
1. Sparsuj dane w kolumnie ``date`` jako obiekty ``datetime``
1. Podziel kolumnę z ``date`` na dwie osobne: datę i czas

Podpowiedź:
* ``help(phones['date'].dt)``

In [31]:
DATA = 'https://python.astrotech.io/_static/phones-pl.csv'

phones = pd.read_csv(DATA)
phones[['date', 'time']] = phones['datetime'].str.split(expand=True)
phones = pd.to_datetime(phones['date'])
phones

0     1999-10-15
1     1999-10-15
2     1999-10-15
3     1999-10-15
4     1999-10-15
         ...    
825   2000-03-13
826   2000-03-13
827   2000-03-13
828   2000-03-14
829   2000-03-14
Name: date, Length: 830, dtype: datetime64[ns]

In [32]:
DATA = 'https://python.astrotech.io/_static/phones-pl.csv'

phones = pd.read_csv(DATA, parse_dates=['datetime'])
phones['date'] = phones['datetime'].dt.date
phones['time'] = phones['datetime'].dt.time

datetime.date(1999, 10, 15)

## DataFrame Mapping Translate

1. Użyj danych z sekcji "Input" (patrz poniżej)
1. Wczytaj dane z ``DATA`` jako ``martian: pd.DataFrame``
1. Ustaw nagłówek i index na dane zaczytane z pliku
1. Przekonwertuj polskie nazwy miesięcy na angielskie
1. Sparsuj daty do obiektów ``datetime``

Podpowiedź:
* ``df['column'].replace(regex=True)``
* ``pd.Timestamp``

In [60]:
DATA = 'https://python.astrotech.io/_static/martian-pl.csv'

MONTHS_PLEN = {'styczeń': 'January',
               'luty': 'February',
               'marzec': 'March',
               'kwiecień': 'April',
               'maj': 'May',
               'czerwiec': 'June',
               'lipiec': 'July',
               'sierpień': 'August',
               'wrzesień': 'September',
               'październik': 'October',
               'listopad': 'November',
               'grudzień': 'December'}

In [61]:
martian = pd.read_csv(DATA)

In [65]:
martian['Mission Date'] = (
    martian['Mission Date']
    .replace(MONTHS_PLEN, regex=True)
    .map(pd.Timestamp))

In [67]:
martian.set_index('id')

Unnamed: 0_level_0,First Name,Last Name,Mission Date
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Jan,Twardowski,1988-01-05
2,Mark,Watney,1969-07-21
3,Ivan,Ivanovich,1961-04-12
4,Melissa,Lewis,1970-01-01
5,Alex,Vogel,1968-12-25


## DataFrame Mapping Month

1. Użyj danych z sekcji "Input" (patrz poniżej)
1. Wczytaj dane z ``DATA`` jako ``phones: pd.DataFrame``
1. Dodaj kolumnę ``year`` i ``month_name`` poprzez sparsowanie kolumny ``month``
1. Nazwa miesiąca musi być ciągiem znaków, a nie liczbą (i.e. 'January', 'May')

Przykład:
1. jeżeli ``period`` column is "2015-01"
1. ``year``: 2015
1. ``month``: January

Podpowiedź:
* ``Series.str.split(expand=True)``
* ``df[ ['A', 'B'] ] = ...``

In [90]:
DATA = 'https://python.astrotech.io/_static/phones-en.csv'

MONTHS_EN = ['January', 'February', 'March', 'April',
             'May', 'June', 'July', 'August', 'September',
             'October', 'November', 'December']

MONTHS = dict(enumerate(MONTHS_EN, start=1))

In [91]:
phones = pd.read_csv(DATA, parse_dates=['date'])
phones[['year', 'month_name']] = phones['month'].str.split('-', expand=True)
phones

Unnamed: 0,index,date,duration,item,month,network,network_type,year,month_name
0,0,2014-10-15 06:58:00,34.429,data,2014-11,data,data,2014,11
1,1,2014-10-15 06:58:00,13.000,call,2014-11,Vodafone,mobile,2014,11
2,2,2014-10-15 14:46:00,23.000,call,2014-11,Meteor,mobile,2014,11
3,3,2014-10-15 14:48:00,4.000,call,2014-11,Tesco,mobile,2014,11
4,4,2014-10-15 17:27:00,4.000,call,2014-11,Tesco,mobile,2014,11
...,...,...,...,...,...,...,...,...,...
825,825,2015-03-13 00:38:00,1.000,sms,2015-03,world,world,2015,03
826,826,2015-03-13 00:39:00,1.000,sms,2015-03,Vodafone,mobile,2015,03
827,827,2015-03-13 06:58:00,34.429,data,2015-03,data,data,2015,03
828,828,2015-03-14 00:13:00,1.000,sms,2015-03,world,world,2015,03


In [97]:
phones['month_name'] = phones['month_name'].map(int).replace(MONTHS)

In [98]:
phones

Unnamed: 0,index,date,duration,item,month,network,network_type,year,month_name
0,0,2014-10-15 06:58:00,34.429,data,2014-11,data,data,2014,November
1,1,2014-10-15 06:58:00,13.000,call,2014-11,Vodafone,mobile,2014,November
2,2,2014-10-15 14:46:00,23.000,call,2014-11,Meteor,mobile,2014,November
3,3,2014-10-15 14:48:00,4.000,call,2014-11,Tesco,mobile,2014,November
4,4,2014-10-15 17:27:00,4.000,call,2014-11,Tesco,mobile,2014,November
...,...,...,...,...,...,...,...,...,...
825,825,2015-03-13 00:38:00,1.000,sms,2015-03,world,world,2015,March
826,826,2015-03-13 00:39:00,1.000,sms,2015-03,Vodafone,mobile,2015,March
827,827,2015-03-13 06:58:00,34.429,data,2015-03,data,data,2015,March
828,828,2015-03-14 00:13:00,1.000,sms,2015-03,world,world,2015,March


In [102]:
MONTHS_EN = ['January', 'February', 'March', 'April',
             'May', 'June', 'July', 'August', 'September',
             'October', 'November', 'December']

MONTHS = {str(i):month for i, month in enumerate(MONTHS_EN, start=1)}


MONTHS

{'1': 'January',
 '2': 'February',
 '3': 'March',
 '4': 'April',
 '5': 'May',
 '6': 'June',
 '7': 'July',
 '8': 'August',
 '9': 'September',
 '10': 'October',
 '11': 'November',
 '12': 'December'}

## DataFrame Mapping Substitute

1. Użyj danych z sekcji "Input" (patrz poniżej)
1. Wczytaj dane z ``DATA`` jako ``trl: pd.DataFrame``
1. Wybierz arkusz ``Polish``
1. Ustaw nagłówek i index na dane zaczytane z pliku
1. Zwróć uwagę na encoding
1. Podmień polskie znaki diakrytyczne na litery z alfabetu angielskiego
1. Porównaj ``df.replace(regex=True)`` z ``df.applymap()``

In [103]:
DATA = 'https://python.astrotech.io/_static/astro-trl.xlsx'

LETTERS_PLEN = {'ą': 'a', 'ć': 'c', 'ę': 'e',
                'ł': 'l', 'ń': 'n', 'ó': 'o',
                'ś': 's', 'ż': 'z', 'ź': 'z'}

In [109]:
trl = pd.read_excel(DATA, sheet_name='Polish', index_col='TRL', header=1)

In [121]:
def pl2acscii(text):
    """
    >>> pl2acscii('ą')
    'a'
    >>> pl2acscii('ś')
    's'
    >>> pl2acscii('zażółć gęślą jaźń')
    'zazolc gesla jazn'
    """
    return ''.join(LETTERS_PLEN.get(x,x) for x in text)
        

testmod()

TestResults(failed=0, attempted=6)

In [122]:
trl = trl.applymap(pl2acscii)
trl.columns = trl.columns.map(pl2acscii)

trl

Unnamed: 0_level_0,Definicja,Sprzet,Oprogramowanie,Kryteria wyjsciowe
TRL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Zaobserwowanie i opisanie podstawowych zasad d...,Zebrano wiedze naukowa dotyczaca podstawowych ...,Zebrano wiedze naukowa dotyczaca podstawowych ...,Zweryfikowane publikacja badania lezacych u po...
2,Sformulowanie koncepcji technologicznej lub pr...,"Stworzono innowacyjne rozwiazanie, zidentyfiko...","Zidentyfikowano praktyczne zastosowanie, ale m...","Udokumentowany opis aplikacji / koncepcji, kto..."
3,Przeprowadzanie eksperymentalnie i analityczni...,Badania analityczne pozwalaja na umieszczenie ...,Opracowanie ograniczonej funkcjonalnosci do wa...,Udokumentowane wyniki analityczne / eksperymen...
4,Przeprowadzenie weryfikacji komponentow techno...,Stworzono niskiej wiernosci system lub jego ko...,"Kluczowe, funkcjonalne komponenty oprogramowan...",Udokumentowane wyniki testow potwierdzajace zg...
5,Przeprowadzenie weryfikacji komponentow techno...,Stworzono sredniej wiernosci system lub jego k...,Zaimplementowane kompleksowe elementy oprogram...,Udokumentowane wyniki testow potwierdzajace zg...
6,Dokonanie demonstracji technologii w srodowisk...,Stworzono wysokiej wiernosci system lub jego k...,Stworzona prototypowa implementacja oprogramow...,Udokumentowane wyniki testow potwierdzajace zg...
7,Dokonanie demonstracji prototypu systemu w oto...,Stworzono wysokiej wiernosci system lub jego k...,Prototypowe oprogramowanie posiada wszystkie k...,Udokumentowane wyniki testow potwierdzajace zg...
8,Zakonczenie badan i demonstracja ostatecznej f...,Produkt koncowy w swojej ostatecznej konfigura...,Cale oprogramowanie zostalo gruntownie sprawdz...,Udokumentowane wyniki testow weryfikujacych pr...
9,Weryfikacja technologii w srodowisku operacyjn...,Produkt koncowy jest z powodzeniem obslugiwany...,Cale oprogramowanie zostalo gruntownie sprawdz...,Udokumentowane wyniki operacyjne misji.


In [105]:
%pip install xlrd

Collecting xlrd
  Using cached xlrd-1.2.0-py2.py3-none-any.whl (103 kB)
Installing collected packages: xlrd
Successfully installed xlrd-1.2.0
Note: you may need to restart the kernel to use updated packages.


In [123]:
trl = pd.read_excel(DATA, sheet_name='Polish', index_col='TRL', header=1)
trl.replace(LETTERS_PLEN, regex=True, inplace=True)
trl.columns = trl.columns.map(pl2acscii)

trl

Unnamed: 0_level_0,Definicja,Sprzet,Oprogramowanie,Kryteria wyjsciowe
TRL,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,Zaobserwowanie i opisanie podstawowych zasad d...,Zebrano wiedze naukowa dotyczaca podstawowych ...,Zebrano wiedze naukowa dotyczaca podstawowych ...,Zweryfikowane publikacja badania lezacych u po...
2,Sformulowanie koncepcji technologicznej lub pr...,"Stworzono innowacyjne rozwiazanie, zidentyfiko...","Zidentyfikowano praktyczne zastosowanie, ale m...","Udokumentowany opis aplikacji / koncepcji, kto..."
3,Przeprowadzanie eksperymentalnie i analityczni...,Badania analityczne pozwalaja na umieszczenie ...,Opracowanie ograniczonej funkcjonalnosci do wa...,Udokumentowane wyniki analityczne / eksperymen...
4,Przeprowadzenie weryfikacji komponentow techno...,Stworzono niskiej wiernosci system lub jego ko...,"Kluczowe, funkcjonalne komponenty oprogramowan...",Udokumentowane wyniki testow potwierdzajace zg...
5,Przeprowadzenie weryfikacji komponentow techno...,Stworzono sredniej wiernosci system lub jego k...,Zaimplementowane kompleksowe elementy oprogram...,Udokumentowane wyniki testow potwierdzajace zg...
6,Dokonanie demonstracji technologii w srodowisk...,Stworzono wysokiej wiernosci system lub jego k...,Stworzona prototypowa implementacja oprogramow...,Udokumentowane wyniki testow potwierdzajace zg...
7,Dokonanie demonstracji prototypu systemu w oto...,Stworzono wysokiej wiernosci system lub jego k...,Prototypowe oprogramowanie posiada wszystkie k...,Udokumentowane wyniki testow potwierdzajace zg...
8,Zakonczenie badan i demonstracja ostatecznej f...,Produkt koncowy w swojej ostatecznej konfigura...,Cale oprogramowanie zostalo gruntownie sprawdz...,Udokumentowane wyniki testow weryfikujacych pr...
9,Weryfikacja technologii w srodowisku operacyjn...,Produkt koncowy jest z powodzeniem obslugiwany...,Cale oprogramowanie zostalo gruntownie sprawdz...,Udokumentowane wyniki operacyjne misji.
