# Jak pracować z danymi tabelarycznymi?

In [1]:
# Pobierz dane stąd: https://www.kaggle.com/altinsoyemrecan/daily-updated-forex-data-since-201111
# Znajdziesz je również w pliku `M08/data/forex_usd_data.csv`.

# Dane tabelaryczne to dane, gdzie każda kolumna może być innego typu, np. w jednej kolumnie są liczby, w drugiej daty, w trzeciej napisy itd. Czyli są tą np. arkusze Excela czy pliki CSV.

# Pandas to Pythonowa biblioteka do pracy z danymi tabelarycznymi. Zainstalujmy Pandasa:
# $ pip install pandas --upgrade

In [1]:
import pandas as pd  # przyjęło się skracać nazwę

# W ten sposób możemy w jednej linii wczytać dane z pliku CSV:
df = pd.read_csv(
    'data/forex_usd_data.csv',
) 

# Pandas umożliwia też równie proste wczytanie wielu innych formatów, np. plików Excela czy nawet łączenie się z bazami danych.

print(type(df))  # tak, to jest DataFrame - zupełnie nowy typ
df  # Jupyter Notebook automatycznie wyświetla rezultat ostatniej linii

<class 'pandas.core.frame.DataFrame'>


Unnamed: 0,date(y-m-d),Argentine Peso,Australian Dollar,Bahraini Dinar,Botswana Pula,Brazilian Real,Bruneian Dollar,Bulgarian Lev,Canadian Dollar,Chilean Peso,...,Sri Lankan Rupee,Swedish Krona,Swiss Franc,Taiwan New Dollar,Thai Baht,Trinidadian Dollar,Turkish Lira,Emirati Dirham,British Pound,Venezuelan Bolivar
0,2011-01-01,3.969000,0.977326,0.377050,6.472492,1.659500,1.284500,1.463830,0.997700,467.750000,...,110.940002,6.721450,0.934500,29.140000,30.020000,6.340000,1.537400,3.67310,0.640553,4.300000e+00
1,2011-01-02,3.969000,0.977326,0.377050,6.472492,1.659500,1.283500,1.463830,0.997700,467.750000,...,110.940002,6.721450,0.933800,29.099001,30.020000,6.340000,1.537400,3.67310,0.641067,4.300000e+00
2,2011-01-03,3.973500,0.980569,0.377055,6.472492,1.646288,1.284367,1.462799,0.990444,465.649994,...,110.919998,6.693788,0.933069,29.120000,30.084999,6.390000,1.557411,3.67320,0.645615,4.300000e+00
3,2011-01-04,3.971000,0.995580,0.377060,6.480881,1.666747,1.287438,1.469525,0.999076,487.850006,...,110.820000,6.726967,0.947903,29.175004,30.104903,6.360000,1.547801,3.67315,0.641558,4.300000e+00
4,2011-01-05,3.971500,0.999522,0.377050,6.548788,1.670312,1.291450,1.485031,0.994376,495.149993,...,110.820000,6.766127,0.964490,29.170000,30.216193,6.380000,1.543853,3.67310,0.645308,4.300000e+00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3925,2021-09-30,98.736445,1.383440,0.376000,11.311807,5.448215,1.358174,1.689414,1.267304,809.029363,...,199.765848,8.759269,0.933964,27.842308,33.657387,6.791447,8.889614,3.67250,0.742524,4.191044e+11
3926,2021-10-01,98.775373,1.375609,0.376000,11.308244,5.368396,1.355184,1.686547,1.266198,803.116486,...,199.710102,8.753079,0.929910,27.814423,33.650881,6.790072,8.863875,3.67250,0.737063,4.217250e+11
3927,2021-10-02,98.706094,1.377447,0.376000,11.308076,5.366149,1.357800,1.686570,1.265100,802.961819,...,199.783853,8.759742,0.930556,27.770491,33.613309,6.791937,8.858009,3.67250,0.738259,4.199616e+11
3928,2021-10-03,98.604440,1.378329,0.376000,11.308076,5.364326,1.358017,1.687240,1.265399,803.244522,...,199.783853,8.761347,0.930747,27.803499,33.614106,6.760819,8.857427,3.67250,0.738270,4.282961e+11


In [3]:
# W ten sposób sprawdzimy jak Pandas zrozumiał dane z pliku:
df.info()

# Widać między innymi, że data została zinterpretowana jako object (= string) zamiast jako data.
# Został też dodany index.

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3930 entries, 0 to 3929
Data columns (total 54 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   date(y-m-d)            3930 non-null   object 
 1   Argentine Peso         3930 non-null   float64
 2   Australian Dollar      3930 non-null   float64
 3   Bahraini Dinar         3930 non-null   float64
 4   Botswana Pula          3930 non-null   float64
 5   Brazilian Real         3930 non-null   float64
 6   Bruneian Dollar        3930 non-null   float64
 7   Bulgarian Lev          3930 non-null   float64
 8   Canadian Dollar        3930 non-null   float64
 9   Chilean Peso           3930 non-null   float64
 10  Chinese Yuan Renminbi  3930 non-null   float64
 11  Colombian Peso         3930 non-null   float64
 12  Croatian Kuna          3930 non-null   float64
 13  Czech Koruna           3930 non-null   float64
 14  Danish Krone           3930 non-null   float64
 15  Euro

# 🔴 Ćwiczenie

1. Pobierz dane z https://www.kaggle.com/denychaen/macroeconomic-pl lub użyj pliku data/macroeconomicsPL.csv. Jest to zbiór danych przygotowany przez Denysa Cherevyk. Pod tym adresem znajdziesz wyjaśnienie co oznaczają poszczególne kolumny.
2. Wczytaj dane do pamięci.
3. Sprawdź jak Pandas rozumie te dane. Co trzeba będzie zmienić?