# Python ja Excel-tiedostot

Tässä muistiossa tutustutaan **Python**-ohjelmointikielen kirjastoihin, joiden avulla luetaan ja kirjoitetaan Excel-tiedostoja.

## read_excel, to_excel

Excel-tiedostoja voi lukea ja kirjoittaa vaikka Exceliä ei olisi koneelle asennettu. **Pandas**-kirjaston **read_excel**-funktio osaa lukea datan Excel-tiedostosta ja **to_excel**-funktio osaa tallentaa **tietokehyksen** uuteen Excel-tiedostoon.

In [1]:
import pandas as pd

Oletuksena read_excel lukee datan Excel-tiedoston ensimmäiseltä taulukkovälilehdeltä. Parametreilla voi tarkemmin määritellä luettavan solualueen sijainnin ja muut erityispiirteet. Lisätietoa read_excel-funktion parametreista löytyy artikkelista https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html. Tyypillisiä käyttöön tulevia parametreja ovat *sheet_name*, *index_col*, *usecols* ja *skiprows*.

Seuraavassa solussa data-hakemiston tiedoston kalat.xlsx aineisto luetaan tietokehykseen niin, että

* aineisto luetaan ensimmäiseltä taulukkovälilehdeltä (oletus)
* hypätään 2 ensimmäistä riviä yli (skiprows)
* tehdään ensimmäisestä sarakkeesta dataframen indeksi (index_col).

In [2]:
df = pd.read_excel('data/kalat.xlsx', skiprows=2, index_col=0)
df

Unnamed: 0,Toukokuu,Kesäkuu,Heinäkuu,Elokuu,Syyskuu,Yhteensä
Ahven,10,16,14,16,2,58
Hauki,12,25,20,23,5,85
Kuha,8,13,10,12,2,45
Muut,5,12,9,8,2,36
Yhteensä,35,66,53,59,11,224


Excel-tiedostossa kalat.xlsx on kalansaaliita taulukkovälilehdillä Kalat88, Kalat89, Kalat90, Kalat91 ja Kalat92. 

Harjoittele aineiston avaamista myös muilta kuin Kalat88-taulukkovälilehdiltä.

Lisätietoa read_excel-funktion parametreista: https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html

**Huomaa!** Jos et ole aiemmin asentanut **yfinance**-kirjastoa, niin asenna se ennen seuraavan koodin suorittamista (vrt. myös **elisa.ipynb**-muistio). Asenna yfinance komentoriviltä komennolla
$$\textrm{conda install -c conda-forge yfinance}$$

Komentoriville pääsee 
* Windows: käynnistä **Anaconda Prompt**
* macOS: käynnistä **Terminal/Pääte**

Kirjaston yfinance avulla voi hakea tietoja **Yahoo Finance** -palvelusta (https://finance.yahoo.com/).

Oletuksena to_excel kirjoittaa tietokehyksen uuteen Excel-tiedostoon. Seuraava koodi hakee Yahoo Finance -sivustolta Elisan osakkeen kurssihistorian ja kirjoittaa sen output/elisa.xlsx-tiedostoon.

In [3]:

import yfinance as yf

### Elisan osakkeen historiatietojen haku vuoden 2020 alusta

elisa = yf.download('ELISA.HE', start='2020-1-1')

# Tallennetaan tiedot data-kansioon elisa.xlsx-tiedostoon

elisa.to_excel('output/elisa.xlsx')

# Katsotaan aineiston alku- ja loppupää

elisa

[*********************100%***********************]  1 of 1 completed


Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-02,49.250000,49.520000,49.160000,49.279999,41.405594,194976
2020-01-03,49.400002,50.040001,49.290001,49.779999,41.825699,335732
2020-01-07,49.880001,50.299999,49.450001,49.639999,41.708073,452005
2020-01-08,49.500000,49.630001,49.160000,49.310001,41.430801,365059
2020-01-09,49.430000,49.930000,49.419998,49.680000,41.741684,622106
...,...,...,...,...,...,...
2024-09-16,46.580002,46.919998,46.480000,46.919998,46.919998,109993
2024-09-17,46.980000,47.320000,46.840000,47.299999,47.299999,279814
2024-09-18,47.259998,47.599998,47.220001,47.459999,47.459999,222603
2024-09-19,47.380001,47.639999,47.119999,47.220001,47.220001,313588


Tiedosto *elisa.xlsx* löytyy nyt hakemiston *pyex* alihakemistosta *output* (olettaen, että pyex-hakemisto on asennettu oletushakemistoon).

Lisätietoa:
* https://pypi.org/project/yfinance/
* https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_excel.html

## XlsxWriter

**XlsxWriter** on monipuolinen kirjasto Excel-tiedostojen luontiin. Sen toiminnot on selkeästi dokumentoitu osoitteessa https://xlsxwriter.readthedocs.io/. Alkuun pääsee hyvin sivuston artikkeleiden *Getting started with XlsxWriter* ja *Working with Pandas and XlsxWriter* esimerkkien kautta.

On hyvä huomioida, että XlsxWriterilla ei voi avata olemassa olevaa Excel-tiedostoa editoitavaksi.

Itse asiassa edellä mainittu funktio *to_excel* käyttää xlsxwriteria Excel-tiedoston kirjoittamisessa.

Jos halutaan kirjoittaa samaan Excel-tiedostoon useampia tietokehyksiä tai lisätä muotoiluja, niin tarvitaan **ExcelWriter**-olio. Seuraava koodi hakee Yahoo Finance -sivustolta sekä Elisan kurssihistorian että OMXH25-osakeindeksin historian ja kirjoittaa molemmat omille taulukkovälilehdilleen output/elisa_ja_omxh25.xlsx-tiedostoon.

In [4]:

# Haetaan historiatiedot Yahoo Finance -sivustolta

elisa = yf.download('ELISA.HE', start='2020-1-1')
omxh25 = yf.download('^OMXH25', start='2020-1-1')

# Luodaan ExcelWriter-olio

writer = pd.ExcelWriter('output/elisa_ja_omxh25.xlsx', engine='xlsxwriter')

# Käytetään ExcelWriter-oliota tiedon kirjoittamiseen

elisa.to_excel(excel_writer=writer, sheet_name='elisa')
omxh25.to_excel(excel_writer=writer, sheet_name='omxh25')

# Kirjoitetaan tiedot levylle ja suljetaan tiedosto
writer.close()

[*********************100%***********************]  1 of 1 completed
[*********************100%***********************]  1 of 1 completed


Edellä olevassa koodissa ExcelWriter-olio oli oleellinen, koska kirjoitettiin useammalle välilehdelle. Myös tiedoston sulkeminen lopuksi on tärkeä. Jos solun suoritus jostain syystä keskeytyy ennen tiedoston sulkemista, sulkeminen kannattaa tehdä erikseen omassa solussaan.

Materiaalipaketin **pika2.ipynb**-muistion koodi automatisoi datan perusanalyysit. Koodi laskee datasta frekvenssitaulukot, ristiintaulukoinnit, tilastolliset tunnusluvut ja korrelaatiot. Tulokset kirjoitetaan ja muotoillaan Exceliin käyttäen hyväksi XlsxWriterin toimintoja. Tutustu, millä eri tavoin toimintoja on hyödynnetty.

## OpenPyXL

**OpenPyXL**-kirjaston toiminnoilla voi avata olemassa olevan Excel-tiedoston editoitavaksi. Myös pandas-kirjaston read_excel-funktio käyttää OpenPyXL-kirjastoa oletuksena Excel-tiedoston avaamiseen. Lisätietoa löytyy osoitteesta https://openpyxl.readthedocs.io/en/stable/.

## Pathlib.Path

Tiedostojen käyttöä automatisoitaessa täytyy hallita tiedostopolkujen käyttö Pythonista käsin. Tähän voi käyttää **pathlib**-kirjaston **Path**-oliota, jonka voi tuoda komennolla 

$$\textrm{from pathlib import Path}.$$ 

Path-kirjastoa käyttämällä pystyy välttämään ongelmat, jotka liittyvät eri käyttöjärjestelmien eroihin kauttaviivojen ( / ) ja kenoviivojen ( \ ) käytössä.

Koko tiedostopolkua ei tarvitse yleensä itse kirjoittaa; kokeile esimerkiksi komentoja:

* **print(Path.cwd())** (cwd = current working directory)
* **print(Path.cwd().resolve().parent)** (polku emokansioon)
* **print(Path.home())** (polku käyttäjän kotikansioon).


Testataan edellä olevia komentoja.

In [5]:
### Tuodaan Path-kirjasto

from pathlib import Path

In [6]:
print(Path.cwd())

C:\Users\nurju\pyex\pyex


In [7]:
print(Path.cwd().resolve().parent)

C:\Users\nurju\pyex


In [8]:
print(Path.home())

C:\Users\nurju


Tehtävissä pääsee harjoittelemaan Path-kirjaston hyödyntämistä.

<u>Lähde ja lisämateriaalia</u>: 
Aki Taanila: Data-analytiikka Pythonilla, https://tilastoapu.wordpress.com/python/.

In [9]:
import datetime
print(f'Viimeksi muokattu {datetime.datetime.now():%Y-%m-%d %H:%M}, Juha Nurmonen')

Viimeksi muokattu 2024-09-22 22:04, Juha Nurmonen
