Operacje na plikach i katalogach rozumianych jako zasoby systemowe są dostępne w module `os`.

In [1]:
import os

In [2]:
os.name

'posix'

Tworzenie katalogu z poziomu Pythona (a nie Jupytera)

In [3]:
try:
    os.mkdir('pliki')
    print('Katalog utworzony')
except FileExistsError:
    print('Katalog już istnieje')

Katalog już istnieje


In [4]:
#os.mkdir('/home/patryk/Pulpit/katalog')

Zapisywanie danych tekstowych do plików.

Zapis trochę przestarzały - otwieramy plik, korzystamy z niego, zamykamy jawnie wywołując `close()`.

**Uwaga** otwarcie w trybie `w` kasuje dotychczasową zawartość pliku!

In [5]:
wyjscie = open('pliki/plik1.txt', mode='w')

In [6]:
wyjscie.write('Ala')

3

Gdy używamy metod `write` lub `writelines`, to sami musimy zadbać o wpisywanie znaków nowej linii `\n`

In [7]:
wyjscie.write(' ma kota\n')

9

In [8]:
wyjscie.write('Ola ma psa\n')

11

In [9]:
lista = ['Sierotka ma rysia\n', 'Ewa ma rybki\n']
wyjscie.writelines(lista)

Drugim sposobem pisania do pliku jest użycie `print` z parametrem `file`. `print` domyślnie sam dopisuje znak nowej linii na końcu.

In [10]:
print('Ula ma chomika', file=wyjscie)

In [11]:
print(2 ** 8, file=wyjscie)

In [12]:
miasta = ['Warszawa', 'Kraków', 'Wrocław']
print(*miasta, sep=';', file=wyjscie)

In [13]:
wyjscie.close()

Zapis zalecany - z wykorzystaniem `with`, co gwarantuje automatyczne zamknięcie pliku.

In [14]:
with open('pliki/plik2.txt', mode='w') as wyjscie:
    wyjscie.write('Ola ma psa\n')
    print('Ula ma chomika nr', 2 ** 8, file=wyjscie)
# nie trzeba pisać close, a plik zamyka się, gdy wychodzimy z with

### Przykład generowania plików

Wygenerujemy wiele plików w formacie CSV, które będą zawierać jednakowe kolumny, ale zróżnicowane dane w wierszach.

In [15]:
ILE_PLIKOW = 10
ILE_LINII = 100

In [16]:
import random

In [17]:
lista_kolumn = ['nr', 'data', 'licznik', 'wartość']

for nr_pliku in range(1, ILE_PLIKOW+1):
    print(f'Generowanie pliku nr {nr_pliku}...')
    with open(f'pliki/dane_{nr_pliku:03}.csv', mode='w', encoding='UTF-8') as wyjscie:
        print(*lista_kolumn, sep=',', file=wyjscie)
        for nr_wiersza in range(ILE_LINII):
            print(nr_wiersza, '2020-01-02', random.randint(1, 99), round(100 * random.random(), 3), sep=',', file=wyjscie)

Generowanie pliku nr 1...
Generowanie pliku nr 2...
Generowanie pliku nr 3...
Generowanie pliku nr 4...
Generowanie pliku nr 5...
Generowanie pliku nr 6...
Generowanie pliku nr 7...
Generowanie pliku nr 8...
Generowanie pliku nr 9...
Generowanie pliku nr 10...


## Czytanie plików za pomocą `open`

Samodzielna obsługa plików tekstowych – używamy głównie wtedy, gdy standardowe funkcje (np. `pandas.read_csv`) nie dadzą sobie rady.

Otwieramy w trybie `r`, który jest domyślny.

In [18]:
wejscie = open('pliki/plik1.txt')

In [19]:
print(wejscie)

<_io.TextIOWrapper name='pliki/plik1.txt' mode='r' encoding='UTF-8'>


Metoda `read` czyta całą treść albo podaną liczbę znaków.

In [20]:
tresc = wejscie.read()

In [21]:
tresc

'Ala ma kota\nOla ma psa\nSierotka ma rysia\nEwa ma rybki\nUla ma chomika\n256\nWarszawa;Kraków;Wrocław\n'

In [22]:
print(tresc)

Ala ma kota
Ola ma psa
Sierotka ma rysia
Ewa ma rybki
Ula ma chomika
256
Warszawa;Kraków;Wrocław



Powrót na początek pliku, "przesunięcie kursora"

In [23]:
wejscie.seek(0)

0

- `readline` czyta jedną linię
- `readlines` czyta wszystkie linie, zwraca listę.

In [24]:
linie = wejscie.readlines()

In [25]:
linie

['Ala ma kota\n',
 'Ola ma psa\n',
 'Sierotka ma rysia\n',
 'Ewa ma rybki\n',
 'Ula ma chomika\n',
 '256\n',
 'Warszawa;Kraków;Wrocław\n']

In [26]:
wejscie.close()

### Najbardziej standardowy schemat czytania pliku tekstowego

- Otwieramy plik wewnątrz `with`.
- W środku piszemy pętlę `for`, która pobiera po kolei wszystkie linie tego pliku i dla każdej linii coś robimy.
- Wczytywane linie zawierają w sobie znak `\n`, możemy użyć `.rstrip()` aby się go pozbyć.

In [27]:
with open('pliki/plik1.txt', mode='r') as wejscie:
    for linia in wejscie:
        print(linia.rstrip())

Ala ma kota
Ola ma psa
Sierotka ma rysia
Ewa ma rybki
Ula ma chomika
256
Warszawa;Kraków;Wrocław


## Jak wylistować pliki w katalogu

Lista plików w bieżącym katalogu. To też obejmie podkatalogi i różne pliki specjalne.

In [28]:
os.listdir()

['dzien1.ipynb',
 'Untitled.ipynb',
 'emps.csv',
 'dzien2.ipynb',
 'waluty.ipynb',
 'waluty.html',
 'dzien2.html',
 'numpy_pierwsze_kroki.ipynb',
 'numpy_pierwsze_kroki.html',
 'numpy-pogoda.ipynb',
 'numpy-pogoda.html',
 '.ipynb_checkpoints',
 'pandas1_pierwsze_kroki.ipynb',
 'pandas1_pierwsze_kroki.html',
 'sprzedaz_groupby_pivot.ipynb',
 'sprzedaz_groupby_pivot.html',
 'operacje_na_plikach.ipynb',
 'pliki']

Lista plików we wskazanym katalogu:

In [29]:
os.listdir('pliki')

['dane_001.csv',
 'dane_002.csv',
 'dane_003.csv',
 'dane_004.csv',
 'dane_005.csv',
 'dane_006.csv',
 'dane_007.csv',
 'dane_008.csv',
 'dane_009.csv',
 'dane_010.csv',
 'plik1.txt',
 'plik2.txt']

Przykład użycia:

In [30]:
for plik in os.listdir('pliki'):
    print(f'Mam plik {plik}')

Mam plik dane_001.csv
Mam plik dane_002.csv
Mam plik dane_003.csv
Mam plik dane_004.csv
Mam plik dane_005.csv
Mam plik dane_006.csv
Mam plik dane_007.csv
Mam plik dane_008.csv
Mam plik dane_009.csv
Mam plik dane_010.csv
Mam plik plik1.txt
Mam plik plik2.txt


`glob` - szukanie plików, które mają określone rozszerzenie (lub ogólnie - pasują do wzorca).

In [31]:
import glob

In [32]:
glob.glob('pliki/*.csv')

['pliki/dane_001.csv',
 'pliki/dane_002.csv',
 'pliki/dane_003.csv',
 'pliki/dane_004.csv',
 'pliki/dane_005.csv',
 'pliki/dane_006.csv',
 'pliki/dane_007.csv',
 'pliki/dane_008.csv',
 'pliki/dane_009.csv',
 'pliki/dane_010.csv']

## Przykład czytania wielu plików

W pętli czytamy wszystie pliki csv znalezione w katalogu i przykładowo obliczamy średnią wartość z kolumny wartość :)

In [33]:
suma = 0
ile = 0

for plik in glob.glob('pliki/*.csv'):
    with open(plik, mode='r', encoding='UTF-8') as wejscie:
        wejscie.readline() # pomijam wiersz z nagłówkami
        for linia in wejscie:
            t = linia.strip().split(',')
            #print(t)
            suma += float(t[3])
            ile += 1

srednia = suma / ile

In [34]:
srednia

50.766070000000006

## Wczytanie wielu plików w Pandas i konkatenacja tabel

Tworzymy listę nazw plików, które chcemy odczytać.

In [35]:
import pandas as pd

In [36]:
lista_plikow = glob.glob('pliki/*.csv')

Dla znalezionych plików tworzymy w pamięci listę DataFrame'ów odczytanych z tych plików.

In [37]:
lista_df = [pd.read_csv(plik, parse_dates=['data']) for plik in lista_plikow]

In [38]:
len(lista_df)

10

In [39]:
df0 = lista_df[0]

In [40]:
df0

Unnamed: 0,nr,data,licznik,wartość
0,0,2020-01-02,29,82.146
1,1,2020-01-02,59,73.228
2,2,2020-01-02,88,3.620
3,3,2020-01-02,15,52.303
4,4,2020-01-02,54,62.254
...,...,...,...,...
95,95,2020-01-02,18,66.238
96,96,2020-01-02,11,70.671
97,97,2020-01-02,94,82.566
98,98,2020-01-02,60,92.653


In [41]:
df0.shape

(100, 4)

Budujemy DF, który będzie zawierał wszystkie części składowe.

In [42]:
df = pd.concat(lista_df)

In [43]:
df.shape

(1000, 4)

In [44]:
df

Unnamed: 0,nr,data,licznik,wartość
0,0,2020-01-02,29,82.146
1,1,2020-01-02,59,73.228
2,2,2020-01-02,88,3.620
3,3,2020-01-02,15,52.303
4,4,2020-01-02,54,62.254
...,...,...,...,...
95,95,2020-01-02,80,81.368
96,96,2020-01-02,82,35.580
97,97,2020-01-02,42,28.711
98,98,2020-01-02,78,65.330


Indeksy nie są teraz unikalne...

In [45]:
df.loc[3]

Unnamed: 0,nr,data,licznik,wartość
3,3,2020-01-02,15,52.303
3,3,2020-01-02,29,46.602
3,3,2020-01-02,12,30.97
3,3,2020-01-02,60,12.992
3,3,2020-01-02,20,16.997
3,3,2020-01-02,98,70.584
3,3,2020-01-02,97,91.297
3,3,2020-01-02,65,30.494
3,3,2020-01-02,93,68.585
3,3,2020-01-02,8,11.748


In [46]:
df.reset_index(inplace=True, drop=True)

In [47]:
df

Unnamed: 0,nr,data,licznik,wartość
0,0,2020-01-02,29,82.146
1,1,2020-01-02,59,73.228
2,2,2020-01-02,88,3.620
3,3,2020-01-02,15,52.303
4,4,2020-01-02,54,62.254
...,...,...,...,...
995,95,2020-01-02,80,81.368
996,96,2020-01-02,82,35.580
997,97,2020-01-02,42,28.711
998,98,2020-01-02,78,65.330


In [48]:
df['wartość'].mean()

np.float64(50.76607)