# Etap 1 - Pozyskanie danych

## Dataset: Yellow Taxi Trip Records

Dane użyte w tym projekcie pochodzą z serwisu NYC Taxi & Limousine Commission. Dane te zawierają informacje o przejazdach taksówek w Nowym Jorku, takie jak np. miejsca rozpoczęcia i zakończenia przejazdu, czas trwania oraz odległość itp.

## Licencja

`Dane zostały zebrane i przekazane do NYC Taxi and Limousine Commission (TLC) przez dostawców technologii autoryzowanych w ramach programów Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC, a TLC nie składa żadnych oświadczeń co do ich dokładności.`

[https://www.nyc.gov](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page)

## Spis treści
1. [Import bibliotek](#import-bibliotek)
2. [Funkcja pobierająca](#funkcja-pobierająca)
3. [Pobieranie danych](#pobieranie-danych)

## Import bibliotek

In [1]:
import os
import requests
from tqdm.notebook import tqdm

## Funkcja pobierająca

In [2]:
def download_taxi_data(start_year, end_year, folder='data'):
    base_url = "https://d37ci6vzurychx.cloudfront.net/trip-data"
    os.makedirs(folder, exist_ok=True)
    
    for year in range(start_year, end_year + 1):
        for month in range(1, 13):
            file_name = f'yellow_tripdata_{year}-{month:02d}.parquet'
            file_path = os.path.join(folder, file_name)
            url = f"{base_url}/{file_name}"
            
            if os.path.exists(file_path):
                print(f"Plik {file_name} już istnieje. Pomijanie...")
                continue
            
            print(f"Pobieranie: {file_name}...")
            try:
                response = requests.get(url, stream=True)
                response.raise_for_status()
                
                with open(file_path, 'wb') as file:
                    for chunk in tqdm(response.iter_content(chunk_size=1024), desc=file_name, unit="KB"):
                        file.write(chunk)
                
                print(f"Zapisano: {file_name}")
            except requests.exceptions.RequestException as e:
                print(f"Nie udało się pobrać {file_name}: {e}")

## Pobieranie danych

In [3]:
download_taxi_data(start_year=2009, end_year=2024)

Plik yellow_tripdata_2009-01.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-02.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-03.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-04.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-05.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-06.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-07.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-08.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-09.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-10.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-11.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-12.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-01.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-02.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-03.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-04.parquet już

yellow_tripdata_2017-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-01.parquet
Pobieranie: yellow_tripdata_2017-02.parquet...


yellow_tripdata_2017-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-02.parquet
Pobieranie: yellow_tripdata_2017-03.parquet...


yellow_tripdata_2017-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-03.parquet
Pobieranie: yellow_tripdata_2017-04.parquet...


yellow_tripdata_2017-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-04.parquet
Pobieranie: yellow_tripdata_2017-05.parquet...


yellow_tripdata_2017-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-05.parquet
Pobieranie: yellow_tripdata_2017-06.parquet...


yellow_tripdata_2017-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-06.parquet
Pobieranie: yellow_tripdata_2017-07.parquet...


yellow_tripdata_2017-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-07.parquet
Pobieranie: yellow_tripdata_2017-08.parquet...


yellow_tripdata_2017-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-08.parquet
Pobieranie: yellow_tripdata_2017-09.parquet...


yellow_tripdata_2017-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-09.parquet
Pobieranie: yellow_tripdata_2017-10.parquet...


yellow_tripdata_2017-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-10.parquet
Pobieranie: yellow_tripdata_2017-11.parquet...


yellow_tripdata_2017-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-11.parquet
Pobieranie: yellow_tripdata_2017-12.parquet...


yellow_tripdata_2017-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2017-12.parquet
Pobieranie: yellow_tripdata_2018-01.parquet...


yellow_tripdata_2018-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-01.parquet
Pobieranie: yellow_tripdata_2018-02.parquet...


yellow_tripdata_2018-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-02.parquet
Pobieranie: yellow_tripdata_2018-03.parquet...


yellow_tripdata_2018-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-03.parquet
Pobieranie: yellow_tripdata_2018-04.parquet...


yellow_tripdata_2018-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-04.parquet
Pobieranie: yellow_tripdata_2018-05.parquet...


yellow_tripdata_2018-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-05.parquet
Pobieranie: yellow_tripdata_2018-06.parquet...


yellow_tripdata_2018-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-06.parquet
Pobieranie: yellow_tripdata_2018-07.parquet...


yellow_tripdata_2018-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-07.parquet
Pobieranie: yellow_tripdata_2018-08.parquet...


yellow_tripdata_2018-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-08.parquet
Pobieranie: yellow_tripdata_2018-09.parquet...


yellow_tripdata_2018-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-09.parquet
Pobieranie: yellow_tripdata_2018-10.parquet...


yellow_tripdata_2018-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-10.parquet
Pobieranie: yellow_tripdata_2018-11.parquet...


yellow_tripdata_2018-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-11.parquet
Pobieranie: yellow_tripdata_2018-12.parquet...


yellow_tripdata_2018-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2018-12.parquet
Pobieranie: yellow_tripdata_2019-01.parquet...


yellow_tripdata_2019-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-01.parquet
Pobieranie: yellow_tripdata_2019-02.parquet...


yellow_tripdata_2019-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-02.parquet
Pobieranie: yellow_tripdata_2019-03.parquet...


yellow_tripdata_2019-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-03.parquet
Pobieranie: yellow_tripdata_2019-04.parquet...


yellow_tripdata_2019-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-04.parquet
Pobieranie: yellow_tripdata_2019-05.parquet...


yellow_tripdata_2019-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-05.parquet
Pobieranie: yellow_tripdata_2019-06.parquet...


yellow_tripdata_2019-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-06.parquet
Pobieranie: yellow_tripdata_2019-07.parquet...


yellow_tripdata_2019-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-07.parquet
Pobieranie: yellow_tripdata_2019-08.parquet...


yellow_tripdata_2019-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-08.parquet
Pobieranie: yellow_tripdata_2019-09.parquet...


yellow_tripdata_2019-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-09.parquet
Pobieranie: yellow_tripdata_2019-10.parquet...


yellow_tripdata_2019-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-10.parquet
Pobieranie: yellow_tripdata_2019-11.parquet...


yellow_tripdata_2019-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-11.parquet
Pobieranie: yellow_tripdata_2019-12.parquet...


yellow_tripdata_2019-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2019-12.parquet
Pobieranie: yellow_tripdata_2020-01.parquet...


yellow_tripdata_2020-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-01.parquet
Pobieranie: yellow_tripdata_2020-02.parquet...


yellow_tripdata_2020-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-02.parquet
Pobieranie: yellow_tripdata_2020-03.parquet...


yellow_tripdata_2020-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-03.parquet
Pobieranie: yellow_tripdata_2020-04.parquet...


yellow_tripdata_2020-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-04.parquet
Pobieranie: yellow_tripdata_2020-05.parquet...


yellow_tripdata_2020-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-05.parquet
Pobieranie: yellow_tripdata_2020-06.parquet...


yellow_tripdata_2020-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-06.parquet
Pobieranie: yellow_tripdata_2020-07.parquet...


yellow_tripdata_2020-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-07.parquet
Pobieranie: yellow_tripdata_2020-08.parquet...


yellow_tripdata_2020-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-08.parquet
Pobieranie: yellow_tripdata_2020-09.parquet...


yellow_tripdata_2020-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-09.parquet
Pobieranie: yellow_tripdata_2020-10.parquet...


yellow_tripdata_2020-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-10.parquet
Pobieranie: yellow_tripdata_2020-11.parquet...


yellow_tripdata_2020-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-11.parquet
Pobieranie: yellow_tripdata_2020-12.parquet...


yellow_tripdata_2020-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2020-12.parquet
Pobieranie: yellow_tripdata_2021-01.parquet...


yellow_tripdata_2021-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-01.parquet
Pobieranie: yellow_tripdata_2021-02.parquet...


yellow_tripdata_2021-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-02.parquet
Pobieranie: yellow_tripdata_2021-03.parquet...


yellow_tripdata_2021-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-03.parquet
Pobieranie: yellow_tripdata_2021-04.parquet...


yellow_tripdata_2021-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-04.parquet
Pobieranie: yellow_tripdata_2021-05.parquet...


yellow_tripdata_2021-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-05.parquet
Pobieranie: yellow_tripdata_2021-06.parquet...


yellow_tripdata_2021-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-06.parquet
Pobieranie: yellow_tripdata_2021-07.parquet...


yellow_tripdata_2021-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-07.parquet
Pobieranie: yellow_tripdata_2021-08.parquet...


yellow_tripdata_2021-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-08.parquet
Pobieranie: yellow_tripdata_2021-09.parquet...


yellow_tripdata_2021-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-09.parquet
Pobieranie: yellow_tripdata_2021-10.parquet...


yellow_tripdata_2021-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-10.parquet
Pobieranie: yellow_tripdata_2021-11.parquet...


yellow_tripdata_2021-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-11.parquet
Pobieranie: yellow_tripdata_2021-12.parquet...


yellow_tripdata_2021-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2021-12.parquet
Pobieranie: yellow_tripdata_2022-01.parquet...


yellow_tripdata_2022-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-01.parquet
Pobieranie: yellow_tripdata_2022-02.parquet...


yellow_tripdata_2022-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-02.parquet
Pobieranie: yellow_tripdata_2022-03.parquet...


yellow_tripdata_2022-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-03.parquet
Pobieranie: yellow_tripdata_2022-04.parquet...


yellow_tripdata_2022-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-04.parquet
Pobieranie: yellow_tripdata_2022-05.parquet...


yellow_tripdata_2022-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-05.parquet
Pobieranie: yellow_tripdata_2022-06.parquet...


yellow_tripdata_2022-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-06.parquet
Pobieranie: yellow_tripdata_2022-07.parquet...


yellow_tripdata_2022-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-07.parquet
Pobieranie: yellow_tripdata_2022-08.parquet...


yellow_tripdata_2022-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-08.parquet
Pobieranie: yellow_tripdata_2022-09.parquet...


yellow_tripdata_2022-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-09.parquet
Pobieranie: yellow_tripdata_2022-10.parquet...


yellow_tripdata_2022-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-10.parquet
Pobieranie: yellow_tripdata_2022-11.parquet...


yellow_tripdata_2022-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-11.parquet
Pobieranie: yellow_tripdata_2022-12.parquet...


yellow_tripdata_2022-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2022-12.parquet
Pobieranie: yellow_tripdata_2023-01.parquet...


yellow_tripdata_2023-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-01.parquet
Pobieranie: yellow_tripdata_2023-02.parquet...


yellow_tripdata_2023-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-02.parquet
Pobieranie: yellow_tripdata_2023-03.parquet...


yellow_tripdata_2023-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-03.parquet
Pobieranie: yellow_tripdata_2023-04.parquet...


yellow_tripdata_2023-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-04.parquet
Pobieranie: yellow_tripdata_2023-05.parquet...


yellow_tripdata_2023-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-05.parquet
Pobieranie: yellow_tripdata_2023-06.parquet...


yellow_tripdata_2023-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-06.parquet
Pobieranie: yellow_tripdata_2023-07.parquet...


yellow_tripdata_2023-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-07.parquet
Pobieranie: yellow_tripdata_2023-08.parquet...


yellow_tripdata_2023-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-08.parquet
Pobieranie: yellow_tripdata_2023-09.parquet...


yellow_tripdata_2023-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-09.parquet
Pobieranie: yellow_tripdata_2023-10.parquet...


yellow_tripdata_2023-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-10.parquet
Pobieranie: yellow_tripdata_2023-11.parquet...


yellow_tripdata_2023-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-11.parquet
Pobieranie: yellow_tripdata_2023-12.parquet...


yellow_tripdata_2023-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2023-12.parquet
Pobieranie: yellow_tripdata_2024-01.parquet...


yellow_tripdata_2024-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-01.parquet
Pobieranie: yellow_tripdata_2024-02.parquet...


yellow_tripdata_2024-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-02.parquet
Pobieranie: yellow_tripdata_2024-03.parquet...


yellow_tripdata_2024-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-03.parquet
Pobieranie: yellow_tripdata_2024-04.parquet...


yellow_tripdata_2024-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-04.parquet
Pobieranie: yellow_tripdata_2024-05.parquet...


yellow_tripdata_2024-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-05.parquet
Pobieranie: yellow_tripdata_2024-06.parquet...


yellow_tripdata_2024-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-06.parquet
Pobieranie: yellow_tripdata_2024-07.parquet...


yellow_tripdata_2024-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-07.parquet
Pobieranie: yellow_tripdata_2024-08.parquet...


yellow_tripdata_2024-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-08.parquet
Pobieranie: yellow_tripdata_2024-09.parquet...


yellow_tripdata_2024-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-09.parquet
Pobieranie: yellow_tripdata_2024-10.parquet...


yellow_tripdata_2024-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2024-10.parquet
Pobieranie: yellow_tripdata_2024-11.parquet...
Nie udało się pobrać yellow_tripdata_2024-11.parquet: 403 Client Error: Forbidden for url: https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2024-11.parquet
Pobieranie: yellow_tripdata_2024-12.parquet...
Nie udało się pobrać yellow_tripdata_2024-12.parquet: 403 Client Error: Forbidden for url: https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2024-12.parquet
