# Etap 1 - Pozyskanie danych

## Dataset: Yellow Taxi Trip Records

Dane użyte w tym projekcie pochodzą z serwisu NYC Taxi & Limousine Commission. Dane te zawierają informacje o przejazdach taksówek w Nowym Jorku, takie jak np. miejsca rozpoczęcia i zakończenia przejazdu, czas trwania oraz odległość itp.

## Licencja

`Dane zostały zebrane i przekazane do NYC Taxi and Limousine Commission (TLC) przez dostawców technologii autoryzowanych w ramach programów Taxicab & Livery Passenger Enhancement Programs (TPEP/LPEP). Dane dotyczące przejazdów nie zostały utworzone przez TLC, a TLC nie składa żadnych oświadczeń co do ich dokładności.`

[https://www.nyc.gov](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page)

## Spis treści
1. [Import bibliotek](#import-bibliotek)
2. [Funkcja pobierająca](#funkcja-pobierająca)
3. [Pobieranie danych](#pobieranie-danych)

## Import bibliotek

In [4]:
import os
import requests
from tqdm.notebook import tqdm

## Funkcja pobierająca

In [5]:
def download_taxi_data(start_year, end_year, folder='data'):
    base_url = "https://d37ci6vzurychx.cloudfront.net/trip-data"
    os.makedirs(folder, exist_ok=True)
    
    for year in range(start_year, end_year + 1):
        for month in range(1, 13):
            file_name = f'yellow_tripdata_{year}-{month:02d}.parquet'
            file_path = os.path.join(folder, file_name)
            url = f"{base_url}/{file_name}"
            
            if os.path.exists(file_path):
                print(f"Plik {file_name} już istnieje. Pomijanie...")
                continue
            
            print(f"Pobieranie: {file_name}...")
            try:
                response = requests.get(url, stream=True)
                response.raise_for_status()
                
                with open(file_path, 'wb') as file:
                    for chunk in tqdm(response.iter_content(chunk_size=1024), desc=file_name, unit="KB"):
                        file.write(chunk)
                
                print(f"Zapisano: {file_name}")
            except requests.exceptions.RequestException as e:
                print(f"Nie udało się pobrać {file_name}: {e}")

## Pobieranie danych

In [7]:
download_taxi_data(start_year=2009, end_year=2016)

Plik yellow_tripdata_2009-01.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-02.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-03.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-04.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-05.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-06.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-07.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-08.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-09.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-10.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-11.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2009-12.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-01.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-02.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-03.parquet już istnieje. Pomijanie...
Plik yellow_tripdata_2010-04.parquet już

yellow_tripdata_2011-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-01.parquet
Pobieranie: yellow_tripdata_2011-02.parquet...


yellow_tripdata_2011-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-02.parquet
Pobieranie: yellow_tripdata_2011-03.parquet...


yellow_tripdata_2011-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-03.parquet
Pobieranie: yellow_tripdata_2011-04.parquet...


yellow_tripdata_2011-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-04.parquet
Pobieranie: yellow_tripdata_2011-05.parquet...


yellow_tripdata_2011-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-05.parquet
Pobieranie: yellow_tripdata_2011-06.parquet...


yellow_tripdata_2011-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-06.parquet
Pobieranie: yellow_tripdata_2011-07.parquet...


yellow_tripdata_2011-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-07.parquet
Pobieranie: yellow_tripdata_2011-08.parquet...


yellow_tripdata_2011-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-08.parquet
Pobieranie: yellow_tripdata_2011-09.parquet...


yellow_tripdata_2011-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-09.parquet
Pobieranie: yellow_tripdata_2011-10.parquet...


yellow_tripdata_2011-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-10.parquet
Pobieranie: yellow_tripdata_2011-11.parquet...


yellow_tripdata_2011-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-11.parquet
Pobieranie: yellow_tripdata_2011-12.parquet...


yellow_tripdata_2011-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2011-12.parquet
Pobieranie: yellow_tripdata_2012-01.parquet...


yellow_tripdata_2012-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-01.parquet
Pobieranie: yellow_tripdata_2012-02.parquet...


yellow_tripdata_2012-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-02.parquet
Pobieranie: yellow_tripdata_2012-03.parquet...


yellow_tripdata_2012-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-03.parquet
Pobieranie: yellow_tripdata_2012-04.parquet...


yellow_tripdata_2012-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-04.parquet
Pobieranie: yellow_tripdata_2012-05.parquet...


yellow_tripdata_2012-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-05.parquet
Pobieranie: yellow_tripdata_2012-06.parquet...


yellow_tripdata_2012-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-06.parquet
Pobieranie: yellow_tripdata_2012-07.parquet...


yellow_tripdata_2012-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-07.parquet
Pobieranie: yellow_tripdata_2012-08.parquet...


yellow_tripdata_2012-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-08.parquet
Pobieranie: yellow_tripdata_2012-09.parquet...


yellow_tripdata_2012-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-09.parquet
Pobieranie: yellow_tripdata_2012-10.parquet...


yellow_tripdata_2012-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-10.parquet
Pobieranie: yellow_tripdata_2012-11.parquet...


yellow_tripdata_2012-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-11.parquet
Pobieranie: yellow_tripdata_2012-12.parquet...


yellow_tripdata_2012-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2012-12.parquet
Pobieranie: yellow_tripdata_2013-01.parquet...


yellow_tripdata_2013-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-01.parquet
Pobieranie: yellow_tripdata_2013-02.parquet...


yellow_tripdata_2013-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-02.parquet
Pobieranie: yellow_tripdata_2013-03.parquet...


yellow_tripdata_2013-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-03.parquet
Pobieranie: yellow_tripdata_2013-04.parquet...


yellow_tripdata_2013-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-04.parquet
Pobieranie: yellow_tripdata_2013-05.parquet...


yellow_tripdata_2013-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-05.parquet
Pobieranie: yellow_tripdata_2013-06.parquet...


yellow_tripdata_2013-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-06.parquet
Pobieranie: yellow_tripdata_2013-07.parquet...


yellow_tripdata_2013-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-07.parquet
Pobieranie: yellow_tripdata_2013-08.parquet...


yellow_tripdata_2013-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-08.parquet
Pobieranie: yellow_tripdata_2013-09.parquet...


yellow_tripdata_2013-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-09.parquet
Pobieranie: yellow_tripdata_2013-10.parquet...


yellow_tripdata_2013-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-10.parquet
Pobieranie: yellow_tripdata_2013-11.parquet...


yellow_tripdata_2013-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-11.parquet
Pobieranie: yellow_tripdata_2013-12.parquet...


yellow_tripdata_2013-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2013-12.parquet
Pobieranie: yellow_tripdata_2014-01.parquet...


yellow_tripdata_2014-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-01.parquet
Pobieranie: yellow_tripdata_2014-02.parquet...


yellow_tripdata_2014-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-02.parquet
Pobieranie: yellow_tripdata_2014-03.parquet...


yellow_tripdata_2014-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-03.parquet
Pobieranie: yellow_tripdata_2014-04.parquet...


yellow_tripdata_2014-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-04.parquet
Pobieranie: yellow_tripdata_2014-05.parquet...


yellow_tripdata_2014-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-05.parquet
Pobieranie: yellow_tripdata_2014-06.parquet...


yellow_tripdata_2014-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-06.parquet
Pobieranie: yellow_tripdata_2014-07.parquet...


yellow_tripdata_2014-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-07.parquet
Pobieranie: yellow_tripdata_2014-08.parquet...


yellow_tripdata_2014-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-08.parquet
Pobieranie: yellow_tripdata_2014-09.parquet...


yellow_tripdata_2014-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-09.parquet
Pobieranie: yellow_tripdata_2014-10.parquet...


yellow_tripdata_2014-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-10.parquet
Pobieranie: yellow_tripdata_2014-11.parquet...


yellow_tripdata_2014-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-11.parquet
Pobieranie: yellow_tripdata_2014-12.parquet...


yellow_tripdata_2014-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2014-12.parquet
Pobieranie: yellow_tripdata_2015-01.parquet...


yellow_tripdata_2015-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-01.parquet
Pobieranie: yellow_tripdata_2015-02.parquet...


yellow_tripdata_2015-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-02.parquet
Pobieranie: yellow_tripdata_2015-03.parquet...


yellow_tripdata_2015-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-03.parquet
Pobieranie: yellow_tripdata_2015-04.parquet...


yellow_tripdata_2015-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-04.parquet
Pobieranie: yellow_tripdata_2015-05.parquet...


yellow_tripdata_2015-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-05.parquet
Pobieranie: yellow_tripdata_2015-06.parquet...


yellow_tripdata_2015-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-06.parquet
Pobieranie: yellow_tripdata_2015-07.parquet...


yellow_tripdata_2015-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-07.parquet
Pobieranie: yellow_tripdata_2015-08.parquet...


yellow_tripdata_2015-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-08.parquet
Pobieranie: yellow_tripdata_2015-09.parquet...


yellow_tripdata_2015-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-09.parquet
Pobieranie: yellow_tripdata_2015-10.parquet...


yellow_tripdata_2015-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-10.parquet
Pobieranie: yellow_tripdata_2015-11.parquet...


yellow_tripdata_2015-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-11.parquet
Pobieranie: yellow_tripdata_2015-12.parquet...


yellow_tripdata_2015-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2015-12.parquet
Pobieranie: yellow_tripdata_2016-01.parquet...


yellow_tripdata_2016-01.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-01.parquet
Pobieranie: yellow_tripdata_2016-02.parquet...


yellow_tripdata_2016-02.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-02.parquet
Pobieranie: yellow_tripdata_2016-03.parquet...


yellow_tripdata_2016-03.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-03.parquet
Pobieranie: yellow_tripdata_2016-04.parquet...


yellow_tripdata_2016-04.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-04.parquet
Pobieranie: yellow_tripdata_2016-05.parquet...


yellow_tripdata_2016-05.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-05.parquet
Pobieranie: yellow_tripdata_2016-06.parquet...


yellow_tripdata_2016-06.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-06.parquet
Pobieranie: yellow_tripdata_2016-07.parquet...


yellow_tripdata_2016-07.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-07.parquet
Pobieranie: yellow_tripdata_2016-08.parquet...


yellow_tripdata_2016-08.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-08.parquet
Pobieranie: yellow_tripdata_2016-09.parquet...


yellow_tripdata_2016-09.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-09.parquet
Pobieranie: yellow_tripdata_2016-10.parquet...


yellow_tripdata_2016-10.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-10.parquet
Pobieranie: yellow_tripdata_2016-11.parquet...


yellow_tripdata_2016-11.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-11.parquet
Pobieranie: yellow_tripdata_2016-12.parquet...


yellow_tripdata_2016-12.parquet: 0KB [00:00, ?KB/s]

Zapisano: yellow_tripdata_2016-12.parquet
