In [4]:
import os
import requests
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import LinearRegression, Lasso, Ridge
from sklearn.metrics import root_mean_squared_error

In [6]:
# Download Data

def download_data(url_base: str, file_name: list[str], folder: str) -> None:
    """
    Descarga un archivo desde una URL y lo guarda en una carpeta local.

    Parámetros:
    - url_base (str): La URL base del archivo (debe terminar con / si es necesario).
    - file_name (str): El nombre del archivo a descargar.
    - folder (str): La carpeta local donde se guardará el archivo.

    Retorna:
    - None, guarda el archivo en la carpeta especificada
    """


    os.makedirs(folder, exist_ok=True)     # Crea la carpeta si no existe

    for name in file_name:

        url: str = f'{url_base}{name}'
        file_path: str = os.path.join(folder, name)

        try:
            response = requests.get(url, stream=True)     # Realiza la solicitud HTTP con streaming (útil para archivos grandes)
            response.raise_for_status()  # Lanza error si la descarga falla

            with open(file_path, "wb") as f:
                for chunk in response.iter_content(chunk_size=8192):
                    if chunk:  # Evita escribir bloques vacíos
                        f.write(chunk)

            print(f"Archivo descargado y guardado en: {file_path}")
        
        except requests.exceptions.RequestException as e:
            print(f"Error al descargar el archivo: {e}")

In [None]:
url = 'https://d37ci6vzurychx.cloudfront.net/trip-data/'
file_name = ['yellow_tripdata_2023-01.parquet','yellow_tripdata_2023-02.parquet','yellow_tripdata_2023-03.parquet']

download_data(url,file_name,'TAXI_DATA_FOLDER')

Archivo descargado y guardado en: TAXI_DATA_FOLDER/yellow_tripdata_2023-01.parquet
Archivo descargado y guardado en: TAXI_DATA_FOLDER/yellow_tripdata_2023-02.parquet
Archivo descargado y guardado en: TAXI_DATA_FOLDER/yellow_tripdata_2023-03.parquet


In [9]:
df = pd.read_parquet('TAXI_DATA_FOLDER/yellow_tripdata_2023-01.parquet')
df.head(3)

Unnamed: 0,VendorID,tpep_pickup_datetime,tpep_dropoff_datetime,passenger_count,trip_distance,RatecodeID,store_and_fwd_flag,PULocationID,DOLocationID,payment_type,fare_amount,extra,mta_tax,tip_amount,tolls_amount,improvement_surcharge,total_amount,congestion_surcharge,airport_fee
0,2,2023-01-01 00:32:10,2023-01-01 00:40:36,1.0,0.97,1.0,N,161,141,2,9.3,1.0,0.5,0.0,0.0,1.0,14.3,2.5,0.0
1,2,2023-01-01 00:55:08,2023-01-01 01:01:27,1.0,1.1,1.0,N,43,237,1,7.9,1.0,0.5,4.0,0.0,1.0,16.9,2.5,0.0
2,2,2023-01-01 00:25:04,2023-01-01 00:37:49,1.0,2.51,1.0,N,48,238,1,14.9,1.0,0.5,15.0,0.0,1.0,34.9,2.5,0.0
