In [15]:
# importamos las librerias a utilizar 
import numpy as np 
import pandas as pd 
import datetime as dt
import os 
import zipfile

In [16]:
# Ruta de la carpeta que contiene los archivos ZIP
ruta_carpeta = 'C:\\Users\\famil\\OneDrive\\Escritorio\\Proyectos\\BIKES\\Bikes_DA\\Datasets'

# Lista todos los archivos en la carpeta
archivos = os.listdir(ruta_carpeta)

# Filtra la lista para incluir solo los archivos ZIP
archivos_zip = [archivo for archivo in archivos if archivo.endswith('.zip')]

# Crea un diccionario para almacenar los DataFrames
dfs = {}

# Abre cada archivo ZIP y lee su contenido
for archivo_zip in archivos_zip:
    with zipfile.ZipFile(os.path.join(ruta_carpeta, archivo_zip), 'r') as zip_ref:
        # Abre cada archivo de texto dentro del ZIP
        for nombre_archivo in zip_ref.namelist():
            # Ignora los archivos que comienzan con '__MACOSX/'
            if not nombre_archivo.startswith('__MACOSX/'):
                with zip_ref.open(nombre_archivo) as archivo:
                    # Lee el archivo y lo convierte a un DataFrame
                    df = pd.read_csv(archivo)
                    # Almacena el DataFrame en el diccionario
                    dfs[nombre_archivo] = df

In [17]:
dfs.keys()

dict_keys(['202302-divvy-tripdata.csv', '202303-divvy-tripdata.csv', '202304-divvy-tripdata.csv', '202305-divvy-tripdata.csv', '202306-divvy-tripdata.csv', '202307-divvy-tripdata.csv', '202308-divvy-tripdata.csv', '202309-divvy-tripdata.csv', '202310-divvy-tripdata.csv', '202311-divvy-tripdata.csv', '202312-divvy-tripdata.csv', '202401-divvy-tripdata.csv'])

In [18]:
# Lista de meses en orden
meses = ['feb23', 'mar23', 'abr23', 'may23', 'jun23', 'jul23', 'ago23', 'sep23', 'oct23', 'nov23', 'dic23', 'ene24']

# Crea un diccionario para almacenar los nuevos nombres
nuevos_nombres = {}

# Renombra cada DataFrame en el diccionario
for i, (nombre, df) in enumerate(dfs.items()):
    # Crea el nuevo nombre basado en el mes
    nuevo_nombre =  meses[i]
    # Almacena el DataFrame bajo el nuevo nombre
    nuevos_nombres[nuevo_nombre] = df

# Actualiza el diccionario original con los nuevos nombres
dfs = nuevos_nombres


In [19]:
def convertir_tipos(dfs, columnas_fecha, columnas_categoricas):
    # Itera sobre cada DataFrame en el diccionario
    for nombre, df in dfs.items():
        # Itera sobre cada columna de fecha en el DataFrame
        for columna in columnas_fecha:
            # Convierte la columna a un tipo de fecha y hora
            df[columna] = pd.to_datetime(df[columna])
        # Itera sobre cada columna categórica en el DataFrame
        for columna in columnas_categoricas:
            # Convierte la columna a un tipo categórico
            df[columna] = df[columna].astype('category')

    return dfs


In [20]:
# Define las columnas de fecha y categóricas
columnas_fecha = ['started_at', 'ended_at']
columnas_categoricas = ['ride_id', 'rideable_type', 'start_station_name', 'start_station_id', 'end_station_name', 'member_casual']

# Aplica la función al diccionario de DataFrames
dfs = convertir_tipos(dfs, columnas_fecha, columnas_categoricas)


In [21]:
def verificar_duplicados(dfs):
    for nombre, df in dfs.items():
        duplicados = df.duplicated()
        print(f"Dataframe {nombre} tiene {duplicados.sum()} filas duplicadas.")

verificar_duplicados(dfs)

Dataframe feb23 tiene 0 filas duplicadas.
Dataframe mar23 tiene 0 filas duplicadas.
Dataframe abr23 tiene 0 filas duplicadas.
Dataframe may23 tiene 0 filas duplicadas.
Dataframe jun23 tiene 0 filas duplicadas.
Dataframe jul23 tiene 0 filas duplicadas.
Dataframe ago23 tiene 0 filas duplicadas.
Dataframe sep23 tiene 0 filas duplicadas.
Dataframe oct23 tiene 0 filas duplicadas.
Dataframe nov23 tiene 0 filas duplicadas.
Dataframe dic23 tiene 0 filas duplicadas.
Dataframe ene24 tiene 0 filas duplicadas.


In [22]:
def verificar_nulos(dfs):
    for nombre, df in dfs.items():
        nulos = df.isnull().sum()
        print(f"Dataframe {nombre} tiene {nulos.sum()} valores nulos.")

verificar_nulos(dfs)

Dataframe feb23 tiene 104927 valores nulos.
Dataframe mar23 tiene 149062 valores nulos.
Dataframe abr23 tiene 265758 valores nulos.
Dataframe may23 tiene 370434 valores nulos.
Dataframe jun23 tiene 482396 valores nulos.
Dataframe jul23 tiene 509002 valores nulos.
Dataframe ago23 tiene 491488 valores nulos.
Dataframe sep23 tiene 418882 valores nulos.
Dataframe oct23 tiene 348514 valores nulos.
Dataframe nov23 tiene 226504 valores nulos.
Dataframe dic23 tiene 147746 valores nulos.
Dataframe ene24 tiene 80404 valores nulos.


In [23]:
def eliminar_nulos(dfs):
    for nombre, df in dfs.items():
        df.dropna(inplace=True)
        print(f"Valores nulos eliminados del Dataframe {nombre}.")

eliminar_nulos(dfs)

Valores nulos eliminados del Dataframe feb23.
Valores nulos eliminados del Dataframe mar23.
Valores nulos eliminados del Dataframe abr23.
Valores nulos eliminados del Dataframe may23.
Valores nulos eliminados del Dataframe jun23.
Valores nulos eliminados del Dataframe jul23.
Valores nulos eliminados del Dataframe ago23.
Valores nulos eliminados del Dataframe sep23.
Valores nulos eliminados del Dataframe oct23.
Valores nulos eliminados del Dataframe nov23.
Valores nulos eliminados del Dataframe dic23.
Valores nulos eliminados del Dataframe ene24.


In [24]:
# Define una función para convertir las columnas a datetime y calcular ride_time
def calcular_ride_time(df):    
    # Crea la nueva columna
    df['ride_time'] = df['ended_at'] - df['started_at']

    
    return df

In [25]:
# Aplica la función a cada DataFrame en el diccionario
for nombre, df in dfs.items():
    dfs[nombre] = calcular_ride_time(df)

In [26]:
from geopy.distance import geodesic

# Define una función para calcular la distancia
def calcular_distancia(df):
    # Crea una nueva columna con la distancia en km
    df['distance_km'] = df.apply(lambda row: geodesic((row['start_lat'], row['start_lng']), (row['end_lat'], row['end_lng'])).km, axis=1)
    
    return df


In [27]:
# Aplica la función a cada DataFrame en el diccionario
for nombre, df in dfs.items():
    dfs[nombre] = calcular_distancia(df)
    print(f"Distancia calculada para {nombre}")

Distancia calculada para feb23
Distancia calculada para mar23
Distancia calculada para abr23
Distancia calculada para may23
Distancia calculada para jun23
Distancia calculada para jul23
Distancia calculada para ago23
Distancia calculada para sep23
Distancia calculada para oct23
Distancia calculada para nov23
Distancia calculada para dic23
Distancia calculada para ene24


In [28]:
#  aplicamos una funcion lambda a todos los dfs para transformar la columna 'ride_time' de timedelta a tipo object para su escritura correcta en la base de datos
for nombre, df in dfs.items():
    df['ride_time'] = (df['ride_time'].dt.total_seconds() % 86400).apply(lambda x: dt.time(int(x // 3600), int((x % 3600) // 60), int(x % 60)))
    print(f'transformacion de ride_time en {nombre} completa')

transformacion de ride_time en feb23 completa
transformacion de ride_time en mar23 completa
transformacion de ride_time en abr23 completa
transformacion de ride_time en may23 completa
transformacion de ride_time en jun23 completa
transformacion de ride_time en jul23 completa
transformacion de ride_time en ago23 completa
transformacion de ride_time en sep23 completa
transformacion de ride_time en oct23 completa
transformacion de ride_time en nov23 completa
transformacion de ride_time en dic23 completa
transformacion de ride_time en ene24 completa


In [36]:
import pymysql
from sqlalchemy import create_engine
from sqlalchemy import create_engine
from sqlalchemy.orm import sessionmaker
from sqlalchemy.exc import SQLAlchemyError


In [37]:
mydb = pymysql.connect(
  host="localhost",
  user="root",
  password="joshua"
)
mycursor = mydb.cursor()


In [38]:
# Crea la base de datos "bikes_bd" si no existe 
mycursor.execute("CREATE DATABASE IF NOT EXISTS bikes_bd")


1

In [42]:
# Crear una conexión a la base de datos
engine = create_engine('mysql+pymysql://root:joshua@localhost/bikes_bd')

# iteramos solbre el diccionario de DataFrames para crear una tabla en la base de datos por cada DF 
for nombre_tabla, df in dfs.items():
    df.to_sql(nombre_tabla, con=engine, if_exists='replace', index=False)
    print(f"se agrego la tabla: {nombre_tabla} con exito")

se agrego la tabla: feb23 con exito
se agrego la tabla: mar23 con exito
se agrego la tabla: abr23 con exito
se agrego la tabla: may23 con exito
se agrego la tabla: jun23 con exito
se agrego la tabla: jul23 con exito
se agrego la tabla: ago23 con exito
se agrego la tabla: sep23 con exito
se agrego la tabla: oct23 con exito
se agrego la tabla: nov23 con exito
se agrego la tabla: dic23 con exito
se agrego la tabla: ene24 con exito
