Skip to content

Proyecto donde automatizamos el proceso de recolección , exploración, optimización y visualización de datos, como así también el entrenamiento de modelos de Machine Learning utilizando Amazon Web Services (AWS)

Notifications You must be signed in to change notification settings

jrabuffetti/Taxis-en-NYC-Sostenibilidad-y-Eficiencia

 
 

Repository files navigation

PROYECTO TAXIS NYC SOSTENIBILIDAD Y EFICIENCIA

DATAMIND

Transformando Datos en Decisiones

By DATAMIND

DATAMIND


¿Quienes somos?

DataMind es una firma de consultoría de TI con sede en Nueva York, EE. UU., dedicada a brindar soluciones de primer nivel a empresas que buscan optimizar sus estrategias tecnológicas. Con un equipo de profesionales experimentados, ofrecemos servicios personalizados para satisfacer las necesidades únicas de cada cliente, garantizando la eficiencia y el éxito en cada proyecto que emprendemos.

Nuestro equipo de expertos en Data Science se especializa en convertir los datos crudos en insights accionables que impulsan la toma de decisiones inteligentes y la optimización de procesos.

En el corazón de nuestro enfoque está el análisis de datos avanzado, donde desentrañamos los secretos ocultos en los números, utilizando técnicas estadísticas y de machine learning para revelar tendencias y patrones que de otro modo pasarían desapercibidos en el tumulto de información.

Nuestra habilidad para la visualización de datos es como un artista que da vida a un lienzo en blanco. Transformamos números complejos en gráficos claros y comprensibles, tejiendo historias visuales que facilitan la interpretación y el análisis de la información.

Pero no nos detenemos ahí. Nos adentramos en la esencia misma de su operación, buscando oportunidades de mejora y eficiencia. Con nuestra especialidad en optimización de procesos, identificamos cuellos de botella y áreas de mejora, allanando el camino hacia una operación más eficiente y rentable.

Y no somos meros espectadores en este viaje de descubrimiento. Nos comprometemos a capacitar y apoyar a su equipo, no solo entregando informes, sino también impartiendo conocimiento y herramientas para que puedan tomar decisiones informadas y basadas en datos, construyendo así una cultura empresarial centrada en la inteligencia y la acción.

Nuestros proyectos realizados:

"DataMind se enorgullece de contar con un extenso catálogo de proyectos exitosos, respaldados por la alta satisfacción de nuestros clientes, como lo demuestran los comentarios positivos recibidos. Uno de nuestros proyectos más recientes y destacados es TAXIS NYC: Sostenibilidad y Eficiencia.

El proyecto TAXIS NYC: Sostenibilidad y Eficiencia ha sido recibido con entusiasmo y ha generado resultados tangibles en términos de reducción de emisiones, optimización de costos y mejora de la experiencia del cliente. Estamos comprometidos a continuar innovando y brindando soluciones de vanguardia que impulsen el éxito de nuestros clientes y contribuyan al bienestar de la comunidad en general."

Análisis del proyecto taxis en Nueva York:

El proyecto de TAXIS NYC: Sostenibilidad y Eficiencia ofrece un análisis cuantitativo y cualitativo de los movimientos diarios de taxis en la ciudad de Nueva York y su relación con distintas variables como el clima, la contaminación o el horario.

El transporte terrestre es causante del 90% de las emisiones del sector en la región, siendo un 50% producido por transporte de pasajeros.

Relación entre el transporte de pasajeros con automóviles y la calidad del aire: La movilidad urbana actual está produciendo una serie de conflictos ambientales advertidos a nivel global; la mayor parte vinculados al uso de transporte motorizado, responsable del consumo energético, la fragmentación y ocupación del territorio por la construcción de vialidades, además de contaminación acústica y atmosférica.

Relación entre el transporte de pasajeros con automóviles y la contaminación sonora: Los vehículos son considerados importantes agentes de contaminación ambiental. El panorama diario de las ciudades de más de un millón de habitantes es la congestión vial, producto de la cantidad de vehículos privados en donde se trasladan en promedio 1.2 personas por unidad; diariamente se pierden millones de horas/hombre, los ingresos de las personas disminuyen por los costos crecientes del transporte, y se incrementan los niveles de contaminación ambiental y auditiva que afectan la salud.

Implementación de vehículos eléctricos en flotas de transporte de pasajeros: La electromovilidad ya es una realidad y existen casos de implementación de vehículos eléctricos en flotas de transporte de pasajeros. Cada uno de los casos presenta las experiencias de implementación de vehículos livianos y pesados, de flotas públicas, privadas y usuarios particulares.

La misión es evaluar exhaustivamente los datos relacionados con la operación de taxis, las emisiones de CO2 y las tendencias del mercado de vehículos eléctricos. Este análisis permitirá a la empresa tomar decisiones informadas que contribuyan a la reducción de la contaminación y, al mismo tiempo, maximizar sus beneficios económicos.

Un poco de historia de los Taxis en NYC:

La ciudad de Nueva York es un lugar muy popular. Más de 65 millones de personas visitan Nueva York al año y la mayoría de esos visitantes tienden a explorar (y quedarse) Manhattan.

Como tal, los otros cuatro distritos de la ciudad a menudo quedan descuidados. Servicios, como los taxis, están cada vez menos disponibles para las personas que trabajan y juegan fuera de Manhattan (y las zonas populares de Brooklyn). Tomar un taxi al azar es mucho más difícil en el corazón de Queens que en Midtown.

La falta de taxis en las zonas menos visitadas parecía injusta para los residentes (¡imaginándose que necesitaban un viaje de emergencia al hospital!).

En el verano de 2013, la ciudad de Nueva York creó un programa para mitigar una discrepancia en el servicio de taxi para las partes menos visitadas de Nueva York: Harlem, Queens, el Bronx y Brooklyn. El nuevo programa implementó taxis ecológicos en Nueva York que se conocieron oficialmente como Boro Taxis.

Según la Comisión de Transporte y Limusinas (TLC) de la Ciudad de Nueva York: El objetivo del programa Boro Taxi es mejorar el acceso al transporte callejero en los cinco condados, especialmente para las personas con discapacidades y las personas que viven o pasan tiempo en áreas históricas de la ciudad de Nueva York. desatendidos por la industria del taxi amarillo.

En la ciudad de Nueva York, los taxis verdes y amarillos son bastante comunes. Los taxis amarillos son icónicos y se encuentran principalmente en Manhattan, mientras que los taxis verdes, conocidos como “Boro Taxis”, operan principalmente en las áreas exteriores de Manhattan, como Brooklyn, Queens, el Bronx y Staten Island. Ambos tipos de taxis son parte del esfuerzo por ofrecer opciones de transporte sostenibles y reducir la contaminación del aire y sonora en la ciudad. 🚖🌿

¿Cuál es la diferencia entre los taxis amarillos y verdes en Nueva York?

La mayor diferencia entre los taxis amarillos y verdes en la ciudad de Nueva York es el punto de partida del viaje. Piénselo de esta manera: los taxis amarillos no tienen restricciones, pueden recoger y dejar al pasajero donde quiera (siempre que sea un lugar seguro, por supuesto). Los taxis verdes, por el contrario, tienen algunas reglas.
Los taxis verdes sólo pueden recoger pasajeros en Harlem (al sur de West 110th St y East 96th St), Queens, el Bronx y Brooklyn. Pueden dejar a los pasajeros donde sea necesario. Los taxis verdes pueden dejar a los pasajeros en cualquier lugar de la ciudad de Nueva York (los cinco distritos).

¿Cómo funciona el programa Taxi Verde?

Un taxi verde puede recoger pasajeros fuera de Manhattan pero no puede recoger pasajeros dentro de Manhattan. Los Boro Taxis se pueden tomar en la calle o programar con anticipación, siempre que el punto de recogida esté fuera de la zona de exclusión de Manhattan.

Aparte del lugar de recogida y el color, todas las demás características del taxi verde de Nueva York son idénticas a las de los taxis amarillos. Los Boro Taxis están equipados con lectores de tarjetas de crédito/débito, medidores, luces de techo y cámaras.

La tarifa con taxímetro de un taxi verde en Nueva York es la misma que la tarifa con taxímetro de un taxi amarillo.

DATAMIND

Desarrollo del proyecto

El departamento de data engineer:

  1. Análisis de Datos (ETL y EDA) en Local: Se realizó un exhaustivo análisis exploratorio de datos (EDA) y transformación de datos (ETL) en un entorno local. Esto incluyó la exploración de datasets para seleccionar columnas relevantes y definir tipos de datos, garantizando una preparación precisa para el análisis posterior. Además, se establecieron objetivos claros del proyecto antes de iniciar este proceso, asegurando una dirección clara en la exploración de datos.

  2. Web Scraping para Obtener Datos: Se aplicó web scraping en la página de la Comisión de Taxis y Limusinas de Nueva York para obtener enlaces de descarga de conjuntos de datos de viajes en taxi. Esta técnica permitió recopilar datos relevantes para el proyecto, como los conjuntos de datos correspondientes al año 2023 y enero de 2024. También se realizó transformación de datos (ETL) y análisis exploratorio de datos (EDA) en el entorno local, facilitando la comprensión y manipulación de los datos.

El departamento de data analyst:

  1. Creación de Dashboard Power BI: Se desarrolló un dashboard en Power BI para visualizar y analizar los datos recopilados y procesados localmente. Este dashboard proporciona una vista clara de los KPIs fundamentales, como las emisiones de CO2 por milla recorrida y la reducción anual de emisiones. La visualización de datos a través de Power BI facilita la interpretación de resultados y la toma de decisiones informadas.

El departamento de data scientist:

  1. Modelo de Machine Learning (RandomForest Regressor): Se seleccionó el modelo RandomForest Regressor para predecir la demanda de taxis en diferentes distritos de Nueva York. Este modelo fue elegido por su capacidad para manejar relaciones no lineales, regularización incorporada mediante GridSearchCV, manejo eficiente de datos faltantes y escalabilidad adecuada para conjuntos de datos de tamaño moderado. Se detalló la fórmula matemática y la lógica de uso del modelo, así como el proceso de entrenamiento, predicción, evaluación y ajuste fino mediante GridSearchCV. Además, se crearon funciones para el despliegue del modelo tanto en archivos locales como en la plataforma de AWS.

En este proyecto, se emplearon servicios de Amazon Web Services (AWS) para establecer un Data Warehouse dedicado al almacenamiento y procesamiento de datos de viajes en taxi en Nueva York. Se utilizó AWS Lambda para realizar web scraping en la página de la Comisión de Taxis y Limusinas, extrayendo datos de viajes realizados en 2023 y almacenándolos en un bucket de AWS S3. Se programó la ejecución de la función Lambda mensualmente mediante AWS EventBridge.

Posteriormente, se utilizó AWS Glue para automatizar la normalización de datos, programando la ejecución de esta tarea también mensualmente con AWS EventBridge. Se implementó otra función Lambda para renombrar los archivos resultantes y almacenarlos en un bucket específico. La validación de datos se realizó con un desencadenador de SNS de AWS, enviando notificaciones por correo electrónico al administrador de la cuenta.

Una vez en el bucket del Data Warehouse, se ejecutaron consultas SQL en AWS Athena para obtener información de los datos almacenados. La actualización continua de datos se garantizó mediante una función Lambda que tomaba nuevos registros de viajes y los almacenaba en el bucket del Data Warehouse.

Para visualizar los datos, se empleó Power BI, conectándolo a AWS Athena con el conector certificado Simba Athena para crear paneles interactivos con visualizaciones en tiempo real.

Además, se utilizó AWS SageMaker para entrenar modelos de Machine Learning, aprovechando su capacidad para desarrollar modelos personalizados y llevarlos a producción de manera eficiente. SageMaker permitió trabajar con una amplia gama de algoritmos para abordar diversas necesidades de análisis y predicción.

CONCLUSIÓN

  • Los taxis eléctricos representan una alternativa viable y sostenible para el servicio de taxi, contribuyendo de manera significativa a la reducción de la contaminación ambiental y promoviendo un futuro más verde.
  • La inversión en esta tecnología no solo beneficia al medio ambiente, sino que también abre nuevas oportunidades para el desarrollo económico y la creación de empleos.

Adicionales del proyecto:

Prediccion de demanda de pasajeros en Streamlit
API de predicción de demanda de pasajeros en FastAPI
Diccionario de Datasets usados

Tecnologías utilizadas:

Python Pandas Numpy Pyarrow ScikitLearn XGBoost Streamlit FastAPI PyAthena Boto3 S3FS Tkinter Pyinstaller BeautifulSoup Plotly Pydantic Joblib Power BI Amazon S3 AWS Athena AWS Lambda AWS EventBridge AWS Glue AWS Sagemaker AWS Quicksight Pyspark

Equipo:

  • Natalia Paez (Data Engineer) LinkedIn

  • Juan Rabuffetti (Data Engineer) LinkedIn

  • Maria Eva Bichi (Data Analyst) LinkedIn

  • Mayk Quispe (Data Scientist) LinkedIn



GRACIAS POR LEER HASTA EL FINAL, ESTAMOS DISPONIBLES PARA CUALQUIER CONSULTA : Página Web DataMind

About

Proyecto donde automatizamos el proceso de recolección , exploración, optimización y visualización de datos, como así también el entrenamiento de modelos de Machine Learning utilizando Amazon Web Services (AWS)

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Jupyter Notebook 99.4%
  • Python 0.6%