<a href="https://colab.research.google.com/github/jcardonamde/datasets_ml/blob/main/03_datasets_ml.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Proyecto 2 - Parte 1 (base)**

La tarea para esta semana es proponer dos posibles conjuntos de datos que les gustaría trabajar para el proyecto 2.  

Escogerán el conjunto de datos de primera opción, y un conjunto de datos de reserva en caso de que el primero propuesto no se apruebe.  

Estos datos pueden proceder de cualquier fuente y ser sobre cualquier tema con estas limitaciones:

* los datos deben estar disponibles para su uso (es su responsabilidad garantizar que la licencia indique que pueden utilizarlos)
* los datos deben ser adecuados para un ambiente profesional
* los datos NO deben contener información personal
* los datos NO deben ser de un conjunto de datos usados en alguna tarea o clase del curso

Asegúrense de seleccionar un conjunto de datos con el que sea razonable trabajar en el tiempo que nos queda. Piensen qué preguntas podrían responder con el conjunto de datos que seleccionen. 

Deben proponer dos conjuntos de datos que tengan cada uno un componente de aprendizaje supervisado. Pueden elegir un problema de regresión o clasificación para cada conjunto de datos propuesto.  



---



## **Primera opción: conjunto de datos 1**

**1) Fuente de datos**



Este es un conjunto de datos principal publicado por la Comisión de Taxis y Limusinas de la Ciudad de Nueva York, que incluye la hora de recogida, las coordenadas geográficas, la cantidad de pasajeros y varias otras variables.

La fuente de datos fue buscada y descargada desde el sitio web Kaggle. En la publicación asociada a la tematica en cuestión. ([Ver fuente](https://www.kaggle.com/c/nyc-taxi-trip-duration))


In [2]:
# Importamos las bibliotecas requeridas para el manejo y revisión inicial de nuestros datos
import pandas as pd
import numpy as np

In [3]:
# Importamos el data set y lo visualizamos en un DataFrame
filename = ('/content/drive/MyDrive/Colab Notebooks/Codificación de Dojo/Semana07/Datasets/nyc_taxi_trip_duration.csv')
df = pd.read_csv(filename)
df.head()

Unnamed: 0,id,vendor_id,pickup_datetime,dropoff_datetime,passenger_count,pickup_longitude,pickup_latitude,dropoff_longitude,dropoff_latitude,store_and_fwd_flag,trip_duration
0,id1080784,2,2016-02-29 16:40:21,2016-02-29 16:47:01,1,-73.953918,40.778873,-73.963875,40.771164,N,400
1,id0889885,1,2016-03-11 23:35:37,2016-03-11 23:53:57,2,-73.988312,40.731743,-73.994751,40.694931,N,1100
2,id0857912,2,2016-02-21 17:59:33,2016-02-21 18:26:48,2,-73.997314,40.721458,-73.948029,40.774918,N,1635
3,id3744273,2,2016-01-05 09:44:31,2016-01-05 10:03:32,6,-73.96167,40.75972,-73.956779,40.780628,N,1141
4,id0232939,1,2016-02-17 06:42:23,2016-02-17 06:56:31,1,-74.01712,40.708469,-73.988182,40.740631,N,848


**2) Breve descripción de datos**

En algún momento u otro, casi todos hemos usado un un Uber u otro servicio de transporte en esta era digital para dar un paseo. Los servicios de transporte compartido son servicios que utilizan plataformas habilitadas en línea para conectarse entre pasajeros y conductores locales que utilizan sus vehículos personales.

En la mayoría de los casos son un método cómodo para el transporte puerta a puerta. Por lo general, son más baratos que usar taxis con licencia. Ejemplos de servicios de transporte compartido incluyen Uber, Cabify, Beat, Didi, etc.

Para mejorar la eficiencia de los sistemas de despacho de taxis para dichos servicios, es importante poder predecir cuánto tiempo un conductor tendrá ocupado su taxi. Si un despachador supiera aproximadamente cuándo un taxista terminaría su viaje actual, podría identificar mejor qué conductor asignar a cada solicitud de recogida.



El diccionario de datos es el siguiente:

* id: un identificador único para cada viaje. Esta es una columna de datos nominales.

* id_vendedor: un código que indica el proveedor asociado con el registro de viaje. Esta es una columna de datos nominales.

* pickup_datetime : la fecha y la hora en que comenzó el viaje.

* dropoff_datetime: la fecha y la hora en que finalizó el viaje

* Passenger_count: el número de pasajeros en el vehículo (valor ingresado por el conductor)

* pickup_longitude: fecha y hora en que se activó el medidor

* pickup_latitude: fecha y hora en que se desconectó el medidor

* dropoff_longitude : la longitud en la que se desconectó el medidor

* dropoff_latitude : la latitud donde se desconectó el medidor

* store_and_fwd_flag: esta bandera indica si el registro de viaje se mantuvo en la memoria del vehículo antes de enviarlo al proveedor porque el vehículo no tenía una conexión con el servidor (Y = almacenar y reenviar; N = no es un viaje de almacenamiento y reenvío). Esta columna es categórico

* trip_duration : (objetivo) duración del viaje en segundos

**3) ¿Cuál es el objetivo?**

El objetivo de este proyecto es predecir la duración total de los viajes en taxi en la ciudad de Nueva York.

**4) ¿Este es un problema de clasificación o regresión?**

Es un problema que se debe abarcar desde un modelo de regresión.

**5) ¿Cuántas características hay?**

In [4]:
# Revisamos el número y tipo de datos por Columna, al igual que posibles datos faltantes que se tengan
print(df.info(), '\n')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 729322 entries, 0 to 729321
Data columns (total 11 columns):
 #   Column              Non-Null Count   Dtype  
---  ------              --------------   -----  
 0   id                  729322 non-null  object 
 1   vendor_id           729322 non-null  int64  
 2   pickup_datetime     729322 non-null  object 
 3   dropoff_datetime    729322 non-null  object 
 4   passenger_count     729322 non-null  int64  
 5   pickup_longitude    729322 non-null  float64
 6   pickup_latitude     729322 non-null  float64
 7   dropoff_longitude   729322 non-null  float64
 8   dropoff_latitude    729322 non-null  float64
 9   store_and_fwd_flag  729322 non-null  object 
 10  trip_duration       729322 non-null  int64  
dtypes: float64(4), int64(3), object(4)
memory usage: 61.2+ MB
None 



In [6]:
# Examinamos el número de valores únicos entre las columnas con las cuales estamos trabajando
df.nunique()

id                    729322
vendor_id                  2
pickup_datetime       709359
dropoff_datetime      709308
passenger_count            9
pickup_longitude       19729
pickup_latitude        39776
dropoff_longitude      27892
dropoff_latitude       53579
store_and_fwd_flag         2
trip_duration           6296
dtype: int64

In [5]:
# Verifico la nomenclatura de las columnas
df.columns

Index(['id', 'vendor_id', 'pickup_datetime', 'dropoff_datetime',
       'passenger_count', 'pickup_longitude', 'pickup_latitude',
       'dropoff_longitude', 'dropoff_latitude', 'store_and_fwd_flag',
       'trip_duration'],
      dtype='object')

Hay 11 caracteristicas dentro del dataset.

* 6 características numéricas, la gran mayoria de tipo float64.
* 2 características nominales (Columnas id y vendor_id).
* 2 características de tipo objeto que podrian convertirsen y tratarse como categorias numérica (Columnas pickup_datetime y dropoff_datetime).
* 1 características ordinal.

**6) ¿Cuántas filas de datos hay?**

In [7]:
# Revisamos la composición del dataset
df.shape

(729322, 11)

Hay 11 columnas y 729.322 filas por columna.

**7) ¿Qué retos, si es que hay alguno, prevén en la limpieza, exploración o modelización con este conjunto de datos?**

Los retos que puedo identificar al momento seria identificar posibles datos duplicados, datos con valores de 0 en ciertas columnas que sean importantes para el análisis, identificar las columnas que no incidan en el proceso hacia la predicción y quedan eliminarse, analizar si se requiere una conversión para las columnas que manejan formato de tipo fecha.



---



## **Primera opción: conjunto de datos 2**

1) Fuente de datos

El Standard and Poor's 500 o S&P 500 es el índice de referencia financiero más famoso del mundo. Este índice bursátil rastrea el desempeño de 500 grandes empresas que cotizan en las bolsas de valores de los Estados Unidos. Al 31 de diciembre de 2020, se invirtieron más de $5,4 billones en activos atados al desempeño de este índice.

La fuente de datos fue buscada y descargada desde el sitio web Kaggle. ([Ver fuente](https://www.kaggle.com/datasets/camnugent/sandp500))

**2) Breve descripción de datos**

Los datos bursátiles pueden ser interesantes de analizar y, como incentivo adicional, los modelos predictivos sólidos pueden tener grandes beneficios financieros. Pero puede ser difícil encontrar un conjunto de datos amplio y bien estructurado sobre una gran variedad de empresas. El dataset que se desea usar para esta actividad es un conjunto de datos con los precios históricos de las acciones (entre 5 años del 2013-2018) de todas las empresas que se encuentran actualmente en el índice S&P 500.





El diccionario de datos es el siguiente:

*   **Date:** en formato a-mm-dd (tipo de dato Object)
*   **Open:** precio de la acción en la apertura del mercado (se trata de datos de la Bolsa de Valores de Nueva York, por lo que todos están en USD) (tipo de dato Int)
* **High:** Precio más alto alcanzado en el día (tipo de dato Flotante)
* **Low:** Precio más bajo alcanzado en el día (tipo de dato Flotante)
* **Close:** Precio más bajo alcanzado en el día (tipo de dato Flotante)
* **Volumen:** Número de acciones negociadas (tipo de dato Int)
* **Name:** el nombre del ticker de la acción (tipo de dato Object)

3) ¿Cuál es el objetivo?

El objetivo de este proyecto es predecir el precio futuro de los activos mas representativos del S&P 500.