# Datasets potenciales - Proyecto Final - Curso Data Science - CoderHouse

**Autor:** Yojan Andrés Alcaraz Pérez

**Fecha:** Enero 14 de 2023.


En este archivo se presentan, como candidatos para el proyecto final del curso Data Science de CoderHouse tres datasets y una breve descripción de cada una de las variables que podrían ser más relevantes.

In [2]:
# Importación de las librerías necesarias:
import pandas as pd

## Dataset 1

El conjunto de datos *hotel.res*, encontrado en la página de datasets abiertos **Kaggle** como "Hotel Reservations Dataset" (https://www.kaggle.com/datasets/ahsan81/hotel-reservations-classification-dataset?resource=download), en crudo contiene 36275 observaciones de 19 variables. Kaggle argumenta a modo de contextualización de la base de datos que el hecho de que el cliente pueda realizar operaciones en línea un número significativo de reservas de hotel se cancelan debido a cancelaciones o no presentación de los clientes, hechos que a menudo se facilitan con la opción de hacerlo de forma gratuita o, preferiblemente, a un bajo costo, lo que es beneficioso para los huéspedes del hotel, pero es una forma menos deseable y posiblemente rentable para los hoteles. Por ello, junto con la siguiente descripción de las variables de la base de datos (se describen las que podrían ser más relevantes estadísticamente), Kaggle deja al usurario que utilice esta base de datos el reto de predecir si el cliente cumplirá con la reserva o la cancelará:

- no_of_adults : Número de adultos en la reserva 
- no_of_children : Número de niños en la reserva.
- no_of_weekend_nights : Número de noches de fin de semana (sábado o domingo) que el huésped se hospedó o reservó para quedarse en el hotel.
- no_of_week_nights : Número de noches de la semana (de lunes a viernes) que el huésped se hospedó o reservó para quedarse en el hotel
- type_of_meal_plan : Tipo de plan de comidas reservado por el cliente.
- required_car_parking_space : ¿Necesita el cliente una plaza de aparcamiento? (0 - No, 1- Sí)
- room_type_reservad : Tipo de habitación reservada por el cliente. Los valores son cifrados (codificados) por INN Hotels.
- lead_time : Número de días entre la fecha de reserva y la fecha de llegada
- arribo_año : Año de la fecha de llegada
- llegada_mes : Mes de la fecha de llegada
- fecha_llegada : Fecha del mes
- no_of_previous_cancellations : Número de reservas anteriores que fueron canceladas por el cliente antes de la reserva actual
- no_of_previous_bookings_not_canceled : Número de reservas anteriores no canceladas por el cliente antes de la reserva actual
- avg_price_per_room : Precio medio por día de la reserva; los precios de las habitaciones son dinámicos. (en euros)
- no_of_special_requests : Número total de solicitudes especiales realizadas por el cliente (por ejemplo, piso alto, vista desde la habitación, etc.)
- booking_status : Indicador que indica si la reserva fue cancelada o no.

Dado esto, el objetivo sería entonces asumir el reto propuesto por Kaggle y predecir si el cliente cumplirá con la reserva o la cancelará.




In [3]:
# Lectura de la base de datos:
hotel_res = pd.read_csv("/workspaces/DSCH-Desafios/data/hotel_reservations.csv")

In [4]:
# Tamaño de la base de datos:
hotel_res.shape

(36275, 19)

La base de datos tiene 36275 filas y 19 columnas.

In [5]:
# Encabezado y primeras filas de la base de datos:
hotel_res.head()

Unnamed: 0,Booking_ID,no_of_adults,no_of_children,no_of_weekend_nights,no_of_week_nights,type_of_meal_plan,required_car_parking_space,room_type_reserved,lead_time,arrival_year,arrival_month,arrival_date,market_segment_type,repeated_guest,no_of_previous_cancellations,no_of_previous_bookings_not_canceled,avg_price_per_room,no_of_special_requests,booking_status
0,INN00001,2,0,1,2,Meal Plan 1,0,Room_Type 1,224,2017,10,2,Offline,0,0,0,65.0,0,Not_Canceled
1,INN00002,2,0,2,3,Not Selected,0,Room_Type 1,5,2018,11,6,Online,0,0,0,106.68,1,Not_Canceled
2,INN00003,1,0,2,1,Meal Plan 1,0,Room_Type 1,1,2018,2,28,Online,0,0,0,60.0,0,Canceled
3,INN00004,2,0,0,2,Meal Plan 1,0,Room_Type 1,211,2018,5,20,Online,0,0,0,100.0,0,Canceled
4,INN00005,2,0,1,1,Not Selected,0,Room_Type 1,48,2018,4,11,Online,0,0,0,94.5,0,Canceled


## Dataset 2

La base de datos *hurto* ha sido obtenida del portal de datos abiertos de la alcaldía de la ciudad de Medellín (Colombia) (http://medata.gov.co/dataset/hurto-personas-en-transporte-p%C3%BAblico) y presenta el consolidado de la cantidad de casos de hurto en transporte público en las diferentes comunas de la ciudad de Medellín durante los años 2017 a 2022. La base de datos en crudo contiene 20492 observaciones de 35 variables, entre las que se destacan estadísticamente las siguientes:

- FECHA_HECHO: fecha de ocurrencia del hecho.
- LATITUD: latitud geográfica sistema de coordenadas wgs84.
- LONGITUD: longitud geográfica sistema de coordenadas wgs84
- SEXO: Sexo de la víctima.
- EDAD: Edad de la víctima.
- ESTADO_CIVIL: estado civil de la víctima.
- PARENTESCO: parentesco entre la víctima y el presunto indiciado
- OCUPACIÓN: ocupación de la víctima.
- DISCAPACIDAD: condición de movilidad reducida de la víctima.
- MEDIO_TRANSPORTE: medio transporte donde se movilizaba la víctima.
- NIVEL_ACADEMICO: nivel acádemico de la víctima.
- TESTIGO: indica si hubo o no un testigo de los hechos.
- MODALIDAD: es la forma como se materializa el hecho.
- ARMA_MEDIO: es el arma, medio o mecanismo con el que se comete el hecho.
- NOMBRE_BARRIO: nombre del barrio donde ocurrieron los hechos
- BIEN: nombre del bien robado.


In [11]:
# Lectura de la base de datos:
hurto = pd.read_csv("/workspaces/DSCH-Desafios/data/hurto_transporte_publico.csv", sep = ";")

  hurto = pd.read_csv("/workspaces/DSCH-Desafios/data/hurto_transporte_publico.csv", sep = ";")


In [12]:
# Tamaño de la base de datos:
hurto.shape

(20492, 35)

La base de datos tiene 20492 filas y 35 columnas.

In [13]:
# Encabezado y primeras filas de la base de datos:
hurto.head()

Unnamed: 0,fecha_hecho,cantidad,latitud,longitud,sexo,edad,estado_civil,grupo_actor,actividad_delictiva,parentesco,...,codigo_comuna,lugar,sede_receptora,bien,categoria_bien,grupo_bien,modelo,color,permiso,unidad_medida
0,2017-01-01T16:00:00.000-05:00,1.0,627.623.616,-7.555.353.312,Hombre,37,Casado(a),Sin dato,Sin dato,Sin dato,...,4,Vía pública,Aranjuez,Celular,Tecnología,Mercancía,-1,Negro,Sin dato,Sin dato
1,2017-01-01T16:00:00.000-05:00,1.0,621.907.115,-7.560.299.601,Mujer,29,Unión marital de hecho,Sin dato,Sin dato,Sin dato,...,16,Vía pública,Belén,Elementos escolares,Elementos escolares,Mercancía,-1,Sin dato,Sin dato,Sin dato
2,2017-01-01T16:00:00.000-05:00,1.0,621.907.115,-7.560.299.601,Mujer,29,Unión marital de hecho,Sin dato,Sin dato,Sin dato,...,16,Vía pública,Belén,Computador,Tecnología,Mercancía,-1,Sin dato,Sin dato,Sin dato
3,2017-01-02T10:30:00.000-05:00,1.0,624.275.379,-7.554.836.478,Hombre,36,Casado(a),Sin dato,Sin dato,Sin dato,...,8,Vía pública,Villa Hermosa,Peso,"Dinero, joyas, piedras preciosas y título valor",Mercancía,-1,Sin dato,Sin dato,Sin dato
4,2017-01-02T10:30:00.000-05:00,1.0,624.275.379,-7.554.836.478,Hombre,36,Casado(a),Sin dato,Sin dato,Sin dato,...,8,Vía pública,Villa Hermosa,Celular,Tecnología,Mercancía,-1,Blanco,Sin dato,Sin dato


## Dataset 3

El conjunto de datos *hipertension* ha sido tomado de **Kaggle** (https://www.kaggle.com/datasets/prosperchuks/health-dataset?select=hypertension_data.csv) y en crudo contiene 26083 observaciones de 14 variables, una de las cuales es considerada como la variable objetivo:

- age: edad del paciente en años.
- sex: género del paciente (1: masculino, 0: femenino)
- cp: Tipo de dolor torácico: 0: asintomático 1: angina típica 2: angina atípica 3: dolor no anginoso.
- trestbps: Presión arterial en reposo (en mm Hg).
- chol: Colesterol sérico en mg/dl.
- fbs: si la glucemia en ayunas del paciente > 120 mg/dl (1: sí; 0: no)
- thalach: Frecuencia cardíaca máxima alcanzada.
- target: variable objetivo. Si el paciente tiene hipertensión (1) o no (0)

Dado el ámbito médico en el que se ve envuelto el conjunto de datos, se hace necesario como trabajo futuro, llegado el caso de la elección de esta base, profundizar en el significado y la medida de algunas variables y evaluar su importancia para ser tenidas en cuenta.

In [7]:
# Lectura de la base de datos:
hipertension = pd.read_csv("/workspaces/DSCH-Desafios/data/hypertension_data.csv")

In [8]:
# Tamaño de la base de datos:
hipertension.shape

(26083, 14)

In [9]:
# Encabezado de la base de datos:
hipertension.head()

Unnamed: 0,age,sex,cp,trestbps,chol,fbs,restecg,thalach,exang,oldpeak,slope,ca,thal,target
0,57.0,1.0,3,145,233,1,0,150,0,2.3,0,0,1,1
1,64.0,0.0,2,130,250,0,1,187,0,3.5,0,0,2,1
2,52.0,1.0,1,130,204,0,0,172,0,1.4,2,0,2,1
3,56.0,0.0,1,120,236,0,1,178,0,0.8,2,0,2,1
4,66.0,0.0,0,120,354,0,1,163,1,0.6,2,0,2,1


### Referencias:

- Kaggle; 2015, Diabetes, Hypertension and Stroke Prediction, recuperado de [https://www.kaggle.com/datasets/prosperchuks/health-dataset?select=hypertension_data.csv].
- Kaggle; Hotel Reservations Dataset, recuperado de [https://www.kaggle.com/datasets/ahsan81/hotel-reservations-classification-dataset?resource=download].
- MEData, 2022, Hurto a personas en transporte público, resuperado de [http://medata.gov.co/dataset/hurto-personas-en-transporte-p%C3%BAblico].