# Exploratory Data Chicago Taxi
_(edited by Brando Palacios)_

## Dataset Chicago Taxi Trips [[1]](#1)

### Resumen
El dataset de estudio es un reporte de viajes en taxi en la ciudad de Chicago, bajo un proceso de regularización y conteo de taxis en la ciudad, todas las empresas afiliadas a estos servicios registran sus taxis mediante un identificador en la _public data city of Chicado_ para proteger la privacidad.


El dataset de Chicado Taxi Trips  fue lanzado desde enero del 2013 hasta la fecha, sin embargo según el reporte de actualizaciones del conjunto de datos de chicado, en octubre del 2017 desactivo la subida de nuevos datos por problemas en la recolección de datos, hasta abril del 2019 que reanudo el reporte de datos. [[2]](#2)

### Justificacion
Sé tomaros los datos de Chicado Taxi por su uso de datos espaciales SQL, los cuales representan información sobre la ubicación física y la forma de los objetos geométricos. Estos objetos pueden ser ubicaciones puntuales u objetos más complejos como cuadrantes, carreteras, etc. [[3]](#3)

In [14]:
import pandas as pd
import numpy as np
import geopandas as gpd
from shapely import wkt
from sqlalchemy import create_engine
from sqlalchemy import Table, Column, BIGINT, TIMESTAMP, TEXT, Integer, String, Float, BOOLEAN, MetaData, UniqueConstraint, ForeignKeyConstraint
from sqlalchemy.dialects.postgresql import DOUBLE_PRECISION
from geoalchemy2 import Geometry, Geography
import matplotlib.pyplot as plt

In [5]:
postgres_eng = create_engine('postgresql://admin:admin@localhost:5433/taxis_db')

<img height="800" src="assets/images/drawSQL.png" width="1200"/>

In [15]:
meta = MetaData()
# All DataTables with Sqlalchemy
trip = Table(
    'Trip', meta,
    Column('id', BIGINT, primary_key = True, nullable = False),
    Column('taxi_ID', BIGINT, nullable = False),
    Column('start_Timestamp',TIMESTAMP(timezone=False), nullable = False),
    Column('end_Timestamp',TIMESTAMP(timezone=False), nullable = False),
    Column('seconds', Integer, nullable = False),
    Column('miles', DOUBLE_PRECISION, nullable = False),
    Column('fare', Float, nullable = False),
    Column('tips', Float, nullable = False),
    Column('tolls', Float, nullable = False),
    Column('extras', Float, nullable = False),
    Column('total_fare', Float, nullable = False),
    UniqueConstraint('taxi_ID',name='trip_taxi_id_unique'),
    ForeignKeyConstraint(
        ['taxi_ID'], ['Taxi.id'], name="trip_taxi_id_foreign"
    ),
)

points = Table(
    'Points', meta,
    Column('id', BIGINT, primary_key = True, nullable = False),
    Column('id_trip', BIGINT, nullable = False),
    Column('id_community_area',BIGINT, nullable = False),
    Column('location',TEXT, nullable = False),
    Column('geometry', Geography(geometry_type='POINT',srid=4326), nullable = False),
    Column('isPick',BOOLEAN, nullable = False),
    UniqueConstraint('id_trip',name='points_id_trip_unique'),
    UniqueConstraint('id_community_area',name='points_id_community_area_unique'),
    ForeignKeyConstraint(
        ['id_trip'], ['Trip.id'], name="points_id_trip_foreign"
    ),
    ForeignKeyConstraint(
        ['id_community_area'], ['CommunityArea.id'], name="points_community_area_foreign"
    )
)

community_area = Table(
    'CommunityArea', meta,
    Column('id', BIGINT, primary_key = True, nullable = False),
    Column('name', TEXT, nullable = False),
    Column('area', DOUBLE_PRECISION, nullable = False),
    Column('len', DOUBLE_PRECISION, nullable = False),
    Column('geometry', Geography(geometry_type='MULTIPOLYGON',srid=4326), nullable = False)
)

taxi = Table(
    'Taxi', meta,
    Column('id', BIGINT, primary_key = True, nullable = False),
    Column('company', TEXT, nullable = True)
)

meta.create_all(postgres_eng)