# Proyecto Grupal - Etapa 04: Limpieza de Datos
Autores:
Camila de la Paz
Daniel E. Ramírez
Franco Pes
Xavier Vidman

El presente archivo compila la tercera etapa del primer proyecto grupal de la carrera de Data Science de Henry, un análisis exploratorio sobre los datos proporcionados. Esta etapa se divide, a su vez, en los pasos que se detallan a continuación:
1. Importación de liberías a utilizar
2. Carga de datos
3. Limpieza y Transformación

### Paso 1: Importación de librerías

In [2]:
import datetime 
import numpy as np
import pandas as pd

### Paso 2: Carga de datos


In [38]:
df = pd.read_parquet('https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2018-01.parquet')

### Paso 3: Limpieza y Transformación

#### a) Se eliminaron columnas innecesarias

In [39]:
df.drop(columns=['congestion_surcharge','airport_fee'],inplace=True)

#### b) Se eliminaron registros duplicados

In [40]:
df.drop_duplicates(inplace=True)

#### c) Se renombraron las columnas

In [41]:
df.rename(columns =
                    {'VendorID':'vendor_id',
                    'RatecodeID':'ratecode_id',
                    'PULocationID':'pu_zone_id',
                    'DOLocationID':'do_zone_id'}, inplace = True)

#### d) Se creó una nueva columna, fare_per_mile, para estudiar la relación entre fare_amount y trip_distance

In [42]:
df['trip_distance_aux'] = df['trip_distance']
df['trip_distance_aux'].replace(0, 1, inplace=True)
df['trip_distance_aux'].fillna(1, inplace=True)

df['fare_per_mile'] = df.fare_amount / df.trip_distance_aux

df.loc[df['trip_distance'] == 0, 'fare_per_mile'] = 0

df.drop(columns=['trip_distance_aux'], inplace=True)

#### e) Se creó una nueva columna, trip_time, para identificar el tiempo de viaje en segundos

Primero se calculó la diferencia de tiempo

In [43]:
df['trip_time'] = df.tpep_dropoff_datetime - df.tpep_pickup_datetime

Luego se convirtió a segundos

In [44]:
df.trip_time = df.trip_time.dt.total_seconds()

#### f) Se creó una nueva columna, fare_per_minute, para identificar la relación entre el fare_amount y el trip_time

In [45]:
df['trip_time_aux'] = df['trip_time']
df['trip_time_aux'].replace(0, 1, inplace=True)
df['trip_time_aux'].fillna(1, inplace=True)

df['fare_per_minute'] = df.fare_amount / (df.trip_time_aux / 60)

df.loc[df['trip_time'] == 0, 'fare_per_minute'] = 0

df.drop(columns=['trip_time_aux'], inplace=True)

#### g) Se creó una nueva columna, id_borough, para identificar a qué Borough pertenece cada viaje

Lo primero es cargar el dataframe con las zonas de taxis

In [3]:
df_zones = pd.read_csv('https://raw.githubusercontent.com/soyHenry/DS-Proyecto_Grupal_TaxisNYC/main/taxi%2B_zone_lookup.csv')

Se reemplazaron los nombres de los boroughs por id's

In [6]:
df_zones.Borough.replace({"Bronx":0, "Brooklyn":1, "Manhattan":2, "Queens":3, "Staten Island":4, "EWR":5, "Unknown":6}, inplace=True)

Se creó un diccionario de zonas con su respectivo borough_id para luego mapear

In [7]:
dic_zone_borough = {df_zones.LocationID[i] : df_zones.Borough[i] for i in range (0,len(df_zones))}

Se creó una nueva columna con su respectivo borough_id

In [49]:
df['borough_id'] = df.pu_zone_id.map(dic_zone_borough)

#### h) Se creó una nueva columna, id_time_borough, para posteriormente relacionar con la tabla de datos climáticos

In [50]:
df['id_time_borough'] = df.tpep_pickup_datetime.dt.strftime('%Y%m%d%H') + df.borough_id.astype(str)

#### i) Se marcaron registros que poseen outliers

Creamos la columna para identificar el outliers

In [51]:
df['outlier'] = 1

Outliers trip_distance

In [52]:
# Calculamos rango intercuartílico, mínimo, y máximo
IQR = df.trip_distance.quantile(.75) - df.trip_distance.quantile(.25)
min = df.trip_distance.quantile(.25) - (1.5 * IQR)
max = df.trip_distance.quantile(.75) + (1.5 * IQR)

# Indentificamos outliers
df.loc[df.trip_distance < min, "outlier"] = 0
df.loc[df.trip_distance > max, "outlier"] = 0

Outliers fare_amount

In [53]:
# Calculamos rango intercuartílico, mínimo, y máximo
IQR = df.fare_amount.quantile(.75) - df.fare_amount.quantile(.25)
min = df.fare_amount.quantile(.25) - (1.5 * IQR)
max = df.fare_amount.quantile(.75) + (1.5 * IQR)

# Indentificamos outliers
df.loc[df.fare_amount < min, "outlier"] = 0
df.loc[df.fare_amount > max, "outlier"] = 0

Outliers trip_time

In [54]:
# Calculamos rango intercuartílico, mínimo, y máximo
IQR = df.trip_time.quantile(.75) - df.trip_time.quantile(.25)
min = df.trip_time.quantile(.25) - (1.5 * IQR)
max = df.trip_time.quantile(.75) + (1.5 * IQR)

# Indentificamos outliers
df.loc[df.trip_time < min, "outlier"] = 0
df.loc[df.trip_time > max, "outlier"] = 0

In [55]:
df['id_trip'] = df.index.values
df['id_trip'] = df['id_trip'] + 1

In [56]:
cols = list(df.columns)
df = df[cols[23:24] + cols[0:23]]

In [60]:
#df.to_csv('../../taxi.csv', index=False)

MySQL - Python Connection

In [57]:
#from datetime import datetime
#from sqlalchemy.ext.declarative import declarative_base
#from sqlalchemy import Column, Integer, String, Float, DateTime
#from sqlalchemy import create_engine
#from sqlalchemy.orm import sessionmaker
#from sqlalchemy import insert, update
#
#engine = create_engine('mysql://root:namdiv@localhost/titanic')
#Base = declarative_base()
#
#class User(Base):
#    __tablename__ = 'taxi'
#    index                   = Column(Integer(), primary_key=True)
#    vendor_id	            = Column(Integer())
#    tpep_pickup_datetime	= Column(DateTime())
#    tpep_dropoff_datetime   = Column(DateTime())
#    passenger_count		    = Column(Integer())
#    trip_distance			= Column(Float())
#    ratecode_id			    = Column(Integer())
#    store_and_fwd_flag		= Column(String(20))
#    pu_zone_id		        = Column(Integer())
#    do_zone_id		        = Column(Integer())
#    payment_type		    = Column(Integer())
#    fare_amount		        = Column(Float())
#    extra                   = Column(Float())
#    mta_tax                 = Column(Float())
#    tip_amount              = Column(Float())
#    tolls_amount            = Column(Float())
#    improvement_surcharge   = Column(Float())
#    total_amount            = Column(Float())
#    fare_per_mile           = Column(Float())
#    trip_time               = Column(Float())
#    fare_per_minute         = Column(Float())
#    borough_id              = Column(Integer())
#    id_time_borough         = Column(Float())
#    outlier                 = Column(Integer())
#
#
#    def __str__(self):
#        return self.username
#
#
##Session = sessionmaker(engine)
##session = Session()
#
#
#if __name__ == '__main__':
#    Base.metadata.drop_all(engine)
#    Base.metadata.create_all(engine)

In [58]:
#for i in df.index.values:
#    Session = sessionmaker(engine)
#    session = Session()
#    values = df.iloc[i].tolist()
#    user1 = User(   index=values[0],
#                    vendor_id=values[1], 
#                    tpep_pickup_datetime=values[2], 
#                    tpep_dropoff_datetime=values[3],
#                    passenger_count=values[4], 
#                    trip_distance=values[5], 
#                    ratecode_id=values[6], 
#                    store_and_fwd_flag=values[7], 
#                    pu_zone_id=values[8], 
#                    do_zone_id=values[9],
#                    payment_type=values[10],
#                    fare_amount=values[11],
#                    extra=values[12],
#                    mta_tax=values[13],
#                    tip_amount=values[14],
#                    tolls_amount=values[15],
#                    improvement_surcharge=values[16],
#                    total_amount=values[17],
#                    fare_per_mile=values[18],
#                    trip_time=values[19],
#                    fare_per_minute=values[20],
#                    borough_id=values[21],
#                    id_time_borough=values[22],
#                    outlier=values[23]
#                )
#    session.add(user1)
#    session.commit()
#    session.close()