# Análisis de patrones y preferencias de los clientes de taxis de Chicago para Zuber

# Contenido

* [Introducción](#)
* [Objetivos](#)
* [Etapas](#)
* [Inicialización](#)
    * [Cargar los datos](#)
* [Preprocesamiento de datos](#)
* [Análisis exploratorio y descriptivo de datos](#)
* [Pruebas de hipótesis](#)
* [Conclusiones](#)

# Introducción

Una empresa de viajes compartidos, Zuber, está lanzando sus servicios en la ciudad de Chicago. Zuber requiere analizar los diversos patrones de comportamiento de los usuarios de esta ciudad y analizar si los factores externos afectan significativamente a los viajes.

Para este trabajo primero recuperamos información meteorológica de la ciudad de Chicago desde una página web utilizando técnicas de minería web. Luego, se logró tener acceso a las bases de datos relacionales de la empresa. Utilizamos el gestor de bases de datos relacionales PostgreSQL y realizando distintas operaciones con el lenguaje SQL sintetizamos toda esta información en tres datasets con los que trabajaremos para lograr los objetivos que se presentarán en el siguiente apartado.

# Objetivos

La empresa requiere identificar a los 10 principales barrios y empresas de taxis, respectivamente. Además, de manera más rigurosa, quiere que probemos la siguiente hipótesis en particular:
- La duración promedio de los viajes desde Loop hasta el Aeropuerto Internacional O'Hare cambia los sábados lluviosos.

# Etapas del análisis

En el desarrollo de este proyecto, seguiremos el siguiente esquema básico para mantener el proceso ordenado:

1. Inicialización: descripción de datos
2. Preprocesamiento de datos
3. Análisis exploratorio y descriptivo de datos
4. Prueba de hipótesis
5. Conclusiones

# Inicialización: descripción de los datos

**Carga de librerías necesarias**

In [2]:
import numpy as np 
import pandas as pd 
import matplotlib.pyplot as plt 
import seaborn as sns
from scipy import stats as st 
# carga todas las librerías necesarias

## Cargar los datos

In [4]:
try:
    data_company = pd.read_csv('moved_project_sql_result_01.csv')
    data_neighb = pd.read_csv('moved_project_sql_result_04.csv')
    data_weather = pd.read_csv('moved_project_sql_result_07.csv')
except:
    data_company = pd.read_csv('/datasets/project_sql_result_01.csv')
    data_neighb = pd.read_csv('/datasets/project_sql_result_04.csv')
    data_weather = pd.read_csv('/datasets/project_sql_result_07.csv')

## Exploración inicial de datos

Comenzaremos con la exploración de la tabla ``data_company``.

**Exploración de la tabla `data_company`**

Esta tabla, resultado de la agrupación de información de las bases de datos para los días 15 y 16 de noviembre de 2017, cuenta con la siguiente información:
* ``company_name``: nombre de la empresa de taxis.
* ``trips_amount``: número de viajes de cada compañía de taxis.

Ahora obtendremos su información:

In [5]:
data_company.describe()

Unnamed: 0,trips_amount
count,64.0
mean,2145.484375
std,3812.310186
min,2.0
25%,20.75
50%,178.5
75%,2106.5
max,19558.0


In [8]:
data_company.head(10)

Unnamed: 0,company_name,trips_amount
0,Flash Cab,19558
1,Taxi Affiliation Services,11422
2,Medallion Leasin,10367
3,Yellow Cab,9888
4,Taxi Affiliation Service Yellow,9299
5,Chicago Carriage Cab Corp,9181
6,City Service,8448
7,Sun Taxi,7701
8,Star North Management LLC,7455
9,Blue Ribbon Taxi Association Inc.,5953


In [9]:
data_company.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64 entries, 0 to 63
Data columns (total 2 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   company_name  64 non-null     object
 1   trips_amount  64 non-null     int64 
dtypes: int64(1), object(1)
memory usage: 1.1+ KB


Analizando por columnas, tenemos lo siguiente:
* ``company_name`` no parece mostrar problemas, ni ausentes. Es una columna categórica.
* ``trips_amount`` no parece tener problemas ni ausentes. Aunque si nos fijamos en su descripción, observamos un gran sesgo positivo de su distribución: su media es bastante más grande que su mediana.

Echaremos un vistazo a la columna categórica de este dataset: