# Descripción del proyecto
Estás trabajando como analista para Zuber, una nueva empresa de viajes compartidos que se está lanzando en Chicago. Tu tarea es encontrar patrones en la información disponible. Quieres comprender las preferencias de los pasajeros y el impacto de los factores externos en los viajes.

Al trabajar con una base de datos, analizarás los datos de los competidores y probarás una hipótesis sobre el impacto del clima en la frecuencia de los viajes.

## Descripción de los datos
Una base de datos con información sobre viajes en taxi en Chicago:

**tabla neighborhoods: datos sobre los barrios de la ciudad**

- name: nombre del barrio
- neighborhood_id: código del barrio

**tabla cabs: datos sobre los taxis**

- cab_id: código del vehículo
- vehicle_id: ID técnico del vehículo
- company_name: la empresa propietaria del vehículo

**tabla trips: datos sobre los viajes**

- trip_id: código del viaje
- cab_id: código del vehículo que opera el viaje
- start_ts: fecha y hora del inicio del viaje (tiempo redondeado a la hora)
- end_ts: fecha y hora de finalización del viaje (tiempo redondeado a la hora)
- duration_seconds: duración del viaje en segundos
- distance_miles: distancia del viaje en millas
- pickup_location_id: código del barrio de recogida
- dropoff_location_id: código del barrio de finalización

**tabla weather_records: datos sobre el clima**

- record_id: código del registro meteorológico
- ts: fecha y hora del registro (tiempo redondeado a la hora)
- temperature: temperatura cuando se tomó el registro
- description: breve descripción de las condiciones meteorológicas, por ejemplo, "lluvia ligera" o "nubes dispersas"

## Esquema de la tabla

![](https://practicum-content.s3.us-west-1.amazonaws.com/resources/moved_Untitled_1_1585510727.png)

Nota: no existe una conexión directa entre las tablas trips y weather_records en la base de datos. Pero aún puedes usar JOIN y vincularlas usando la hora en la que comenzó el viaje (trips.start_ts) y la hora en la que se tomó el registro meteorológico (weather_records.ts).

## Instrucciones para completar el proyecto
Paso 1. Escribe un código para analizar los datos sobre el clima en Chicago en noviembre de 2017 desde el sitio web:

https://practicum-content.s3.us-west-1.amazonaws.com/data-analyst-eng/moved_chicago_weather_2017.html

## Paso 2. Análisis exploratorio de datos

1. Encuentra el número de viajes en taxi para cada empresa de taxis del 15 al 16 de noviembre de 2017. Nombra el campo resultante trips_amount y muéstralo junto con el campo company_name. Ordena los resultados por el campo trips_amount en orden descendente.

2. Encuentra la cantidad de viajes para cada empresa de taxis cuyo nombre contenga las palabras "Yellow" o "Blue" del 1 al 7 de noviembre de 2017. Nombra la variable resultante trips_amount. Agrupa los resultados por el campo company_name.

3. En noviembre de 2017 las empresas de taxis más populares fueron Flash Cab y Taxi Affiliation Services. Encuentra el número de viajes de estas dos empresas y asigna a la variable resultante el nombre trips_amount. Junta los viajes de todas las demás empresas en el grupo "Other". Agrupa los datos por nombres de empresas de taxis. Nombra el campo con nombres de empresas de taxis company. Ordena el resultado en orden descendente por trips_amount.

## Paso 3. Prueba la hipótesis de que la duración de los viajes desde el Loop hasta el Aeropuerto Internacional O'Hare cambia los sábados lluviosos.

1. Recupera los identificadores de los barrios de O'Hare y Loop de la tabla neighborhoods.

2. Para cada hora recupera los registros de condiciones meteorológicas de la tabla weather_records. Usando el operador CASE, divide todas las horas en dos grupos: "Bad" si el campo description contiene las palabras "rain" o "storm" y "Good" para los demás. Nombra el campo resultante weather_conditions. La tabla final debe incluir dos campos: fecha y hora (ts) y weather_conditions.

3. Recupera de la tabla trips todos los viajes que comenzaron en el Loop (neighborhood_id: 50) y finalizaron en O'Hare (neighborhood_id: 63) un sábado. Obtén las condiciones climáticas para cada viaje. Utiliza el método que aplicaste en la tarea anterior. Recupera también la duración de cada viaje.
Ignora los viajes para los que no hay datos disponibles sobre las condiciones climáticas.

## Paso 4. Análisis exploratorio de datos (Python)

Además de los datos que recuperaste en las tareas anteriores te han dado un segundo archivo. Ahora tienes estos dos CSV:

/datasets/project_sql_result_01.csv. Contiene los siguientes datos:

- company_name: nombre de la empresa de taxis
- trips_amount: el número de viajes de cada compañía de taxis el 15 y 16 de noviembre de 2017.

/datasets/project_sql_result_04.csv. Contiene los siguientes datos:

- dropoff_location_name: barrios de Chicago donde finalizaron los viajes
- average_trips: el promedio de viajes que terminaron en cada barrio en noviembre de 2017.

Para estos dos datasets ahora necesitas:

- importar los archivos
- estudiar los datos que contienen
- asegurarte de que los tipos de datos sean correctos
- identificar los 10 principales barrios en términos de finalización
- hacer gráficos: empresas de taxis y número de viajes, los 10 barrios principales por número de finalizaciones
- sacar conclusiones basadas en cada gráfico y explicar los resultados

##Paso 5. Prueba de hipótesis (Python)

/datasets/project_sql_result_07.csv: el resultado de la última consulta. Contiene datos sobre viajes desde el Loop hasta el Aeropuerto Internacional O'Hare. Recuerda, estos son los valores de campo de la tabla:

- start_ts: fecha y hora de recogida
- weather_conditions: condiciones climáticas en el momento en el que comenzó el viaje
- duration_seconds: duración del viaje en segundos

Prueba la hipótesis:

"La duración promedio de los viajes desde el Loop hasta el Aeropuerto Internacional O'Hare cambia los sábados lluviosos".

Establece el valor del nivel de significación (alfa) por tu cuenta.

Explica:

- cómo planteaste las hipótesis nula y alternativa
- qué criterio usaste para probar las hipótesis y por qué

# ¿Cómo será evaluado mi proyecto?
Estos son los criterios de evaluación del proyecto. Léelos atentamente antes de empezar a trabajar.

Esto es lo que buscará el revisor del proyecto al evaluar tu proyecto:

- cómo recuperas los datos del sitio web
- cómo creas slices de datos
- cómo agrupas los datos
- si utilizas los métodos correctos para unir tablas
- cómo formulas las hipótesis
- qué criterios utilizas para probar las hipótesis y por qué
- a qué conclusiones llegas
- si dejas comentarios en cada paso

Las hojas informativas y resúmenes de las lecciones anteriores tienen todo lo que necesitas para completar el proyecto.

¡Buena suerte!

#Desarrollo del Proyecto

Escribe un código para analizar los datos sobre el clima en Chicago en noviembre de 2017 desde el sitio web:

[https://practicum-content.s3.us-west-1.amazonaws.com/data-analyst-eng/moved_chicago_weather_2017.html)

El nombre del DataFrame debe ser weather_records y tienes que especificarlo cuando buscas: attrs={"id": "weather_records"} . Imprime el DataFrame completo.

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

URL = 'https://practicum-content.s3.us-west-1.amazonaws.com/data-analyst-eng/moved_chicago_weather_2017.html'

req = requests.get(URL)

soup=BeautifulSoup(req.text, 'lxml')

table = soup.find("table",attrs={"id": "weather_records"})

#Encontrar los encabezados de table:
heading_table = []  # Lista donde se almacenarán los nombres de las columnas

for row in table.find_all(
    'th'
):  # Los nombres de las columnas están dentro de los elementos <th>,
    # así que encontraremos todos los elementos <th> en la tabla y los ejecutaremos en un bucle
    heading_table.append(
        row.text
    )


#Encontrar los registros de table:
content = []  # lista donde se almacenarán los datos de la tabla
for row in table.find_all('tr'):
    # Cada fila está envuelta en una etiqueta <tr>, necesitamos recorrer todas las filas
    if not row.find_all('th'):
        # Necesitamos esta condición para ignorar la primera fila de la tabla, con encabezados
        content.append([element.text for element in row.find_all('td')])
        # Dentro de cada fila, el contenido de la celda está envuelto en etiquetas <td> </td>
        # Necesitamos recorrer todos los elementos <td>, extraer el contenido de las celdas y agregarlo a la lista
        # Luego agregamos cada una de las listas a la lista de contenido}

weather_records = pd.DataFrame(content, columns = heading_table)
print(weather_records)

           Date and time Temperature       Description
0    2017-11-01 00:00:00     276.150     broken clouds
1    2017-11-01 01:00:00     275.700  scattered clouds
2    2017-11-01 02:00:00     275.610   overcast clouds
3    2017-11-01 03:00:00     275.350     broken clouds
4    2017-11-01 04:00:00     275.240     broken clouds
..                   ...         ...               ...
692  2017-11-29 20:00:00     281.340        few clouds
693  2017-11-29 21:00:00     281.690      sky is clear
694  2017-11-29 22:00:00     281.070        few clouds
695  2017-11-29 23:00:00     280.060      sky is clear
696  2017-11-30 00:00:00     278.460      sky is clear

[697 rows x 3 columns]


# Ejercicios de 1 a 3: Análisis exploratorio de datos

1. Imprime el campo company_name. Encuentra la cantidad de viajes en taxi para cada compañía de taxis para el 15 y 16 de noviembre de 2017, asigna al campo resultante el nombre trips_amount e imprímelo también. Ordena los resultados por el campo trips_amount en orden descendente.

In [None]:
SELECT c.company_name AS company_name,
    COUNT(t.trip_id) AS trips_amount
FROM cabs c INNER JOIN trips t ON c.cab_id = t.cab_id
WHERE t.start_ts :: date BETWEEN '2017-11-15' AND '2017-11-16'
GROUP BY company_name
ORDER BY trips_amount DESC;


Resultado
company_name	trips_amount
Flash Cab	19558
Taxi Affiliation Services	11422
Medallion Leasin	10367
Yellow Cab	9888
Taxi Affiliation Service Yellow	9299
Chicago Carriage Cab Corp	9181
City Service	8448
Sun Taxi	7701
Star North Management LLC	7455
Blue Ribbon Taxi Association Inc.	5953
Choice Taxi Association	5015

2. Encuentra la cantidad de viajes para cada empresa de taxis cuyo nombre contenga las palabras "Yellow" o "Blue" del 1 al 7 de noviembre de 2017. Nombra la variable resultante trips_amount. Agrupa los resultados por el campo company_name.

In [None]:
(SELECT c.company_name AS company_name, COUNT(t.trip_id) AS trips_amount
FROM cabs c INNER JOIN trips t ON c.cab_id = t.cab_id
WHERE c.company_name LIKE '%Yellow%'
AND t.start_ts :: date BETWEEN '2017-11-01' AND '2017-11-07'
GROUP BY company_name)
UNION
(SELECT c.company_name AS company_name, COUNT(t.trip_id) AS trips_amount
FROM cabs c INNER JOIN trips t ON c.cab_id = t.cab_id
WHERE c.company_name LIKE '%Blue%'
AND t.start_ts :: date BETWEEN '2017-11-01' AND '2017-11-07'
GROUP BY company_name)




Resultado
company_name	trips_amount
Blue Ribbon Taxi Association Inc.	17675
Blue Diamond	6764
Taxi Affiliation Service Yellow	29213
Yellow Cab	33668

3. Del 1 al 7 de noviembre de 2017, las empresas de taxis más populares fueron Flash Cab y Taxi Affiliation Services. Encuentra el número de viajes de estas dos empresas y asigna a la variable resultante el nombre trips_amount. Junta los viajes de todas las demás empresas en el grupo "Other". Agrupa los datos por nombres de empresas de taxis. Asigna el nombre company al campo con nombres de empresas de taxis. Ordena el resultado en orden descendente por trips_amount.

In [None]:
SELECT CASE WHEN c.company_name LIKE '%Flash Cab%' THEN 'Flash Cab'
    WHEN c.company_name LIKE '%Taxi Affiliation Services%' THEN 'Taxi Affiliation Services'
    ELSE 'Other'
    END AS company,
    COUNT(t.trip_id) AS trips_amount
FROM cabs c INNER JOIN trips t ON c.cab_id = t.cab_id
WHERE t.start_ts :: date BETWEEN '2017-11-01' AND '2017-11-07'
GROUP BY company
ORDER BY trips_amount DESC;

Resultado
company	trips_amount
Other	335771
Flash Cab	64084
Taxi Affiliation Services	37583

# Ejercicios de 4 a 6: Prueba la hipótesis de que la duración de los viajes desde el Loop hasta el Aeropuerto Internacional O'Hare cambia los sábados lluviosos


4. Recupera los identificadores de los barrios de O'Hare y Loop de la tabla neighborhoods.

In [None]:
SELECT *
FROM neighborhoods
WHERE name LIKE '%Hare' OR name LIKE 'Loop'


Resultado
neighborhood_id	name
50	Loop
63	O'Hare

5. Para cada hora recupera los registros de condiciones meteorológicas de la tabla weather_records. Usando el operador CASE, divide todas las horas en dos grupos: Bad si el campo description contiene las palabras rain o storm, y Good para los demás. Nombra el campo resultante weather_conditions. La tabla final debe incluir dos campos: fecha y hora (ts) y weather_conditions

In [None]:
SELECT ts,
    CASE WHEN description LIKE '%rain%' THEN 'Bad'
    WHEN description LIKE '%storm%' THEN 'Bad'
    ELSE 'Good'
    END AS weather_conditions
FROM weather_records


Resultado
ts	weather_conditions
2017-11-01 00:00:00	Good
2017-11-01 01:00:00	Good
2017-11-01 02:00:00	Good
2017-11-01 03:00:00	Good
2017-11-01 04:00:00	Good
2017-11-01 05:00:00	Good
2017-11-01 06:00:00	Good
2017-11-01 07:00:00	Good
2017-11-01 08:00:00	Good
2017-11-01 09:00:00	Good
2017-11-01 10:00:00	Good

6. Recupera de la tabla de trips todos los viajes que comenzaron en el Loop (pickup_location_id: 50) el sábado y terminaron en O'Hare (dropoff_location_id: 63). Obtén las condiciones climáticas para cada viaje. Utiliza el método que aplicaste en la tarea anterior. Recupera también la duración de cada viaje. Ignora los viajes para los que no hay datos disponibles sobre las condiciones climáticas.

Las columnas de la tabla deben estar en el siguiente orden:

start_ts
weather_conditions
duration_seconds
Ordena por trip_id.

In [None]:
SELECT t.start_ts AS start_ts,
    sq.weather_conditions AS weather_conditions,
    t.duration_seconds AS duration_seconds
FROM
(SELECT ts,
    CASE WHEN description LIKE '%rain%' THEN 'Bad'
    WHEN description LIKE '%storm%' THEN 'Bad'
    ELSE 'Good'
    END AS weather_conditions
FROM weather_records) as sq INNER JOIN trips t ON sq.ts = t.start_ts
WHERE t.pickup_location_id = 50 AND t.dropoff_location_id = 63
AND EXTRACT(isodow FROM t.start_ts) = 6
AND sq.weather_conditions IS NOT NULL
ORDER BY t.trip_id


Resultado
start_ts	weather_conditions	duration_seconds
2017-11-25 12:00:00	Good	1380
2017-11-25 16:00:00	Good	2410
2017-11-25 14:00:00	Good	1920
2017-11-25 12:00:00	Good	1543
2017-11-04 10:00:00	Good	2512
2017-11-11 07:00:00	Good	1440
2017-11-11 04:00:00	Good	1320
2017-11-04 16:00:00	Bad	2969
2017-11-18 11:00:00	Good	2280
2017-11-04 16:00:00	Bad	3120
2017-11-11 15:00:00	Good	4800