## SQL BASICS


En este tutorial, trabajaremos con un conjunto de datos del servicio de bicicletas compartidas de AUSTIN, que incluye datos sobre los viajes realizados con el servicio.  
Comenzaremos analizando un poco las bases de datos, qué son y por qué las usamos, antes de comenzar a escribir algunas consultas propias en SQL.

### Conceptos básicos de SQL: bases de datos relacionales  

Una base de datos relacional es una base de datos que almacena información relacionada en varias tablas y te permite consultar información en más de una tabla al mismo tiempo.   

Es más fácil entender cómo funciona esto pensando en un ejemplo. Imagina que tienes una empresa y quieres realizar un seguimiento de la información de tus ventas. Puede configurar una hoja de cálculo en Excel con toda la información de la que desea realizar un seguimiento en columnas separadas: número de pedido, fecha, monto adeudado, número de seguimiento del envío, nombre del cliente, dirección del cliente y número de teléfono del cliente.  

Esta configuración funcionaría bien para rastrear la información que necesita para comenzar, pero a medida que comienza a recibir pedidos repetidos del mismo cliente, encontrará que su nombre, dirección y número de teléfono se almacenan en varias filas de su hoja de cálculo.

A medida que su negocio crece y aumenta la cantidad de pedidos que está rastreando, estos datos redundantes ocuparán un espacio innecesario y, en general, disminuirán la eficiencia de su sistema de seguimiento de ventas. También puede tener problemas con la integridad de los datos. No hay garantía, por ejemplo, de que cada campo se complete con el tipo de datos correcto o que el nombre y la dirección se ingresen exactamente de la misma manera cada vez.

In [1]:
import pandas as pd
file = "https://raw.githubusercontent.com/sugus-labs/data-science-the-bridge/main/ramp-up/python/6-modules/datos-prueba.csv"
trips_df = pd.read_csv(file)

In [2]:
trips_df.head(5)

Unnamed: 0,schedtime,carrier,deptime,dest,distance,date,flightnumber,origin,weather,dayweek,daymonth,tailnu,delay
0,1455,OH,1455,JFK,184,1/1/2004,5935,BWI,0,4,1,N940CA,ontime
1,1640,DH,1640,JFK,213,1/1/2004,6155,DCA,0,4,1,N405FJ,ontime
2,1245,DH,1245,LGA,229,1/1/2004,7208,IAD,0,4,1,N695BR,ontime
3,1715,DH,1709,LGA,229,1/1/2004,7215,IAD,0,4,1,N662BR,ontime
4,1039,DH,1035,LGA,229,1/1/2004,7792,IAD,0,4,1,N698BR,ontime


Con una base de datos relacional se evita todos estos problemas. Puede configurar dos mesas, una para pedidos y otra para clientes. La tabla de 'clientes' incluiría un número de identificación único para cada cliente, junto con el nombre, la dirección y el número de teléfono que ya estábamos rastreando. La tabla de "pedidos" incluiría su número de pedido, la fecha, el monto adeudado, el número de seguimiento y, en lugar de un campo separado para cada elemento de los datos del cliente, tendría una columna para la identificación del cliente.

Esto nos permite obtener toda la información del cliente para cualquier pedido dado, pero solo tenemos que almacenarla una vez en nuestra base de datos en lugar de volver a enumerarla para cada pedido.

Nuestro conjunto de datos.   
Empecemos echando un vistazo a nuestra base de datos. La base de datos tiene dos tablas trips y stations.  
Para empezar, solo miraremos la tabla trips que contiene las siguientes columnas:

In [None]:
DESC data-science-349808.austin_bikeshare.bikeshare_stations;

SELECT *
FROM data-science-349808.austin_bikeshare.INFORMATION_SCHEMA.COLUMNS
WHERE table_name = 'bikeshare_stations'

Nuestro análisis
Con esta información y los comandos SQL que aprenderemos en breve,   
aquí hay algunas preguntas que intentaremos responder en el transcurso de esta publicación:  

¿Cuál fue la duración del viaje más largo?  
¿Cuántos viajes realizaron los usuarios 'registrados'?  
¿Cuál fue la duración promedio del viaje?  
¿Los usuarios registrados o casuales hacen viajes más largos?  
¿Qué bicicleta se usó para la mayoría de los viajes?  
¿Cuál es la duración media de los viajes de los usuarios mayores de 30 años?  
Los comandos SQL que usaremos para responder estas preguntas son:  

**SELECT**  
**WHERE** 
**LIMIT**  
**ORDER BY**  
**GROUP BY**  
**AND**  
**OR**  
**MIN**  
**MAX**  
**AVG**  
**SUM**  
**COUNT**  


#### SELECT

El primer comando con el que trabajaremos es SELECT.  
SELECT será la base de casi todas las consultas que escribimos: le dice a la base de datos qué columnas queremos ver.   
Podemos especificar columnas por nombre (separadas por comas) o usar el comodín * para devolver cada columna de la tabla.   

Además de las columnas que queremos recuperar, también tenemos que decirle a la base de datos de qué tabla obtenerlas.   
 Para ello utilizamos la palabra clave FROM seguida del nombre de la tabla. 



In [None]:
SELECT * 
FROM data-science-349808.austin_bikeshare.bikeshare_trips;

#### LIMIT

El siguiente comando que debemos saber antes de comenzar a ejecutar consultas en nuestra base de datos de Hubway es LIMIT.   
LIMIT simplemente le dice a la base de datos cuántas filas desea que devuelva.

La SELECT consulta que vimos en la sección anterior devolvería la información solicitada para cada fila de la tabla,  
pero a veces eso podría significar una gran cantidad de datos. Puede que no lo queramos todo.

Simplemente agregamos el LIMITcomando y luego un número que representa el número de filas que queremos que se devuelvan.   
En este caso, usamos 10, pero puede reemplazarlo con cualquier número para obtener la cantidad adecuada de datos    
para el proyecto en el que está trabajando.

In [None]:
SELECT * 
FROM data-science-349808.austin_bikeshare.bikeshare_trips LIMIT 10;

#### ORDER BY

El comando final que necesitamos saber antes de que podamos responder la primera de nuestras preguntas es ORDER BY.     
Este comando nos permite ordenar la base de datos en una columna determinada.  

Para usarlo, simplemente especificamos el nombre de la columna que nos gustaría ordenar.   
Por defecto, ORDER BY ordena en orden ascendente. Si deseamos especificar en qué orden debe ordenarse la base de datos,     
podemos agregar la palabra clave ASCpara orden ascendente o DESC para orden descendente.  

Por ejemplo, si quisiéramos ordenar la tabla trips de la más corta duracion a la más larga,     
para responder nuestra primera pregunta: ¿Cuál fue la duración del viaje más largo?   

In [None]:
SELECT * 
FROM data-science-349808.austin_bikeshare.bikeshare_trips 
ORDER BY duration_minutes DESC;

#### WHERE

Los comandos anteriores son excelentes para extraer información ordenada para columnas particulares,    
pero ¿qué pasa si hay un subconjunto específico de datos que queremos ver?    
Ahí es donde WHERE entra en juego. El comando WHERE nos permite usar un operador lógico para especificar qué filas deben devolverse.    
Por ejemplo, podría usar el siguiente comando para devolver cada viaje realizado por una bicicleta.

Se usan comillas en esta consulta si el campo se almacena como una cadena.  
Si la columna contuviera tipos de datos numéricos, las comillas no serían necesarias.

In [None]:
SELECT * 
FROM data-science-349808.austin_bikeshare.bikeshare_trips 
WHERE duration_minutes < 20;

También podemos combinar múltiples pruebas lógicas en nuestra WHERE usando AND o OR.   
Si, por ejemplo, en nuestra consulta anterior solo hubiésemos querido devolver los viajes con un duration tiempo inferior a 20 minutos   
que también tuvieran una estacion registrada, podríamos utilizar AND para especificar ambas condiciones.

Usa paréntesis para separar cada prueba lógica, como se muestra en el bloque de código a continuación. 
Esto no es estrictamente necesario para que el código funcione,   
pero los paréntesis facilitan la comprensión de las consultas a medida que aumenta la complejidad.

In [None]:
SELECT * 
FROM data-science-349808.austin_bikeshare.bikeshare_trips 
WHERE (duration_minutes < 20)
    AND (start_station_id = 2564);

#### GROUP BY 

GROUP BY separa las filas en grupos según el contenido de una columna en particular    
y nos permite realizar funciones agregadas en cada grupo.

Cuando usamos GROUP BY, la base de datos separará cada una de las filas en un grupo diferente según el valor de la columna,   
de la misma manera que podríamos separar una baraja de cartas en diferentes palos.   
Podemos imaginarnos haciendo dos montones, uno de todos los machos, uno de todas las hembras.

Una vez que tengamos nuestras dos pilas separadas, la base de datos realizará cualquier función agregada en nuestra consulta  
en cada una de ellas a su vez.

Al igual que con cada una de nuestras consultas hasta ahora, comenzaremos con SELECT para decirle a la base de datos qué información queremos ver.  
También incluiremos GROUP BY para separar nuestros datos por tipo de suscripción.

**GROUP BY** se puede usar con **MIN**, **MAX**, **SUM**, **COUNT**, **AVG**.

In [None]:
SELECT 
    start_station_id, 
    AVG(duration_minutes) AS "Average Minutes"
FROM data-science-349808.austin_bikeshare.bikeshare_trips
GROUP BY start_station_id;

In [None]:
SELECT 
    start_station_id, 
    MAX(duration_minutes) AS "Maximum Minutes"
FROM data-science-349808.austin_bikeshare.bikeshare_trips
GROUP BY start_station_id;

#### JOIN

Hasta ahora hemos estado analizando consultas que solo extraen datos de la tabla trips.  
Sin embargo, una de las razones por las que SQL es tan poderoso
es que nos permite extraer datos de varias tablas en la misma consulta.

Nuestra base de datos de bicicletas compartidas contiene una segunda tabla, stations. 
La tabla stations contiene información sobre cada estación en la red e incluye una columna id   
a la que hace referencia la tabla trips.

Para decirle a la base de datos cómo están conectadas las tablas usamos JOIN y ON. 
JOIN especifica qué tablas deben estar conectadas y ON especifica qué columnas de cada tabla están relacionadas.

Vamos a utilizar una combinación interna, lo que significa que las filas solo se devolverán   
donde haya una coincidencia en las columnas especificadas en ON.   
En este ejemplo, querremos usar JOIN cualquier tabla que no hayamos incluido en el comando FROM.    
Así que podemos usar FROM trips INNER JOIN stations o FROM stations INNER JOIN trips.

In [None]:
SELECT 
    trips.start_station_id, 
    stations.name, 
    trips.duration_minutes
FROM data-science-349808.austin_bikeshare.bikeshare_trips AS trips
INNER JOIN data-science-349808.austin_bikeshare.bikeshare_stations AS stations
ON trips.start_station_id = stations.station_id;

![JOINS](https://dataschool.com/assets/images/how-to-teach-people-sql/sqlJoins/sqlJoins_7.png)