<a href="https://colab.research.google.com/github/zHunter3000/ProyectoMACTI_BD/blob/main/Borrador1.ipynb" target="_parent">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

# Consultas en SQL

<font color="Black" face="Comic Sans MS,arial">
<h5 align="center"><i>Autor: Erick Mauricio Covarrubias Estrada</i></h5>

## Introducción a las Bases de Datos


### Bases de Datos 
Antes de adentrarnos en la parte practica de que como crear una consulta SQL y su funcionamiento, es necesario responder conocer que es una Base de Datos.

Podemos definir una **base de datos** como un conjunto organizado de datos que se almacenan y gestionan mediante un sistema manejor de bases de datos (**SMDB**). Las bases de datos permiten almacenar grandes cantidades de información de manera estructurada, facilitando su acceso, manipulación y actualización. Los datos en una base de datos se organizan en **tablas, que consisten en filas y columnas**. Cada fila representa un registro único, y cada columna representa un atributo del registro.

Las bases de datos se han ocupado desde los inicios de la civilización y surgen de la necesidad de gestionar y administrar grandes cantidades de información de una manera optima y eficiente. Su desarrollo de una manera más formal se remonta a la decada de 1970 cuando Edgar F. Codd, un científico de IBM, propuso el modelo relacional de bases de datos, que se basa en la teoría de conjuntos y las relaciones matemáticas. Este modelo revolucionó la forma en que se gestionaban los datos y llevó al desarrollo de SQL como lenguaje estándar.

Dicho modelo establece que los datos se organizan en tablas (o relaciones) compuestas por filas y columnas. Cada fila representa un registro único, y cada columna representa un atributo del registro.

Los elementos básicos de una base de datos (y sus respectivas tablas) son las siguientes:

- **Tabla:** Es una colección de datos organizado en filas y columnas. Una base de datos tiene más de una base de datos que representa una **entidad** especifica tal como "" o " " .
- **Fila (o Registro)**: Representa un solo registro o entrada de datos. Cada fila contiene datos específicos para cada columna de la tabla.
- **Columna (Atributos):** Representa un atributo o característica de la entidad. Cada columna tiene un nombre y un tipo de datos.
- **Llave Primaria (Primary Key)**: Una llave primaria es un atributo que identifica de manera única cada fila en una tabla. No puede contener valores nulos y debe ser única, un ejemplo podría ser el numero de cuenta que tiene **cada ALUMNO** en la UNAM.
- **Llave Secundaria/Foranea (Foreign Key)**: : Una llave foránea es un atributo en una tabla que se refiere a la llave primaria de otra tabla. Una llave secundaria tiene la caracteristica principal de que establece una relación entre las dos tablas.


<center>
<img src="https://github.com/zHunter3000/ProyectoMACTI_BD/blob/main/Imagenes/relacional.png?raw=true" width="600">
</center>


### Sistema Manejador de Bases de Datos (SMBD)

El DBMS (*Database Management System* por sus siglas en ingles) es un conjunto de programas que se encarga de organizar y administrar la base de datos. “Este software da soporte al almacenamiento confiable de la base de datos, pone en marcha las estructuras para mantener relaciones y restricciones, ofrece servicios de almacenamiento y recuperación a usuarios, además de tener funciones que se ocupan de otras tareas, como son el acceso simultáneo, seguridad, respaldo y recuperación (lectura) de datos”. (Johnson, 1999, p.8).


En pocas palabras el sistema manejador de bases de datos será la interfaz entre el usuario y la base de datos, permitiendo un control preciso de los datos y la generación de información confiable. Algunas de sus funciones principales son 

- **Definir la base de datos:** Establecer la forma en que serán almacenados los datos.
- **Crear la base de datos:** Almacenar los datos en la estructura definida.
- **Recuperar datos:** Ejecución de consultas y reportes.
- **Actualizar datos:** Insertar, suprimir y modificar los datos almacenados.
- **Controlar accesos y concurrencias:** Verificar a los usuarios autorizados y su nivel de ingerencia en la base de datos, en accesos independientes y compartidos.
- **Controlar la integridad:** Aplicar a la base de datos diferentes criterios de validación de datos. 

Algunos de los SMBD más conocidos son los siguientes 

- MySQL
- Microsoft SQL Server
- Oracle Database
- PostgreSQL
- MongoDB

<center>
<img src="https://github.com/zHunter3000/ProyectoMACTI_BD/blob/main/Imagenes/smbd.jpg?raw=true" width="300">
</center>

## SQL 

SQL (Structured Query Language) es un lenguaje de programación estándar utilizado para gestionar y manipular bases de datos relacionales. Fue desarrollado en la década de 1970 por IBM y se ha convertido en el lenguaje de consulta más utilizado para interactuar con bases de datos. SQL permite a los usuarios realizar una amplia variedad de operaciones sobre los datos, incluyendo la creación, modificación, consulta y eliminación de datos.

Una consulta SQL es una instrucción escrita en el lenguaje SQL que se utiliza para recuperar, insertar, actualizar o eliminar datos en una base de datos. Es la forma principal de interactuar con los datos almacenados en una base de datos relacional.

Afortunadamente, Python cuenta con una paqueteria que nos permite tratar a DataFrames como una tabla correspondiente a una base de datos, para lo que, a continuación se presentan los conceptos básicos y las consultas más comunes en SQL.

In [1]:
pip install tabulate

Note: you may need to restart the kernel to use updated packages.


In [2]:
!pip install -U pandasql



In [3]:
import pandas as pd
from tabulate import tabulate
from pandasql import sqldf

# URL del archivo CSV en formato "raw"
url1 = "https://raw.githubusercontent.com/zHunter3000/ProyectoMACTI_BD/main/Auxiliar/DataCliente.csv"
url2 = "https://raw.githubusercontent.com/zHunter3000/ProyectoMACTI_BD/main/Auxiliar/DataProducto.csv"
# Leer el CSV directamente desde GitHub
DataCliente = pd.read_csv(url1,sep=",")
DataProducto =  pd.read_csv(url2,sep=",")

## visualización de las primeras 5 columnas de los datos del dataframe DataCliente 
print(tabulate(DataCliente.head(5), headers='keys', tablefmt='grid'))
## visualización de los datos del dataframe DataCliente
#print(tabulate(DataCliente, headers='keys', tablefmt='grid'))

+----+--------------+-----------+---------------+------------------------------+--------------+----------+
|    |   id_cliente | nombre    | apellido      | mail                         | celular      | genero   |
|  0 |            1 | Archibald | Giacopetti    | agiacopetti0@craigslist.org  | 726-414-0718 | F        |
+----+--------------+-----------+---------------+------------------------------+--------------+----------+
|  1 |            2 | Delmar    | Erangey       | derangey1@senate.gov         | 874-429-2479 | M        |
+----+--------------+-----------+---------------+------------------------------+--------------+----------+
|  2 |            3 | Aloise    | Perrington    | aperrington2@weebly.com      | 900-885-9312 | F        |
+----+--------------+-----------+---------------+------------------------------+--------------+----------+
|  3 |            4 | Jeralee   | Lewinton      | jlewinton3@clickbank.net     | 167-429-1473 | F        |
+----+--------------+-----------+----

In [4]:
## visualización de las primeras 5 columnas de los datos del dataframe DataProducto 
print(tabulate(DataProducto.head(5), headers='keys', tablefmt='grid'))
## visualización de los datos del dataframe DataProducto
#print(tabulate(DataProducto, headers='keys', tablefmt='grid'))

+----+--------------+-----------------+----------+-----------------------+--------------+
|    |   id_cliente | forma_pago      |   precio | pais                  | tipo_carro   |
|  0 |            1 | americanexpress |   953498 | Philippines           | Audi         |
+----+--------------+-----------------+----------+-----------------------+--------------+
|  1 |            2 | americanexpress |   917333 | Indonesia             | Toyota       |
+----+--------------+-----------------+----------+-----------------------+--------------+
|  2 |            3 | mastercard      |   501556 | Japan                 | Subaru       |
+----+--------------+-----------------+----------+-----------------------+--------------+
|  3 |            4 | visa            |   978188 | Russia                | Toyota       |
+----+--------------+-----------------+----------+-----------------------+--------------+
|  4 |            5 | visa-electron   |   768939 | Saint Kitts and Nevis | Mazda        |
+----+----

### SELECT & FROM
Estas formal la estructura fundamental de una consulta SQL, se usa  para recuperar datos de una o más tablas

```SQL
SELECT columna1, columna2
FROM nombre_tabla;

In [5]:
# Dame el nombre y apellido de los clientes
#USAMOS LA TABLA DATACLIENT
query1 = """
SELECT DC.nombre,DC.apellido
FROM DataCliente as DC;
"""

# Run the query
df_q1 = sqldf(query1)
df_q1


Unnamed: 0,nombre,apellido
0,Archibald,Giacopetti
1,Delmar,Erangey
2,Aloise,Perrington
3,Jeralee,Lewinton
4,Giralda,Butler-Bowdon
...,...,...
995,Lia,Moorrud
996,Katey,Phelan
997,Maury,Newlands
998,Lyn,Cleverley


### WHERE 

WHERE se utiliza para filtrar registros que cumplen una condición específica.

```SQL
SELECT columna1, columna2
FROM nombre_tabla
WHERE condicion;

In [6]:
# Dame el nombre, apellido y genero de los clientes QUE tienen genero Masculino (M)
#USAMOS LA TABLA DATACLIENT
query2 = """
SELECT DC.nombre,DC.apellido,DC.genero
FROM DataCliente as DC
WHERE DC.genero = 'M';
"""

# Run the query
df_q2 = sqldf(query2)
df_q2

Unnamed: 0,nombre,apellido,genero
0,Delmar,Erangey,M
1,Giralda,Butler-Bowdon,M
2,Barbara,Yaxley,M
3,Jaimie,Silbert,M
4,Ignace,Doerr,M
...,...,...,...
500,Herschel,Epps,M
501,Lia,Moorrud,M
502,Maury,Newlands,M
503,Lyn,Cleverley,M


### ORDER BY

Se utiliza para ordenar los resultados de una consulta en orden ascendente o descendente.

```SQL
SELECT columna1, columna2
FROM nombre_tabla
ORDER BY columna1 ASC;

In [7]:
# Dame el id del cliente, tipo de carro y el precio del carro ordenado por el precio de forma ascendente
#USAMOS LA TABLA DATACLIENT
query3 = """
SELECT DP.id_cliente, DP.tipo_carro, DP.precio
FROM DataProducto as DP
ORDER BY 3 ASC;
"""

# Run the query
df_q3 = sqldf(query3)
df_q3

Unnamed: 0,id_cliente,tipo_carro,precio
0,171,Land Rover,500184.24
1,388,Saab,500217.79
2,694,Dodge,500358.76
3,236,Suzuki,500854.02
4,22,Volkswagen,501012.42
...,...,...,...
995,460,Suzuki,996908.21
996,186,Bentley,998827.08
997,843,Lexus,999021.62
998,536,Lincoln,999104.79


### GROUP BY

Organiza los datos en grupos basados en una o más columnas. Es útil cuando se necesita resumir o agregar datos en función de categorías específicas.

```SQL
SELECT columna1, columna2
FROM nombre_tabla
GROUP BY 1; -- ordenamos por el *1er* elemento que se muestra en el select

In [8]:
# Dame cual es el numero de coches y el precio promedio por tipo de carro
#USAMOS LA TABLA DATAPRODUCTO
query4 = """
SELECT DP.tipo_carro, count(DP.id_cliente) as NumCoches, AVG(DP.precio) as Prom_Precio
FROM DataProducto as DP
GROUP BY 1;
"""

# Run the query
df_q4 = sqldf(query4)
df_q4

Unnamed: 0,tipo_carro,NumCoches,Prom_Precio
0,Acura,17,762353.321176
1,Aston Martin,8,809239.13625
2,Audi,36,775693.194722
3,Austin,2,673571.175
4,BMW,33,742914.782727
5,Bentley,8,769540.46125
6,Buick,29,728970.138966
7,Cadillac,16,745603.924375
8,Chevrolet,91,732337.310879
9,Chrysler,10,807823.333


### JOIN

Las consultas JOIN se utilizan para combinar filas de dos o más tablas, basadas en una columna relacionada entre ellas.

```SQL
SELECT tabla1.columna1, tabla2.columna2
FROM tabla1
LEFT JOIN tabla2 --tabla que queremos unir
ON tabla1.columna_comun = tabla2.columna_comun -- atributo/columna que tienen en comun ambas tablas
```

En este caso particular existen varios tipos de JOIN, explicados de la siguiente forma:


<center>
<img src="https://github.com/zHunter3000/ProyectoMACTI_BD/blob/main/Imagenes/joins.png?raw=true" width="500">
</center>

- INNER JOIN: Combina filas de dos tablas cuando hay coincidencias en ambas.
- LEFT JOIN: Devuelve todas las filas de la tabla izquierda y las coincidencias de la derecha; filas sin coincidencia en la derecha tendrán valores nulos.
- RIGHT JOIN: Devuelve todas las filas de la tabla derecha y las coincidencias de la izquierda; filas sin coincidencia en la izquierda tendrán valores nulos.
- FULL JOIN: Devuelve todas las filas cuando hay coincidencias en una de las tablas; filas sin coincidencia tendrán valores nulos.
- CROSS JOIN: Devuelve el producto cartesiano de las dos tablas, combinando cada fila de la primera tabla con cada fila de la segunda.

In [9]:
# Dame el id del cliente, su nombre y que tipo de carro tiene
#USAMOS LA TABLA DATACLIENT Y DATA PRODUCTO
query5 = """
SELECT DP.id_cliente,DC.nombre,DP.tipo_carro
FROM DataProducto as DP
LEFT JOIN DataCliente as DC
ON DP.id_cliente = DC.id_cliente;
"""

# Run the query
df_q5 = sqldf(query5)
df_q5

Unnamed: 0,id_cliente,nombre,tipo_carro
0,1,Archibald,Audi
1,2,Delmar,Toyota
2,3,Aloise,Subaru
3,4,Jeralee,Toyota
4,5,Giralda,Mazda
...,...,...,...
995,996,Lia,Porsche
996,997,Katey,Chevrolet
997,998,Maury,Pontiac
998,999,Lyn,Toyota


## Referencias

+ https://www.lucidchart.com/pages/es/que-es-un-diagrama-entidad-relacion
+ https://tigger.celaya.tecnm.mx/conacad/cargas/GAFR590328RX9/24/tema%201%20introduccion%20a%20DBMS.pdf
+ https://bookdown.org/paranedagarcia/database/el-modelo-relacional.html
