# 💥 Primeros pasos con ``Python`` y ``SQL`` 💥

|| <a style="background-color: #1bf8ff; color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">27 de Mayo del 2025</a> ||
<a style="background-color: #1bf8ff; color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Clase 4</a> ||
<a style="background-color: #1bf8ff; color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Cursos PyM</a> ||
<a style="background-color: #1bf8ff; color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Luis Fernando Apáez Álvarez</a> ||

## 🪗Acordeón de clase🪗

En esta clase abordaremos más temas sobre ``SQL`` y Pandas, concentrándonos así en fomentar la habilidad para trabajar con datos, para plantear y responder preguntas, y, finalmente, para manipular y analizar información.


**Objetivo de clase:** Responder la pregunta _¿Qué sucursal vendió más en Enero?_ y aprender a realizar un análisis exploratorio con Pandas.

Para lograrlo aprenderemos:

&nbsp; &nbsp; <a style="background-color:rgb(213, 255, 27); color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Programar en Github</a> &nbsp; &nbsp; 
<a style="background-color:rgb(213, 255, 27); color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Sentencias SQL</a> &nbsp; &nbsp; <a style="background-color:rgb(213, 255, 27); color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Funciones en SQL</a> &nbsp; &nbsp; <a style="background-color:rgb(213, 255, 27); color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">Fetch (one, all, many)</a> <a style="background-color:rgb(213, 255, 27); color: #000000; border: none; padding: 10px 15px; border-radius: 5px;">+Pandas</a>

En la clase anterior conseguimos realizar la automatización del código de nuestro proyecto, además, comenzamos esta clase subiendo nuestro proyecto a github, así como una exploración en los _codespaces_ que nos permiten programar en la nube.

Comenzaremos esta clase abordando más temas sobre consultas en ``SQL``.

In [25]:
# Realizamos la importacion de las librerias y definimos una 
# funcion para hacer consultas de manera más limpia
import sqlite3 as sql
import pandas as pd

def consulta(query):
    """
    Realiza una consulta a la base de datos y devuelve un DataFrame.
    
    :param query: Consulta SQL a ejecutar.
    :return: DataFrame con los resultados de la consulta.
    """
    # Nos conectamos a la base de datos
    con = sql.connect('ventas.db')
    # Usando pandas, ejecutamos la consulta y guardamos el resultado en un DataFrame
    consulta = pd.read_sql_query(query, con)
    # Cerramos la conexión
    con.close()
    return consulta

**1. Instrucción DISTINCT**

Nos permite ver los valores únicos de una columna, la utilizaremos para ver las fechas que están cargadas en nuestra tabla:

In [3]:
query = """
SELECT 
    DISTINCT Fecha
FROM
    ventas
"""

# Ejecutamos la consulta y guardamos el resultado en un DataFrame
consulta(query)

Unnamed: 0,Fecha
0,2025-01-02
1,2025-01-03
2,2025-01-01
3,2025-01-04
4,2025-01-05
5,2025-01-06
6,2025-01-07
7,2025-01-08
8,2025-01-09
9,2025-01-10


Con lo cual vemos que tenemos cargada la información de todo enero. Esta instrucción es muy útil cuando quieres ver todas las categorías o valores únicos e una columna de interés.

**2. Recordatorio de filtros con WHERE**

Para recordar cómo hacer filtros, intentemos responder la siguiente pregunta:

¿Cuál fue el producto más caro vendido en la sucursa _Xochimilco_?

In [4]:
# Primero filtramos a la sucursal de interes
query = """
--- La siguiente consulta se traduce al español como:
--- Selecciona todas las columnas de la tabla ventas
--- donde la sucursal es 'Xochimilco'
SELECT
    *
FROM
    ventas
WHERE
    Sucursal = 'Xochimilco'
"""

consulta(query).head(10)

Unnamed: 0,Fecha,Producto,Clave,Cantidad,Precio,Total,Sucursal
0,2025-01-02,Cables,QJS-121,44,1250.85,55037.4,Xochimilco
1,2025-01-02,Libretas,TDU-168,29,33.37,967.73,Xochimilco
2,2025-01-02,Tablets,NRQ-338,26,3106.42,80766.92,Xochimilco
3,2025-01-02,Sacapuntas,PPO-765,49,2868.1,140536.9,Xochimilco
4,2025-01-02,Borradores,USU-861,14,1035.29,14494.06,Xochimilco
5,2025-01-02,Cartulinas,CZS-779,10,106.93,1069.3,Xochimilco
6,2025-01-02,Cajas,VNM-315,29,3951.11,114582.19,Xochimilco
7,2025-01-02,Pinturas,QND-987,29,5742.1,166520.9,Xochimilco
8,2025-01-02,Monitores,MUO-291,39,134.45,5243.55,Xochimilco
9,2025-01-02,Cargadores,ADS-695,24,910.89,21861.36,Xochimilco


In [6]:
# Tomando como base el query anterior, ahora solo basta con ordenar
# de mayor a menor por medio de la columna precio
# y hacemos un limit 1
query = """
SELECT
    --- Solo querremos ver algunas columnas informativas
    --- de acuerdo con la pregunta
    Fecha,
    Producto,
    Precio
FROM
    ventas
WHERE
    Sucursal = 'Xochimilco'
ORDER BY
    Precio DESC
LIMIT 1
"""

consulta(query).head(10)

Unnamed: 0,Fecha,Producto,Precio
0,2025-01-14,Pinturas,9627.94


**3. Instrucción GROUP BY**

Imagina que nos solicitan obtener el total de ventas en el mes para cada una de las sucursales. Con base en el conocimiento que poseemos, más un plus, podemos obtener:

In [9]:
# Dentro de SQL tenemos funciones de agregación
# como SUM, COUNT, AVG, MIN, MAX, etc.
query = """
SELECT
    --- Podemos darles alias a las columnas
    SUM(Total) AS Total_Ventas
FROM
    ventas
WHERE
    Sucursal = 'Xochimilco'
"""

consulta(query)

Unnamed: 0,Total_Ventas
0,213304400.0


Aprovechando que el valor obtenido está en notación científica, tenemos 

**3.1 Instrucción CAST**

Nos permite convertir valores a un tipo de dato de interés, por ejemplo, en el código anterior tenemos que la consulta nos arroja un valor en notación científica, y nos gustaría que se viera como un número entero para mejor legibilidad, de tal suerte tenemos

In [None]:

query = """
SELECT
    --- CAST(valor AS tipo) convierte un valor a un tipo específico
    CAST(SUM(Total) AS INTEGER) AS Total_Ventas
FROM
    ventas
WHERE
    Sucursal = 'Xochimilco'
"""

consulta(query)

Unnamed: 0,Total_Ventas
0,213304417


Por otro lado, qué tal si separamos esa cifra por miles. Antes de ver cómo hacerlo en SQL, veamos que en Python tenemos lo siguiente:

In [15]:
cifra = 1000

# Separamo en miles la cifra anterior
"{:,}".format(cifra)

'1,000'

de donde:

* ``{:,}`` es una cadena de formato donde : indica que se usará un formato especial y , especifica que se deben usar comas para separar los miles.
* ``.format(cifra)`` reemplaza ``{:,}`` por el valor de cifra ya formateado.

Por lo cual podríamos hacer una función:

In [19]:
def formato_miles(n):
    """
    Formatea un número entero a una cadena con separadores de miles.
    :param n: Número entero a formatear.
    :return: Cadena con el número formateado.
    """
    return "{:,}".format(n)

# Probamos la función con un número
resultado = formato_miles(1234567)
print(resultado)

1,234,567


En SQLITE no existe una función directamente que nos permite separa por miles, como si existe en otros manejadores como postgreSQL o MySQL, pero . . . ¿qué tal si subimos la función que definimos en Python a SQLITE?

**3.2 Subir funciones de ``Python`` a ``SQLITE3``**

In [None]:
# Conexión y registro de la función
conn = sql.connect('ventas.db')
conn.create_function("formato_miles", 1, formato_miles)

# Ejecutar la consulta
cursor = conn.cursor()
query = """
SELECT
    formato_miles(CAST(SUM(Total) AS INTEGER)) AS Total_Ventas
FROM
    ventas
WHERE
    Sucursal = 'Xochimilco'
"""

consulta_s = cursor.execute(query).fetchone()
conn.close()

print(consulta_s[0])

213,304,417


Cabe mencionar que no podemos utilizar funciones definidas por nosotros con la función de pandas ``pd.read_sql_query()``, por ello usamos una forma alternativa. La forma que presentamos nos permite hacer consultas, veamos otro ejemplo

In [None]:
# Nos concectamos a la base de datos y definimos el puente
conn = sql.connect('ventas.db')
cursor = conn.cursor()

# Definimos la consulta
query = """
SELECT
    *
FROM
    ventas
"""

# ejecutamos la consulta y:
# fetchone(): trae una sola fila
# fetchall(): trae todas las filas
# fetchmany(n): trae n filas

# al ejecutar la consulta el resultado es una lista de tuplas, donde cada
# tupla representa una fila de la tabla ventas
consulta_s = cursor.execute(query).fetchmany(5)
conn.close()

print(consulta_s)

[('2025-01-02', 'Pc', 'EQV-772', 34, 883.16, 30027.44, 'Zócalo'), ('2025-01-02', 'Pc', 'VLQ-162', 6, 156.74, 940.44, 'Coapa'), ('2025-01-02', 'Plumones', 'BRF-523', 19, 8244.5, 156645.5, 'Narvarte'), ('2025-01-02', 'Cartulinas', 'LKI-773', 41, 738.7, 30286.7, 'Coapa'), ('2025-01-02', 'Uniformes', 'MHV-384', 10, 157.42, 1574.2, 'Cuemanco')]


Como la salida no está "bonita", por eso solemos preferir ``Pandas``.

Continuando, recordemos que queremos obtener el total de ventas de cada una de las sucursales, pero si usamos el proceso que seguimos antes, tendríamos que repetirlo para cada una de las sucursales, la solución es utilizar la instrucción ``GROUP BY``, de donde 

* Se  usa para agrupar filas que tienen valores iguales en una o más columnas. Luego, sobre esos grupos, puedes aplicar funciones como:

1. ``SUM()`` → sumar

2. ``AVG()`` → promedio

3. ``COUNT()`` → contar

4. ``MAX()`` / ``MIN()`` → máximo y mínimo

* Si tienes muchas filas con datos repetidos (por ejemplo, ventas por sucursal), puedes agruparlas para resumir o analizar la información.

* Se recomienda que cada que utilicemos ``GROUP BY`` le asociemos una función de agregación.

De tal suerte:

In [None]:
# En español, la siguiente consulta se traduce como:
# Selecciona la sucursal y la suma total de ventas, agrupando por sucursal

query = """
SELECT
    Sucursal,
    CAST(SUM(Total) AS INTEGER) AS Total_Ventas
FROM
    ventas
GROUP BY
    Sucursal
"""

consulta(query)

Unnamed: 0,Sucursal,Total_Ventas
0,CU,207403166
1,Centro,203927250
2,Coapa,205144587
3,Cuemanco,213399830
4,Milpa Alta,200884067
5,Narvarte,212216013
6,Polanco,218741476
7,Santa Fé,217124096
8,Xochimilco,213304417
9,Zócalo,196974246


De una vez podríamos obtener la sucursal que más y menos vendió a lo largo del mes

In [27]:
query = """
SELECT
    Sucursal,
    CAST(SUM(Total) AS INTEGER) AS Total_Ventas
FROM
    ventas
GROUP BY
    Sucursal
ORDER BY
    Total_Ventas DESC
LIMIT 1
"""

consulta(query)

Unnamed: 0,Sucursal,Total_Ventas
0,Polanco,218741476


**3.3 Orden de ejecución**

Existe cierta jerarquía de EJECUCIÓN en nuestras sentencias, es decir, el orden que sigue ``SQL`` para ejeuctar nuestras sentencias.

| Paso | Cláusula SQL     | ¿Qué hace?                                             |
| ---- | ---------------- | ------------------------------------------------------ |
| 1️⃣  | `FROM`           | Establece la(s) tabla(s) de donde se extraen los datos |
| 2️⃣  | `JOIN`           | Une tablas (si hay más de una)                         |
| 3️⃣  | `WHERE`          | Filtra filas según condiciones **antes de agrupar**    |
| 4️⃣  | `GROUP BY`       | Agrupa filas que tienen valores iguales                |
| 5️⃣  | `HAVING`         | Filtra **grupos** después del `GROUP BY`               |
| 6️⃣  | `SELECT`         | Define qué columnas o cálculos mostrar                 |
| 7️⃣  | `DISTINCT`       | Elimina duplicados del resultado final                 |
| 8️⃣  | `ORDER BY`       | Ordena los resultados                                  |
| 9️⃣  | `LIMIT / OFFSET` | Limita el número de resultados                         |


Y tenemos un ORDEN a la hora de escribir nuestras sentencias:

| Paso | Cláusula   | Obligatoria | ¿Para qué sirve?                           |
| ---- | ---------- | ----------- | ------------------------------------------ |
| 1️⃣  | `SELECT`   | ✅ Sí        | Indica qué columnas o cálculos quieres ver |
| 2️⃣  | `FROM`     | ✅ Sí        | Indica de qué tabla(s) sacar los datos     |
| 3️⃣  | `JOIN`     | ❌ No        | Une varias tablas relacionadas             |
| 4️⃣  | `WHERE`    | ❌ No        | Filtra filas antes de agrupar              |
| 5️⃣  | `GROUP BY` | ❌ No        | Agrupa filas por uno o varios campos       |
| 6️⃣  | `HAVING`   | ❌ No        | Filtra grupos (después de agrupar)         |
| 7️⃣  | `ORDER BY` | ❌ No        | Ordena el resultado                        |
| 8️⃣  | `LIMIT`    | ❌ No        | Limita la cantidad de resultados           |
| 9️⃣  | `OFFSET`   | ❌ No        | Salta una cantidad de resultados           |


Si te diste cuenta aún nos faltan ver varias instrucciones de ``SQL`` 🥸. 

Finalmente, es importante mencionar que con las sentencias que hemos visto hasta el momento podemos ya responder varias preguntas interesantes y preguntas tipo entrevistas 💡.

Comenzamos con la clase dos realizando el primer ejercicio para participación:

### 📢 Sistema de puntos 📢

Escribe una consulta en ``SQL`` para obtener el top 3 de los productos más vendidos (pista: _count()_) el 6 de enero.

Manda tu código, solo de SQL, al grupo de whatsApp

---



### Parte X: Más de Pandas

Dado un dataframe podemos:

In [28]:
# Obtenemos todas las ventas de la tabla ventas
query = """
SELECT
    *
FROM
    ventas
"""

df = consulta(query)

**1. Ver el encabezado y la parte final de un dataframe**

In [30]:
# Encabezado con .head(n), donde n es el número de filas a mostrar
df.head(1)

Unnamed: 0,Fecha,Producto,Clave,Cantidad,Precio,Total,Sucursal
0,2025-01-02,Pc,EQV-772,34,883.16,30027.44,Zócalo


In [31]:
# Ver las últimas filas con .tail(n)
df.tail(1)

Unnamed: 0,Fecha,Producto,Clave,Cantidad,Precio,Total,Sucursal
32999,2025-01-31,Sacapuntas,JTG-557,27,926.41,25013.07,Santa Fé


**2. Ver información básica sobre las columnas del dataframe**

In [None]:
# con .info() podemos ver información general del DataFrame, tal como
# el número de filas, columnas, tipos de datos y memoria utilizada
# si la columna tiene valores nulos, también lo indicará
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33000 entries, 0 to 32999
Data columns (total 7 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   Fecha     33000 non-null  object 
 1   Producto  33000 non-null  object 
 2   Clave     33000 non-null  object 
 3   Cantidad  33000 non-null  int64  
 4   Precio    33000 non-null  float64
 5   Total     33000 non-null  float64
 6   Sucursal  33000 non-null  object 
dtypes: float64(2), int64(1), object(4)
memory usage: 1.8+ MB


**3. Ver estadísticas básicas sobre columnas numéricas**

In [33]:
df.describe()

Unnamed: 0,Cantidad,Precio,Total
count,33000.0,33000.0,33000.0
mean,25.584788,2480.866745,63306.641051
std,14.410373,2173.772379,72683.840149
min,1.0,0.09,0.4
25%,13.0,680.5925,10619.265
50%,26.0,1871.1,35554.92
75%,38.0,3769.4525,91271.495
max,50.0,9975.5,474914.0


**4. Podemos ver la estructura del dataframe**

In [None]:
# Veamos cuantas filas y columnas tiene el DataFrame con el atributo .shape
# el cualnos arroja una tupla con el número de filas y columnas
df.shape

(33000, 7)

In [35]:
# Podemos ver los nombres de las columnas con el atributo .columns
df.columns

Index(['Fecha', 'Producto', 'Clave', 'Cantidad', 'Precio', 'Total',
       'Sucursal'],
      dtype='object')

In [36]:
# Podemos ver la numeración de las filas con el atributo .index
df.index

RangeIndex(start=0, stop=33000, step=1)

Cabe resaltar que el índice no necesariamente es numérico.

**5. Podems acceder a columnas obteniendo subdataframes**

In [38]:
# accedemos a una columna
df['Sucursal'].head(5)

0      Zócalo
1       Coapa
2    Narvarte
3       Coapa
4    Cuemanco
Name: Sucursal, dtype: object

In [39]:
# accedemos a mas de una columna mediante una lista
df[['Sucursal', 'Producto']].head(5)

Unnamed: 0,Sucursal,Producto
0,Zócalo,Pc
1,Coapa,Pc
2,Narvarte,Plumones
3,Coapa,Cartulinas
4,Cuemanco,Uniformes


**6. Podemos realizar filtros**

In [None]:
# Obtengamos la info solo de la sucursal Xochimilco

# 1. Definimos el filtro (se le suele llamar mascara booleana), de donde tenemos los 
# operadores lógicos como ==, !=, <, >, <=, >=
filtro = df['Sucursal'] == 'Xochimilco'

# 2. Aplicamos el filtro al DataFrame
df[filtro].head(5)

# Alternativamente, podemos simplemente escribir:
# df[df['Sucursal'] == 'Xochimilco'].head(5)

Unnamed: 0,Fecha,Producto,Clave,Cantidad,Precio,Total,Sucursal
17,2025-01-02,Cables,QJS-121,44,1250.85,55037.4,Xochimilco
45,2025-01-02,Libretas,TDU-168,29,33.37,967.73,Xochimilco
51,2025-01-02,Tablets,NRQ-338,26,3106.42,80766.92,Xochimilco
53,2025-01-02,Sacapuntas,PPO-765,49,2868.1,140536.9,Xochimilco
55,2025-01-02,Borradores,USU-861,14,1035.29,14494.06,Xochimilco


Esencialmente, con lo visto en clase ya podemos:

* ✅ Realizar un análisis exploratorio de datos rápido para ver cómo es la información que queremos trabajar.
* ✅ Podemos responder preguntas con código ``SQL``.
* ✅ Entendemos el flujo de ejecución de las sentencias ``SQL``.

In [42]:
import seaborn as sns

df = sns.load_dataset('tips')
df.head()

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.5,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
