<a href="https://colab.research.google.com/github/sharop/CD2001C/blob/main/sandbox/warming_up.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# Explorando SQLite y Python mediante Golaboratory
---
Este notebook nos ayudara a:
* Cosas escenciales para la clase.
* Familiarizarse con la conexion de SQLite, Notebook y Python.
* Caja de arena.




#### Conexión a Google Drive

In [None]:

from google.colab import drive
drive.mount('/content/drive')


Mounted at /content/drive


In [None]:
%load_ext sql

In [None]:
%%sql
sqlite:////content/drive/MyDrive/my_db/my_db.db

In [None]:
%%sql
SELECT name FROM sqlite_master WHERE type = 'table'

 * sqlite:////content/drive/MyDrive/my_db/my_db.db
Done.


name
category
subcategory
student


In [None]:
%%sql
SELECT * FROM student

 * sqlite:////content/drive/MyDrive/my_db/my_db.db
Done.


id,name,class,mark,sex
1,John Deo,Four,75,female
2,Max Ruin,Three,85,male
3,Arnold,Three,55,male
4,Krish Star,Four,60,female
5,John Mike,Four,60,female
6,Alex John,Four,55,male
7,My John Rob,Five,78,male
8,Asruid,Five,85,male
9,Tes Qry,Six,78,male
10,Big John,Four,55,female


# Introducción a SQL
<details>
  <summary>Cheat Sheet 1</summary>
  
![Cheat Sheet 1](https://learnsql.com/blog/sql-basics-cheat-sheet/sql-basics-cheat-sheet-a4-page-1.png)
</details>

<details>
  <summary>Cheat Sheet 2</summary>

![Cheat Sheet 2](https://learnsql.com/blog/sql-basics-cheat-sheet/sql-basics-cheat-sheet-a4-page-2.png)
</details>

- **Importaciones necesarias**:
  - `from sqlalchemy import text`: Importa la función `text` para ayudar a formatear las consultas SQL.
  - `from sqlalchemy import create_engine`: Importa la función para crear una conexión con la base de datos.
  - `import pandas as pd`: Importa la biblioteca pandas, útil para trabajar con datos tabulares.


In [30]:
from sqlalchemy import text
from sqlalchemy import create_engine
import pandas as pd

- **Creación de la conexión con la base de datos**:
  - `engine = create_engine("sqlite:////content/GrinderDB.db")`: Crea una conexión con la base de datos SQLite llamada "GrinderDB.db".

In [36]:
engine=create_engine("sqlite:////content/GrinderDB.db")

- **Consulta para obtener el nombre de todas las tablas en la base de datos**:
  - `query = text('''SELECT name FROM sqlite_master WHERE type = 'table' ''')`

- **Ejecución de la consulta y obtención del cursor**:
  - Utiliza un contexto de conexión `with engine.connect() as conn:` para asegurarse de que la conexión se cierre automáticamente.
  - Ejecuta la consulta anterior con `result = conn.execute(query)`.
  - Obtiene un cursor con `cur = result.cursor`.

In [37]:
query = text('''SELECT name FROM sqlite_master WHERE type = 'table' ''')
with engine.connect() as conn:
    result = conn.execute(query)
    cur=result.cursor

- **Ejecuciones de consulta específica y obtención de resultados**:
  - `cur.execute('SELECT * FROM bajaj_rex')` y `cur.fetchall()`: Obtiene todos los registros de la tabla "bajaj_rex".
  - `cur.execute('SELECT * FROM bajaj_rex')` y `cur.fetchone()`: Obtiene solo el primer registro de la tabla "bajaj_rex".
  - Utiliza un bucle `for` para imprimir cada fila de la tabla "bajaj_rex".

In [None]:
cur.execute('SELECT * FROM bajaj_rex')
cur.fetchall()

In [None]:
cur.execute('SELECT * FROM bajaj_rex')
cur.fetchone()

In [None]:
for row in cur.execute('SELECT * FROM bajaj_rex;'):
    print(row)

- **Cerrar el resultado**:
  - `result.close()`: Cierra el objeto de resultado después de su uso.


In [35]:
result.close()

- **Otro método para conectarse y ejecutar consultas**:
  - `conn = engine.connect()`: Establece una nueva conexión con la base de datos.
  - `query = text('''SELECT * FROM bajaj_rex ''')`: Define una nueva consulta.

- **Utilizando pandas para convertir el resultado en un DataFrame**:
  - `df = pd.read_sql_query(query, conn)`: Ejecuta la consulta y convierte el resultado en un DataFrame de pandas.
  - `df.head()`: Muestra las primeras 5 filas del DataFrame.

In [40]:
conn = engine.connect()
query = text('''SELECT * FROM bajaj_rex ''')

df = pd.read_sql_query(query,conn)

In [41]:
df.head()

Unnamed: 0,Name,Title,aiconalt,Review_Date,State,Review,asizebase
0,vinay hinduja,Very good,5.0,Reviewed in India on 1 October 2018,Verified Purchase,I am writing this review after 3+ years of use...,446
1,Gaurav,Worst product from bajaj,1.0,Reviewed in India on 15 September 2018,Verified Purchase,Worst quality. The multi purpose jar caught ru...,322
2,Mr. Raj Guru,Facing problem,1.0,Reviewed in India on 18 November 2016,Verified Purchase,"Dear sir,\nI've purchased Bajaj Rex 500-Watt M...",563
3,Guru Santosh,Bajaj logo is not convinced whether fack or or...,1.0,Reviewed in India on 17 October 2020,Verified Purchase,Why product logo is not same as image shown in...,56
4,Baisakhi Roy,Great Product no.1 best mixture,5.0,Reviewed in India on 27 May 2018,Verified Purchase,I'm statistics with this pocket friendly light...,106


In [47]:
conn.close()

(8697, 8)

# Pipe de procesamiento

In [None]:
# Cargando librerias
#!pip install python-dotenv
#!pip install openai
!pip install pandas-profiling

## Caracterización

- Pandas profiling es un módulo open source de Python.
- Permite realizar análisis exploratorio de datos de manera rápida.
- Se requieren solo unas pocas líneas de código para su ejecución.
- Genera informes interactivos en formato web.
- Los informes pueden ser presentados a cualquier persona, independientemente de si sabe programar o no.
- La herramienta facilita la visualización y comprensión de la distribución de cada variable.
- Proporciona un informe detallado con información fácilmente visible.

[Pandas profiling](https://github.com/ydataai/ydata-profiling)

- **Caracterización de Datos con Pandas y pandas_profiling**:

- **Dimensiones del DataFrame**:
  - `df.shape`: Muestra el número de filas y columnas en el DataFrame. Es útil para entender la magnitud y estructura del conjunto de datos con el que estamos trabajando.

- **Estadísticas descriptivas**:
  - `df.describe()`: Proporciona estadísticas descriptivas del DataFrame. Estas estadísticas incluyen medidas como el promedio, mediana, mínimo, máximo, y percentiles, permitiéndonos tener una visión rápida del comportamiento y distribución de cada variable numérica.

- **Importaciones para Caracterización Avanzada**:
  - `from pandas_profiling import ProfileReport`: Importa la herramienta `ProfileReport` que genera informes detallados sobre el conjunto de datos.
  - `from pandas_profiling.utils.cache import cache_file`: Importa la utilidad para cachear archivos. Esto puede ser útil para manejar informes grandes y optimizar la generación de los mismos.

- **Generación del Informe**:
  - `prof = ProfileReport(df)`: Crea un informe detallado del DataFrame utilizando `pandas_profiling`.
  - `prof.to_file(output_file='output.html')`: Guarda el informe en un archivo HTML llamado "output.html". Este informe es interactivo y proporciona una visión profunda de cada variable, mostrando distribuciones, correlaciones, valores faltantes, y mucho más.

- **Generación de Informe Alternativo**:
  - `report = df.profile_report(sort='ascending', html={'style':{'full_width':True}})`: Genera un informe del DataFrame con algunas opciones personalizadas. En este caso, se está ordenando el informe en orden ascendente y se adapta al ancho completo de la ventana del navegador.
  - `report`: Visualiza el informe generado en la celda anterior directamente en el entorno de notebook o Jupyter.



In [52]:
engine=create_engine("sqlite:////content/GrinderDB.db")
conn = engine.connect()
query = text('''SELECT * FROM GrinderFullReview''')

df = pd.read_sql_query(query,conn)
conn.close()

In [53]:
df.head()

Unnamed: 0,Name,Title,aiconalt,Review_Date,State,Review,asizebase,Product_Name
0,,,,,,,,Bosch_Pro
1,,,,,,,,Philips_Viva
2,,,,,,,,Sujata_Dynamix
3,,,,,,,,bajaj_rex
4,,,,,,,,philips_hl7756


In [None]:
df.shape

In [None]:
df.describe()

In [None]:
from pandas_profiling import ProfileReport
from pandas_profiling.utils.cache import cache_file

prof = ProfileReport(df)
prof.to_file(output_file='output.html')


In [60]:
report = df.profile_report(sort='ascending', html={'style':{'full_width':True}})

In [None]:
report

## Limpieza de datos

## Agregar emociones

## Extraer información

## Presentación

In [43]:
import os
import openai

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file
openai.api_key = os.environ['OPENAI_API_KEY']

In [44]:
# account for deprecation of LLM model
import datetime
# Get the current date
current_date = datetime.datetime.now().date()

# Define the date after which the model should be set to "gpt-3.5-turbo"
target_date = datetime.date(2024, 6, 12)

# Set the model variable based on the current date
if current_date > target_date:
    llm_model = "gpt-3.5-turbo"
else:
    llm_model = "gpt-3.5-turbo-0301"