Tenemos los CSV, vamos a lanzar consultas en SQL, por lo que crearemos una Base de Datos, pasaremos los CSVs a 
tablas dentro de la Base de Datos y as√≠ podremos lanzar consultas

In [4]:
# Importar las bibliotecas necesarias
import pandas as pd  # Para manejar archivos CSV y bases de datos
import sqlite3  # Para interactuar con SQLite
import os  # Para comprobar la existencia de archivos

In [5]:
import pandas as pd

# Lista de archivos CSV en tu proyecto
csv_files = [
    "customers_csv.csv",
    "dim_geography.csv",
    "dim_product.csv",
    "dim_territory.csv",
    "fact_sales.csv"
]

for csv_file in csv_files:
    # Cargar el CSV en un DataFrame
    df = pd.read_csv(csv_file)
    # Contar el n√∫mero de registros (filas)
    num_registros = len(df)
    print(f"Archivo {csv_file} contiene {num_registros} registros.")


Archivo customers_csv.csv contiene 1360 registros.
Archivo dim_geography.csv contiene 654 registros.
Archivo dim_product.csv contiene 397 registros.
Archivo dim_territory.csv contiene 11 registros.
Archivo fact_sales.csv contiene 5954 registros.


## Comprobar tipo de datos y formato

In [6]:
import pandas as pd

# Analizar cada archivo
for file in csv_files:
    print(f"\nüîπ An√°lisis del archivo: {file}\n")

    # Detectar si es un CSV con delimitador `;`
    with open(file, 'r') as f:
        first_line = f.readline()
        delimiter = ';' if ';' in first_line else ','

    # Cargar CSV con el delimitador correcto
    df = pd.read_csv(file, delimiter=delimiter)

    # Crear DataFrame con nombre de columna, ejemplo de dato y tipo de dato
    analysis = pd.DataFrame({
        "Columna": df.columns,
        "Ejemplo": df.iloc[0].astype(str),  # Convertimos la primera fila a string
        "Tipo de Dato": df.dtypes.values
    })

    # Mostrar tabla en formato m√°s limpio
    from tabulate import tabulate
    print(tabulate(analysis, headers="keys", tablefmt="pretty"))
    print("-" * 50)




üîπ An√°lisis del archivo: customers_csv.csv

+-------------------+-------------------+------------+--------------+
|                   |      Columna      |  Ejemplo   | Tipo de Dato |
+-------------------+-------------------+------------+--------------+
|    customer_id    |    customer_id    |   11000    |    int64     |
|   geography_id    |   geography_id    |     26     |    int64     |
|     birthdate     |     birthdate     | 08/04/1986 |    object    |
|   maritalstatus   |   maritalstatus   |     M      |    object    |
|      gender       |      gender       |     M      |    object    |
| datefirstpurchase | datefirstpurchase | 22/07/2016 |    object    |
+-------------------+-------------------+------------+--------------+
--------------------------------------------------

üîπ An√°lisis del archivo: dim_geography.csv

+-----------------------------+-----------------------------+-----------------+--------------+
|                             |           Columna         

## Crear conexi√≥n a base de datos SQLite


In [None]:

# Crear conexi√≥n a base de datos SQLite
import sqlite3
import os

# Borrar la base de datos anterior si existe (opcional pero √∫til porque sino hay cambios que en vez de pisar los amplia)
if os.path.exists("cycle_sales.db"):
    os.remove("cycle_sales.db")



In [None]:
#se crea base limpia

conn = sqlite3.connect("cycle_sales.db")
cursor = conn.cursor()

## CSV TABLES, tiene que ser diccionario, no vale lista

In [47]:
csv_tables = {
    "customers_csv.csv": "customers_csv",
    "dim_geography.csv": "dim_geography",
    "dim_product.csv": "dim_product",
    "dim_territory.csv": "dim_territory",
    "fact_sales.csv": "fact_sales"
}

## Procesar CSVs y guardar en la base de datos


In [48]:
import sqlite3
import os
from csv import Sniffer




# Crear conexi√≥n a base de datos SQLite
conn = sqlite3.connect("cycle_sales.db")  # aseg√∫rate de usar el mismo nombre si ya lo tienes
cursor = conn.cursor()


# Funci√≥n para detectar autom√°ticamente si el CSV usa coma (,) o punto y coma (;)
def detectar_separador(file_path):
    with open(file_path, 'r', encoding='utf-8') as f:
        muestra = f.read(2048)  # Leer una muestra del archivo
        return Sniffer().sniff(muestra).delimiter  # Devolver el separador detectado

# Crear la conexi√≥n a la base de datos SQLite (se guarda como archivo local)
conn = sqlite3.connect("cycle_sales.db")
cursor = conn.cursor()

# Recorrer todos los archivos y sus tablas asociadas
for file_name, table_name in csv_tables.items():
    if os.path.exists(file_name):
        print(f"\nüì• Procesando: {file_name}")
        
        # Detectar el separador autom√°ticamente
        sep = detectar_separador(file_name)
        print(f"üß™ Separador detectado para {file_name}: '{sep}'")
        
        # Leer el CSV con el separador correcto
        df = pd.read_csv(file_name, sep=sep)

        # Limpiar los nombres de columnas: min√∫sculas, sin espacios, sin caracteres raros
        df.columns = [col.lower().strip().replace(" ", "_") for col in df.columns]

        # Cargar los datos a la tabla correspondiente en SQLite
        df.to_sql(name=table_name, con=conn, if_exists="replace", index=False)

        # Contar registros insertados y mostrar
        cursor.execute(f"SELECT COUNT(*) FROM {table_name}")
        row_count = cursor.fetchone()[0]
        print(f"‚úÖ Tabla '{table_name}' cargada con {row_count} registros")
    else:
        print(f"‚ùå Archivo no encontrado: {file_name}")

# Guardar cambios y cerrar conexi√≥n
conn.commit()
conn.close()

print("\nüì¶ Base de datos SQLite generada correctamente: cycle_sales.db")


üì• Procesando: customers_csv.csv
üß™ Separador detectado para customers_csv.csv: ';'
‚úÖ Tabla 'customers_csv' cargada con 1360 registros

üì• Procesando: dim_geography.csv
üß™ Separador detectado para dim_geography.csv: ','
‚úÖ Tabla 'dim_geography' cargada con 654 registros

üì• Procesando: dim_product.csv
üß™ Separador detectado para dim_product.csv: ','
‚úÖ Tabla 'dim_product' cargada con 397 registros

üì• Procesando: dim_territory.csv
üß™ Separador detectado para dim_territory.csv: ','
‚úÖ Tabla 'dim_territory' cargada con 11 registros

üì• Procesando: fact_sales.csv
üß™ Separador detectado para fact_sales.csv: ','
‚úÖ Tabla 'fact_sales' cargada con 5954 registros

üì¶ Base de datos SQLite generada correctamente: cycle_sales.db


sqlite3 cycle_sales.db .dump > cycle_sales_export.sql


In [49]:
import chardet

input_file = "cycle_sales_export.sql"
output_file = "cycle_sales_export_mysql.sql"

# Detectar codificaci√≥n original
with open(input_file, 'rb') as f:
    raw_data = f.read()
    result = chardet.detect(raw_data)
    encoding = result['encoding']

print(f"üìÑ Codificaci√≥n detectada: {encoding}")

# Decodificar el archivo con la codificaci√≥n correcta
content = raw_data.decode(encoding)

# Reemplazos:
content = content.replace('"', '`')  # Comillas para MySQL
content = content.replace("BEGIN TRANSACTION;", "")
content = content.replace("COMMIT;", "")

# Tipos de datos m√°s adecuados para MySQL
content = content.replace(" TEXT", " VARCHAR(255)")
content = content.replace("TEXT", "VARCHAR(255)")  # por si hay sin espacio
content = content.replace("INTEGER", "INT")
content = content.replace("REAL", "FLOAT")
content = content.replace("NUMERIC", "DECIMAL(10,2)")

# Encabezado para crear y usar la base de datos
mysql_header = """
-- Crear base de datos en MySQL
CREATE DATABASE IF NOT EXISTS sales_cycle;
USE sales_cycle;
"""

# Combinar y guardar
final_content = mysql_header.strip() + "\n\n" + content.strip()

with open(output_file, "w", encoding="utf-8") as f:
    f.write(final_content)

print("‚úÖ Archivo SQL limpio y mejorado guardado como:", output_file)



üìÑ Codificaci√≥n detectada: UTF-16
‚úÖ Archivo SQL limpio y mejorado guardado como: cycle_sales_export_mysql.sql


# 1. Conectar o crear la base de datos SQLite, esto al final no lo hago porque no se importa luego bien a MYSQL


# Si el archivo 'sales_data.db' no existe, SQLite lo crear√° autom√°ticamente
conn = sqlite3.connect("sales_data.db")
print("Conexi√≥n establecida con la base de datos.")

# Cambiar algunos t√©rminos de SQLite para que sea compatible con MySQL
Cambiar al principio<br>

PRAGMA foreign_keys=OFF;<br>
BEGIN TRANSACTION;<br>
CREATE TABLE .....<br>
<br>

por <br>
<br>

-- Crear base de datos en MySQL<br>
CREATE DATABASE IF NOT EXISTS sales_data_cycle;<br>
USE sales_data_cycle;<br>
<br>

> ‚Ä¢ Reemplaza todas las ocurrencias de AUTOINCREMENT por AUTO_INCREMENT (MySQL usa AUTO_INCREMENT). <br>
> ‚Ä¢ Si ves PRAGMA o BEGIN TRANSACTION, elim√≠nalos (MySQL no los usa). <br>
> ‚Ä¢ Aseg√∫rate de que las FOREIGN KEY tengan ON DELETE CASCADE si quieres que se comporten igual en MySQL. <br>
> ‚Ä¢ Las "" en nombres de tablas y campos habra que quitarlos<br>
> ‚Ä¢ Sin espacios