El archivo csv llamado "reciclaje_pyme_2019_2024.csv" es un archivo con datos ficticios creado por ChatGPT. En este notebook se creará un archivo csv llamdo "dataset.csv" con un formato adecuado (para que sea más fácil trabajar con este) y un archivo de base de datos llamado "dataset.db", que es con el que trabajará de manera más oficial y robusta.

In [8]:
# Libería
import pandas as pd

# Llamar datos ficticios original
df = pd.read_csv("reciclaje_pyme_2019_2024.csv")

# Revisión
df.head()

Unnamed: 0,Fecha,Plástico (kg),Madera (kg),Vidrio (kg),Sargazo (kg)
0,2019-01-01,159.934283,99.462609,206.49707,156.815244
1,2019-02-01,147.234714,123.469655,219.545572,172.895442
2,2019-03-01,162.953771,60.703823,169.076232,165.439094
3,2019-04-01,180.460597,112.328538,166.988585,182.456224
4,2019-05-01,145.316933,101.305706,213.048539,249.439757


In [9]:
# Renombrar columnas a nombres más sencillos
df.rename(columns={
    "Plástico (kg)": "plastico",
    "Madera (kg)": "madera",
    "Vidrio (kg)": "vidrio",
    "Sargazo (kg)": "sargazo"
}, inplace=True)

df.columns

Index(['Fecha', 'plastico', 'madera', 'vidrio', 'sargazo'], dtype='object')

In [10]:
# Redondear a números más manejables
df = round(df, 2)
df.head()

Unnamed: 0,Fecha,plastico,madera,vidrio,sargazo
0,2019-01-01,159.93,99.46,206.5,156.82
1,2019-02-01,147.23,123.47,219.55,172.9
2,2019-03-01,162.95,60.7,169.08,165.44
3,2019-04-01,180.46,112.33,166.99,182.46
4,2019-05-01,145.32,101.31,213.05,249.44


In [11]:
# Convertir la fecha a un formato adecuado
df["Fecha"] = pd.to_datetime(df["Fecha"])
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 72 entries, 0 to 71
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype         
---  ------    --------------  -----         
 0   Fecha     72 non-null     datetime64[ns]
 1   plastico  72 non-null     float64       
 2   madera    72 non-null     float64       
 3   vidrio    72 non-null     float64       
 4   sargazo   72 non-null     float64       
dtypes: datetime64[ns](1), float64(4)
memory usage: 2.9 KB


In [12]:
# Creación del csv formateado
df.to_csv("dataset.csv", index=False)

# Verificar si todo está bien
df2 = pd.read_csv("dataset.csv")
df2.head()

Unnamed: 0,Fecha,plastico,madera,vidrio,sargazo
0,2019-01-01,159.93,99.46,206.5,156.82
1,2019-02-01,147.23,123.47,219.55,172.9
2,2019-03-01,162.95,60.7,169.08,165.44
3,2019-04-01,180.46,112.33,166.99,182.46
4,2019-05-01,145.32,101.31,213.05,249.44


In [13]:
# Creación de la base de datos y del cursor
import sqlite3 as s
conn = s.connect("dataset.db")
cursor = conn.cursor()

# Ejecutar el query el ddl
cursor.execute("""
    CREATE TABLE IF NOT EXISTS materiales (
        Fecha DATETIME NOT NULL,
        plastico REAL NOT NULL,
        madera REAL NOT NULL,
        vidrio REAL NOT NULL,
        sargazo REAL NOT NULL
    )
""")

# Crear el archivo de base de datos
df2.to_sql("materiales", conn, if_exists="replace", index=False)

# Verificar si todo salio bien
df3 = pd.read_sql("SELECT * FROM materiales;", conn)

df3.head()

Unnamed: 0,Fecha,plastico,madera,vidrio,sargazo
0,2019-01-01,159.93,99.46,206.5,156.82
1,2019-02-01,147.23,123.47,219.55,172.9
2,2019-03-01,162.95,60.7,169.08,165.44
3,2019-04-01,180.46,112.33,166.99,182.46
4,2019-05-01,145.32,101.31,213.05,249.44


In [14]:
# Cerrar conexión
conn.commit()
conn.close()