# Datos de reportes mineros consolidados y guardados en base de datos

Se nos presentan los datos de reportes de producción minera en archivos csv, los cuales debemos trabajar mediante ETL para cargarlos a una base de datos

## Importamos las librerías

In [1]:
import pandas as pd
from numpy import nan
import sqlalchemy
import psycopg2

## 1. Extract

Realizamos la extracción de datos desde los archivos csv.
También deberemos analizar la composición de los datos obtenidos.

In [2]:
df_datos = pd.read_csv(filepath_or_buffer="DatosEjemploDiciembre2.csv", sep=";",encoding='latin-1')

In [3]:
df_datos

Unnamed: 0,Fecha,Carguio,Cami¢n,Flota,Material,Origen,Zona,Destino,Tonelaje,Ciclos,Rajo
0,2022/12/01,CF2,C11,CAT 797 B,Sulfuro de Media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,3816530151,1,ESPERANZA
1,2022/12/01,CF2,C132,CAT 793 C,Sulfuro de Media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,226,1,ESPERANZA
2,2022/12/01,CF2,C160,CAT 793 F,Sulfuro de Media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,452,2,ESPERANZA
3,2022/12/01,CF2,C39,CAT 797 F,Sulfuro de Media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,3816530151,1,ESPERANZA
4,2022/12/01,CF2,C51,KOM 930 E,Sulfuro de Media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,3145620117,1,ESPERANZA
...,...,...,...,...,...,...,...,...,...,...,...
16631,2022/12/31,PA9,C47,CAT 797 F,Sulfuro de Alta Ley,ESP/F08/1800/803,FASE 8,STOCK_SAL_DIN,3480710144,1,ESPERANZA
16632,2022/12/31,PA9,C49,KOM 930 E,Sulfuro de Alta Ley,ESP/F08/1800/803,FASE 8,STOCK_SAL_DIN,2888269958,1,ESPERANZA
16633,2022/12/31,PA9,C50,KOM 930 E,Lastre Sulfurado,ESP/F08/1832/824,FASE 8,BOT_RAMPA_SUPERIOR,8664810181,3,ESPERANZA
16634,2022/12/31,PA9,C55,KOM 930 E,Sulfuro de Alta Ley,ESP/F08/1800/803,FASE 8,CHANCADO-SULFURO,2888269958,1,ESPERANZA


## 2. Transform

Separamos los datos por columnnas

In [4]:
colsDatos = ['fecha', 'carguio', 'camion', 'flota', 'material', 'origen', 'zona', 'destino', 'tonelaje', 'ciclos', 'rajo']
df_datos.columns = colsDatos

Obtenemos los tipos de datos para el dataframe

In [5]:
df_datos.dtypes

fecha       object
carguio     object
camion      object
flota       object
material    object
origen      object
zona        object
destino     object
tonelaje    object
ciclos       int64
rajo        object
dtype: object

Buscamos la cantidad de datos en el dataframe

In [6]:
df_datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16636 entries, 0 to 16635
Data columns (total 11 columns):
 #   Column    Non-Null Count  Dtype 
---  ------    --------------  ----- 
 0   fecha     16636 non-null  object
 1   carguio   16636 non-null  object
 2   camion    16636 non-null  object
 3   flota     16636 non-null  object
 4   material  16636 non-null  object
 5   origen    16636 non-null  object
 6   zona      16636 non-null  object
 7   destino   16636 non-null  object
 8   tonelaje  16636 non-null  object
 9   ciclos    16636 non-null  int64 
 10  rajo      16636 non-null  object
dtypes: int64(1), object(10)
memory usage: 1.4+ MB


Sumamos los datos nulos

In [7]:
df_datos.isnull().sum()

fecha       0
carguio     0
camion      0
flota       0
material    0
origen      0
zona        0
destino     0
tonelaje    0
ciclos      0
rajo        0
dtype: int64

Al no haber datos nulos en el dataframe se continua, de haber nulos se procederá a eliminarlos

### Formateo de datos

La mezcla de mayúsculas y minúsculas (camel case) suele dar problemas, por lo que decidimos pasar los valores de la columna material a minúscula

In [8]:
df_datos["material"] = df_datos["material"].str.lower()
df_datos

Unnamed: 0,fecha,carguio,camion,flota,material,origen,zona,destino,tonelaje,ciclos,rajo
0,2022/12/01,CF2,C11,CAT 797 B,sulfuro de media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,3816530151,1,ESPERANZA
1,2022/12/01,CF2,C132,CAT 793 C,sulfuro de media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,226,1,ESPERANZA
2,2022/12/01,CF2,C160,CAT 793 F,sulfuro de media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,452,2,ESPERANZA
3,2022/12/01,CF2,C39,CAT 797 F,sulfuro de media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,3816530151,1,ESPERANZA
4,2022/12/01,CF2,C51,KOM 930 E,sulfuro de media,STOCK_SME,ESPERANZA,CHANCADO-SULFURO,3145620117,1,ESPERANZA
...,...,...,...,...,...,...,...,...,...,...,...
16631,2022/12/31,PA9,C47,CAT 797 F,sulfuro de alta ley,ESP/F08/1800/803,FASE 8,STOCK_SAL_DIN,3480710144,1,ESPERANZA
16632,2022/12/31,PA9,C49,KOM 930 E,sulfuro de alta ley,ESP/F08/1800/803,FASE 8,STOCK_SAL_DIN,2888269958,1,ESPERANZA
16633,2022/12/31,PA9,C50,KOM 930 E,lastre sulfurado,ESP/F08/1832/824,FASE 8,BOT_RAMPA_SUPERIOR,8664810181,3,ESPERANZA
16634,2022/12/31,PA9,C55,KOM 930 E,sulfuro de alta ley,ESP/F08/1800/803,FASE 8,CHANCADO-SULFURO,2888269958,1,ESPERANZA


Notamos que podemos cambiar el tipo de tonelaje desde objtect a float, para ello primero debemos reemplazar las "comas" por "puntos"

In [9]:
df_datos['tonelaje'] = df_datos['tonelaje'].str.replace(',', '.') #separamos correctamente los datos
df_datos = df_datos.astype({'tonelaje': 'float64'})
df_datos.dtypes

fecha        object
carguio      object
camion       object
flota        object
material     object
origen       object
zona         object
destino      object
tonelaje    float64
ciclos        int64
rajo         object
dtype: object

Notamos que también podemos cambiar el formato a las fechas

In [10]:
df_datos['fecha'] = df_datos['fecha'].str.replace('/', '-') #separamos correctamente los datos
df_datos['fecha'] = pd.to_datetime(df_datos['fecha'])
df_datos.dtypes

fecha       datetime64[ns]
carguio             object
camion              object
flota               object
material            object
origen              object
zona                object
destino             object
tonelaje           float64
ciclos               int64
rajo                object
dtype: object

## 3. Load

A continuación cargamos nuestros dataframes a una base de datos en PostgreSQL

Para ello crearemos dataframes que se adapten a nuestras tablas de SQL

In [11]:
colsFlota = ['nombre_flota'] #creamos las columnas
colsCamion = ['flota', 'id_camion']
colsRajo = ['nombre_rajo']
colsFase = ['rajo', 'id_fase', 'estado']
colsExtraccion = ['fecha', 'flota', 'camion', 'material', 'origen', 'destino', 'tonelaje', 'ciclos', 'rajo', 'fase']

In [12]:
df_flota = pd.DataFrame(columns=colsFlota) #creamos los dataframes
df_camion = pd.DataFrame(columns=colsCamion)
df_rajo = pd.DataFrame(columns=colsRajo)
df_fase = pd.DataFrame(columns=colsFase)
df_extraccion = pd.DataFrame(columns=colsExtraccion)

Rellenamos los nuevos dataframes

In [13]:
df_flota['nombre_flota'] = df_datos['flota'] #para el caso de las flotas

In [14]:
df_flota.dropna(inplace=True)
df_flota = df_flota.drop_duplicates(subset=['nombre_flota'])
df_flota

Unnamed: 0,nombre_flota
0,CAT 797 B
1,CAT 793 C
2,CAT 793 F
3,CAT 797 F
4,KOM 930 E
148,KOM 980 ESP


In [15]:
df_camion['flota'] = df_datos['flota'] #para los camiones
df_camion['id_camion'] = df_datos['camion']
df_camion = df_camion.drop_duplicates(subset=['id_camion'])
df_camion

Unnamed: 0,flota,id_camion
0,CAT 797 B,C11
1,CAT 793 C,C132
2,CAT 793 F,C160
3,CAT 797 F,C39
4,KOM 930 E,C51
...,...,...
575,KOM 980 ESP,C212
1589,CAT 797 B,C13
1597,CAT 797 F,C40
2334,KOM 980 ESP,C215


In [16]:
df_rajo['nombre_rajo'] = df_datos['rajo'] # para los rajos
df_rajo = df_rajo.drop_duplicates(subset=['nombre_rajo'])
df_rajo

Unnamed: 0,nombre_rajo
0,ESPERANZA
7,LLANO
12,TESORO


In [17]:
df_fase['rajo'] = df_datos['rajo'] #para las fases
df_fase['id_fase'] = df_datos['zona']
df_fase['estado'] = True
df_fase = df_fase.drop_duplicates(subset=['id_fase'])
df_fase

Unnamed: 0,rajo,id_fase,estado
0,ESPERANZA,ESPERANZA,True
7,LLANO,F01 LLA,True
12,TESORO,OXIDO,True
34,ESPERANZA,FASE 7,True
131,ESPERANZA,FASE 8,True


In [18]:
df_fase['id_fase'] = df_fase['id_fase'].str.replace('F01 LLA', 'FASE 1') #arreglamos los valores que no se adecuan al resto
df_fase

Unnamed: 0,rajo,id_fase,estado
0,ESPERANZA,ESPERANZA,True
7,LLANO,FASE 1,True
12,TESORO,OXIDO,True
34,ESPERANZA,FASE 7,True
131,ESPERANZA,FASE 8,True


In [19]:
df_extraccion['fecha'] = df_datos['fecha']
df_extraccion['flota'] = df_datos['flota']
df_extraccion['camion'] = df_datos['camion']
df_extraccion['material'] = df_datos['material']
df_extraccion['origen'] = df_datos['origen']
df_extraccion['destino'] = df_datos['destino']
df_extraccion['tonelaje'] = df_datos['tonelaje']
df_extraccion['ciclos'] = df_datos['ciclos']
df_extraccion['rajo'] = df_datos['rajo']
df_extraccion['fase'] = df_datos['zona']
df_extraccion

Unnamed: 0,fecha,flota,camion,material,origen,destino,tonelaje,ciclos,rajo,fase
0,2022-12-01,CAT 797 B,C11,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,381.653015,1,ESPERANZA,ESPERANZA
1,2022-12-01,CAT 793 C,C132,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,226.000000,1,ESPERANZA,ESPERANZA
2,2022-12-01,CAT 793 F,C160,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,452.000000,2,ESPERANZA,ESPERANZA
3,2022-12-01,CAT 797 F,C39,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,381.653015,1,ESPERANZA,ESPERANZA
4,2022-12-01,KOM 930 E,C51,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,314.562012,1,ESPERANZA,ESPERANZA
...,...,...,...,...,...,...,...,...,...,...
16631,2022-12-31,CAT 797 F,C47,sulfuro de alta ley,ESP/F08/1800/803,STOCK_SAL_DIN,348.071014,1,ESPERANZA,FASE 8
16632,2022-12-31,KOM 930 E,C49,sulfuro de alta ley,ESP/F08/1800/803,STOCK_SAL_DIN,288.826996,1,ESPERANZA,FASE 8
16633,2022-12-31,KOM 930 E,C50,lastre sulfurado,ESP/F08/1832/824,BOT_RAMPA_SUPERIOR,866.481018,3,ESPERANZA,FASE 8
16634,2022-12-31,KOM 930 E,C55,sulfuro de alta ley,ESP/F08/1800/803,CHANCADO-SULFURO,288.826996,1,ESPERANZA,FASE 8


In [20]:
df_extraccion['fase'] = df_extraccion['fase'].str.replace('F01 LLA', 'FASE 1') #corregimos errores de escritura
df_extraccion

Unnamed: 0,fecha,flota,camion,material,origen,destino,tonelaje,ciclos,rajo,fase
0,2022-12-01,CAT 797 B,C11,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,381.653015,1,ESPERANZA,ESPERANZA
1,2022-12-01,CAT 793 C,C132,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,226.000000,1,ESPERANZA,ESPERANZA
2,2022-12-01,CAT 793 F,C160,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,452.000000,2,ESPERANZA,ESPERANZA
3,2022-12-01,CAT 797 F,C39,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,381.653015,1,ESPERANZA,ESPERANZA
4,2022-12-01,KOM 930 E,C51,sulfuro de media,STOCK_SME,CHANCADO-SULFURO,314.562012,1,ESPERANZA,ESPERANZA
...,...,...,...,...,...,...,...,...,...,...
16631,2022-12-31,CAT 797 F,C47,sulfuro de alta ley,ESP/F08/1800/803,STOCK_SAL_DIN,348.071014,1,ESPERANZA,FASE 8
16632,2022-12-31,KOM 930 E,C49,sulfuro de alta ley,ESP/F08/1800/803,STOCK_SAL_DIN,288.826996,1,ESPERANZA,FASE 8
16633,2022-12-31,KOM 930 E,C50,lastre sulfurado,ESP/F08/1832/824,BOT_RAMPA_SUPERIOR,866.481018,3,ESPERANZA,FASE 8
16634,2022-12-31,KOM 930 E,C55,sulfuro de alta ley,ESP/F08/1800/803,CHANCADO-SULFURO,288.826996,1,ESPERANZA,FASE 8


In [21]:
df_extraccion = df_extraccion.groupby(['fecha', 'flota', 'camion', 'material', 'origen', 'destino', 'rajo', 'fase']).sum().reset_index()
df_extraccion

Unnamed: 0,fecha,flota,camion,material,origen,destino,rajo,fase,tonelaje,ciclos
0,2022-12-01,CAT 793 C,C121,lastre oxidado,ESP/F07/2168/7062,BOT_2380_INT,ESPERANZA,FASE 7,643.572998,3
1,2022-12-01,CAT 793 C,C121,lastre oxidado,ESP/F07/2184/732,BOT_2380_INT,ESPERANZA,FASE 7,1072.619995,5
2,2022-12-01,CAT 793 C,C122,lastre oxidado,ESP/F07/2168/7062,BOT_2380_INT,ESPERANZA,FASE 7,1072.619995,5
3,2022-12-01,CAT 793 C,C122,lastre oxidado,ESP/F07/2184/732,BOT_2380_INT,ESPERANZA,FASE 7,1072.619995,5
4,2022-12-01,CAT 793 C,C122,lastre sulfurado,ESP/F07/2184/733,BOT_INT_RB,ESPERANZA,FASE 7,214.524002,1
...,...,...,...,...,...,...,...,...,...,...
15565,2022-12-31,KOM 980 ESP,C215,lastre oxidado,ESP/F07/2168/721,BOT_INT_RB,ESPERANZA,FASE 7,6705.712158,19
15566,2022-12-31,KOM 980 ESP,C215,lastre oxidado,ESP/F07/2168/721,BOT_PETRIL_CHANCADO,ESPERANZA,FASE 7,352.932007,1
15567,2022-12-31,KOM 980 ESP,C215,lastre oxidado,ESP/F07/2168/721,LASTRE_PRETIL_ESTE,ESPERANZA,FASE 7,1411.729980,4
15568,2022-12-31,KOM 980 ESP,C215,sulfuro baja ley,ESP/F08/1816/8030,CHANCADO-SULFURO,ESPERANZA,FASE 8,360.178009,1


### Conexión

Procedemos a conectarnos a la base de datos

In [22]:
engine = sqlalchemy.create_engine('postgresql://postgres:admin@localhost:5432/DBextracciones')

Reindexamos los dataframes

In [23]:
df_flota.set_index('nombre_flota', inplace=True)
df_camion.set_index('flota', inplace=True)
df_rajo.set_index('nombre_rajo', inplace=True)
df_fase.set_index('rajo', inplace=True)
df_extraccion.set_index('fecha', inplace=True)

Cargamos los datos

In [24]:
df_flota.to_sql('flota', engine, if_exists='append')
df_camion.to_sql('camion', engine, if_exists='append')
df_rajo.to_sql('rajo', engine, if_exists='append')
df_fase.to_sql('fase', engine, if_exists='append')
df_extraccion.to_sql('extraccion', engine, if_exists='append')

570