## Importación de librerías

In [1]:
import pandas as pd
pd.set_option('display.max_columns', None)

## Carga de datos

In [2]:
df_raw = pd.read_excel('../data/raw/Datos_originales.xlsx')
df_raw.sample(5)

Unnamed: 0,SITUACION MES,SITUACION AÑO,Estrato,Descripción Provinc,Linea Venta,Descripción Linea V,Subcuenta,Descripción Subcuen,Concepto,Cliente,Cont/Proy,Asiento,Línea,Importe,Opción,Perfíl,I/C,Provincia,Resultado,Responsable
26732,6,2023,13,,14,SERV. AUXILIARES,617,CARGAS SOCIALES,AJUSTE 05/2023 T90 SILTRA,748010.0,226,139998,2064,1,477,X5303589ZS,3,0,-1,Mercedes_Hernandez
4857,2,2023,38,,83,SERV. DEPORTIVOS,3,PRODUCCION VALORADA SPYC,PRODUCCION REALIZADA 02/2023,737340.0,8,42523,4310,1974165,980,X7443051ZB,7,0,1974165,Mercedes_Hernandez
36831,8,2023,13,,81,SERV. LOGÍSTICOS,640,ALQUILERES,PERIODIFICACIÓN RENTING,785520.0,17,163822,391,9134,304,TSOPER1,3,0,-9134,Mercedes_Hernandez
33786,7,2023,28,,84,OCIO/TIEMPO LIBR,617,CARGAS SOCIALES,SEGUROS SOC.MEC. 07/2023,460350.0,25,170757,4452,228,944,X1409536ZX,3,0,-228,Mercedes_Hernandez
7763,2,2023,28,,81,SERV. LOGÍSTICOS,666,SERV. AUX. TERCEROS,SEG.R.C.AVIAC 02/2023,786770.0,2,41812,3,2588521,860,X9474414ZC,3,0,-2588521,Mercedes_Hernandez


In [3]:
df=df_raw.copy()

### Cambios nombres columnas

In [4]:
df.columns = df.columns.str.replace(' ', '_').str.lower()

### Unificamos año con mes y convertimos en fecha

In [5]:
df['Fecha'] = pd.to_datetime(dict(year=df['situacion_año'],
                                   month=df['situacion_mes'],
                                   day=1))

### Cambiar las mayúsculas por minúsculas de las columnas 'descripción_linea_v', 'descripción_subcuen' y 'concepto'

In [6]:
cols = ['descripción_linea_v', 'descripción_subcuen', 'concepto']

df[cols] = df[cols].apply(lambda x: x.str.lower())


### Cambiar columnas númericas que son identificadores por columnas categóricas

In [7]:
cols_id = ['estrato', 'linea_venta', 'subcuenta', 'cliente', 'cont/proy', 'línea', 'i/c']

df[cols_id] = df[cols_id].astype('category')



### Eliminar columnas irrelevantes

Vamos a eliminar columnas que no nos aporten información relevante.

- Eliminar columnas de situacion_año y situacion_mes, porque ya hemos creado la columna fecha 
- Descripcion provincia: Tiene el 100% de nulos, pero sería una columna categórica con el nombre de la provincia según su CP
- Asiento: número de apunte contable, sin relevancia
- Perfíl: Adminitrativo que introduce el dato. Sin relevania
- Opción: Identificador del tipo de cuenta. Sin relevancia
- Provincia: Está todo en 0, podríamos eliminarla




In [8]:
columnas_eliminar = ['situacion_mes', 'situacion_año', 'descripción_provinc', 'asiento', 'perfíl', 'opción', 'provincia']

In [9]:
df = df.drop(columns=columnas_eliminar)

In [15]:
df.columns

Index(['SITUACION MES', 'SITUACION AÑO', 'Estrato', 'Linea Venta',
       'Descripción Linea V', 'Subcuenta', 'Descripción Subcuen', 'Concepto',
       'Cliente', 'Cont/Proy', 'Línea', 'Importe', 'I/C', 'Resultado',
       'Responsable'],
      dtype='object')

In [12]:
df.to_excel('../data/data_limpios.xlsx', index=False)