# Importación de datos desde fichero CSV

In [33]:
import pandas as pd

Cargamos y visualizamos los datos

In [None]:
file = 'cdiae/data/01_raw/empleados_metacortex.csv'
df = pd.read_csv(file)
df

Unnamed: 0,# Archivo de datos de empleados
0,# Entidad: ACME Seguros S.A.
1,# Fecha: 01/06/2025
2,fecha_nacimiento;fecha_alta;empleado_id;nombre...
3,1990-01-15;2020/01/15;1001;Ana García;F;28013;...
4,1985-12-03;2019/12/03;1002;Luis Rodríguez;;410...
5,1979-09-19;2004/03/01;1003;Fran Garcia;M;29015...
6,% --- Sede Bilbao ---
7,1992-07-22;2021/07/22;2001;María López;F;48004...
8,1988-04-10;2018/04/10;2002;Carlos Martín;M;480...
9,1981-03-11;2018/04/10;2003;Luis González;;4800...


Especificamos separador y fila de encabezados

In [35]:
df = pd.read_csv(
        file,  
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8'
)
df

Unnamed: 0,fecha_nacimiento,fecha_alta,empleado_id,nombre,sexo_biologico,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020/01/15,1001.0,Ana García,F,28013.0,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019/12/03,1002.0,Luis Rodríguez,,41001.0,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004/03/01,1003.0,Fran Garcia,M,29015.0,,M,Finanzas,Sí,40,
3,% --- Sede Bilbao ---,,,,,,,,,,,
4,1992-07-22,2021/07/22,2001.0,María López,F,48004.0,52745245N,,Finanzas,No,40h,3000.0
5,1988-04-10,2018/04/10,2002.0,Carlos Martín,M,48001.0,82167366G,Mujer,Actuarial,Sí,45,
6,1981-03-11,2018/04/10,2003.0,Luis González,,48007.0,1248870G,,IT,Sí,45,6000.0
7,1995-11-08,2022/11/08,2004.0,Elena Ruiz,F,15003.0,28859641T,Mujer,IT,Sí,38,5000.0
8,1995-11-08,2022/11/08,2004.0,Elena Ruiz,F,15003.0,28859641T,Mujer,IT,Sí,35,7000.0
9,1986-05-08,1922/03/04,2005.0,Gorka de Miguel,M,46001.0,11859641K,Hombre,Finanzas,Sí,35,


Añadimos parámetros para omitir el pie de archivo y los comentarios en líneas

In [36]:
df = pd.read_csv(
        file,  
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%'
)
df 

Unnamed: 0,fecha_nacimiento,fecha_alta,empleado_id,nombre,sexo_biologico,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020/01/15,1001,Ana García,F,28013,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019/12/03,1002,Luis Rodríguez,,41001,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004/03/01,1003,Fran Garcia,M,29015,,M,Finanzas,Sí,40,
3,1992-07-22,2021/07/22,2001,María López,F,48004,52745245N,,Finanzas,No,40h,3000.0
4,1988-04-10,2018/04/10,2002,Carlos Martín,M,48001,82167366G,Mujer,Actuarial,Sí,45,
5,1981-03-11,2018/04/10,2003,Luis González,,48007,1248870G,,IT,Sí,45,6000.0
6,1995-11-08,2022/11/08,2004,Elena Ruiz,F,15003,28859641T,Mujer,IT,Sí,38,5000.0
7,1995-11-08,2022/11/08,2004,Elena Ruiz,F,15003,28859641T,Mujer,IT,Sí,35,7000.0
8,1986-05-08,1922/03/04,2005,Gorka de Miguel,M,46001,11859641K,Hombre,Finanzas,Sí,35,


Seleccionamos ciertas columnas relevantes

In [37]:
df = pd.read_csv(
        file,  
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8', 
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',
        usecols=['fecha_nacimiento','fecha_alta','nombre','sexo_biologico','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus']
)
df

Unnamed: 0,fecha_nacimiento,fecha_alta,nombre,sexo_biologico,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020/01/15,Ana García,F,28013,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019/12/03,Luis Rodríguez,,41001,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004/03/01,Fran Garcia,M,29015,,M,Finanzas,Sí,40,
3,1992-07-22,2021/07/22,María López,F,48004,52745245N,,Finanzas,No,40h,3000.0
4,1988-04-10,2018/04/10,Carlos Martín,M,48001,82167366G,Mujer,Actuarial,Sí,45,
5,1981-03-11,2018/04/10,Luis González,,48007,1248870G,,IT,Sí,45,6000.0
6,1995-11-08,2022/11/08,Elena Ruiz,F,15003,28859641T,Mujer,IT,Sí,38,5000.0
7,1995-11-08,2022/11/08,Elena Ruiz,F,15003,28859641T,Mujer,IT,Sí,35,7000.0
8,1986-05-08,1922/03/04,Gorka de Miguel,M,46001,11859641K,Hombre,Finanzas,Sí,35,


Procesamos las fechas durante la lectura y ajuste fino posterior

In [38]:
df = pd.read_csv(
        file,  
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           # Codificación de caracteres
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',                # Líneas que empiecen con % son comentarios
        usecols=['fecha_nacimiento','fecha_alta','nombre','sexo_biologico','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus'],
        parse_dates=['fecha_nacimiento', 'fecha_alta'],  # Convierte automáticamente a datetime
        date_format='%Y-%m-%d'      # OJO: Formato único para todas las columnas de fecha
)
df

Unnamed: 0,fecha_nacimiento,fecha_alta,nombre,sexo_biologico,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020/01/15,Ana García,F,28013,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019/12/03,Luis Rodríguez,,41001,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004/03/01,Fran Garcia,M,29015,,M,Finanzas,Sí,40,
3,1992-07-22,2021/07/22,María López,F,48004,52745245N,,Finanzas,No,40h,3000.0
4,1988-04-10,2018/04/10,Carlos Martín,M,48001,82167366G,Mujer,Actuarial,Sí,45,
5,1981-03-11,2018/04/10,Luis González,,48007,1248870G,,IT,Sí,45,6000.0
6,1995-11-08,2022/11/08,Elena Ruiz,F,15003,28859641T,Mujer,IT,Sí,38,5000.0
7,1995-11-08,2022/11/08,Elena Ruiz,F,15003,28859641T,Mujer,IT,Sí,35,7000.0
8,1986-05-08,1922/03/04,Gorka de Miguel,M,46001,11859641K,Hombre,Finanzas,Sí,35,


Ajustamos el formato de columna con formato distinto (fecha_alta)

In [39]:
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], format='%Y/%m/%d')
df.head()

Unnamed: 0,fecha_nacimiento,fecha_alta,nombre,sexo_biologico,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020-01-15,Ana García,F,28013,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019-12-03,Luis Rodríguez,,41001,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004-03-01,Fran Garcia,M,29015,,M,Finanzas,Sí,40,
3,1992-07-22,2021-07-22,María López,F,48004,52745245N,,Finanzas,No,40h,3000.0
4,1988-04-10,2018-04-10,Carlos Martín,M,48001,82167366G,Mujer,Actuarial,Sí,45,


Lectura con tratamiento explícito de valores nulos

In [40]:
df = pd.read_csv(
        file,  
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           # Codificación de caracteres
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',                # Líneas que empiecen con % son comentarios
        usecols=['fecha_nacimiento','fecha_alta','nombre','sexo_biologico','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus'],
        parse_dates=['fecha_nacimiento', 'fecha_alta'],  # Convierte automáticamente a datetime
        date_format='%Y-%m-%d',      # OJO: Formato único para todas las columnas de fecha
        na_values=['', 'N/A', 'null', 'NULL'],  # Define representaciones de NA
        keep_default_na=True,        # Mantiene NAs por defecto de pandas
)
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], format='%Y/%m/%d')
df.head()

Unnamed: 0,fecha_nacimiento,fecha_alta,nombre,sexo_biologico,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020-01-15,Ana García,F,28013,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019-12-03,Luis Rodríguez,,41001,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004-03-01,Fran Garcia,M,29015,,M,Finanzas,Sí,40,
3,1992-07-22,2021-07-22,María López,F,48004,52745245N,,Finanzas,No,40h,3000.0
4,1988-04-10,2018-04-10,Carlos Martín,M,48001,82167366G,Mujer,Actuarial,Sí,45,


### Ficheros comprimidos
Pandas hace lectura directa desde cualquier archivo comprimido tales como zip, rar, tar.bz2, etc.. (lo descomprime automáticamente)

In [41]:
df = pd.read_csv(
        '../data/01_raw/empleados_metacortex.zip',
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           # Codificación de caracteres
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',                # Líneas que empiecen con % son comentarios
        usecols=['fecha_nacimiento','fecha_alta','nombre','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus'],
        parse_dates=['fecha_nacimiento', 'fecha_alta'],  # Convierte automáticamente a datetime
        date_format='%Y-%m-%d',      # OJO: Formato único para todas las columnas de fecha
        na_values=['', 'N/A', 'null', 'NULL'],
        keep_default_na=True,
)
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], format='%Y/%m/%d')
df.head()

Unnamed: 0,fecha_nacimiento,fecha_alta,nombre,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
0,1990-01-15,2020-01-15,Ana García,28013,88862218Q,Mujer,Actuarial,Sí,40,5000.0
1,1985-12-03,2019-12-03,Luis Rodríguez,41001,17905733A,Hombre,IT,Sí,35h,
2,1979-09-19,2004-03-01,Fran Garcia,29015,,M,Finanzas,Sí,40,
3,1992-07-22,2021-07-22,María López,48004,52745245N,,Finanzas,No,40h,3000.0
4,1988-04-10,2018-04-10,Carlos Martín,48001,82167366G,Mujer,Actuarial,Sí,45,


### Inspección inicial de datos
Visualizar los tipos de datos y no-nulos por columna:

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9 entries, 0 to 8
Data columns (total 10 columns):
 #   Column            Non-Null Count  Dtype         
---  ------            --------------  -----         
 0   fecha_nacimiento  9 non-null      datetime64[ns]
 1   fecha_alta        9 non-null      datetime64[ns]
 2   nombre            9 non-null      object        
 3   codigo_postal     9 non-null      int64         
 4   nif               8 non-null      object        
 5   genero            7 non-null      object        
 6   departamento      9 non-null      object        
 7   activo            9 non-null      object        
 8   horas_semanales   9 non-null      object        
 9   bonus             5 non-null      float64       
dtypes: datetime64[ns](2), float64(1), int64(1), object(6)
memory usage: 852.0+ bytes


Tamaño del dataframe (filas, columnas):

In [43]:
df.shape

(9, 10)

Resumen estadístico de columnas numéricas:

In [44]:
df.describe()

Unnamed: 0,fecha_nacimiento,fecha_alta,codigo_postal,bonus
count,9,9,9.0,5.0
mean,1988-06-01 05:20:00,2007-10-15 21:20:00,35338.666667,5200.0
min,1979-09-19 00:00:00,1922-03-04 00:00:00,15003.0,3000.0
25%,1985-12-03 00:00:00,2018-04-10 00:00:00,28013.0,5000.0
50%,1988-04-10 00:00:00,2019-12-03 00:00:00,41001.0,5000.0
75%,1992-07-22 00:00:00,2021-07-22 00:00:00,48001.0,6000.0
max,1995-11-08 00:00:00,2022-11-08 00:00:00,48007.0,7000.0
std,,,13909.134696,1483.239697


Resumen incluyendo variables no numéricas

In [45]:
df.describe(include='all')

Unnamed: 0,fecha_nacimiento,fecha_alta,nombre,codigo_postal,nif,genero,departamento,activo,horas_semanales,bonus
count,9,9,9,9.0,8,7,9,9,9.0,5.0
unique,,,8,,7,3,3,2,6.0,
top,,,Elena Ruiz,,28859641T,Mujer,IT,Sí,40.0,
freq,,,2,,2,4,4,8,2.0,
mean,1988-06-01 05:20:00,2007-10-15 21:20:00,,35338.666667,,,,,,5200.0
min,1979-09-19 00:00:00,1922-03-04 00:00:00,,15003.0,,,,,,3000.0
25%,1985-12-03 00:00:00,2018-04-10 00:00:00,,28013.0,,,,,,5000.0
50%,1988-04-10 00:00:00,2019-12-03 00:00:00,,41001.0,,,,,,5000.0
75%,1992-07-22 00:00:00,2021-07-22 00:00:00,,48001.0,,,,,,6000.0
max,1995-11-08 00:00:00,2022-11-08 00:00:00,,48007.0,,,,,,7000.0


Conteo de valores únicos por categoría/columna

In [46]:
df.departamento.unique()

array(['Actuarial', 'IT', 'Finanzas'], dtype=object)

In [47]:
df.genero.unique()

array(['Mujer', 'Hombre', 'M', nan], dtype=object)

In [48]:
df.genero.value_counts()

genero
Mujer     4
Hombre    2
M         1
Name: count, dtype: int64

Conteo de valores:

In [49]:
df['departamento'].value_counts()

departamento
IT           4
Finanzas     3
Actuarial    2
Name: count, dtype: int64

Exportación a CSV con opciones de formato y codificación

In [None]:
df.to_csv('cdiae/data/02_intermediate/empleados_metacortex.csv', index=False, sep='\t', float_format='%.2f', encoding='utf-8',  escapechar='\\', date_format='%d/%m/%Y')