# Importación de datos desde fichero CSV

In [None]:
!git clone https://github.com/franciscogarate/cdiae

In [None]:
import pandas as pd

Cargamos y visualizamos los datos

In [None]:
file = 'cdiae/data/01_raw/empleados_metacortex.csv'
df = pd.read_csv(file)
df

Especificamos separador y fila de encabezados

In [None]:
df = pd.read_csv(
        file,
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8'
)
df

Añadimos parámetros para omitir el pie de archivo y los comentarios en líneas

In [None]:
df = pd.read_csv(
        file,
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%'
)
df

Seleccionamos ciertas columnas relevantes

In [None]:
df = pd.read_csv(
        file,
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',
        usecols=['fecha_nacimiento','fecha_alta','nombre','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus']
)
df

Procesamos las fechas durante la lectura y ajuste fino posterior

In [None]:
df = pd.read_csv(
        file,
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           # Codificación de caracteres
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',                # Líneas que empiecen con % son comentarios
        usecols=['fecha_nacimiento','fecha_alta','nombre','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus'],
        parse_dates=['fecha_nacimiento', 'fecha_alta'],  # Convierte automáticamente a datetime
        date_format='%Y-%m-%d'      # OJO: Formato único para todas las columnas de fecha
)
df

Ajustamos el formato de columna con formato distinto (fecha_alta)

In [None]:
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], format='%Y/%m/%d')
df.head()

Lectura con tratamiento explícito de valores nulos

In [None]:
df = pd.read_csv(
        file,
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           # Codificación de caracteres
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',                # Líneas que empiecen con % son comentarios
        usecols=['fecha_nacimiento','fecha_alta','nombre','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus'],
        parse_dates=['fecha_nacimiento', 'fecha_alta'],  # Convierte automáticamente a datetime
        date_format='%Y-%m-%d',      # OJO: Formato único para todas las columnas de fecha
        na_values=['', 'N/A', 'null', 'NULL'],  # Define representaciones de NA
        keep_default_na=True,        # Mantiene NAs por defecto de pandas
)
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], format='%Y/%m/%d')
df.head()

### Ficheros comprimidos
Pandas hace lectura directa desde cualquier archivo comprimido tales como zip, rar, tar.bz2, etc.. (lo descomprime automáticamente)

In [None]:
df = pd.read_csv(
        'cdiae/data/01_raw/empleados_metacortex.zip',
        sep=';',                    # Separador de campos
        header=3,                   # Fila 4 contiene los encabezados (0-indexed, salta comentarios)
        encoding='utf-8',           # Codificación de caracteres
        skipfooter=1,               # Omite la última 1 fila (comentarios finales)
        engine='python',            # Necesario para skipfooter
        comment='%',                # Líneas que empiecen con % son comentarios
        usecols=['fecha_nacimiento','fecha_alta','nombre','nif','codigo_postal','genero','departamento','activo','horas_semanales','bonus'],
        parse_dates=['fecha_nacimiento', 'fecha_alta'],  # Convierte automáticamente a datetime
        date_format='%Y-%m-%d',      # OJO: Formato único para todas las columnas de fecha
        na_values=['', 'N/A', 'null', 'NULL'],
        keep_default_na=True,
)
df['fecha_alta'] = pd.to_datetime(df['fecha_alta'], format='%Y/%m/%d')
df.head()

### Inspección inicial de datos
Visualizar los tipos de datos y no-nulos por columna:

In [None]:
df.info()

Tamaño del dataframe (filas, columnas):

In [None]:
df.shape

Resumen estadístico de columnas numéricas:

In [None]:
df.describe()

Resumen incluyendo variables no numéricas

In [None]:
df.describe(include='all')

Conteo de valores únicos por categoría/columna

In [None]:
df.departamento.unique()

In [None]:
df.genero.unique()

In [None]:
df.genero.value_counts()

Conteo de valores:

In [None]:
df['departamento'].value_counts()

Exportación a CSV con opciones de formato y codificación

In [None]:
df.to_csv('cdiae/data/02_intermediate/empleados_metacortex.csv', index=False, sep='\t', float_format='%.2f', encoding='utf-8',  escapechar='\\', date_format='%d/%m/%Y')