
# 7 - Carga y preprocesamiento de datos (Ejercicios)

En este apartado, hemos estudiado uno de los componentes más importantes del ciclo de vida de los modelos de inteligencia artificial: la adquisición y manipulación de los datos. En los conjuntos de datos propuestos, tendremos por una parte la información relativa a los atributos de la muestra, y por otra los nombres de los mismos. Tu tarea será:



*Importar desde consola por comandos Linux los ficheros oportunos.

*Leer los ficheros data y names.

*Explorar el fichero names para analizar qué tipo de expresiones regulares necesitas para identificar los nombres de las columnas en la metadata.

*Aplicar las transformaciones regex pertinentes y obtener los nombres de las columnas para construir los datos. Pista: El nombre de la variable respuesta tendremos que añadirlo al final ya que no viene explícitamente citado.

*Realizar un conveniente preprocesmiento de las variables en función de su tipo.


In [1]:
import os
import re
import pandas as pd
import numpy as np

In [2]:
# Creamos una carpeta para que contenga a nuestro dataset
!mkdir /content/adult_dataset
# Movemos el directorio activo a esa localización
%cd /content/adult_dataset
# Descargamos el fichero que contiene los datos a nuestro directorio activo
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data
# Descargamos la metadata asociada al conjunto de datos
!wget https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names

/content/adult_dataset
--2022-06-10 14:04:17--  https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 3974305 (3.8M) [application/x-httpd-php]
Saving to: ‘adult.data’


2022-06-10 14:04:19 (3.55 MB/s) - ‘adult.data’ saved [3974305/3974305]

--2022-06-10 14:04:19--  https://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.names
Resolving archive.ics.uci.edu (archive.ics.uci.edu)... 128.195.10.252
Connecting to archive.ics.uci.edu (archive.ics.uci.edu)|128.195.10.252|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5229 (5.1K) [application/x-httpd-php]
Saving to: ‘adult.names’


2022-06-10 14:04:19 (157 MB/s) - ‘adult.names’ saved [5229/5229]



In [6]:
# Leemos datos
with open(os.path.join(os.getcwd(),'adult.data'),'r') as f:
    data = f.read().splitlines() # Dividimos el texto por saltos de línea
    data = [elem.split(',') for elem in data] # Dividimos cada línea por las comas y removemos líneas vacías


In [7]:
# Leemos metadata
with open(os.path.join(os.getcwd(),'adult.names'),'r') as f:
    metadata = f.read().splitlines()

In [8]:
# Regex
# Expresión regular que cumple todos los requisitos anteriores
## '\s{1}' sirve para detectar exactamente un espacio
## '\s+' sirve para detectar uno o más espacios
## '\d+' sirve para detectar uno o más dígitos
## [.] sirve para localizar exactamente un punto
## '[a-zA-Z]+' sirve para detectar cadenas de texto no vacías con letras del alfabeto
regex_fn = lambda text: re.findall('^[a-zA-Z-]+:{1}', text)
reg_text_fn = lambda text : re.findall('[a-zA-Z- ]+', text)
metadata_list = [regex_fn(elem)[0] for elem in metadata if regex_fn(elem)]
col_names = [reg_text_fn(elem)[0] for elem in metadata_list if reg_text_fn(elem)] + ['label']

In [14]:
col_names

['age',
 'workclass',
 'fnlwgt',
 'education',
 'education-num',
 'marital-status',
 'occupation',
 'relationship',
 'race',
 'sex',
 'capital-gain',
 'capital-loss',
 'hours-per-week',
 'native-country',
 'label']

In [12]:
file_path = os.path.join(os.getcwd(),'adult.data')



data = pd.read_csv(file_path, names = col_names)



data.head()

Unnamed: 0,age,workclass,fnlwgt,education,education-num,marital-status,occupation,relationship,race,sex,capital-gain,capital-loss,hours-per-week,native-country,label
0,39,State-gov,77516,Bachelors,13,Never-married,Adm-clerical,Not-in-family,White,Male,2174,0,40,United-States,<=50K
1,50,Self-emp-not-inc,83311,Bachelors,13,Married-civ-spouse,Exec-managerial,Husband,White,Male,0,0,13,United-States,<=50K
2,38,Private,215646,HS-grad,9,Divorced,Handlers-cleaners,Not-in-family,White,Male,0,0,40,United-States,<=50K
3,53,Private,234721,11th,7,Married-civ-spouse,Handlers-cleaners,Husband,Black,Male,0,0,40,United-States,<=50K
4,28,Private,338409,Bachelors,13,Married-civ-spouse,Prof-specialty,Wife,Black,Female,0,0,40,Cuba,<=50K


In [9]:
# Construimos el objeto pd.DataFrame
df = pd.DataFrame(data=data, columns=col_names)

## Ejercicio Propuesto

Crea una función que tenga como parámetro de entrada un `dataframe` y devuelva una lista de tuplas, siendo el primer elemento de la tupla el nombre de una columna, y el segundo valor de la tupla el número de valores únicos de la columna.

In [18]:
data.columns

Index(['age', 'workclass', 'fnlwgt', 'education', 'education-num',
       'marital-status', 'occupation', 'relationship', 'race', 'sex',
       'capital-gain', 'capital-loss', 'hours-per-week', 'native-country',
       'label'],
      dtype='object')

In [24]:
def obtener_valores_unicos(data: pd.DataFrame) -> list:

    """
    Esta función admite como parámetro de entrada un Dataframe

    Y devuelve una lista de tuplas, donde el primer elemento se

    corresponde con el nombre de la columna, y el segundo, al 

    número de elementos únicos de la columna
    """

    return [(col, len(data[col].unique())) for col in data.columns]

In [25]:
obtener_valores_unicos(data=data)

[('age', 73),
 ('workclass', 9),
 ('fnlwgt', 21648),
 ('education', 16),
 ('education-num', 16),
 ('marital-status', 7),
 ('occupation', 15),
 ('relationship', 6),
 ('race', 5),
 ('sex', 2),
 ('capital-gain', 119),
 ('capital-loss', 92),
 ('hours-per-week', 94),
 ('native-country', 42),
 ('label', 2)]