Este Cuaderno cubre los conceptos básicos de cómo y cuándo realizar el preprocesamiento de datos.

Este paso esencial en cualquier proyecto de aprendizaje automático es cuando prepara sus datos para el modelado.

Entre importar y limpiar sus datos y ajustar su modelo de aprendizaje automático es cuando entra en juego el preprocesamiento.

Aprenderá cómo estandarizar sus datos para que estén en la forma correcta para su modelo,
crear nuevas funciones para aprovechar mejor la información en su conjunto de datos y seleccionar las mejores funciones para mejorar el ajuste de su modelo. 

Finalmente, practicará el preprocesamiento al obtener un conjunto de datos sobre avistamientos de ovnis listo para modelar.

**¿Qué es el procesamiento de datos?**

Más allá de limpiar y explorar los datos, preparamos los datos para un modelo.

Los modelos de Aprendizaje automático requieren una entrada numérica, si tenemos variables categóricas se deberán transformar.

Nos apoyaremos de pandas para la mayoria de las transformaciones.

- Saber cuando remplazar o eliminar datos faltantes.
- Convertir adecuadamente los tipos de datos.
- Datos de entrenamiento y test balanceados para evitar sobreajustes por falla en las muestras balanceadas.

In [52]:
import pandas as pd

volunteer = pd.read_csv("https://assets.datacamp.com/production/repositories/1816/datasets/668b96955d8b252aa8439c7602d516634e3f015e/volunteer_opportunities.csv")

volunteer.head(4).transpose()

Unnamed: 0,0,1,2,3
opportunity_id,4996,5008,5016,5022
content_id,37004,37036,37143,37237
vol_requests,50,2,20,500
event_time,0,0,0,0
title,Volunteers Needed For Rise Up & Stay Put! Home...,Web designer,Urban Adventures - Ice Skating at Lasker Rink,Fight global hunger and support women farmers ...
hits,737,22,62,14
summary,Building on successful events last summer and ...,Build a website for an Afghan business,Please join us and the students from Mott Hall...,The Oxfam Action Corps is a group of dedicated...
is_priority,,,,
category_id,,1.0,1.0,1.0
category_desc,,Strengthening Communities,Strengthening Communities,Strengthening Communities


In [53]:
#Contamos con 35 y 665 filas.
volunteer.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 665 entries, 0 to 664
Data columns (total 35 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   opportunity_id      665 non-null    int64  
 1   content_id          665 non-null    int64  
 2   vol_requests        665 non-null    int64  
 3   event_time          665 non-null    int64  
 4   title               665 non-null    object 
 5   hits                665 non-null    int64  
 6   summary             665 non-null    object 
 7   is_priority         62 non-null     object 
 8   category_id         617 non-null    float64
 9   category_desc       617 non-null    object 
 10  amsl                0 non-null      float64
 11  amsl_unit           0 non-null      float64
 12  org_title           665 non-null    object 
 13  org_content_id      665 non-null    int64  
 14  addresses_count     665 non-null    int64  
 15  locality            595 non-null    object 
 16  region  

In [24]:
volunteer.shape

(665, 35)

In [138]:
#Algunas columnas tienen puros valores NaN, las descartaremos.
tmp = pd.DataFrame(volunteer.isnull().sum(), columns = ["registros_nan"])
tmp = tmp[tmp["registros_nan"] == 665].index

#Podemos ver una columna importante para etiquetar a los voluntarios tiene valores faltantes, los vamos a descartar.
volunteer_subset = volunteer.drop(tmp, axis = 1)
volunteer_subset.isnull().sum()

opportunity_id          0
content_id              0
vol_requests            0
event_time              0
title                   0
hits                    0
summary                 0
is_priority           603
category_id            48
category_desc          48
org_title               0
org_content_id          0
addresses_count         0
locality               70
region                  0
postalcode              6
display_url             0
recurrence_type         0
hours                   0
created_date            0
last_modified_date      0
start_date_date         0
end_date_date           0
status                  0
dtype: int64

In [139]:
#Veamos los tipos de voluntarios.
volunteer_subset["category_desc"].value_counts()

Strengthening Communities    307
Helping Neighbors in Need    119
Education                     92
Health                        52
Environment                   32
Emergency Preparedness        15
Name: category_desc, dtype: int64

In [140]:
volunteer_subset = volunteer_subset[volunteer_subset["category_desc"].notnull()]
volunteer_subset.isnull().sum()

opportunity_id          0
content_id              0
vol_requests            0
event_time              0
title                   0
hits                    0
summary                 0
is_priority           555
category_id             0
category_desc           0
org_title               0
org_content_id          0
addresses_count         0
locality               65
region                  0
postalcode              5
display_url             0
recurrence_type         0
hours                   0
created_date            0
last_modified_date      0
start_date_date         0
end_date_date           0
status                  0
dtype: int64

**Hemos limpiado nuestros datos de valores faltantes, veamos com trabajar con diferentes tipos de datos.**

In [141]:
#De 35 columnas que teníamos al inicio nos quedamos con 24 y de 665 filas nos quedamos con 617.
volunteer_subset.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 617 entries, 1 to 664
Data columns (total 24 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   opportunity_id      617 non-null    int64  
 1   content_id          617 non-null    int64  
 2   vol_requests        617 non-null    int64  
 3   event_time          617 non-null    int64  
 4   title               617 non-null    object 
 5   hits                617 non-null    int64  
 6   summary             617 non-null    object 
 7   is_priority         62 non-null     object 
 8   category_id         617 non-null    float64
 9   category_desc       617 non-null    object 
 10  org_title           617 non-null    object 
 11  org_content_id      617 non-null    int64  
 12  addresses_count     617 non-null    int64  
 13  locality            552 non-null    object 
 14  region              617 non-null    object 
 15  postalcode          612 non-null    float64
 16  display_

In [142]:
#Las columnas fechas tienen un tipo de datos String, sería útil colocarlos en datetime.
volunteer_subset.loc[:,["created_date", "last_modified_date", "start_date_date", "end_date_date"]]

Unnamed: 0,created_date,last_modified_date,start_date_date,end_date_date
1,January 14 2011,January 25 2011,February 01 2011,February 01 2011
2,January 19 2011,January 21 2011,January 29 2011,January 29 2011
3,January 21 2011,January 25 2011,February 14 2011,March 31 2012
4,January 28 2011,February 01 2011,February 05 2011,February 05 2011
5,January 28 2011,January 28 2011,February 12 2011,February 12 2011
...,...,...,...,...
660,August 16 2011,August 17 2011,August 16 2011,November 15 2012
661,March 21 2011,March 21 2011,April 13 2011,April 13 2011
662,July 20 2011,August 23 2011,July 20 2011,September 01 2011
663,June 01 2011,August 09 2011,June 01 2011,May 31 2012


In [143]:
from datetime import datetime

date_string = volunteer_subset.loc[1,["created_date"]][0]
print("date_string =", date_string)

date_object = datetime.strptime(date_string, "%B %d %Y")
print("date_object =", date_object)

date_string = January 14 2011
date_object = 2011-01-14 00:00:00


In [146]:
volunteer_subset["created_date"] = pd.to_datetime(volunteer_subset["created_date"])
volunteer_subset["last_modified_date"] = pd.to_datetime(volunteer_subset["last_modified_date"])
volunteer_subset["start_date_date"] = pd.to_datetime(volunteer_subset["start_date_date"])
volunteer_subset["end_date_date"] = pd.to_datetime(volunteer_subset["end_date_date"])

volunteer_subset.loc[:,["created_date", "last_modified_date", "start_date_date", "end_date_date"]]

Unnamed: 0,created_date,last_modified_date,start_date_date,end_date_date
1,2011-01-14,2011-01-25,2011-02-01,2011-02-01
2,2011-01-19,2011-01-21,2011-01-29,2011-01-29
3,2011-01-21,2011-01-25,2011-02-14,2012-03-31
4,2011-01-28,2011-02-01,2011-02-05,2011-02-05
5,2011-01-28,2011-01-28,2011-02-12,2011-02-12
...,...,...,...,...
660,2011-08-16,2011-08-17,2011-08-16,2012-11-15
661,2011-03-21,2011-03-21,2011-04-13,2011-04-13
662,2011-07-20,2011-08-23,2011-07-20,2011-09-01
663,2011-06-01,2011-08-09,2011-06-01,2012-05-31


**Le dimos un mejor formato de datos a las columnas que teníamos como texto en Fechas, ahora veamos como dividir conjuntos de datos de entrenamiento y test esto para evitar el sobreajuste, recordemos que un buen modelo busca generalizar un conjunto de datos.**

In [149]:
volunteer_subset["category_desc"].value_counts()

Strengthening Communities    307
Helping Neighbors in Need    119
Education                     92
Health                        52
Environment                   32
Emergency Preparedness        15
Name: category_desc, dtype: int64

In [157]:
from sklearn.model_selection import train_test_split

#Necesitamos tener muestras balanceados.
#Podemos usar muestreo estratificado, tiene en cuenta la distribución de clases o características en el conjunto de datos.

volunteer_X = volunteer_subset.drop("category_desc", axis=1)
volunteer_y = volunteer_subset[["category_desc"]]

X_train, X_test, y_train, y_test = train_test_split(volunteer_X, volunteer_y, stratify=volunteer_y)

print("----Datos de entrenamiento balanceados con category_desc----")
print(y_train["category_desc"].value_counts())
print("")
print("----Datos de test balanceados con category_desc----")
print(y_test["category_desc"].value_counts())

----Datos de entrenamiento balanceados con category_desc----
Strengthening Communities    230
Helping Neighbors in Need     89
Education                     69
Health                        39
Environment                   24
Emergency Preparedness        11
Name: category_desc, dtype: int64

----Datos de test balanceados con category_desc----
Strengthening Communities    77
Helping Neighbors in Need    30
Education                    23
Health                       13
Environment                   8
Emergency Preparedness        4
Name: category_desc, dtype: int64
