# Práctica 4: Data Wrangling con Pandas (IV. Reducción de dimensionalidad)

En esta última fase revisaremos las columnas y se eliminarán aquellas que no sean relevantes.

In [None]:
import pandas as pd
data = pd.read_csv('/content/MailCustomer.csv', index_col = 'CustomerKey', sep = ';', encoding = 'ISO-8859 -1')

data

Unnamed: 0_level_0,GeographyKey,CustomerAlternateKey,Title,FirstName,MiddleName,LastName,NameStyle,MaritalStatus,Suffix,Gender,...,Phone,DateFirstPurchase,CommuteDistance,Region,Age,BikeBuyer,BirthDateDay,BirthDateMonth,BirthDateYear,AgeRange
CustomerKey,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
11000,26,AW00011000,,Jon,V,Yang,0,M,,M,...,1 (11) 500 555-0162,7/22/2005,1-2 Miles,Pacific,58,1,8,4,1966,51-60
11001,37,AW00011001,,Eugene,L,Huang,0,S,,M,...,1 (11) 500 555-0110,7/18/2005,0-1 Miles,Pacific,59,1,14,5,1965,51-60
11002,31,AW00011002,,Ruben,,Torres,0,M,,M,...,1 (11) 500 555-0184,7/10/05,2-5 Miles,Pacific,59,1,12,8,1965,51-60
11004,19,AW00011004,,Elizabeth,,Johnson,0,S,,F,...,1 (11) 500 555-0131,7/26/2005,1-2 Miles,Pacific,56,1,8,8,1968,51-60
11005,22,AW00011005,,Julio,,Ruiz,0,S,,M,...,1 (11) 500 555-0151,7/2/05,5-10 Miles,Pacific,59,1,5,8,1965,51-60
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29348,637,AW00029348,,Miguel,,Bryant,0,M,,M,...,716-555-0159,2/24/2008,2-5 Miles,North America,59,0,15,7,1965,51-60
29349,548,AW00029349,,Gabrielle,,Bryant,0,S,,F,...,202-555-0116,1/26/2008,0-1 Miles,North America,59,0,4,10,1965,51-60
29350,383,AW00029350,,Julia,,Thompson,0,S,,F,...,120-555-0111,2/15/2006,2-5 Miles,North America,59,1,9,11,1965,51-60
29351,49,AW00029351,,Jason,A,Hall,0,S,,M,...,158-555-0156,4/13/2008,0-1 Miles,North America,59,0,26,6,1965,51-60


Lo primero que vamos ha hacer es listar todas las columnas de nuestro `DataFrame`.

In [None]:
print(data.info())

<class 'pandas.core.frame.DataFrame'>
Index: 7954 entries, 11000 to 29354
Data columns (total 34 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   GeographyKey          7954 non-null   int64 
 1   CustomerAlternateKey  7954 non-null   object
 2   Title                 71 non-null     object
 3   FirstName             7954 non-null   object
 4   MiddleName            4571 non-null   object
 5   LastName              7954 non-null   object
 6   NameStyle             7954 non-null   int64 
 7   MaritalStatus         7954 non-null   object
 8   Suffix                2 non-null      object
 9   Gender                7954 non-null   object
 10  EmailAddress          7954 non-null   object
 11  YearlyIncome          7954 non-null   int64 
 12  TotalChildren         7954 non-null   int64 
 13  NumberChildrenAtHome  7954 non-null   int64 
 14  EnglishEducation      7954 non-null   object
 15  SpanishEducation      7954 non-null   

Vemos que la dimensionalidad de nuestr DataFrame es de 34 columnas, lo cuál es demasiado para nuestro modelo. Es por ello que usaremos la librería `sklearn` para determinar que columnas tienen más relevancia en nuestro DataFrame.

### Métodos para detectar características más relevantes

Las técnicas de `sklearn` se clasifican en diferentes métodos:

* **Métodos de Filtrado**: Seleccionan características evaluándolas de forma independiente respecto del modelo. Se basan en medidas estadísticas para determinar la relevancia de las características.
* **Métodos basados en Envoltura**: Evalúan subconjuntos de características usando un modelo predictivo y seleccionan el subconjunto que maximiza el rendimiento del modelo.
* **Métodos Embebidos**: Estas técnicas seleccionan características durante el entrenamiento del modelo. Usan algoritmos que incorporan penalizaciones o métricas de importancia.

### Métodos de Filtrado
En los métodos de filtrado tenemos `VarianceThreshold`, `SelectKBest` o `SelectPercentile`.

Vamos a probar el `VarianceThreshold`:

In [None]:
from sklearn.feature_selection import VarianceThreshold
from sklearn.preprocessing import OrdinalEncoder

columns = [
    'GeographyKey',
    'CustomerAlternateKey',
    'Title',
    'FirstName',
    'MiddleName',
    'LastName',
    'NameStyle',
    'BirthDateDay',
    'BirthDateMonth',
    'BirthDateYear',
    'MaritalStatus',
    'Suffix',
    'Gender',
    'EmailAddress',
    'YearlyIncome',
    'TotalChildren',
    'NumberChildrenAtHome',
    'EnglishEducation',
    'SpanishEducation',
    'FrenchEducation',
    'EnglishOccupation',
    'SpanishOccupation',
    'FrenchOccupation',
    'HouseOwnerFlag',
    'NumberCarsOwned',
    'AddressLine1',
    'AddressLine2',
    'Phone',
    'DateFirstPurchase',
    'CommuteDistance',
    'Age',
    'AgeRange',
    'BikeBuyer',
    'Region'
]

selector = VarianceThreshold(threshold = 0.75) # Umbral de varianza para seleccionar caracteristicas (75%)
# print(data.info())
newData = OrdinalEncoder().fit_transform(data[columns]) # Transformamos variables ordinales en númericas
sel = selector.fit(newData) # se calcula la varianza de cada columna.
print(sel.get_support()) # devuelve un array booleano, True si varianza > 0.25
# print("--"*36)
# print(pd.DataFrame(newData).var(axis=0))
print("--"*36)
for i in range(len(columns)):
  if not sel.get_support()[i]:
    print(columns[i], "-> Columna descartada")

[ True  True  True  True  True  True False  True  True  True False False
 False  True  True  True  True  True  True  True  True  True  True False
  True  True  True  True  True  True  True  True False False]
------------------------------------------------------------------------
NameStyle -> Columna descartada
MaritalStatus -> Columna descartada
Suffix -> Columna descartada
Gender -> Columna descartada
HouseOwnerFlag -> Columna descartada
BikeBuyer -> Columna descartada
Region -> Columna descartada


De las 34 columnas de nuestro DataFrame, hemos encontrado 9 columnas cuya varianza está por debajo del umbral indicado. Hemos imprimido las columnas correspondientes para identificarlas correctamente.

### Métodos basados en Envoltura

Dentro de este método están las técnicas del `Recursive Feature Elimination (RFE)` o `RFECV`. Pero su coste computacional es más alto. Estos necesitán un modelo para evaluar la importancia de las características.

In [None]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import OrdinalEncoder
from sklearn.impute import SimpleImputer  # Import SimpleImputer

columns = [
    'GeographyKey',
    'CustomerAlternateKey',
    'Title',
    'FirstName',
    'MiddleName',
    'LastName',
    'NameStyle',
    'BirthDateDay',
    'BirthDateMonth',
    'BirthDateYear',
    'MaritalStatus',
    'Suffix',
    'Gender',
    'EmailAddress',
    'YearlyIncome',
    'TotalChildren',
    'NumberChildrenAtHome',
    'EnglishEducation',
    'SpanishEducation',
    'FrenchEducation',
    'EnglishOccupation',
    'SpanishOccupation',
    'FrenchOccupation',
    'HouseOwnerFlag',
    'NumberCarsOwned',
    'AddressLine1',
    'AddressLine2',
    'Phone',
    'DateFirstPurchase',
    'CommuteDistance',
    'Age',
    'AgeRange',
    'BikeBuyer',
    'Region'
]

# Usamos OrdinalEncoder para transformar las variables categóricas en numéricas
imputer = SimpleImputer(strategy='most_frequent')
data_imputed = imputer.fit_transform(data[columns])

newData = OrdinalEncoder().fit_transform(data_imputed)
# newData = OrdinalEncoder().fit_transform(data[columns])

# Inicializamos un clasificador para RFE (por ejemplo, LogisticRegression)
model = LogisticRegression(max_iter=1000)

# Inicializamos RFE con el clasificador y el número de características a seleccionar
selector = RFE(model, n_features_to_select=5)  # Cambia n_features_to_select según tus necesidades
selector = selector.fit(newData, data['BikeBuyer'])  # 'TargetColumn' debe ser la columna objetivo

# Mostramos las características seleccionadas
print(selector.support_)  # Muestra un array booleano, True si la característica es seleccionada
print("--" * 36)

# Imprimimos las columnas descartadas
for i in range(len(columns)):
    if selector.support_[i]:
        print(columns[i], "-> Columna descartada")


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

[False False False False False False False False False  True  True False
 False False False False False False False False False False False  True
 False False False False False False  True False  True False]
------------------------------------------------------------------------
BirthDateYear -> Columna descartada
MaritalStatus -> Columna descartada
HouseOwnerFlag -> Columna descartada
Age -> Columna descartada
BikeBuyer -> Columna descartada


Como se puede observar, este método ha tardado más en responder. Se ha tomado como `TargetColumn` la columna `BikeBuyer`. El resultado es de 5 columnas descartadas ya que considero aquí `True` como una característica que no deseamos ya que `BikeBuyer` no es una columna muy interesante.

### Métodos Embebidos

Algunas de las técnicas que nos podemos encontrar son `RandomForestClassifier` o `Lasso`.

Probemos `RandomForestClassifier`. El modelo se entrenará con los datos y luego utilizará la importancia de las características para determinar qué columnas son más relevantes y luego usaremos un umbral para decidir qué características se mantienen basándonos en su importancia.

In [None]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import OrdinalEncoder
import numpy as np

columns = [
    'GeographyKey',
    'CustomerAlternateKey',
    'Title',
    'FirstName',
    'MiddleName',
    'LastName',
    'NameStyle',
    'BirthDateDay',
    'BirthDateMonth',
    'BirthDateYear',
    'MaritalStatus',
    'Suffix',
    'Gender',
    'EmailAddress',
    'YearlyIncome',
    'TotalChildren',
    'NumberChildrenAtHome',
    'EnglishEducation',
    'SpanishEducation',
    'FrenchEducation',
    'EnglishOccupation',
    'SpanishOccupation',
    'FrenchOccupation',
    'HouseOwnerFlag',
    'NumberCarsOwned',
    'AddressLine1',
    'AddressLine2',
    'Phone',
    'DateFirstPurchase',
    'CommuteDistance',
    'Age',
    'AgeRange',
    'BikeBuyer',
    'Region'
]

# Asumimos que 'data' es tu conjunto de datos con las variables mencionadas
# Nota: 'BikeBuyer' es la variable objetivo (target) para un clasificador

# Separar las características (X) y la variable objetivo (y)
X = data[columns]
y = data['BikeBuyer']  # Suponiendo que 'BikeBuyer' es la columna de objetivo

# Transformamos las variables ordinales en numéricas
X_transformed = OrdinalEncoder().fit_transform(X)

# Crear el clasificador RandomForest
clf = RandomForestClassifier(n_estimators=100, random_state=42)

# Ajustar el clasificador a los datos
clf.fit(X_transformed, y)

# Obtener la importancia de las características
importances = clf.feature_importances_

# Definir un umbral de importancia para seleccionar las características relevantes (por ejemplo, 0.05)
threshold = 0.05

# Imprimir las características que son seleccionadas
print(f"Características seleccionadas con importancia superior a {threshold}:")
for i in range(len(columns)):
    if importances[i] >= threshold:
        print(f"{columns[i]} -> Importancia: {importances[i]:.4f}")
    else:
        print(f"{columns[i]} -> Columna descartada")


Características seleccionadas con importancia superior a 0.05:
GeographyKey -> Columna descartada
CustomerAlternateKey -> Columna descartada
Title -> Columna descartada
FirstName -> Columna descartada
MiddleName -> Columna descartada
LastName -> Columna descartada
NameStyle -> Columna descartada
BirthDateDay -> Columna descartada
BirthDateMonth -> Columna descartada
BirthDateYear -> Columna descartada
MaritalStatus -> Columna descartada
Suffix -> Columna descartada
Gender -> Columna descartada
EmailAddress -> Columna descartada
YearlyIncome -> Columna descartada
TotalChildren -> Columna descartada
NumberChildrenAtHome -> Columna descartada
EnglishEducation -> Columna descartada
SpanishEducation -> Columna descartada
FrenchEducation -> Columna descartada
EnglishOccupation -> Columna descartada
SpanishOccupation -> Columna descartada
FrenchOccupation -> Columna descartada
HouseOwnerFlag -> Columna descartada
NumberCarsOwned -> Columna descartada
AddressLine1 -> Columna descartada
Address

Como vemos, no existe ninguna correlación entre la columna objetivo y el resto. Por lo que podríamos eliminar esta columna sin problemas.

### Otros métodos

También otros métodos como el análisis de correlaciones también es una buena forma de saber si hay relaciones entre las columnas y descartar aquellas donde la correlación sea mínima.

In [None]:
from sklearn.preprocessing import Normalizer
from sklearn.impute import SimpleImputer  # Import SimpleImputer

columns = [
    'GeographyKey',
    'CustomerAlternateKey',
    'Title',
    'FirstName',
    'MiddleName',
    'LastName',
    'NameStyle',
    'BirthDateDay',
    'BirthDateMonth',
    'BirthDateYear',
    'MaritalStatus',
    'Suffix',
    'Gender',
    'EmailAddress',
    'YearlyIncome',
    'TotalChildren',
    'NumberChildrenAtHome',
    'EnglishEducation',
    'SpanishEducation',
    'FrenchEducation',
    'EnglishOccupation',
    'SpanishOccupation',
    'FrenchOccupation',
    'HouseOwnerFlag',
    'NumberCarsOwned',
    'AddressLine1',
    'AddressLine2',
    'Phone',
    'DateFirstPurchase',
    'CommuteDistance',
    'Age',
    'AgeRange',
    'BikeBuyer',
    'Region'
]

imputer = SimpleImputer(strategy='most_frequent')
data_imputed = imputer.fit_transform(data[['EnglishEducation','SpanishEducation','FrenchEducation']])

newData = OrdinalEncoder().fit_transform(data_imputed)
normalizedData = Normalizer().fit_transform(newData)
# print(pd.DataFrame(normalizedData).var(axis=0))
# print("--"*36)
print(pd.DataFrame(normalizedData).corr(method = 'pearson'))

          0         1         2
0  1.000000 -0.912283 -0.463939
1 -0.912283  1.000000  0.529745
2 -0.463939  0.529745  1.000000


En la salida podemos ver distintos aspectos. La columna `NameStyle` tiene varianza 0 y valores `NaN` en las correlaciones. Esto nos indica que no es una columna bastante útil. También las varianzas cercanas a 0 pueden tampoco estar aportando mucha información, pero eso no es razón para eliminarlas.

### Eliminación de columnas descartadas

Una vez identificadas las columnas a descartar, se procede con su eliminación. Estaré tomando las columnas devueltas por la varianza ya que es un resultado más fiable al ver que las columnas no son muy relevantes.

In [None]:
from sklearn.feature_selection import VarianceThreshold
from sklearn.preprocessing import OrdinalEncoder

columns = [
    'GeographyKey',
    'CustomerAlternateKey',
    'Title',
    'FirstName',
    'MiddleName',
    'LastName',
    'NameStyle',
    'BirthDateDay',
    'BirthDateMonth',
    'BirthDateYear',
    'MaritalStatus',
    'Suffix',
    'Gender',
    'EmailAddress',
    'YearlyIncome',
    'TotalChildren',
    'NumberChildrenAtHome',
    'EnglishEducation',
    'SpanishEducation',
    'FrenchEducation',
    'EnglishOccupation',
    'SpanishOccupation',
    'FrenchOccupation',
    'HouseOwnerFlag',
    'NumberCarsOwned',
    'AddressLine1',
    'AddressLine2',
    'Phone',
    'DateFirstPurchase',
    'CommuteDistance',
    'Age',
    'AgeRange',
    'BikeBuyer',
    'Region'
]

selector = VarianceThreshold(threshold = 0.25) # Umbral de varianza para seleccionar caracteristicas (75%)
# print(data.info())
newData = OrdinalEncoder().fit_transform(data[columns]) # Transformamos variables ordinales en númericas
sel = selector.fit(newData) # se calcula la varianza de cada columna.
for i in range(len(columns)):
  if not sel.get_support()[i]:
    if columns[i] != 'BikeBuyer':
      del data[columns[i]]

data

Unnamed: 0_level_0,GeographyKey,CustomerAlternateKey,Title,FirstName,MiddleName,LastName,EmailAddress,YearlyIncome,TotalChildren,NumberChildrenAtHome,...,AddressLine1,AddressLine2,Phone,DateFirstPurchase,CommuteDistance,Age,BirthDateDay,BirthDateMonth,BirthDateYear,AgeRange
CustomerKey,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
11000,26,AW00011000,,Jon,V,Yang,jon24@adventure-works.com,90000,2,0,...,3761 N. 14th St,,1 (11) 500 555-0162,7/22/2005,1-2 Miles,58,8,4,1966,51-60
11001,37,AW00011001,,Eugene,L,Huang,eugene10@adventure-works.com,60000,3,3,...,2243 W St.,,1 (11) 500 555-0110,7/18/2005,0-1 Miles,59,14,5,1965,51-60
11002,31,AW00011002,,Ruben,,Torres,ruben35@adventure-works.com,60000,3,3,...,5844 Linden Land,,1 (11) 500 555-0184,7/10/05,2-5 Miles,59,12,8,1965,51-60
11004,19,AW00011004,,Elizabeth,,Johnson,elizabeth5@adventure-works.com,80000,5,5,...,7553 Harness Circle,,1 (11) 500 555-0131,7/26/2005,1-2 Miles,56,8,8,1968,51-60
11005,22,AW00011005,,Julio,,Ruiz,julio1@adventure-works.com,70000,0,0,...,7305 Humphrey Drive,,1 (11) 500 555-0151,7/2/05,5-10 Miles,59,5,8,1965,51-60
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29348,637,AW00029348,,Miguel,,Bryant,miguel64@adventure-works.com,50000,3,3,...,261 Oak Park Blvd.,,716-555-0159,2/24/2008,2-5 Miles,59,15,7,1965,51-60
29349,548,AW00029349,,Gabrielle,,Bryant,gabrielle40@adventure-works.com,50000,3,3,...,25 La Jolla,,202-555-0116,1/26/2008,0-1 Miles,59,4,10,1965,51-60
29350,383,AW00029350,,Julia,,Thompson,julia37@adventure-works.com,50000,3,3,...,1774 Tice Valley Blvd.,,120-555-0111,2/15/2006,2-5 Miles,59,9,11,1965,51-60
29351,49,AW00029351,,Jason,A,Hall,jason49@adventure-works.com,50000,3,3,...,8618 Rose Street,,158-555-0156,4/13/2008,0-1 Miles,59,26,6,1965,51-60


Aún asi hay columnas que aunque su varianza es alta, no son relevantes para nosotros. Aquí hay una lista:

* `'TotalChildren'`
* `'NumberChildrenAtHome'`
* `'SpanishEducation'`
* `'FrenchEducation'`
* `'SpanishOccupation'`
* `'FrenchOccupation'`
* `'DateFirstPurchase'`
* `'CommuteDistance'`
* `'AddressLine2'`
* `'AddressLine1'`
* `'FirstName'`
* `'MiddleName'`
* `'LastName'`
* `'Title'`

Por lo tanto, tendríamos un total de 22 columnas que no serían necesarias.

In [None]:
del data['TotalChildren']
del data['NumberChildrenAtHome']
del data['SpanishEducation']
del data['FrenchEducation']
del data['SpanishOccupation']
del data['FrenchOccupation']
del data['DateFirstPurchase']
del data['CommuteDistance']
del data['AddressLine2']
del data['AddressLine1']
del data['FirstName']
del data['MiddleName']
del data['LastName']
del data['Title']

data

Unnamed: 0_level_0,GeographyKey,CustomerAlternateKey,EmailAddress,YearlyIncome,EnglishEducation,EnglishOccupation,NumberCarsOwned,Phone,Age,BirthDateDay,BirthDateMonth,BirthDateYear,AgeRange
CustomerKey,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
11000,26,AW00011000,jon24@adventure-works.com,90000,Bachelors,Professional,0,1 (11) 500 555-0162,58,8,4,1966,51-60
11001,37,AW00011001,eugene10@adventure-works.com,60000,Bachelors,Professional,1,1 (11) 500 555-0110,59,14,5,1965,51-60
11002,31,AW00011002,ruben35@adventure-works.com,60000,Bachelors,Professional,1,1 (11) 500 555-0184,59,12,8,1965,51-60
11004,19,AW00011004,elizabeth5@adventure-works.com,80000,Bachelors,Professional,4,1 (11) 500 555-0131,56,8,8,1968,51-60
11005,22,AW00011005,julio1@adventure-works.com,70000,Bachelors,Professional,1,1 (11) 500 555-0151,59,5,8,1965,51-60
...,...,...,...,...,...,...,...,...,...,...,...,...,...
29348,637,AW00029348,miguel64@adventure-works.com,50000,Bachelors,Skilled Manual,1,716-555-0159,59,15,7,1965,51-60
29349,548,AW00029349,gabrielle40@adventure-works.com,50000,Bachelors,Skilled Manual,2,202-555-0116,59,4,10,1965,51-60
29350,383,AW00029350,julia37@adventure-works.com,50000,Bachelors,Skilled Manual,2,120-555-0111,59,9,11,1965,51-60
29351,49,AW00029351,jason49@adventure-works.com,50000,Bachelors,Skilled Manual,2,158-555-0156,59,26,6,1965,51-60


### Conclusión

Una vez eliminadas las columnas que no son necesarias, podemos pasar nuestros datos al modelo para que trabaje con ellos.

In [None]:
data.to_csv('MailCustomer_clean.csv', index=True, sep=";", encoding="ISO-8859-1")