# Práctica 1. Data Wrangling con Pandas (I. Exploración)



Una empresa de ventas de bicicletas está interesada en identificar segmentos de la población general a los que dirigirse con su marketing por correo para crecer. La empresa cuenta con información demográfica de potenciales clientes, incluyendo clientes anteriores a los que se les ha vendido alguna bicicleta. Estos datos demográficos incluyen atributos como la edad, el sexo, el lugar de residencia, así como factores socioeconómicos como la ocupación, la situación familiar o los ingresos. En total, se cuenta con información (32 datos diferentes) de un total de 18.484 clientes.

Esta práctica está orientada a la transformación y estructuración de datos sin procesar a un formato deseado con la intención de mejorar la calidad de los datos y hacerlos más consumibles y útiles para la analítica o el aprendizaje automático. Este proceso, conocido como _data wrangling_ incluye transformar, limpiar y enriquecer los datos de alguna manera con el fin de analizar datos más precisos y significativos, y poder generar mejores soluciones, decisiones y resultados. La organización de datos cuenta con una serie de pasos principales:

* Explorar: identificar patrones, tendencias e información faltante o incompleta en un conjunto de datos.
* Limpiar: los datos suelen tener errores como consecuencia de la entrada manual, los datos incompletos, los datos recopilados automáticamente de sensores o incluso los equipos defectuosos. La limpieza de datos corrige esos errores de entrada, elimina entradas duplicadas y datos faltantes, así como imputar valores nulos.
* Transformar: poner los datos sin procesar en el formato y la forma correctos que serán útiles para el proceso de analítica o de modelado. Incluye la creación de nuevas variables.
* Reduccion de dimensionalidad: encontrar un subconjunto más pequeño de dimensiones que capture la mayor parte de la variación en los datos. Esto reduce las dimensiones de los datos a la vez que elimina características irrelevantes y simplifica el análisis.

Utilizando el conjunto de datos con información demográfica de clientes pasados y potenciales, realiza _data wrangling_ como sigue:

### Análisis exploratorio

Carga el conjunto de datos utilizando Pandas, una librería de Python especializada en la manipulación y el análisis de datos. Una de las funcionalidades más importantes de esta librería son las herramientas que proporciona para leer y escribir datos. Para los datos disponibles en formato tabular y almacenados como un archivo CSV, puede usar la función read_csv(), que devuelve un pandas dataframe. Éstos son organizaciones tabulares (bidimensionales) de datos compuestos por filas y columnas, que permiten relacionar las distintas variables de los datos.

In [1]:
import pandas as pd
pd.read_csv('/MailCustomer.csv', index_col = 'CustomerKey', sep = ';', encoding = 'ISO-8859 -1')

Unnamed: 0_level_0,GeographyKey,CustomerAlternateKey,Title,FirstName,MiddleName,LastName,NameStyle,BirthDate,MaritalStatus,Suffix,...,HouseOwnerFlag,NumberCarsOwned,AddressLine1,AddressLine2,Phone,DateFirstPurchase,CommuteDistance,Region,Age,BikeBuyer
CustomerKey,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
11000,26,AW00011000,,Jon,V,Yang,0,4/8/66,M,,...,1,0,3761 N. 14th St,,1 (11) 500 555-0162,7/22/2005,1-2 Miles,Pacific,49,1
11001,37,AW00011001,,Eugene,L,Huang,0,5/14/1965,S,,...,0,1,2243 W St.,,1 (11) 500 555-0110,7/18/2005,0-1 Miles,Pacific,50,1
11002,31,AW00011002,,Ruben,,Torres,0,8/12/65,M,,...,1,1,5844 Linden Land,,1 (11) 500 555-0184,7/10/05,2-5 Miles,Pacific,50,1
11003,11,AW00011003,,Christy,,Zhu,0,2/15/1968,S,,...,0,1,1825 Village Pl.,,1 (11) 500 555-0162,7/1/05,5-10 Miles,Pacific,47,1
11004,19,AW00011004,,Elizabeth,,Johnson,0,8/8/68,S,,...,1,4,7553 Harness Circle,,1 (11) 500 555-0131,7/26/2005,1-2 Miles,Pacific,47,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29479,209,AW00029479,,Tommy,L,Tang,0,7/4/58,M,,...,1,0,"111, rue Maillard",,1 (11) 500 555-0136,3/8/07,0-1 Miles,Europe,57,1
29480,248,AW00029480,,Nina,W,Raji,0,11/10/60,S,,...,1,0,9 Katherine Drive,,1 (11) 500 555-0146,1/18/2008,0-1 Miles,Europe,54,1
29481,120,AW00029481,,Ivan,,Suri,0,1/5/60,S,,...,0,0,Knaackstr 4,,1 (11) 500 555-0144,2/13/2006,0-1 Miles,Europe,55,1
29482,179,AW00029482,,Clayton,,Zhang,0,3/5/59,M,,...,1,0,"1080, quai de Grenelle",,1 (11) 500 555-0137,3/22/2007,0-1 Miles,Europe,56,1


La librería Pandas proporciona funciones que permiten mostrar subconjuntos de bases de datos muy grandes, ahorrando en tiempo de cómputo y permitiendo al usuario comprobar algunos de los registros cargados. La funcion ``head()`` muestra las primeras filas del conjunto de datos, mientras que la función ``tail()`` muestra las últimas filas del conjunto de datos. Estas funciones permite comprobar que la lectura de los datos se ha realizado correctamente.

In [None]:
data = pd.read_csv(
    '/MailCustomer.csv',
    index_col='CustomerKey',
    sep=';',
    encoding="ISO-8859-1"
)

print(data.head())
print("-" * 35)
print(data.tail())
#print(data.info())

             GeographyKey CustomerAlternateKey Title  FirstName MiddleName  \
CustomerKey                                                                  
11000                  26           AW00011000   NaN        Jon          V   
11001                  37           AW00011001   NaN     Eugene          L   
11002                  31           AW00011002   NaN      Ruben        NaN   
11003                  11           AW00011003   NaN    Christy        NaN   
11004                  19           AW00011004   NaN  Elizabeth        NaN   

            LastName  NameStyle  BirthDate MaritalStatus Suffix  ...  \
CustomerKey                                                      ...   
11000           Yang          0     4/8/66             M    NaN  ...   
11001          Huang          0  5/14/1965             S    NaN  ...   
11002         Torres          0    8/12/65             M    NaN  ...   
11003            Zhu          0  2/15/1968             S    NaN  ...   
11004        Johnson 

Para acceder a los datos en Pandas, puede realizarse mediante índices tal y como se suele trabajar en cualquier lenguaje de programación cuando trabajamos con matrices, pero también se puede acceder a los datos mediante el nombre de la columna, puesto que un dataframe en Pandas está pensado para manipulación de datos. El método iloc se utiliza en los dataframes para seleccionar los elementos en base a su ubicación. Su sintaxis es ``data.iloc[<filas>, <columnas>]``, donde ``<filas>`` y ``<columnas>`` son la posición de las filas y columnas que se desean seleccionar en el orden que aparecen en el objeto.

In [None]:
print (data.iloc[0]) # Muestra la primera fila
print (data.iloc[:,0]) # Muestra la primera columna
print (data.iloc[0:5]) # Primeras cinco filas
print (data.iloc[:,0:5]) # Primeras cinco columnas
print (data.iloc[[0,2,1]]) # Primera , tercera y segunda filas

GeographyKey                                   26
CustomerAlternateKey                   AW00011000
Title                                         NaN
FirstName                                     Jon
MiddleName                                      V
LastName                                     Yang
NameStyle                                       0
BirthDate                                  4/8/66
MaritalStatus                                   M
Suffix                                        NaN
Gender                                          M
EmailAddress            jon24@adventure-works.com
YearlyIncome                                90000
TotalChildren                                   2
NumberChildrenAtHome                            0
EnglishEducation                        Bachelors
SpanishEducation                     Licenciatura
FrenchEducation                           Bac + 4
EnglishOccupation                    Professional
SpanishOccupation                     Profesional


También es posible acceder a los datos mediante el nombre de las columnas, pero es necesario conocerlas. Mediante las siguientes funciones, podemos tener información de los nombres de las columnas y del tipo de datos que contienen.

In [None]:
print (data.columns) # Lista con los nombres de las columnas
print (data.info()) # Informacion util de los datos , como el tipo de datos

Index(['GeographyKey', 'CustomerAlternateKey', 'Title', 'FirstName',
       'MiddleName', 'LastName', 'NameStyle', 'BirthDate', 'MaritalStatus',
       'Suffix', 'Gender', 'EmailAddress', 'YearlyIncome', 'TotalChildren',
       'NumberChildrenAtHome', 'EnglishEducation', 'SpanishEducation',
       'FrenchEducation', 'EnglishOccupation', 'SpanishOccupation',
       'FrenchOccupation', 'HouseOwnerFlag', 'NumberCarsOwned', 'AddressLine1',
       'AddressLine2', 'Phone', 'DateFirstPurchase', 'CommuteDistance',
       'Region', 'Age', 'BikeBuyer'],
      dtype='object')
<class 'pandas.core.frame.DataFrame'>
Index: 18484 entries, 11000 to 29483
Data columns (total 31 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   GeographyKey          18484 non-null  int64 
 1   CustomerAlternateKey  18484 non-null  object
 2   Title                 101 non-null    object
 3   FirstName             18484 non-null  object
 4   MiddleName     

Pandas permite acceder a una o varias columnas dado su nombre de diferentes formas.

In [None]:
# Acceso al nombre y apellido
print(data[['FirstName', 'LastName']])
print(data.loc[:, ['FirstName', 'LastName']])

# Si queremos saber cuantos valores distintos
# tiene cada una de nuestras columnas, podemos hacer lo siguiente:
for i in data.columns:
    print(i, "-->", len(data[i].unique().tolist()))


             FirstName LastName
CustomerKey                    
11000              Jon     Yang
11001           Eugene    Huang
11002            Ruben   Torres
11003          Christy      Zhu
11004        Elizabeth  Johnson
...                ...      ...
29479            Tommy     Tang
29480             Nina     Raji
29481             Ivan     Suri
29482          Clayton    Zhang
29483            Jsus  Navarro

[18484 rows x 2 columns]
             FirstName LastName
CustomerKey                    
11000              Jon     Yang
11001           Eugene    Huang
11002            Ruben   Torres
11003          Christy      Zhu
11004        Elizabeth  Johnson
...                ...      ...
29479            Tommy     Tang
29480             Nina     Raji
29481             Ivan     Suri
29482          Clayton    Zhang
29483            Jsus  Navarro

[18484 rows x 2 columns]
GeographyKey --> 336
CustomerAlternateKey --> 18484
Title --> 6
FirstName --> 670
MiddleName --> 45
LastName --> 375

Si, además, queremos saber el número de valores faltantes que hay en nuestros datos, podemos calcularlo de la siguiente forma:

In [None]:
print (data.isnull().sum().sort_values(ascending = False))

Suffix                  18481
Title                   18383
AddressLine2            18172
MiddleName               7830
GeographyKey                0
SpanishOccupation           0
FrenchOccupation            0
HouseOwnerFlag              0
NumberCarsOwned             0
AddressLine1                0
Phone                       0
FrenchEducation             0
DateFirstPurchase           0
CommuteDistance             0
Region                      0
Age                         0
EnglishOccupation           0
EnglishEducation            0
SpanishEducation            0
CustomerAlternateKey        0
NumberChildrenAtHome        0
TotalChildren               0
YearlyIncome                0
EmailAddress                0
Gender                      0
MaritalStatus               0
BirthDate                   0
NameStyle                   0
LastName                    0
FirstName                   0
BikeBuyer                   0
dtype: int64


Incluso podemos reemplazar esos valores faltantes por otro valor, como “None”:

In [None]:
processedData = data.fillna ("None")
print(processedData.isnull().sum().sort_values(ascending = False)) # Comprobamos que ya no hay valores nulos

GeographyKey            0
SpanishEducation        0
Age                     0
Region                  0
CommuteDistance         0
DateFirstPurchase       0
Phone                   0
AddressLine2            0
AddressLine1            0
NumberCarsOwned         0
HouseOwnerFlag          0
FrenchOccupation        0
SpanishOccupation       0
EnglishOccupation       0
FrenchEducation         0
EnglishEducation        0
CustomerAlternateKey    0
NumberChildrenAtHome    0
TotalChildren           0
YearlyIncome            0
EmailAddress            0
Gender                  0
Suffix                  0
MaritalStatus           0
BirthDate               0
NameStyle               0
LastName                0
MiddleName              0
FirstName               0
Title                   0
BikeBuyer               0
dtype: int64


### Tarea

Utilizando los comandos explicados y cualquier otro que encontréis y que sea de utilidad, realiza un análisis exploratorio y detalla en un informe de prácticas lo que habéis encontrado en los datos. Comprobaréis que hay una serie de columnas que no son correctas (por ejemplo, la edad). Identifica los problemas que existen en los datos para estar listos de cara a las siguientes fases de limpieza, transformación y reducción de dimensionalidad.

# Práctica 2. Data Wrangling con Pandas (II. Limpieza)

Una vez hemos llevado a cabo el análisis exploratorio continuaremos nuestro _data wrangling_ por la limpieza de los datos.

### Limpieza de datos

Utilizando los problemas identificados en la fase anterior (errores en los datos, datos incompletos, etc.), corrige esos errores de entrada, elimina entradas duplicadas y datos faltantes, así como imputa valores nulos. Uno de los problemas que existen es la fecha de nacimiento (columna ``BirthDate``), donde unos clientes están almacenados como 4/8/66 y otros como 5/14/1965. Comprueba que hay personas que han nacido en una fecha posterior a 2014 y corrígelo. Realmente se debe al formato en el que se almacenaron.

In [None]:
for i in data ['BirthDate']:
  timeData = pd.to_datetime(i)
  print("Mes:", timeData.month)
  print("Dia:", timeData.day)
  print("Ano:", timeData.year)

[1;30;43mSe han truncado las últimas 5000 líneas del flujo de salida.[0m
Dia: 27
Ano: 1963
Mes: 3
Dia: 8
Ano: 2063
Mes: 3
Dia: 6
Ano: 2063
Mes: 7
Dia: 10
Ano: 2063
Mes: 9
Dia: 16
Ano: 1963
Mes: 3
Dia: 18
Ano: 1962
Mes: 12
Dia: 17
Ano: 1962
Mes: 5
Dia: 3
Ano: 1978
Mes: 11
Dia: 3
Ano: 1978
Mes: 10
Dia: 11
Ano: 1978
Mes: 11
Dia: 27
Ano: 1978
Mes: 6
Dia: 26
Ano: 1978
Mes: 9
Dia: 27
Ano: 1977
Mes: 12
Dia: 13
Ano: 1976
Mes: 11
Dia: 9
Ano: 1976
Mes: 4
Dia: 8
Ano: 1976
Mes: 2
Dia: 5
Ano: 1974
Mes: 6
Dia: 4
Ano: 1974
Mes: 8
Dia: 24
Ano: 1974
Mes: 12
Dia: 19
Ano: 1974
Mes: 10
Dia: 4
Ano: 1974
Mes: 9
Dia: 19
Ano: 1974
Mes: 4
Dia: 26
Ano: 1975
Mes: 3
Dia: 16
Ano: 1973
Mes: 2
Dia: 9
Ano: 2062
Mes: 5
Dia: 5
Ano: 2061
Mes: 8
Dia: 15
Ano: 1935
Mes: 10
Dia: 26
Ano: 1936
Mes: 3
Dia: 4
Ano: 2062
Mes: 9
Dia: 14
Ano: 1962
Mes: 10
Dia: 26
Ano: 1957
Mes: 8
Dia: 25
Ano: 1956
Mes: 5
Dia: 5
Ano: 2055
Mes: 1
Dia: 11
Ano: 2055
Mes: 1
Dia: 4
Ano: 2038
Mes: 4
Dia: 22
Ano: 1939
Mes: 9
Dia: 15
Ano: 1940
Mes: 7
Dia:

Pandas también permite eliminar registros duplicados.
`data.drop_duplicates()`

Incluso puedes eliminar las columnas que desees.

In [None]:
processedData = data.drop(['CustomerAlternateKey','BikeBuyer'] , axis = 'columns')

También podemos crear un subconjunto de datos con algunas de las columnas que deseemos, para poder trabajar con ellas.

In [None]:
subsetData = data.get (['Title' , 'FirstName' , 'MiddleName' , 'LastName'])

La librería sklearn permite aplicar técnicas de imputación de datos a nuestro dataframe.

In [None]:
from sklearn.impute import SimpleImputer
imputer = SimpleImputer (fill_value = np.nan , strategy = ’mean’)
X = imputer.fit_transform(data)

En ocasiones, es posible que necesitemos pasar una variable categórica a una numérica para poder tener las medias.

In [None]:
from sklearn.preprocessing import OrdinalEncoder
newData = OrdinalEncoder().fit_transform(data[['Title','FirstName','MiddleName','LastName']])

### Tareas

* Corrige las fechas de nacimiento.
* Actualiza la columna Age con la información correcta.
* Imputa valores faltantes bien asignándole un nuevo valor (ejemplo de “None” visto antes), o bien asignándole la media o cualquier otro método.
Una vez que el conjunto de datos está limpio, analiza si existen registros duplicados y elimínalos.
* Realiza de nuevo un análisis exploratorio de nuestros datos para comprobar que todo está correcto.