# Práctica 1: Data Wrangling con Pandas (I. Exploración)

### Introducción

En esta práctica se nos da un conjunto de datos que debemos analizar en su totalidad. Primero, investigamos a fondo para confirmar que todos los datos estén en buen estado, buscando posibles errores, valores faltantes, errores de escritura o cualquier otro problema que pueda afectar la calidad del análisis.

Para ello, vamos a emplear la potente librería **Pandas** en Python, una herramienta imprescindible para analizar y modificar datos. Pandas nos posibilita trabajar de manera efectiva con estructuras como DataFrames y Series, perfectas para organizar, limpiar, transformar y estudiar conjuntos de datos.

Lo primero que vamos a realizar será cargar los datos, que en este caso es un archivo CSV llamado ``MailCustomer.csv``, para comenzar a trabajar con ellos y detectar posibles errores en la estructura o el contenido del archivo. Esto se realiza utilizando la librería **Pandas** en Python, con el siguiente código:

In [1]:
import pandas as pd
pd.read_csv('/MailCustomer.csv', index_col = 'CustomerKey', sep = ';', encoding = 'ISO-8859 -1')

Unnamed: 0_level_0,GeographyKey,CustomerAlternateKey,Title,FirstName,MiddleName,LastName,NameStyle,BirthDate,MaritalStatus,Suffix,...,HouseOwnerFlag,NumberCarsOwned,AddressLine1,AddressLine2,Phone,DateFirstPurchase,CommuteDistance,Region,Age,BikeBuyer
CustomerKey,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
11000,26,AW00011000,,Jon,V,Yang,0,4/8/66,M,,...,1,0,3761 N. 14th St,,1 (11) 500 555-0162,7/22/2005,1-2 Miles,Pacific,49,1
11001,37,AW00011001,,Eugene,L,Huang,0,5/14/1965,S,,...,0,1,2243 W St.,,1 (11) 500 555-0110,7/18/2005,0-1 Miles,Pacific,50,1
11002,31,AW00011002,,Ruben,,Torres,0,8/12/65,M,,...,1,1,5844 Linden Land,,1 (11) 500 555-0184,7/10/05,2-5 Miles,Pacific,50,1
11003,11,AW00011003,,Christy,,Zhu,0,2/15/1968,S,,...,0,1,1825 Village Pl.,,1 (11) 500 555-0162,7/1/05,5-10 Miles,Pacific,47,1
11004,19,AW00011004,,Elizabeth,,Johnson,0,8/8/68,S,,...,1,4,7553 Harness Circle,,1 (11) 500 555-0131,7/26/2005,1-2 Miles,Pacific,47,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
29479,209,AW00029479,,Tommy,L,Tang,0,7/4/58,M,,...,1,0,"111, rue Maillard",,1 (11) 500 555-0136,3/8/07,0-1 Miles,Europe,57,1
29480,248,AW00029480,,Nina,W,Raji,0,11/10/60,S,,...,1,0,9 Katherine Drive,,1 (11) 500 555-0146,1/18/2008,0-1 Miles,Europe,54,1
29481,120,AW00029481,,Ivan,,Suri,0,1/5/60,S,,...,0,0,Knaackstr 4,,1 (11) 500 555-0144,2/13/2006,0-1 Miles,Europe,55,1
29482,179,AW00029482,,Clayton,,Zhang,0,3/5/59,M,,...,1,0,"1080, quai de Grenelle",,1 (11) 500 555-0137,3/22/2007,0-1 Miles,Europe,56,1


En este fragmento de código, se emplea la función `pd.read_csv()` que permite leer el contenido del archivo CSV y convertirlo en un DataFrame de Pandas, una estructura de datos muy flexible y poderosa para la manipulación y análisis de datos tabulares. Aquí se han especificado algunos parámetros importantes:



*   `index_col = 'CustomerKey'`: Define que la columna CustomerKey será utilizada como índice del DataFrame, facilitando la referencia a los registros por esta clave única.
*   `sep = ';'`: Indica que el delimitador entre los campos del archivo CSV es el carácter punto y coma (;), en lugar del delimitador por defecto la coma (,).
*   `encoding = 'ISO-8859 -1'`: Especifica la codificación del archivo, útil cuando los datos contienen caracteres especiales que no son compatibles con la codificación por defecto.


Al ejecutarse, esta función devuelve un DataFrame organizado en filas y columnas que representa los datos del archivo CSV de forma estructurada. Esta organización permite realizar operaciones como inspeccionar los primeros registros, analizar los tipos de datos en cada columna, y realizar transformaciones o limpiezas necesarias. Además, este paso inicial es crucial para detectar errores comunes, como valores faltantes, datos mal formateados, o problemas de codificación que podrían interferir con el análisis posterior.

Podemos notar que algunas columnas tienen valores nulos, mientras que otras tienen datos faltantes, lo que señala problemas en la recopilación o carga de información. Esta situación puede impactar en el análisis, ya que la falta de datos relevantes podría distorsionar las conclusiones.

Asimismo, se identificó que algunos nombres no se están cargando correctamente, posiblemente debido a errores en la entrada manual, dificultades en la integración de bases de datos, o conflictos de codificación. Estas inconsistencias resaltan la importancia de llevar a cabo una minuciosa limpieza de los datos para asegurar su calidad y confiabilidad en etapas posteriores de análisis o modelado.

Una vez cargado el DataFrame, se sugiere realizar una exploración inicial utilizando métodos como `df.head()` para visualizar las primeras filas del conjunto de datos, y `df.tail()` para ver las últimas. Aquí se aprecia el código donde las utilizamos:

In [2]:
data = pd.read_csv(
    '/MailCustomer.csv',
    index_col='CustomerKey',
    sep=';',
    encoding="ISO-8859-1"
)

print(data.head())
print("-" * 35)
print(data.tail())

             GeographyKey CustomerAlternateKey Title  FirstName MiddleName  \
CustomerKey                                                                  
11000                  26           AW00011000   NaN        Jon          V   
11001                  37           AW00011001   NaN     Eugene          L   
11002                  31           AW00011002   NaN      Ruben        NaN   
11003                  11           AW00011003   NaN    Christy        NaN   
11004                  19           AW00011004   NaN  Elizabeth        NaN   

            LastName  NameStyle  BirthDate MaritalStatus Suffix  ...  \
CustomerKey                                                      ...   
11000           Yang          0     4/8/66             M    NaN  ...   
11001          Huang          0  5/14/1965             S    NaN  ...   
11002         Torres          0    8/12/65             M    NaN  ...   
11003            Zhu          0  2/15/1968             S    NaN  ...   
11004        Johnson 

Si desearamos realizar una exploración más en profundidad podemos hacerlo accediendo a los índices directamente. Con el método `iloc` podemos seleccionar los elementos del DataFrame según su ubicación.

In [3]:
print (data.iloc[0]) # Muestra la primera fila
print (data.iloc[:,0]) # Muestra la primera columna
print (data.iloc[0:5]) # Primeras cinco filas
print (data.iloc[:,0:5]) # Primeras cinco columnas
print (data.iloc[[0,2,1]]) # Primera , tercera y segunda filas

GeographyKey                                   26
CustomerAlternateKey                   AW00011000
Title                                         NaN
FirstName                                     Jon
MiddleName                                      V
LastName                                     Yang
NameStyle                                       0
BirthDate                                  4/8/66
MaritalStatus                                   M
Suffix                                        NaN
Gender                                          M
EmailAddress            jon24@adventure-works.com
YearlyIncome                                90000
TotalChildren                                   2
NumberChildrenAtHome                            0
EnglishEducation                        Bachelors
SpanishEducation                     Licenciatura
FrenchEducation                           Bac + 4
EnglishOccupation                    Professional
SpanishOccupation                     Profesional


Otra forma de acceder a los datos es mediante las columnas mediante su nombre. Para ello usaremos el método `columns` para obtener los nombres de las columnas.

In [6]:
# print (data.columns)
print (data.info()) # Si además queremos saber el tipo de cada columna

<class 'pandas.core.frame.DataFrame'>
Index: 18484 entries, 11000 to 29483
Data columns (total 31 columns):
 #   Column                Non-Null Count  Dtype 
---  ------                --------------  ----- 
 0   GeographyKey          18484 non-null  int64 
 1   CustomerAlternateKey  18484 non-null  object
 2   Title                 101 non-null    object
 3   FirstName             18484 non-null  object
 4   MiddleName            10654 non-null  object
 5   LastName              18484 non-null  object
 6   NameStyle             18484 non-null  int64 
 7   BirthDate             18484 non-null  object
 8   MaritalStatus         18484 non-null  object
 9   Suffix                3 non-null      object
 10  Gender                18484 non-null  object
 11  EmailAddress          18484 non-null  object
 12  YearlyIncome          18484 non-null  int64 
 13  TotalChildren         18484 non-null  int64 
 14  NumberChildrenAtHome  18484 non-null  int64 
 15  EnglishEducation      18484 non-null 

Para acceder a una columna lo haremos de la siguiente forma:

In [7]:
print(data[['FirstName', 'LastName']])
# print(data.loc[:, ['FirstName', 'LastName']])

             FirstName LastName
CustomerKey                    
11000              Jon     Yang
11001           Eugene    Huang
11002            Ruben   Torres
11003          Christy      Zhu
11004        Elizabeth  Johnson
...                ...      ...
29479            Tommy     Tang
29480             Nina     Raji
29481             Ivan     Suri
29482          Clayton    Zhang
29483            Jsus  Navarro

[18484 rows x 2 columns]


Una vez visto esto, podemos intentar proceder de la siguiente forma para encontrar errores en nuestros datos. Podemos calcular cuandos valores nulos hay en nuestro DataFrame de la siguiente forma.

In [8]:
print (data.isnull().sum().sort_values(ascending = False))

Suffix                  18481
Title                   18383
AddressLine2            18172
MiddleName               7830
GeographyKey                0
SpanishOccupation           0
FrenchOccupation            0
HouseOwnerFlag              0
NumberCarsOwned             0
AddressLine1                0
Phone                       0
FrenchEducation             0
DateFirstPurchase           0
CommuteDistance             0
Region                      0
Age                         0
EnglishOccupation           0
EnglishEducation            0
SpanishEducation            0
CustomerAlternateKey        0
NumberChildrenAtHome        0
TotalChildren               0
YearlyIncome                0
EmailAddress                0
Gender                      0
MaritalStatus               0
BirthDate                   0
NameStyle                   0
LastName                    0
FirstName                   0
BikeBuyer                   0
dtype: int64


De los cuales encontramos que:
* Suffix tiene 18481 valores nulos.
* Title tiene 18383 valores nulos.
* AddressLine2 tiene 18172 valores nulos.
* MiddleName tiene 7830 valores nulos.

Si desearamos cambiar estos valores nulos por otro valor como `None` hariamos lo siguiente:

In [9]:
processedData = data.fillna ("None")
print(processedData.isnull().sum().sort_values(ascending = False)) # Comprobamos que ya no hay valores nulos

GeographyKey            0
SpanishEducation        0
Age                     0
Region                  0
CommuteDistance         0
DateFirstPurchase       0
Phone                   0
AddressLine2            0
AddressLine1            0
NumberCarsOwned         0
HouseOwnerFlag          0
FrenchOccupation        0
SpanishOccupation       0
EnglishOccupation       0
FrenchEducation         0
EnglishEducation        0
CustomerAlternateKey    0
NumberChildrenAtHome    0
TotalChildren           0
YearlyIncome            0
EmailAddress            0
Gender                  0
Suffix                  0
MaritalStatus           0
BirthDate               0
NameStyle               0
LastName                0
MiddleName              0
FirstName               0
Title                   0
BikeBuyer               0
dtype: int64


### Conclusión

Tras el análisis, hemos encontrado que en varias columnas hay bastantes valores nulos. Por lo que será necesario tratar de limpiarlos para que no perjudiquen la información de nuestro DataFrame. También hemos detectado que en algunas columnas como la fecha de nacimiento los datos no son iguales o están incompletos.