# 1. EDA
En este apartado se pretende analizar los datasets para poder enfocar mejor la limpieza

## 1.1 Importación y carga de datos
Debemos declarar las librerías que usamos y leer el correspondiente archivo de datos

In [15]:
# Importación de librerías
import pandas as pd

# Lectura dataset
df = pd.read_csv('../UsuariosSucio.csv')

## 1.2 Configuración de Pandas
Para poder leer bien los resultados de las ejecuciones, vamos a configurar tanto el número máximo de columnas como el número máximo de filas

In [16]:
# Número máximo de filas a mostrar
pd.set_option('display.max_rows', None)

# Número máximo de columnas a mostrar
pd.set_option('display.max_columns', None)
pd.set_option('display.max_colwidth', None)
pd.set_option('display.width', 2000)

## 1.3 Descripción general del dataset
Para poder conocer ciertas características relevantes del dataset, como el número de instancias (filas) y características (columnas) procederemos a usar diferentes funciones de Pandas


In [17]:
# Descripción de parámetros generales -> count, mean, std, min, 25%, 50%, 75%, max
print(df.describe())

# Número de filas y columnas del dataset
print("\n")
print("Número de filas: ", df.shape[0])
print("Número de columnas: ", df.shape[1])
print("\n")

# Para saber el tipo de variable de cada columna
print(df.info())

       Email
count    0.0
mean     NaN
std      NaN
min      NaN
25%      NaN
50%      NaN
75%      NaN
max      NaN


Número de filas:  15040
Número de columnas:  5


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 15040 entries, 0 to 15039
Data columns (total 5 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   NIF       15040 non-null  object 
 1   NOMBRE    15040 non-null  object 
 2   EMAIL     15020 non-null  object 
 3   TELEFONO  15040 non-null  object 
 4   Email     0 non-null      float64
dtypes: float64(1), object(4)
memory usage: 587.6+ KB
None


## 1.4 Observación inicial del dataset
Vamos a mostrar 30 entradas para poder observar cómo es realmente por dentro el dataset

In [18]:
# Mostramos las 10 primeras filas, 10 filas aleatorias y las 10 últimas
print("   ----------    10 primeras filas    ----------    ")
print("\n")
print(df.head(10))
print("\n")
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")
print("   ----------    10 últimas filas    ----------    ")
print("\n")
print(df.tail(10))

   ----------    10 primeras filas    ----------    


           NIF                        NOMBRE                          EMAIL          TELEFONO  Email
0  674-03-7053             RITA NEBOT BUSTOS      luis-miguelpujol@verdu.es    +34714 556 402    NaN
1  695-98-2439           MARCIAL PIQUER GOÑI          violeta60@hotmail.com    +34874 258 581    NaN
2  978-00-2364        Teodora Leiva Vilanova               yribas@yahoo.com   +34 898 334 794    NaN
3  179-63-9808  Reina Elvira Dominguez Belda      nuriaabellan@castejon.com   +34720 12 61 81    NaN
4  903-84-1885            ETELVINA VEGA SALA  bescudero@pallares-jimenez.es   +34742 59 59 03    NaN
5  911-11-1566        PANCHO ROSSELLÓ GASCÓN           gacevedo@hotmail.com   +34 714 742 113    NaN
6  871-29-5756           Jose Dalmau Español     pelayoflorencio@artigas.es  +34 702 26 10 37    NaN
7  647-92-1126         OLEGARIO OLIVERAS REY          celestina59@gmail.com   +34745 57 02 83    NaN
8  213-87-6036            Gregorio d

## 1.4 bis Eliminación de la columna Email
Se ha observado que existe una columna inservible que es necesaria eliminar para evitar posibles errores de limpieza en un futuro. Esta columna ya existe en el dataset y no aporta nada de información al tener todos sus valores nulos

In [19]:
# Vemos todos los valores únicos de la columna 'Email'
print("   ----------    Valores de la columna 'Email'    ----------    ")
print("\n")
print(df['Email'].unique())

# Eliminamos toda la columna de 'Email'
df = df.drop('Email', axis=1)
print("\n")
print("Columna 'Email' borrada")
print("\n")

# Mostramos algunas filas del dataset sin la columna 'Email'
print("   ----------    10 filas sin la columna 'Email'    ----------    ")
print("\n")
print(df.sample(10))

   ----------    Valores de la columna 'Email'    ----------    


[nan]


Columna 'Email' borrada


   ----------    10 filas sin la columna 'Email'    ----------    


               NIF                    NOMBRE                              EMAIL          TELEFONO
5311   389-93-5123  DORITA PINILLA DOMINGUEZ                  bjuarez@yahoo.com   +34737 23 76 33
1858   440-02-5745    Cayetana Jordá Sarabia           patriciasegui@cabeza.net    +34809 627 526
10021  438-55-8254  VENCESLÁS DEL MONTESINOS                  zvargas@gmail.com   +34945 27 87 58
1931   306-50-8495   Bartolomé Girona Martin       maximilianoredondo@gmail.com  +34 737 20 89 52
9962   795-01-7010         GUIOMAR COROMINAS               telloborja@yahoo.com  +34 723 29 79 61
8356   746-93-4783            CONCHA PEDRAZA  gomilamelisa@alegria-aragones.com  +34 874 69 23 63
2784   114-04-5921        Cloe Rozas Carbajo         penalvereligia@cardenas.es   +34 885 967 841
6996   775-51-1510        Amando Baró-Vicens  

## 1.5 Revisión de valores nulos
Como ya se ha visto en el anterior apartado (info), podemos observar los valores nulos de esa forma. Pero se puede observar de una forma más visual y, además, hay que tener en cuenta valores como el cero que también pueden considerarse nulos.

In [20]:
# Para poder saber el número de valores faltantes
print("    ----------    Valores faltantes    ----------    ")
print("\n")
print(df.isnull().sum())
print("\n")
# Para poder saber el número de ceros en cada columna
print("    ----------    Valores cero    ----------    ")
print("\n")
print((df == 0).sum())

    ----------    Valores faltantes    ----------    


NIF          0
NOMBRE       0
EMAIL       20
TELEFONO     0
dtype: int64


    ----------    Valores cero    ----------    


NIF         0
NOMBRE      0
EMAIL       0
TELEFONO    0
dtype: int64


Encontramos valores nulos en EMAIL, por lo que se debe corregir en un futuro obteniendo los datos de otro .csv, si existe un atributo similar, o rellenando los atributos vacíos.

Vamos a mostrar las filas con valores nulos

In [21]:
# Muestra las filas que tengan valores nulos
print("   ----------    Filas con valores nulos    ----------    ")
print("\n")
print(df[df.isnull().any(axis=1)])
print("\n")
# Número de filas con nulos en alguna columna
print("Número de filas con nulos en alguna columna: ", df.isnull().any(axis=1).sum())

   ----------    Filas con valores nulos    ----------    


               NIF                               NOMBRE EMAIL          TELEFONO
350    665-35-8274                  Jordi Cabello Ochoa   NaN     +34 706955013
612    835-57-3680                 JOSEFA OSORIO CRESPO   NaN  +34 729 37 73 12
669    993-67-2645                AMANCIO DEL FERNÁNDEZ   NaN  +34 637 90 88 35
2537   329-46-7975                     Amarilis Calleja   NaN   +34 709 875 297
3861   604-98-6313                      Anselma Ródenas   NaN     +34 721194904
4070   583-45-2974                   Fidel García Vives   NaN   +34 730 408 177
6601   947-40-1508               TEODOSIO MÚÑIZ TORRENS   NaN    +34747 048 846
7241   404-04-0223  Margarita Isabela Valcárcel Jimenez   NaN     +34 728403554
7364   914-45-0525                   VIDAL BAYÓN SUAREZ   NaN   +34 883 714 653
7886   818-21-2804                 PÁNFILO TORMO PATIÑO   NaN      +34685645603
8815   263-41-7132                       Irene Gordillo   N

## 1.6 Identificación de fechas no estandarizadas
Se deben identificar las fechas que no se encuentran en el formato adecuado para MongoDB (DD/MM/YYYY)

Como en este dataset no hay fechas, este paso se saltará

## 1.7 Identificación de registros duplicados
Debemos validar que no existen filas iguales que ensucien el dataset, sobre todo estando pendiente de duplicaciones de la clave primaria

In [22]:
# Ver las filas duplicadas
print("   ----------    Filas duplicadas    ----------    ")
print("\n")
print(df[df.duplicated()])
print("\n")
# Número de filas duplicadas
print("Número de filas duplicadas: ", df.duplicated().sum())
print("\n")

# Filtrar filas que tienen el mismo NIF
duplicados = df.groupby('NIF').filter(lambda x: len(x) > 1)

# Ordenar por NIF para que las filas con el mismo NIF se visualicen una encima de la otra
duplicados = duplicados.sort_values(by='NIF')

# Mostrar las filas duplicadas
print("   ----------    Filas duplicadas    ----------    ")
print("\n")
print(duplicados)
print("\n")
print("Número de filas duplicadas: ", duplicados.shape[0])

   ----------    Filas duplicadas    ----------    


Empty DataFrame
Columns: [NIF, NOMBRE, EMAIL, TELEFONO]
Index: []


Número de filas duplicadas:  0


   ----------    Filas duplicadas    ----------    


               NIF                              NOMBRE                                  EMAIL          TELEFONO
15006  056-90-8764                  Artemio Sáez Rocha       dup_cocafernanda@roman-mateo.com       34703774440
5262   056-90-8764                  Artemio Sáez Rocha           cocafernanda@roman-mateo.com    +34703 773 853
7678   067-00-0467                 Kike Tejera Padilla                  ttoledo@alamo-pol.com   +34 980 134 373
15008  067-00-0467                 Kike Tejera Padilla              dup_ttoledo@alamo-pol.com       34980134855
12080  088-09-4602                  Rosalía Tolosa Amo                  jennycampoy@yahoo.com   +34699 04 91 17
15013  088-09-4602                  Rosalía Tolosa Amo              dup_jennycampoy@yahoo.com       34699049750
4458   

Podemos observar que no hay filas completamente iguales. Pero, hay filas que poseen el mismo NIF y nombre pero con diferente Email y Teléfono. Se han decidido mantener porque un usuario puede poseer asociadas varias direcciones email y teléfonos, por lo que no se ve necesario la modificación

## 1.8 Búsqueda de errores tipográficos
Hay ciertos atributos de texto que pueden contar con determinados errores tipográficos que deben ser solucionados, como los nombres de áreas, juegos, usuarios y ubicaciones. Debemos ver si los usuarios poseen nombres en un formato adecuado

In [23]:
# Mostrar 20 filas aleatorias de nombres de usuario
print("   ----------    20 filas aleatorias de nombres de usuario    ----------    ")
print("\n")
print(df['NOMBRE'].sample(20))

   ----------    20 filas aleatorias de nombres de usuario    ----------    


12728                     Conrado de Corral
14825                  Roldán Julián Ropero
12910                SOL MOSQUERA CARRETERO
2070                Cándido Portero Arregui
14372                DOLORES SALAS CORBACHO
3273                   MARCIA GUILLÉN SÁENZ
8601                  BENITO CABAÑAS TOLOSA
2413                   Javier Luján Saldaña
3271                    INMACULADA BERMÚDEZ
10140    SANCHO EUSTAQUIO GALVÁN MANZANARES
4622           MARÍA FERNANDA DEL BALLESTER
1852                          Calixto Viñas
7572                    Cesar Puga Aramburu
7958                    IGNACIO DEL CABRERO
12138                  MARTÍN CAMACHO SAINZ
9435                  ISABEL ALEGRE PEINADO
1756                 Carlota Rosado Camacho
11902               Marcial Ramirez Vilalta
10196               Juliana Castells Espada
14678                     Ale Barros Asenjo
Name: NOMBRE, dtype: object


Como se puede apreciar, los nombres poseen formatos distintos, por lo que se deben estandarizar

## 1.9 Identificación de valores enum fuera de campo
Hay ciertos atributos que solo deben poseer ciertos valores (como Operativo-NoOperativo). Hace falta identificar aquellos valores de ese campo fuera de la norma

En este dataset no se encuentran campos Enum, por lo que este paso se va a saltar

## 1.10 Validación de las coordenadas y otros campos geoespaciales
Hay algunas veces en las que los códigos postales no respetan la identificación de Madrid (280..) o el formato, ya sean códigos postales u otros atributos de geolocalización

En este dataset no encontramos valores de localización, por lo que este paso no se realizará

## 1.11 Identificación de unidades de medida en un formato no estandarizado
Se deben identificar las filas que no posean un formato estándar

En este dataset no encontramos valores de unidades de medida, por lo que este paso no se realizará

## 1.12 Otros atributos a corregir
En esta sección se mencionarán aquellos atributos que también deban ser limpiados por errores

### 1.12.1 Validar NIF
Debemos comprobar que todos los NIF posean el mismo formato '###-##-####', siendo un número, para que mantenga la coherencia con otros datasets (como el de Incidencias). A simple vista parece que sí, pero es mejor realizar una segunda comprobación más profunda

In [24]:
# Validar que todos los NIF tengan el siguiente formato: '###-##-####'
print("   ----------    Validar formato NIF    ----------    ")
print("\n")
print(df['NIF'].str.match(r'\d{3}-\d{2}-\d{4}').all())

   ----------    Validar formato NIF    ----------    


True


Se puede observar que no hay valores nulos (gracias a pasos previos) y que todos poseen la misma estructura

### 1.12.2 Validar Email
Un email posee una estructura característica, por lo que se debe validar mediante una regex que cumple con el formato habitual

In [25]:
# Comprobar que todos los valores de la columna 'EMAIL' poseen el formato de un email
print("   ----------    Validar formato EMAIL    ----------    ")
print("\n")
print(df['EMAIL'].str.match(r'[^@]+@[^@]+\.[^@]+').all())


   ----------    Validar formato EMAIL    ----------    


True


Como se puede apreciar, todas las filas no nulas cumplen con ese formato

### 1.12.3 Validar Nombre y teléfono móvil

Este paso se va a realizar en la limpieza, pero cabe destacar que si el nombre o el teléfono no cumplen con sus formatos habituales, las funciones de limpieza no se va a poder ejecutar, por lo que, de forma indirecta, se estarán validando ambos campos

# 2. Limpieza de los datasets
En este apartado se realizará la limpieza según la información obtenida en el análisis exploratorio de datos:
- Se debe corregir NOMBRE y TELEFONO para un formato homogéneo
- Se deben corregir los nulos de EMAIL

## 2.1 Limpieza de NOMBRE y TELEFONO

Debemos estandarizar todos los Nombres y Telefonos a un formato más lejible. En cuanto a teléfonos, se va a estandarizar toda la columna de teléfonos, comprobando que todos son +34 (aunque en un futuro podrán poseer cualquier prefijo) para agilizar la limpieza. Una vez comprobado, se eliminarán los espacios y se validará el formato de todos 

In [26]:
# Pasamos todos los valores del campo 'NOMBRE' a un formato de nombre y apellidos
df['NOMBRE'] = df['NOMBRE'].str.title()
print("   ----------    Valores de la columna NOMBRE en formato de nombre y apellidos    ----------    ")
print("\n")
print(df['NOMBRE'].sample(10))
print("\n")

# Elimina los espacios entre caracteres de los valores de la columna 'TELEFONO'
df['TELEFONO'] = df['TELEFONO'].str.replace(' ', '')
print("   ----------    Valores de la columna TELEFONO sin espacios    ----------    ")
print("\n")
print(df['TELEFONO'].sample(10))
# Añade el '+' del principio a todos los valores de la columna 'TELEFONO' que no los posea
df['TELEFONO'] = df['TELEFONO'].apply(lambda x: '+' + x if x[0] != '+' else x)
print("\n")
print("   ----------    Valores de la columna TELEFONO con '+' al principio    ----------    ")
print("\n")
print(df['TELEFONO'].sample(10))

# Comprobación de que todos los valores de la columna TELEFONO comienzan por '+34'
print("\n")
print("   ----------    Validar formato TELEFONO    ----------    ")
print("\n")
print(df['TELEFONO'].str.match(r'\+34\d{9}').all())
# Muestra las filas que no cumplen con el formato de teléfono
print("\n")
print("   ----------    Filas que no cumplen con el formato de teléfono    ----------    ")
print("\n")
print(df[~df['TELEFONO'].str.match(r'\+34\d{9}')])

   ----------    Valores de la columna NOMBRE en formato de nombre y apellidos    ----------    


7140             Martina Briones-Ponce
8175               Lina Pedraza Girona
13371              Edgardo Boix Posada
9063           Calisto Bernat-Cuadrado
10951               María Carmen Bayón
11144            Mayte Martínez Aliaga
4137     Marcela Octavia Quesada Pagès
6339           Miriam Casanova Montoya
5456           Bernardino Bastida-Baró
10993               Onofre Gascón-León
Name: NOMBRE, dtype: object


   ----------    Valores de la columna TELEFONO sin espacios    ----------    


4913    +34746265342
5199    +34747205951
3483    +34903439085
189     +34737028286
5571    +34678402432
9658    +34734410734
7172    +34739744805
999     +34718178163
8415    +34723812532
577     +34667903773
Name: TELEFONO, dtype: object


   ----------    Valores de la columna TELEFONO con '+' al principio    ----------    


301      +34736660733
1821     +34724190779
12347    +34706729168
667

Se puede apreciar que ya han quedado estandarizado todos los nombres y teléfonos

## 2.2 Limpieza de EMAIL
Se van a rellenar todos los emails faltantes siguiendo un formato específico:
- NIF(con guiones para facilitar las queries en un futuro)-EMAIL-Desconocido

In [27]:
# Cambiamos los valores nulos por una string personalizada en la que combinamos el NIF de esa fila y el nombre de la columna en cuestión

# Función para generar la cadena personalizada
def string_email_desc(row):
    return f"{row['NIF']}_EMAIL_Desconocido"

# Reemplazar valores nulos
df['EMAIL'] = df.apply(lambda row: string_email_desc(row) if pd.isnull(row['EMAIL']) else row['EMAIL'], axis=1)

print("   ----------    Filas con valores nulos    ----------    ")
print("\n")
print(df[df.isnull().any(axis=1)])

   ----------    Filas con valores nulos    ----------    


Empty DataFrame
Columns: [NIF, NOMBRE, EMAIL, TELEFONO]
Index: []


Como se puede apreciar, los emails ya no están vacíos

## 2.4 Mostrar Dataset Limpio y guardar CSV
Vamos a mostrar algunas filas del dataset limpio para validar que todo está OK y guardamos el Dataset

In [28]:
# Enseñamos 10 filas aleatorias para ver cómo quedan
print("   ----------    10 filas aleatorias    ----------    ")
print("\n")
print(df.sample(10))
print("\n")

# Mostramos 10 filas que posean el comentario 'Desconocido' y 10 filas que posean el tipo 'Desconocido'
print("   ----------    Filas EMAIL con 'Desconocido'    ----------    ")
print("\n")
print(df[df['EMAIL'].str.contains('Desconocido')].sample(10))
print("\n")

# Guardamos el dataset limpio
df.to_csv('../UsuariosLimpio.csv', index=False)
print("\n")
print("Dataset limpio guardado")

   ----------    10 filas aleatorias    ----------    


               NIF                         NOMBRE                           EMAIL      TELEFONO
5019   550-98-3208   Carmelita Montalbán Doménech           aleiva@roma-baena.com  +34733883077
1504   924-77-8580             Nydia Calvo-Ibáñez              chus52@hotmail.com  +34710690294
7722   906-84-0821           Chita Aguilera Duque   geraldocruz@molins-zabala.com  +34990600445
5379   543-74-9102           Hernando De Gallardo         bayoncasandra@gmail.com  +34739639684
2358   713-41-8944  Jose Manuel Canals Santamaría             marioegea@gmail.com  +34746535571
14756  219-47-4797        Pepito Valenzuela-Viñas              jose08@agustin.net  +34728457827
2796   466-10-8414          Elvira Arribas Ferrán            dalila21@hotmail.com  +34675683545
7041   693-33-0477              José Casas Moreno           julieacosta@gimeno.es  +34705817927
4834   897-07-9402      José Ángel Blasco-Gonzalo                   juan05@paz.



Dataset limpio guardado
