# Limpieza de Datos

La limpieza de datos se refiere a la estandarización de la aparición de los datos. El reto principal es la limpieza de bases de datos de texto, en los que se presentan errores en la escritura de datos, signos de puntuación no deseados, así como la eliminación de dígitos o números erroneos en textos.

In [1]:
import numpy as np
import pandas as pd
import string

In [2]:
dirty_df = pd.read_csv('../Data/dirty_data.csv')

In [3]:
def dqr(data):
    #%% Lista de variables de la base de datos
    columns = pd.DataFrame(list(data.columns.values),
                           columns= ['Nombres'],
                           index= list(data.columns.values)) 
    #%% Lista de tipos de datos
    data_types = pd.DataFrame(data.dtypes, columns=['Data_Types'])
    
    #%% lista de datos perdidos
    missing_values = pd.DataFrame(data.isnull().sum(),
                                  columns=['Missing_values'])
    #%% lista de valores presentes
    present_values = pd.DataFrame(data.count(), 
                                  columns=['Present Values'])
    
    #%% Lista de valores únicos para cada variable
    unique_values = pd.DataFrame(columns=['Unique_Values'])
    for col in list(data.columns.values):
        unique_values.loc[col] = [data[col].nunique()]

    #%% Lista de valores mínimos
    min_values = pd.DataFrame(columns=['Min'])
    for col in list(data.columns.values):
        try:
            min_values.loc[col] = [data[col].min()]
        except:
            pass
    
    #%% Lista de valores máximos
    max_values = pd.DataFrame(columns=['Max'])
    for col in list(data.columns.values):
        try:
            max_values.loc[col] = [data[col].max()]
        except:
            pass
    
    #%% Columna 'Categorica' que sea booleana que cuando sea True represente
    #   que la variable es categorica, y False represente que la variable es
    #  numérica
    return columns.join(data_types).join(missing_values).join(present_values).join(unique_values).join(min_values).join(max_values)

In [4]:
reporte_dirty_df = dqr(dirty_df)

In [5]:
reporte_dirty_df

Unnamed: 0,Nombres,Data_Types,Missing_values,Present Values,Unique_Values,Min,Max
age,age,int64,0,14,11,10,69
birth_date,birth_date,object,0,14,6,01-26-1956,19xx?10-23
marital,marital,object,1,13,8,,
people,people,object,0,14,14,ANA PAULA RANGEL OCHOA&,jocelyn medel
ssn,ssn,object,1,13,8,,


In [6]:
dirty_df.head()

Unnamed: 0,age,birth_date,marital,people,ssn
0,24,02/12/1954,soltero,"Alfonso A,guilar",6439
1,35,05/07/1958,casado,edu6ardo Castillo,689 24 9939
2,46,01-26-1956,Soltero,jocelyn medel,306-05-2792
3,57,19xx-10-23,divorciado,VICTOR ramos _ _ _,99922a45832
4,10,02/12/0054,SOLTERO,CARLOS EDUARDO; OCHOA ARAMBULA,6439


## Limpieza del dataset

- Eliminar Símbolos raros
- Remover digitos
- Remover espacios en blanco
- reemplazar texto
- convertir textos mínusculas/mayusculas
- Dejar solamente digitos

In [7]:
dirty_df['people']

0                     Alfonso A,guilar
1                    edu6ardo Castillo
2                        jocelyn medel
3                   VICTOR ramos _ _ _
4       CARLOS EDUARDO; OCHOA ARAMBULA
5           JOSE MANUEL OCHOA CARDENAS
6            JUAN MARIO; OCHOA NAVARRO
7                LUIS ONTANEDA MIJARES
8          EDUARDO OMAR ORTEGA RAMIREZ
9     JOSE ALEJANDRO& PRECIADO GANDARA
10    Jose Aantonio Quintero Rodriguez
11             JOSE ALFONSO RAMIREZ D.
12             ANA PAULA RANGEL OCHOA&
13                  Arturo RUIZ CHAVEZ
Name: people, dtype: object

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
string.digits

'0123456789'

In [10]:
# Remover signos de puntuación

def remove_punctuation(x):
    try:
        x = ''.join(ch for ch in x if ch not in string.punctuation)
    except:
        pass
    return x
    

In [11]:
# Remover digitos
def remove_digits(x):
    try:
        x = ''.join(ch for ch in x if ch not in string.digits)
    except:
        pass
    return x

In [12]:
# Remover los espacios en blanco
def remove_whitespace(x):
    try:
        x=''.join(x.split())
    except:
        pass
    return x

In [13]:
# Reemplazar texto
def replace_text(x, to_replace, replacement):
    try:
        x = x.replace(to_replace, replacement)
    except:
        pass
    return x


In [14]:
# Convertir a mayusculas
def uppercase_text(x):
    try:
        x=x.upper()
    except:
        pass
    return x


In [15]:
def lowercase_text(x):
    try:
        x=x.lower()
    except:
        pass
    return x

            

In [16]:
x=' VICTOR ramos'
uppercase_text(x)

' VICTOR RAMOS'

In [17]:
x= ' VICTOR RAMOS'
lowercase_text(x)

' victor ramos'

In [18]:
x=' VICTOR ramos _ _ _'
remove_punctuation(x)

' VICTOR ramos   '

In [19]:
x=' 1 0 edu6ardo Cast3ill2o'
remove_digits(x)

'   eduardo Castillo'

In [20]:
x='   eduardo Castillo'
remove_whitespace(x)

'eduardoCastillo'

In [21]:
x='   eduardo Castillo   '
x.lstrip()

'eduardo Castillo   '

In [22]:
x.rstrip()

'   eduardo Castillo'

In [23]:
x= '   eduardo Castillo'
replace_text(x, 'Castillo', 'Lopez')

'   eduardo Lopez'

In [24]:
dirty_df['people']

0                     Alfonso A,guilar
1                    edu6ardo Castillo
2                        jocelyn medel
3                   VICTOR ramos _ _ _
4       CARLOS EDUARDO; OCHOA ARAMBULA
5           JOSE MANUEL OCHOA CARDENAS
6            JUAN MARIO; OCHOA NAVARRO
7                LUIS ONTANEDA MIJARES
8          EDUARDO OMAR ORTEGA RAMIREZ
9     JOSE ALEJANDRO& PRECIADO GANDARA
10    Jose Aantonio Quintero Rodriguez
11             JOSE ALFONSO RAMIREZ D.
12             ANA PAULA RANGEL OCHOA&
13                  Arturo RUIZ CHAVEZ
Name: people, dtype: object

In [25]:
dirty_df['people'].apply(remove_punctuation).apply(remove_whitespace)

0                    AlfonsoAguilar
1                  edu6ardoCastillo
2                      jocelynmedel
3                       VICTORramos
4        CARLOSEDUARDOOCHOAARAMBULA
5           JOSEMANUELOCHOACARDENAS
6             JUANMARIOOCHOANAVARRO
7               LUISONTANEDAMIJARES
8          EDUARDOOMARORTEGARAMIREZ
9      JOSEALEJANDROPRECIADOGANDARA
10    JoseAantonioQuinteroRodriguez
11              JOSEALFONSORAMIREZD
12              ANAPAULARANGELOCHOA
13                 ArturoRUIZCHAVEZ
Name: people, dtype: object

## Limpiar la columna 'marital' cuando exista un valor nan, entonces hay que cambiar ese valor por la etiqueta 'missing', para esta columna todas los registros estén en mayusculas

In [26]:
dirty_df['marital']

0        soltero
1         casado
2        Soltero
3     divorciado
4        SOLTERO
5         CASado
6        Soltero
7     DIVORCIADO
8        soltero
9            NaN
10       Soltero
11    divorciado
12       missing
13        casado
Name: marital, dtype: object

In [27]:
idx = dirty_df['marital'].isnull()

In [28]:
idx

0     False
1     False
2     False
3     False
4     False
5     False
6     False
7     False
8     False
9      True
10    False
11    False
12    False
13    False
Name: marital, dtype: bool

In [29]:
dirty_df.marital[idx] = 'Missing'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  dirty_df.marital[idx] = 'Missing'


In [30]:
dirty_df.marital

0        soltero
1         casado
2        Soltero
3     divorciado
4        SOLTERO
5         CASado
6        Soltero
7     DIVORCIADO
8        soltero
9        Missing
10       Soltero
11    divorciado
12       missing
13        casado
Name: marital, dtype: object

In [31]:
dirty_df.marital = dirty_df.marital.apply(replace_text, args=('missing','Missing'))

In [32]:
dirty_df.marital

0        soltero
1         casado
2        Soltero
3     divorciado
4        SOLTERO
5         CASado
6        Soltero
7     DIVORCIADO
8        soltero
9        Missing
10       Soltero
11    divorciado
12       Missing
13        casado
Name: marital, dtype: object

In [33]:
dirty_df.marital.apply(uppercase_text)

0        SOLTERO
1         CASADO
2        SOLTERO
3     DIVORCIADO
4        SOLTERO
5         CASADO
6        SOLTERO
7     DIVORCIADO
8        SOLTERO
9        MISSING
10       SOLTERO
11    DIVORCIADO
12       MISSING
13        CASADO
Name: marital, dtype: object

In [34]:
dirty_df['marital'].unique()

array(['soltero', 'casado', 'Soltero', 'divorciado', 'SOLTERO', 'CASado',
       'DIVORCIADO', 'Missing'], dtype=object)

In [35]:
list = ['Soltero', 'SOLTERO', 'CASado','DIVORCIADO']

for l in list:
    dirty_df.marital.apply(replace_text, args=(l,'Missing'))


In [36]:

dirty_df.marital = dirty_df.marital.apply(replace_text, args=('missing','Missing'))


In [37]:
dirty_df

Unnamed: 0,age,birth_date,marital,people,ssn
0,24,02/12/1954,soltero,"Alfonso A,guilar",6439
1,35,05/07/1958,casado,edu6ardo Castillo,689 24 9939
2,46,01-26-1956,Soltero,jocelyn medel,306-05-2792
3,57,19xx-10-23,divorciado,VICTOR ramos _ _ _,99922a45832
4,10,02/12/0054,SOLTERO,CARLOS EDUARDO; OCHOA ARAMBULA,6439
5,25,05/07/1958,CASado,JOSE MANUEL OCHOA CARDENAS,689 24 9939
6,63,01-26-1956,Soltero,JUAN MARIO; OCHOA NAVARRO,306-05-2792
7,59,19xx?10-23,DIVORCIADO,LUIS ONTANEDA MIJARES,99922a45832
8,69,02/12/1954,soltero,EDUARDO OMAR ORTEGA RAMIREZ,
9,59,05/07/1958,Missing,JOSE ALEJANDRO& PRECIADO GANDARA,6439


In [38]:
x='2547'

In [39]:
9-len(x)

5

In [40]:
x+'47'

'254747'

In [41]:
'47'+x

'472547'

## Actividad 2: Limpieza de datos

**1. En clase se mostró un ejemplo de la limpieza de una base datos ejemplo “dirty_data.csv”, de la que se logró hacer la estandarización de los nombres de las personas, y las fechas de nacimiento. En la columna “ssn” se requiere los siguientes cambios:**
    
    - Cada registro solo debe de contener números.
    
    - Cada registro debe de contener 9 dígitos para ser un registro válido, de otra forma hay que rellenar con ceros por la parte izquierda para tener los 9 digitos.
    
    - No se quieren espacios, ni guiones o algún otro símbolo especial en cada registro.
    
    - Si tenemos etiquetas o NaNs, serán sustituidos por 9 dígitos de puros ceros.

**2. Utiliza las mismas funciones para limpiar la base de datos llamada “dirty_Info_Alumnos_v1.csv”. El ejercicio consiste en normalizar toda la tabla teniendo encuentra las siguientes consideraciones:**

    - Dejar los nombres correctos en mayúsculas.
    
    - Eliminar todos los caracteres especiales de la columna teléfono.
    
    - Cuando no se tenga la longitud de 10 dígitos en el teléfono, se considerará el dato como “missing”.
    
    - Dejar solo números en la columna semestre.
    
    - Si el número de expediente no tiene 6 dígitos considerarlo como “missing”.

In [42]:
def fill_ceros_ssn(x):
    try:
        x=str(x)
        while (len(x)<9):
            x='0'+x
    except:
        pass
    return x

In [43]:
def remove_character(x):
    try:
        x = ''.join(ch for ch in x if ch in string.digits)
    except:
        pass
    return x

In [44]:
dirty_df.ssn = dirty_df.ssn.apply(remove_character)

In [45]:
dirty_df.ssn

0           6439
1      689249939
2      306052792
3     9992245832
4           6439
5      689249939
6      306052792
7     9992245832
8            NaN
9           6439
10     689249938
11     306062792
12    9992245845
13              
Name: ssn, dtype: object

In [46]:
dirty_df.ssn=dirty_df.ssn.fillna('000000000')

In [47]:
dirty_df.ssn

0           6439
1      689249939
2      306052792
3     9992245832
4           6439
5      689249939
6      306052792
7     9992245832
8      000000000
9           6439
10     689249938
11     306062792
12    9992245845
13              
Name: ssn, dtype: object

In [48]:
dirty_df.ssn=dirty_df.ssn.apply(fill_ceros_ssn)

In [49]:
dirty_df

Unnamed: 0,age,birth_date,marital,people,ssn
0,24,02/12/1954,soltero,"Alfonso A,guilar",6439
1,35,05/07/1958,casado,edu6ardo Castillo,689249939
2,46,01-26-1956,Soltero,jocelyn medel,306052792
3,57,19xx-10-23,divorciado,VICTOR ramos _ _ _,9992245832
4,10,02/12/0054,SOLTERO,CARLOS EDUARDO; OCHOA ARAMBULA,6439
5,25,05/07/1958,CASado,JOSE MANUEL OCHOA CARDENAS,689249939
6,63,01-26-1956,Soltero,JUAN MARIO; OCHOA NAVARRO,306052792
7,59,19xx?10-23,DIVORCIADO,LUIS ONTANEDA MIJARES,9992245832
8,69,02/12/1954,soltero,EDUARDO OMAR ORTEGA RAMIREZ,0
9,59,05/07/1958,Missing,JOSE ALEJANDRO& PRECIADO GANDARA,6439


In [50]:
info_alumnos = pd.read_csv('../Data/dirty_Info_Alumnos_v1.csv', encoding='latin-1')

In [53]:
info_alumnos

Unnamed: 0,Combre Completo,Edad,Telefono,Semestre,Num Expediente
0,ALVAREZ DEL&CASTILLO CASTA¥EDA JUAN MANUEL,20,(106)2-562-979,13 er,639408
1,ANAYA AVALOS_VICTOR MAURICIO,20,7354-926-370,7,930023
2,ANSOLEAGA ALVAREZ _ MARIA FERNANDA,19,7479-367-588,12ø,871375
3,BARBA GALVAN SANTIAGO,19,6589-950-295,1ø,439629
4,BARBOZA ESPIN0ZA CARLOS ALFONS0,23,(223) 72 77 358,9o,272305
5,BUENO ARAGON PEDRQ LUIS,23,203 878 880,6,513535
6,CANTU RU1Z ESC0TO MARIA JOSE,18,61-388-524,3er,577715
7,ESTAVILLO_URREA_JUAN_PABLO,19,319-039-676,2do,425199
8,GARCIA_VERDUZCO_MARIO_ABEL,19,8370-557-679,12,286804
9,GONZALEZ&MANRIQUE&PAULINA&MILENKA,18,3497507667,8,686234
