In [10]:
from datetime import date
import re, os, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

# Paso 3: Estandarizacion de los numeros de periodo
output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])
# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.EdoCivil = input_data[5].str.extract('^(soltero|casado|viudo).*', re.I)

# Paso 2
output_data.EdoCivil = output_data.EdoCivil.str.lower().replace([r'^soltero.*', r'^casado.*', r'^viudo.*'], [0,1,2], regex=True)

# Paso 3
output_data.EdoCivil = output_data.EdoCivil.fillna(output_data.EdoCivil.mode().iloc[0])

"""
 --- Sexo ---
 1. Limpiar dataframe, en el que los valores posibles seran {femenino, masculino}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.Sexo = input_data[6].str.extract('^(f(?:emenino)?|m(?:asculino)?)$', re.I)

# Paso 2
output_data.Sexo = output_data.Sexo.str.lower().replace([r'^f(?:emenino)?', r'^m(?:asculino)?'], [0,1] , regex=True)

# Paso 3
output_data.Sexo = output_data.Sexo.fillna(output_data.Sexo.mode().iloc[0])

"""
 --- Escuela ---
 1. Limpiar dataframe, en el que los valores posibles seran {enfermeria, bioanalisis}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.Escuela = input_data[7].str.extract('^(enfermería|bioanálisis)$', re.I)

# Paso 2
output_data.Escuela = output_data.Escuela.str.lower().replace(['enfermería', 'bionálisis'], [0,1])

# Paso 3
output_data.Escuela = output_data.Escuela.fillna(output_data.Escuela.mode().iloc[0])

"""
 --- Ano de ingreso ---
 1. En caso de anos con dos digitos, llevarlos a 4
	
"""
output_data.IngresoA = input_data[8].replace(r'^(\d{1,2})$', value=lambda x: 1, )

In [11]:
output_data.IngresoA

0      2007
1      2006
2      2006
3      2010
4      2011
5      2008
6      2007
7         8
8      2008
9      2005
10     2012
11     2007
12     2007
13     2007
14     2008
15     2007
16     2007
17     2006
18     2008
19     2007
20     2008
21     2006
22     2008
23     2010
24     2009
25     2006
26     2008
27     2010
28     2009
29     2010
       ... 
160    2013
161    2012
162    2011
163    2013
164    2014
165    2012
166    2011
167    2012
168    2013
169    2011
170    2011
171    2011
172    2013
173    2014
174    2013
175    2013
176    2014
177    2014
178    2014
179    2014
180    2012
181    2014
182    2012
183    2013
184    2014
185    2012
186    2014
187    2014
188    2012
189    2012
Name: IngresoA, dtype: int64

In [12]:
from datetime import date
import re, os, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

# Paso 3: Estandarizacion de los numeros de periodo
output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])
# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.EdoCivil = input_data[5].str.extract('^(soltero|casado|viudo).*', re.I)

# Paso 2
output_data.EdoCivil = output_data.EdoCivil.str.lower().replace([r'^soltero.*', r'^casado.*', r'^viudo.*'], [0,1,2], regex=True)

# Paso 3
output_data.EdoCivil = output_data.EdoCivil.fillna(output_data.EdoCivil.mode().iloc[0])

"""
 --- Sexo ---
 1. Limpiar dataframe, en el que los valores posibles seran {femenino, masculino}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.Sexo = input_data[6].str.extract('^(f(?:emenino)?|m(?:asculino)?)$', re.I)

# Paso 2
output_data.Sexo = output_data.Sexo.str.lower().replace([r'^f(?:emenino)?', r'^m(?:asculino)?'], [0,1] , regex=True)

# Paso 3
output_data.Sexo = output_data.Sexo.fillna(output_data.Sexo.mode().iloc[0])

"""
 --- Escuela ---
 1. Limpiar dataframe, en el que los valores posibles seran {enfermeria, bioanalisis}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.Escuela = input_data[7].str.extract('^(enfermería|bioanálisis)$', re.I)

# Paso 2
output_data.Escuela = output_data.Escuela.str.lower().replace(['enfermería', 'bionálisis'], [0,1])

# Paso 3
output_data.Escuela = output_data.Escuela.fillna(output_data.Escuela.mode().iloc[0])

"""
 --- Ano de ingreso ---
 1. En caso de anos con dos digitos, llevarlos a 4
	
"""
output_data.IngresoA = input_data[8].apply(lambda x: x+1900 if x<100 and x>int(current_year) else (x+2000 if x<100 and x<=int(current_year) else x))

In [13]:
output_data.IngresoA

0      2007
1      2006
2      2006
3      2010
4      2011
5      2008
6      2007
7      2008
8      2008
9      2005
10     2012
11     2007
12     2007
13     2007
14     2008
15     2007
16     2007
17     2006
18     2008
19     2007
20     2008
21     2006
22     2008
23     2010
24     2009
25     2006
26     2008
27     2010
28     2009
29     2010
       ... 
160    2013
161    2012
162    2011
163    2013
164    2014
165    2012
166    2011
167    2012
168    2013
169    2011
170    2011
171    2011
172    2013
173    2014
174    2013
175    2013
176    2014
177    2014
178    2014
179    2014
180    2012
181    2014
182    2012
183    2013
184    2014
185    2012
186    2014
187    2014
188    2012
189    2012
Name: IngresoA, dtype: int64

In [14]:
re.match('(?!abcd)', 'string')

<_sre.SRE_Match at 0xaa35c60>

In [17]:
prueba = re.match('(?!abcd)', 'abcd')

In [18]:
prueba

In [20]:
from datetime import date
import re, os, numpy, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

# Paso 3: Estandarizacion de los numeros de periodo
output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])
# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.EdoCivil = input_data[5].str.lower().replace([r'^soltero.*', r'^casado.*', r'^viudo.*', r'(?!^(soltero|casado|viudo).*)'], [0, 1, 2, numpy.nan], regex=True)

# Paso 3
output_data.EdoCivil = output_data.EdoCivil.fillna(output_data.EdoCivil.mode().iloc[0])

"""
 --- Sexo ---
 1. Limpiar dataframe, en el que los valores posibles seran {femenino, masculino}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.Sexo = input_data[6].str.lower().replace([r'^f(?:emenino)?', r'^m(?:asculino)?', r'(?!^f(?:emenino)?|m(?:asculino)?)'], [0, 1, numpy.nan] , regex=True)

# Paso 3
output_data.Sexo = output_data.Sexo.fillna(output_data.Sexo.mode().iloc[0])

"""
 --- Escuela ---
 1. Limpiar dataframe, en el que los valores posibles seran {enfermeria, bioanalisis}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.Escuela = input_data[7].str.lower().replace(['enfermería', 'bionálisis', r'(?!enfermería|bioanálisis)'], [0, 1, numpy.nan], regex=True)

# Paso 3
output_data.Escuela = output_data.Escuela.fillna(output_data.Escuela.mode().iloc[0])

"""
 --- Ano de ingreso ---
 1. En caso de anos con dos digitos, llevarlos a 4
	
"""
output_data.IngresoA = input_data[8].apply(lambda x: x+1900 if x<100 and x>int(current_year) else (x+2000 if x<100 and x<=int(current_year) else x))

"""
 --- Modalidad de ingreso ---
 1. Limpiar dataframe, en el que los valores posibles seran {interinstitucionales, prueba interna, internos, opsu}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.IngresoM = output_data.Escuela.str.lower().replace(['enfermería', 'bionálisis', r'(?!enfermería|bioanálisis)'], [0, 1, numpy.nan], regex=True)

# Paso 3
output_data.IngresoM = output_data.Escuela.fillna(output_data.Escuela.mode().iloc[0])

AttributeError: Can only use .str accessor with string values, which use np.object_ dtype in pandas

In [26]:
from datetime import date
import re, os, numpy, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

# Paso 3: Estandarizacion de los numeros de periodo
output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])
# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.EdoCivil = input_data[5].str.lower().replace([r'^soltero.*', r'^casado.*', r'^viudo.*', r'(?!^(soltero|casado|viudo).*)'], [0, 1, 2, numpy.nan], regex=True)

# Paso 3
output_data.EdoCivil = output_data.EdoCivil.fillna(output_data.EdoCivil.mode().iloc[0])

"""
 --- Sexo ---
 1. Limpiar dataframe, en el que los valores posibles seran {femenino, masculino}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.Sexo = input_data[6].str.lower().replace([r'^f(?:emenino)?', r'^m(?:asculino)?', r'(?!^f(?:emenino)?|m(?:asculino)?)'], [0, 1, numpy.nan] , regex=True)

# Paso 3
output_data.Sexo = output_data.Sexo.fillna(output_data.Sexo.mode().iloc[0])

"""
 --- Escuela ---
 1. Limpiar dataframe, en el que los valores posibles seran {enfermeria, bioanalisis}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.Escuela = input_data[7].str.lower().replace(['enfermería', 'bioanálisis', r'(?!enfermería|bioanálisis)'], [0, 1, numpy.nan], regex=True)

# Paso 3
output_data.Escuela = output_data.Escuela.fillna(output_data.Escuela.mode().iloc[0])

"""
 --- Ano de ingreso ---
 1. En caso de anos con dos digitos, llevarlos a 4
	
"""
output_data.IngresoA = input_data[8].apply(lambda x: x+1900 if x<100 and x>int(current_year) else (x+2000 if x<100 and x<=int(current_year) else x))

"""
 --- Modalidad de ingreso ---
 1. Limpiar dataframe, en el que los valores posibles seran {interinstitucionales, prueba interna, internos, opsu}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""


'\n --- Modalidad de ingreso ---\n 1. Limpiar dataframe, en el que los valores posibles seran {interinstitucionales, prueba interna, internos, opsu}\n 2. Categorizar la data\n 3. Imputar datos erroneos de acuerdo a la moda estadistica\n\t\n'

In [27]:
output_data.Escuela

0      0
1      0
2      0
3      0
4      0
5      1
6      0
7      1
8      1
9      1
10     0
11     1
12     1
13     1
14     1
15     1
16     1
17     1
18     1
19     1
20     1
21     1
22     1
23     1
24     1
25     1
26     1
27     1
28     1
29     1
      ..
160    1
161    0
162    1
163    1
164    0
165    1
166    0
167    1
168    0
169    0
170    0
171    0
172    1
173    1
174    0
175    1
176    1
177    0
178    1
179    0
180    1
181    1
182    1
183    0
184    0
185    0
186    0
187    1
188    1
189    1
Name: Escuela, dtype: int64

In [30]:
prueba=re.match('.*interinstitucional(es)?.*', 'Convenios interinstitucionales (nacionales e internacionales)')

In [31]:
prueba

<_sre.SRE_Match at 0xab30dc8>

In [34]:
from datetime import date
import re, os, numpy, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

# Paso 3: Estandarizacion de los numeros de periodo
output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])
# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.EdoCivil = input_data[5].str.lower().replace([r'^soltero.*', r'^casado.*', r'^viudo.*', r'(?!^(soltero|casado|viudo).*)'], [0, 1, 2, numpy.nan], regex=True)

# Paso 3
output_data.EdoCivil = output_data.EdoCivil.fillna(output_data.EdoCivil.mode().iloc[0])

"""
 --- Sexo ---
 1. Limpiar dataframe, en el que los valores posibles seran {femenino, masculino}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.Sexo = input_data[6].str.lower().replace([r'^f(?:emenino)?', r'^m(?:asculino)?', r'(?!^f(?:emenino)?|m(?:asculino)?)'], [0, 1, numpy.nan] , regex=True)

# Paso 3
output_data.Sexo = output_data.Sexo.fillna(output_data.Sexo.mode().iloc[0])

"""
 --- Escuela ---
 1. Limpiar dataframe, en el que los valores posibles seran {enfermeria, bioanalisis}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.Escuela = input_data[7].str.lower().replace(['enfermería', 'bioanálisis', r'(?!enfermería|bioanálisis)'], [0, 1, numpy.nan], regex=True)

# Paso 3
output_data.Escuela = output_data.Escuela.fillna(output_data.Escuela.mode().iloc[0])

"""
 --- Ano de ingreso ---
 1. En caso de anos con dos digitos, llevarlos a 4
	
"""
output_data.IngresoA = input_data[8].apply(lambda x: x+1900 if x<100 and x>int(current_year) else (x+2000 if x<100 and x<=int(current_year) else x))

"""
 --- Modalidad de ingreso ---
 1. Limpiar dataframe, en el que los valores posibles seran {interinstitucionales, prueba interna, internos, opsu}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 y 2
output_data.IngresoM = input_data[9].str.replace('\s','').str.lower()
output_data.IngresoM = output_data.IngresoM.replace([r'.*interinstitucional(es)?.*', r'^pruebainterna.*', r'^internos.*', r'.*opsu.*', r'(?!.*interinstitucional(es)?.*|^pruebainterna.*|^internos.*|.*opsu.*)'], [0, 1, 2, 3, numpy.nan], regex=True)

# Paso 3
output_data.IngresoM = output_data.IngresoM.fillna(output_data.IngresoM.mode().iloc[0])

"""
 --- Semestre ---
 1. Limpiar dataframe, en el que los valores posibles sean numericos
 2. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1 
output_data.Semestre = input_data[10].replace([r'^(\d{1,2}).*', r'(?!^(\d{1,2}).*)'], [(lambda x: 1), numpy.nan], regex=True)

In [35]:
output_data.Semestre

0      <function <lambda> at 0x000000000BEE5B38>
1      <function <lambda> at 0x000000000BEE5B38>
2      <function <lambda> at 0x000000000BEE5B38>
3      <function <lambda> at 0x000000000BEE5B38>
4      <function <lambda> at 0x000000000BEE5B38>
5      <function <lambda> at 0x000000000BEE5B38>
6      <function <lambda> at 0x000000000BEE5B38>
7      <function <lambda> at 0x000000000BEE5B38>
8      <function <lambda> at 0x000000000BEE5B38>
9      <function <lambda> at 0x000000000BEE5B38>
10     <function <lambda> at 0x000000000BEE5B38>
11     <function <lambda> at 0x000000000BEE5B38>
12     <function <lambda> at 0x000000000BEE5B38>
13     <function <lambda> at 0x000000000BEE5B38>
14     <function <lambda> at 0x000000000BEE5B38>
15     <function <lambda> at 0x000000000BEE5B38>
16     <function <lambda> at 0x000000000BEE5B38>
17     <function <lambda> at 0x000000000BEE5B38>
18     <function <lambda> at 0x000000000BEE5B38>
19     <function <lambda> at 0x000000000BEE5B38>
20     <function <la