In [5]:
from datetime import date
import re, os, numpy, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].astype(numpy.int).drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

# Paso 3: Se binariza las entradas de acuerdo a el siguiente conjunto (con valores posibles de {1,2})
repl = {'pri':'1','primero':'1','i':'1','1s':'1','01':'1','01s':'1',
		'seg':'2','segundo':'2','ii':'2','2s':'2','02':'2','02s':'2'}
output_data.PeriodoN = period.number.str.replace('pri(mero)?|seg(undo)?|ii?|0?[12]s|0[12]s?', lambda x: repl[x.group(0).lower()], flags=re.I)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0])

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])

# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('(\d{1,2}).+', lambda x: x.group(1))

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
repl = {'soltero': '0', 'casado': '1', 'viudo': '2'}
output_data.EdoCivil = input_data[5].str.extract('^(soltero|casado|viudo).*', re.I)
output_data.EdoCivil = output_data.EdoCivil.str.replace('^(soltero|casado|viudo).*', lambda x: repl[x.group(1).lower()], flags=re.I)

In [6]:
output_data.EdoCivil

0        2
1        1
2        0
3        0
4        0
5        0
6        0
7        0
8        0
9        0
10       0
11       0
12       0
13       0
14       0
15       0
16       0
17       0
18       0
19       0
20       0
21       1
22       0
23       0
24       0
25     NaN
26       0
27       0
28       0
29       0
      ... 
160      0
161      0
162      0
163      0
164      0
165      0
166      0
167      0
168      0
169      0
170      0
171      0
172      0
173      0
174      0
175      0
176      0
177      0
178      0
179      0
180      0
181      0
182      0
183      0
184      0
185      0
186      0
187      0
188      0
189      0
Name: EdoCivil, dtype: object

In [10]:
output_data.EdoCivil[0]*output_data.EdoCivil[1]

TypeError: can't multiply sequence by non-int of type 'str'

In [11]:
output_data.CI = input_data[2].astype(numpy.int).drop_duplicates()

In [12]:
output_data.CI

0        1
1        2
2        3
3        4
4        5
5        6
6        7
7        8
8        9
9       10
10      11
11      12
12      13
13      14
14      15
15      16
16      17
17      18
18      19
19      20
20      21
21      22
22      23
23      24
24      25
25      26
26      27
27      28
28      29
29      30
      ... 
160    161
161    162
162    163
163    164
164    165
165    166
166    167
167    168
168    169
169    170
170    171
171    172
172    173
173    174
174    175
175    176
176    177
177    178
178    179
179    180
180    181
181    182
182    183
183    184
184    185
185    186
186    187
187    188
188    189
189    190
Name: CI, dtype: int64

In [13]:
from datetime import date
import re, os, numpy, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I).lower()

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I).lower()

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)


ValueError: invalid literal for long() with base 10: 'hola'

In [16]:
from datetime import date
import re, os, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

output_data.PeriodoN = period.number.str.lower().extract([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0)).astype('int')

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0])

AttributeError: 'DataFrame' object has no attribute 'str'

In [27]:
from datetime import date
import re, os, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])

# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

In [28]:
output_data.Edad 

0      63
1      37
2      35
3      32
4      32
5      28
6      28
7      26
8      25
9      27
10     26
11     26
12     26
13     26
14     25
15     25
16     25
17     27
18     25
19     25
20     24
21     24
22     24
23     23
24     24
25     26
26     24
27     24
28     23
29     25
       ..
160    19
161    19
162    21
163    19
164    19
165    20
166    20
167    20
168    20
169    21
170    20
171    20
172    18
173    19
174    19
175    18
176    18
177    18
178    18
179    19
180    20
181    19
182    19
183    19
184    18
185    20
186    18
187    18
188    20
189    24
Name: Edad, dtype: int64

In [29]:
from datetime import date
import re, os, pandas

"""
 --- Cargando datos ---
 * El proyecto debe correrse desde el directorio base
 * output_data almacena la data luego del procesamiento
 
"""
input_data = pandas.read_csv(os.getcwd()+'/dat/data.csv', header=None, skiprows=1)
output_data = pandas.DataFrame(
	columns=['CI', 'PeriodoA', 'PeriodoN', 'FechaNac', 'Edad', 'EdoCivil', 'Sexo', 'Escuela', 'IngresoA', 'IngresoM', 'Semestre']
	)

"""
 --- Cedula ---
 * El identificador de c/u de las instancias
 
"""
output_data.CI = input_data[2].drop_duplicates()

"""
 --- Periodo academico ---
 1. Eliminando separadores entre periodo y ano (pueden der espacio, '-', '/' y '\')
 2. Separando periodo (que se compone de ano y numero) en las columnas PeriodoA y PeriodoN respectivamente
	2.1. Tomando los periodos que cumplan con el formato <periodo><ano> 
	2.2. Tomando los periodos que cumplan con el formato <ano><periodo>
	2.3. Juntando (2) y (3) en un mismo dataframe
 3. Estandarizacion de la columna PeriodoN
 4. Estandarizacion de la columna PeriodoA
 5. Inputacion de datos erroneos o faltantes 
	
"""    
# Paso 1
period_messy = input_data[1].str.replace('[\s\\\\\-\/]','') 

# Paso 2.1: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <ano><periodo>
period = period_messy.str.extract('^(?P<year>(?:20)?\d{2})(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)$', re.I)

# Paso 2.2: extrae en los grupos year y number (c/u en distintas columnas) las cadenas con de forma <periodo><ano>
period_p2 = period_messy.str.extract('^(?P<number>pri(?:mero)?|seg(?:undo)?|ii?|0?[12]s?)(?P<year>(?:20)?\d{2})$', re.I)

# Paso 2.3: Se juntan en un mismo data frame los posibles casos (interseccion es nula por lo que no hay perdida de datos)
period.update(period_p2)

output_data.PeriodoN = period.number.str.lower().replace([r'pri(mero)?|i|0?1s|01s?', r'seg(undo)?|ii|0?2s|02s?'], [1,2], regex=True)

# Paso 4: Estandarizacion de los anos, todos con 4 digitos
# Se decide imputar el valor de los anos expresado en 2 digitos en el siglo XXI dado que el set de datos no muestra ningun registro
# que los valores puedan estar en alguna otra epoca 
output_data.PeriodoA = period.year.str.replace('^\d{2}$', lambda x: '20'+x.group(0))

# Paso 5: inputacion de datos erroneos o faltantes mediante la moda estadistica
output_data.PeriodoN = output_data.PeriodoN.fillna(output_data.PeriodoN.mode().iloc[0])
output_data.PeriodoA = output_data.PeriodoA.fillna(output_data.PeriodoA.mode().iloc[0]).astype('int')

"""
 --- Fecha de nacimiento ---
 1. Estandarizacion de la fecha a anos con 4 digitos
 2. Estandarizacion de la fecha a formato yyyy-mm-dd
	
"""
current_year = date.today().strftime('%y')

# Paso 1: funcion lambda evalua si 2 digitos de ano > a el actual => el ano es del siglo XX sino el ano es del siglo XXI
output_data.FechaNac = input_data[3].str.replace('^\d{1,2}[\s/-]?\d{1,2}[\s/-]?\d{2}$', 
	lambda x: x.group(0)[:-2]+'19'+x.group(0)[-2:] if x.group(0)[-2:]>current_year else x.group(0)[:-2]+'20'+x.group(0)[-2:])

# Paso 2	
output_data.FechaNac = pandas.to_datetime(output_data.FechaNac, dayfirst=True, errors='coerce')

"""
 --- Edad ---
 1. Estandarizacion de la edad a digitos
	
"""
output_data.Edad = input_data[4].str.replace('^(\d{1,2})[^0-9]+', lambda x: x.group(1)).astype('int')

"""
 --- Estado civil ---
 1. Limpiar dataframe, en el que los valores posibles seran {soltero(a), casado(a), viudo(a)}
 2. Categorizar la data
 3. Imputar datos erroneos de acuerdo a la moda estadistica
	
"""
# Paso 1
output_data.EdoCivil = input_data[5].str.extract('^(soltero|casado|viudo).*', re.I)

# Paso 2
output_data.EdoCivil = output_data.EdoCivil.str.lower().replace([r'^soltero.*', r'^casado.*', r'^viudo.*'], [0,1,2], regex=True)

# Paso 3
output_data.EdoCivil = output_data.EdoCivil.fillna(output_data.EdoCivil.mode().iloc[0])

In [30]:
output_data.EdoCivil

0      2
1      1
2      0
3      0
4      0
5      0
6      0
7      0
8      0
9      0
10     0
11     0
12     0
13     0
14     0
15     0
16     0
17     0
18     0
19     0
20     0
21     1
22     0
23     0
24     0
25     0
26     0
27     0
28     0
29     0
      ..
160    0
161    0
162    0
163    0
164    0
165    0
166    0
167    0
168    0
169    0
170    0
171    0
172    0
173    0
174    0
175    0
176    0
177    0
178    0
179    0
180    0
181    0
182    0
183    0
184    0
185    0
186    0
187    0
188    0
189    0
Name: EdoCivil, dtype: float64