# Laboratorio 2

Se trabajará con el dataset de permisos de edificación de San Francisco:
https://www.kaggle.com/aparnashastry/building-permit-applications-data/data

In [37]:
import pandas as pd
import numpy as np
np.random.seed(32423)

## Importacion de datos

In [38]:
dateparse = lambda c: pd.to_datetime(c, format='%m/%d/%Y', errors='coerce')
col_dates = ['Permit Creation Date', 'Current Status Date', 'Filed Date', 'Issued Date', 'Completed Date','First Construction Document Date', 'Permit Expiration Date']
data = pd.read_csv("Building_Permits.csv", low_memory=False, parse_dates=col_dates, date_parser=dateparse, \
                   index_col=['Record ID'])

Vemos si los tipos de datos de las columnas fueron inferidos correctamente según la información suministrada en
https://www.kaggle.com/aparnashastry/building-permit-applications-data/data

In [39]:
data.dtypes

Permit Number                                     object
Permit Type                                        int64
Permit Type Definition                            object
Permit Creation Date                      datetime64[ns]
Block                                             object
Lot                                               object
Street Number                                      int64
Street Number Suffix                              object
Street Name                                       object
Street Suffix                                     object
Unit                                             float64
Unit Suffix                                       object
Description                                       object
Current Status                                    object
Current Status Date                       datetime64[ns]
Filed Date                                datetime64[ns]
Issued Date                               datetime64[ns]
Completed Date                 

### Fechas

Vemos cómo se parsearon las fechas nulas:

In [40]:
data['Completed Date'][:5]

Record ID
1380611233945          NaT
1420164406718          NaT
1424856504716          NaT
1443574295566   2017-07-24
144548169992           NaT
Name: Completed Date, dtype: datetime64[ns]

In [41]:
data.describe(include='all')

Unnamed: 0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,TIDF Compliance,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location
count,198900.0,198900.0,198900,198900,198900.0,198900.0,198900.0,2216,198900,196132,...,2,155534.0,155534,155738.0,155738,5359,197183.0,197175,197184.0,197200
unique,181495.0,,8,1291,4893.0,1050.0,,18,1704,21,...,2,,5,,5,1,,41,,57604
top,201602179765.0,,otc alterations permit,2017-09-15 00:00:00,3708.0,1.0,,A,Market,St,...,Y,,wood frame (5),,wood frame (5),Y,,Financial District/South Beach,,"(37.79226164705184, -122.4034859571375)"
freq,101.0,,178844,413,1195.0,10114.0,,1501,5443,138358,...,1,,113350,,114382,5359,,21816,,554
first,,,,2012-03-28 00:00:00,,,,,,,...,,,,,,,,,,
last,,,,2018-02-23 00:00:00,,,,,,,...,,,,,,,,,,
mean,,7.522323,,,,,1121.728944,,,,...,,4.072878,,4.089529,,,5.538403,,94115.500558,
std,,1.457451,,,,,1135.768948,,,,...,,1.585756,,1.578766,,,2.887041,,9.270131,
min,,1.0,,,,,0.0,,,,...,,1.0,,1.0,,,1.0,,94102.0,
25%,,8.0,,,,,235.0,,,,...,,3.0,,3.0,,,3.0,,94109.0,


Ahora deberíamos poder calcular el rango de fechas para cada columna de tipo date

In [42]:
for date_type_col in col_dates:
    print(data[date_type_col].max() - data[date_type_col].min())

2158 days 00:00:00
2250 days 00:00:00
1878 days 00:00:00
1878 days 00:00:00
1876 days 00:00:00
1878 days 00:00:00
3873 days 00:00:00


## Asegurar de tener ids/claves únicas

Vemos si hay IDs duplicados

In [43]:
data[data.index.duplicated()]

Unnamed: 0_level_0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,TIDF Compliance,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location
Record ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1


Ver si hay filas duplicadas y descartarlas

In [44]:
data[data.duplicated()]

Unnamed: 0_level_0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,TIDF Compliance,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location
Record ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
1294939199934,201302019267,8,otc alterations permit,2013-02-01,6280,43,806,,Russia,Av,...,,5.0,wood frame (5),5.0,wood frame (5),,11.0,Excelsior,94112.0,"(37.71823948380821, -122.43070649984861)"
1300835395703,201303283290,8,otc alterations permit,2013-03-28,3987,24,135,,Mississippi,St,...,,5.0,wood frame (5),5.0,wood frame (5),,10.0,Potrero Hill,94107.0,"(37.76459192915239, -122.394376794674)"
1301529164635,201304124392,8,otc alterations permit,2013-04-12,3717,5,160,,Spear,St,...,,1.0,constr type 1,1.0,constr type 1,,6.0,Financial District/South Beach,94105.0,"(37.79157492973848, -122.3933901193989)"
1308830100339,201306210141,2,new construction wood frame,2013-06-21,1453,13,363,,21st,Av,...,,,,5.0,wood frame (5),Y,1.0,Outer Richmond,94121.0,"(37.78102771976823, -122.48083375518638)"
1316521206878,201309056009,8,otc alterations permit,2013-09-05,6541,15,4757,,25th,St,...,,5.0,wood frame (5),5.0,wood frame (5),,8.0,Noe Valley,94114.0,"(37.74899533171904, -122.44245690967995)"
1317158490355,201309116496,8,otc alterations permit,2013-09-11,950,60,2768,,Green,St,...,,5.0,wood frame (5),5.0,wood frame (5),,2.0,Marina,94123.0,"(37.79526103815182, -122.4446242886346)"
1319970206124,201310078627,8,otc alterations permit,2013-10-07,6522,15,2870,,Harrison,St,...,,5.0,wood frame (5),5.0,wood frame (5),,9.0,Mission,94110.0,"(37.75149830307405, -122.41212947058871)"
1319981387943,201309045902,8,otc alterations permit,2013-09-04,1065,026A,3244,,Geary,Bl,...,,5.0,wood frame (5),5.0,wood frame (5),,2.0,Presidio Heights,94118.0,"(37.78192732986077, -122.4540305963071)"
1320387100653,201310108954,8,otc alterations permit,2013-10-10,1460,001P,479,,28th,Av,...,,5.0,wood frame (5),5.0,wood frame (5),,1.0,Outer Richmond,94121.0,"(37.7804053854789, -122.48826767221813)"
1320438118710,201310108990,8,otc alterations permit,2013-10-10,1883,48,1510,,38th,Av,...,,5.0,wood frame (5),5.0,wood frame (5),,4.0,Sunset/Parkside,94122.0,"(37.75866475318028, -122.49691713414039)"


In [45]:
data = data.drop_duplicates()
data[data.duplicated()]

Unnamed: 0_level_0,Permit Number,Permit Type,Permit Type Definition,Permit Creation Date,Block,Lot,Street Number,Street Number Suffix,Street Name,Street Suffix,...,TIDF Compliance,Existing Construction Type,Existing Construction Type Description,Proposed Construction Type,Proposed Construction Type Description,Site Permit,Supervisor District,Neighborhoods - Analysis Boundaries,Zipcode,Location
Record ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1


## Caracteres especiales en nombres de las columnas

In [46]:
import chardet
# look at the first ten thousand bytes to guess the character encoding
with open("Building_Permits.csv", 'rb') as rawdata:
    result = chardet.detect(rawdata.read(10000))

# check what the character encoding might be
print(result)

{'confidence': 1.0, 'encoding': 'ascii', 'language': ''}


El encoding resulta ser ASCII. Chequeamos que no hayan caracteres fuera de la A-Z y 0-9:

In [47]:
cols_special_chars = data.columns[data.columns != data.columns.str.extract(r'^(\w+)$')] 
cols_special_chars

  """Entry point for launching an IPython kernel.


Index(['Permit Number', 'Permit Type', 'Permit Type Definition',
       'Permit Creation Date', 'Street Number', 'Street Number Suffix',
       'Street Name', 'Street Suffix', 'Unit Suffix', 'Current Status',
       'Current Status Date', 'Filed Date', 'Issued Date', 'Completed Date',
       'First Construction Document Date', 'Structural Notification',
       'Number of Existing Stories', 'Number of Proposed Stories',
       'Voluntary Soft-Story Retrofit', 'Fire Only Permit',
       'Permit Expiration Date', 'Estimated Cost', 'Revised Cost',
       'Existing Use', 'Existing Units', 'Proposed Use', 'Proposed Units',
       'TIDF Compliance', 'Existing Construction Type',
       'Existing Construction Type Description', 'Proposed Construction Type',
       'Proposed Construction Type Description', 'Site Permit',
       'Supervisor District', 'Neighborhoods - Analysis Boundaries'],
      dtype='object')

In [48]:
data.columns = data.columns.str.replace(' ', '_')
data.columns = data.columns.str.replace('[^\w]+', '')
data.columns = data.columns.str.lower()
data.columns

Index(['permit_number', 'permit_type', 'permit_type_definition',
       'permit_creation_date', 'block', 'lot', 'street_number',
       'street_number_suffix', 'street_name', 'street_suffix', 'unit',
       'unit_suffix', 'description', 'current_status', 'current_status_date',
       'filed_date', 'issued_date', 'completed_date',
       'first_construction_document_date', 'structural_notification',
       'number_of_existing_stories', 'number_of_proposed_stories',
       'voluntary_softstory_retrofit', 'fire_only_permit',
       'permit_expiration_date', 'estimated_cost', 'revised_cost',
       'existing_use', 'existing_units', 'proposed_use', 'proposed_units',
       'plansets', 'tidf_compliance', 'existing_construction_type',
       'existing_construction_type_description', 'proposed_construction_type',
       'proposed_construction_type_description', 'site_permit',
       'supervisor_district', 'neighborhoods__analysis_boundaries', 'zipcode',
       'location'],
      dtype='object'

## Valores faltantes

Veamos el % de filas las cuales tienen al menos un dato nulo:

In [49]:
len(data.dropna(axis=1)) / len(data) * 100

100.0

Claramente, tirar las filas con datos nulos no es una opción, ya que todas tienen al menos una columna nula.

### Rellenar con algún valor los campos con datos faltantes

Analizamos el % de datos faltantes en cada columna

In [50]:
missing_values_count = data.isna().sum()
(missing_values_count[missing_values_count > 0] / len(data)).to_frame()

Unnamed: 0,0
street_number_suffix,0.988865
street_suffix,0.013916
unit,0.851789
unit_suffix,0.990142
description,0.001448
issued_date,0.075079
completed_date,0.511339
first_construction_document_date,0.075109
structural_notification,0.965192
number_of_existing_stories,0.215072


Antes de descartar los valores nulos, analicemos las columnas a las que le faltan un % elevado de datos (más del 50%).
Nos valemos de la información adicional provista en https://www.kaggle.com/aparnashastry/building-permit-applications-data/data donde podemos encontar una breve descripción sobre cada columna.

1. street_number_suffix: es NULL el 98,86% de las filas, lo cual tiene sentido porque se trata
de una información complementaria al número de la calle que se utiliza en casos muy puntuales (street_number por su
parte no figura siquiera entre las columnas con algún dato faltante).
2. unit: está documentado como "unit of a building". No está claro si el valor es optativo; la alta cantidad de filas de este tipo sugeriría que sí.
3. unit_suffix: Información adicional de la columna anterior; puede ser null.
4. completed_data: Esta columna puede ser nula si no se terminó de edificar aún.

Ahora analizamos una serie de columnas en las que se indica si la edificación posee o no cierta cualidad. A primera vista, parece que se ha indicado únicamente las edificaciones que poseen esa cualidad con 'Y' y se ha dejado en blanco aquellas que no lo hacen. En tal caso, se podría rellenar esas columnas con datos faltantes con 'N' (o directamente binarizar el campo y marcar con '0' y '1'). Veamos si esto es así:

In [51]:
print('structural_notification\n' + str(data.structural_notification.value_counts()))
print('voluntary_softstory_retrofit\n' + str(data.voluntary_softstory_retrofit.value_counts()))
print('fire_only_permit\n' + str(data.fire_only_permit.value_counts()))
print('tidf_compliance\n' + str(data.tidf_compliance.value_counts()))
print('site_permit\n' + str(data.site_permit.value_counts()))

structural_notification
Y    6921
Name: structural_notification, dtype: int64
voluntary_softstory_retrofit
Y    35
Name: voluntary_softstory_retrofit, dtype: int64
fire_only_permit
Y    18820
Name: fire_only_permit, dtype: int64
tidf_compliance
Y    1
P    1
Name: tidf_compliance, dtype: int64
site_permit
Y    5355
Name: site_permit, dtype: int64


La presunción era cierta, salvo para la columna **tidf_compliance**. La documentación dice textual:
*"TIDF compliant or not"* lo cual indicaría que debería ser un campo tipo *booleano*. Aquí haremos una suposición
e intepretaremos a la letra P como "parcial", ya que se trata del cumplimiento o no de una normativa o estándar.

In [52]:
fill_cols = ['tidf_compliance', 'structural_notification', 'voluntary_softstory_retrofit', 'fire_only_permit', 'site_permit']
for col in fill_cols:
    data[col] = data[col].fillna(value='N')


## Codificación de variables

### Variable *location*

La columna *location* tiene la latitud y longitud de la edificación, que deberá ser separada en dos columnas distintas
para su correcta utilización

In [53]:
data['latitude'], data['longitude'] = data['location'].str.split(',', 1).str
data.latitude = data.latitude.str.replace('(','')
data.longitude = data.longitude.str.replace(')','')
data.latitude = data.latitude.astype(float)
data.longitude = data.longitude.astype(float)
data = data.drop(['location'], 1)

In [54]:
data.longitude.sample(3)

Record ID
1491627400578   -122.433250
1468075364100   -122.430844
1430521183513   -122.413018
Name: longitude, dtype: float64

### Variables categóricas

Serán variables categóricas todas aquellas cuyo tipo es string, y no es un campo descriptivo (i.e. con texto libre).


In [55]:
from sklearn import preprocessing

categoric_vars = ['lot', 'permit_type', 'permit_type_definition', 'street_number_suffix', 'street_name', 'street_suffix', 'unit_suffix', \
                  'current_status', 'structural_notification', 'voluntary_softstory_retrofit', 'fire_only_permit', \
                  'existing_use', 'proposed_use', 'tidf_compliance', 'existing_construction_type_description', \
                  'proposed_construction_type_description', 'neighborhoods__analysis_boundaries' \
                 ]

En el caso de *neighborhoods__analysis_boundaries* parece que tenemos filas con más de una categoría.


In [56]:
data['neighborhoods__analysis_boundaries'].value_counts()

Financial District/South Beach    21808
Mission                           14678
Sunset/Parkside                   10204
West of Twin Peaks                 8737
Castro/Upper Market                8527
Pacific Heights                    8505
Marina                             8241
Outer Richmond                     7850
Noe Valley                         7842
South of Market                    7565
Bernal Heights                     6066
Nob Hill                           6009
Haight Ashbury                     5796
Inner Sunset                       5774
Bayview Hunters Point              5665
Russian Hill                       5495
Hayes Valley                       5488
Tenderloin                         4781
Inner Richmond                     4453
Potrero Hill                       4289
Presidio Heights                   4083
North Beach                        4050
Western Addition                   3866
Chinatown                          3764
Lone Mountain/USF                  3356


En realidad, vemos que el caso de 'Castro/Upper Market' por tomar un ejemplo no es una doble categoría ya que no se observan ocurrencias de 'Castro' o 'Upper Market', por lo tanto podemos tomarlo (este y demás casos) como una sola catergoría.

Hacemos lo mismo con las demás:

In [57]:
for col in categoric_vars:
    print(data[col].value_counts())
    print("\n")

1       10111
7        5316
2        5182
3        5042
6        4833
8        4773
9        4590
5        4546
4        4381
11       4235
10       4159
12       4110
21       4089
14       4048
13       4032
16       3979
17       3913
20       3898
19       3863
18       3813
15       3734
22       3479
23       3390
26       3263
25       3125
28       2985
24       2936
32       2734
29       2659
27       2653
        ...  
847         1
050A        1
450         1
430         1
073C        1
17A         1
017H        1
504         1
582         1
518         1
601         1
018Y        1
387         1
043D        1
036D        1
300A        1
072A        1
072C        1
006N        1
371         1
013K        1
400         1
655         1
001Y        1
330         1
967         1
471         1
014Q        1
460         1
703         1
Name: lot, Length: 1050, dtype: int64


8    178789
3     14651
4      2892
2       949
6       600
7       511
1       348
5        91
Name: perm

Financial District/South Beach    21808
Mission                           14678
Sunset/Parkside                   10204
West of Twin Peaks                 8737
Castro/Upper Market                8527
Pacific Heights                    8505
Marina                             8241
Outer Richmond                     7850
Noe Valley                         7842
South of Market                    7565
Bernal Heights                     6066
Nob Hill                           6009
Haight Ashbury                     5796
Inner Sunset                       5774
Bayview Hunters Point              5665
Russian Hill                       5495
Hayes Valley                       5488
Tenderloin                         4781
Inner Richmond                     4453
Potrero Hill                       4289
Presidio Heights                   4083
North Beach                        4050
Western Addition                   3866
Chinatown                          3764
Lone Mountain/USF                  3356


Procedemos a transformar a números estas categorías

#### Variables con  orden total

Convertimos en binario los valores de las 4 columnas a las que rellenamos los valores faltantes con 'N'.

In [58]:
from sklearn.preprocessing import LabelBinarizer

bin_vars = ['voluntary_softstory_retrofit', 'structural_notification', 'fire_only_permit', 'site_permit']
ord_vars = bin_vars + ['tidf_compliance']

for bin_col in bin_vars:
    lb = LabelBinarizer()
    lb_results = lb.fit_transform(data[bin_col])
    data[bin_col] = lb_results
    print(data[bin_col].value_counts())

0    198796
1        35
Name: voluntary_softstory_retrofit, dtype: int64
0    191910
1      6921
Name: structural_notification, dtype: int64
0    180011
1     18820
Name: fire_only_permit, dtype: int64
0    193476
1      5355
Name: site_permit, dtype: int64


Para *tidf_compliance* usaremos otro convertidor ya que hay 3 valores posibles.
Hay que procurar que el valor 'P' sea mapeado a 1, 'Y' a 2 y 'N' a 0.

In [59]:
P_index = data[data.tidf_compliance == 'P'].index
Y_index = data[data.tidf_compliance == 'Y'].index

In [60]:
from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(['N','P','Y'])
data.tidf_compliance = le.transform(data.tidf_compliance)
data['tidf_compliance'].value_counts()

0    198829
2         1
1         1
Name: tidf_compliance, dtype: int64

Corroboramos que la 'P' haya sido mapeada al 1

In [61]:
print(data[data.tidf_compliance == 2].index == Y_index)
print(data[data.tidf_compliance == 1].index == P_index)

[ True]
[ True]


#### Variables con valores no ordinales

Convertimos las variables que no deberían ser ordinales extrayendo cada valor posible en una nueva columna binaria. 
Para ello usamos el método 'get_dummies' de pandas en lugar de los encoders de sklearn

In [62]:
many_cat = [var for var in categoric_vars if var not in ord_vars]
dummies = pd.get_dummies(data, columns=many_cat, prefix=many_cat)
print(data.current_status.value_counts())
print(dummies.shape)
data = pd.concat([dummies, data])
print(data.shape)

complete       97047
issued         83532
filed          12033
withdrawn       1753
cancelled       1535
expired         1370
approved         733
reinstated       563
suspend          193
revoked           50
plancheck         16
appeal             2
incomplete         2
disapproved        2
Name: current_status, dtype: int64
(198831, 3255)
(397662, 3268)


## Consistencia de las variables

Chequeamos que las fechas cargadas en cada fila sean consistentes entre sí. Por ejemplo, 'Permit Creation Date' no puede ser anterior a 'Filed Date' (lo dice la propia documentación).
Los campos a revisar son entonces 'Filed Date', 'Permit Creation Date', 'Current Status Date' y 'Completed Date'.

In [63]:
(data['filed_date'] <= data['permit_creation_date']).value_counts()

True     396678
False       984
dtype: int64

Veamos las filas en las que las fechas son insconsistentes para corroborar tal hecho

In [64]:
data[data['filed_date'] > data['permit_creation_date']]
samples = data.sample(10)
print(samples['filed_date'])
print(samples['permit_creation_date'])

Record ID
1307439255952   2013-06-10
143405797435    2016-08-17
1476434136457   2017-08-28
1405685134580   2015-12-08
1481935487821   2017-10-03
147950492143    2017-09-15
1380456293356   2015-05-05
1465192464371   2017-06-01
1363699168319   2014-11-26
1326833165424   2013-12-11
Name: filed_date, dtype: datetime64[ns]
Record ID
1307439255952   2013-06-10
143405797435    2016-08-17
1476434136457   2017-08-28
1405685134580   2015-12-08
1481935487821   2017-10-03
147950492143    2017-09-15
1380456293356   2015-05-05
1465192464371   2017-06-01
1363699168319   2014-11-26
1326833165424   2013-12-11
Name: permit_creation_date, dtype: datetime64[ns]


Vemos algunos casos en los que supuestamente hay inconsistencia, pero se trata en ambos casos de la misma fecha, lo cual según la documentación es legal. El falso positivo se debería a un problema con la comparación entre datetimes.

Otra regla que hay que revisar si se cumple es que las filas con el campo 'Completed Date' tengan un valor únicamente si la columna originalmente nombrada como 'Current Status' es 'complete'

In [65]:
bad = data[(data['current_status_complete'] == 0) & ~(np.isnat(data['completed_date']))]
bad2 = data[(data['current_status_complete'] == 1) & (np.isnat(data['completed_date']))]
print(len(bad))
print(len(bad2))

114
0


Hay 114 filas que son inconsistentes. Nos quedamos únicamente con las consistentes:

In [66]:
data = data[(data['current_status_complete'] == 0) & (np.isnat(data['completed_date']))]

## Análisis y documentación de outliers

### tidf_compliance

La columna 'tidf_compliance' si bien luego de este pre-procesamiento de datos muestra 3 valores, es conveniente
dejar sentado que orignalmente esa columna posería una sola fila con un valor 'Y', otra con 'P' y el resto nulas.
En este laboratorio se asumió que los valores faltantes se corresponden con un valor negativo. En otras columnas donde ocurría algo similar, la cantidad de valores 'Y' y valores faltantes eran más balanceadas que este caso extremo.

## Comentarios finales

En el presente laboratorio se buscó realizar las limpiezas y conversiones de datos según el checklist sugerido en clase. Si bien el trabajo ha estado en nuestra consideración lejos de ser lo suficientemente exhaustivo como demandaría un caso real, lo que se ha buscado en el presente es mínimamente aplicar cada uno de los elementos del checklist en algunas columnas o valores.

En el caso de las conversiones de variables categóricas, la cantidad de columnas generadas consideramos que es demasiado grande y requeriría un análisis mas meticuloso para determinar si todos los valores convertidos en columnas son realmente necesarios. Hay casos en los que un puñado de valores posibles tienen una frecuencia alta, y luego hay cientos de valores con 1 sola ocurrencia. Estos ultimos podrian, por ejemplo, agruparse en una categoría "otros" para generar una sola columna.

No hemos podido almacenar en disco el dataframe resultante de todo este proceso de transformación, debido a su gran tamaño. Esto es por la conversión de las variables categóricas que se menciona en el párrafo anterior.

Por último, para que esta proceso sea completo, sería necesario analizar más casos de outliers.