### FE: Analisis de Descripciones

In [62]:
import pandas as pd
df = pd.read_csv("./train.csv")

#### Vemos que hay nulos pero son muy pocos en comparacion a todos los anuncios que hay

In [63]:
x = df['descripcion'].isna().sum() / df['descripcion'].size * 100
print("Porcentaje de Nulidad: "+ str(x) + "%")

Porcentaje de Nulidad: 0.6745833333333334%


#### Entonces nos atrevemos a encontrar posibles valores repetidos en las descripciones que puedan ser features escondidas, éstas son las funciones a utilizar

### OPTIMIZACION DE LAS FUNCIONES EMPLEADAS

In [64]:
def contar_palabras(descripcion, palabras):
    
    contadas = 0
    
    for palabra in palabras:
        spliteado = descripcion.split()
        contadas += spliteado.count(palabra)
        
    return contadas

In [65]:
def normalizar_descripciones(descripcion):
    
    descripcion = descripcion.replace(',', ' ')
    descripcion = descripcion.replace('.', ' ')
    descripcion = descripcion.replace('<', ' ')
    descripcion = descripcion.replace('>', ' ')
    descripcion = descripcion.replace('\n', ' ')
    descripcion = descripcion.replace('\strong', ' ')
    descripcion = descripcion.replace('\bold', ' ')
    descripcion = descripcion.lower()
    
    return descripcion

#### Hay que remover los nulos y aplicar la normalizacion primero

In [66]:
df = df.dropna(subset = ["descripcion"])
df['descripcion'] = df['descripcion'].apply(normalizar_descripciones)

### - COMIENZA ANALISIS -

In [67]:
df['suite'] = df['descripcion'].apply(contar_palabras, palabras=["suite"])
df['suite'].value_counts()

0    237920
1       395
2        54
3         8
5         2
4         2
Name: suite, dtype: int64

In [68]:
df['avenida'] = df['descripcion'].apply(contar_palabras, palabras=["avenida", "av"])

df.avenida.value_counts()

0     221847
1      14000
2       2031
3        340
4        103
5         34
6         18
7          4
8          2
21         1
9          1
Name: avenida, dtype: int64

In [44]:
df['gim'] = df['descripcion'].apply(contar_palabras, palabras=["gimnasio", "gimnásio", "entrenamiento", 
                                                                    "gim", "gym"])
df.gim.value_counts()

0    224959
1     13084
2       325
3        11
4         2
Name: gim, dtype: int64

In [155]:
#Original
df['gimnasio'].value_counts()

0.0    223438
1.0     14943
Name: gimnasio, dtype: int64

In [46]:
df['cochera'] = df['descripcion'].apply(contar_palabras, palabras=["cochera", "cocheras", "garage", 
                                                                   "garages", "garaje", "garajes"])

df.cochera.value_counts()

0     178984
1      56457
2       2688
3        205
4         36
6          7
5          3
12         1
Name: cochera, dtype: int64

In [152]:
#Original
df.garages.value_counts()

2.0    93576
1.0    58995
0.0    26748
3.0    21539
Name: garages, dtype: int64

In [47]:
df['ubicacion'] = df['descripcion'].apply(contar_palabras, palabras=["ubicacion", "ubicación", "locacion", 
                                                                   "locación", "localizacion", "localización",
                                                                    "ubicado", "ubicada", "centro", "centrico",
                                                                     "centrica", "céntrico", "céntrica"])

df.ubicacion.value_counts()

0     166276
1      60602
2       9849
3       1325
4        247
5         49
6         19
7          6
8          4
9          2
13         1
10         1
Name: ubicacion, dtype: int64

In [49]:
df['balcon'] = df['descripcion'].apply(contar_palabras, palabras=["balcon", "balcón", "terraza", 
                                                                  "palco", "mirador", "balconcillo",
                                                                  "azotea", "solana"])

df.balcon.value_counts()

0     187319
1      41476
2       7646
3       1403
4        342
5        127
6         42
7          8
8          7
9          5
10         3
18         1
13         1
12         1
Name: balcon, dtype: int64

In [50]:
df['camaraseg'] = df['descripcion'].apply(contar_palabras, palabras=["camara", "cámara", "cámaras", "camaras"])

df.camaraseg.value_counts()

0    236666
1      1687
2        26
3         2
Name: camaraseg, dtype: int64

In [51]:
df['parque'] = df['descripcion'].apply(contar_palabras, palabras=["parque", "plaza", "plazoleta", "glorieta"])

df.parque.value_counts()

0    219547
1     16006
2      2344
3       357
4        91
5        22
6         6
8         3
7         3
9         2
Name: parque, dtype: int64

In [52]:
df['amoblado'] = df['descripcion'].apply(contar_palabras, palabras=["muebles", "amoblado", "mueble"])

df.amoblado.value_counts()

0     232983
1       4859
2        445
3         68
4         13
6          6
5          5
11         1
8          1
Name: amoblado, dtype: int64

In [53]:
df['bañera'] = df['descripcion'].apply(contar_palabras, palabras=["bañera", "hidromasaje", "hidro", "tina"])

df.bañera.value_counts()

0    232973
1      3640
2      1666
3        61
4        38
6         2
5         1
Name: bañera, dtype: int64

In [54]:
df['nuevo'] = df['descripcion'].apply(contar_palabras, palabras=["nuevo", "nueva", "estrenar"])

df.nuevo.value_counts()

0    216239
1     19884
2      1993
3       209
4        42
5         6
6         4
8         2
9         1
7         1
Name: nuevo, dtype: int64

In [55]:
df['transporte'] = df['descripcion'].apply(contar_palabras, palabras=["subte", "subterraneo", "subterráneo",
                                                                     "metro", "estacion", "estación", "tren",
                                                                     "subestacion", "subestación", "ferrocarril",
                                                                     "metrobús", "metrobus", "trolebus",
                                                                     "trolebús", "bus", "bús"])

df.transporte.value_counts()

0    230274
1      6117
2      1616
3       287
4        65
5        16
6         6
Name: transporte, dtype: int64

In [61]:
df['pileta'] = df['descripcion'].apply(contar_palabras, palabras=["piscina", "pileta", "nado"])
                                       
df.piscina.value_counts()

0.0    217540
1.0     20841
Name: piscina, dtype: int64