<img src="mioti.png" style="height: 100px">
<center style="color:#888">Módulo Data Science in IoT<br/>Asignatura: Data preprocessing</center>
# Challenge S2: Anonimización AirBnbMadrid

## Objetivos

En este challenge nos enfrentaremos a un dataset real, que contiene los datos de los alojamientos disponibles de Airbnb para la comunidad de Madrid. Nuestro objetivo en el challenge es anonimizarlo y convertir el dataset de AirBnBMadrid a AirBnBValladolid.

## Configuración del entorno

In [1]:
%matplotlib inline

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from faker import Faker
fake = Faker('es_ES')

## Carga de los datos
Esta vez va a ser fácil, vamos a importar los datos de un fichero csv, utilizaremos la función read_csv que nos proporciona la libreria de pandas.

In [2]:
df = pd.read_csv('dataset_airbnb_madrid.csv')

Como este dataset es muy complejo, vamos a quedarnos con un subconjunto de columnas para este challenge:

In [3]:
df = df[['id', 'listing_url', 'name', 'summary', 'price', 'weekly_price', 'zipcode', 'country', 'latitude', 'longitude']]

## Comprensión del dataset

Una vez cargados los datos debemos inspeccionarlos, y entender que datos contiene cada una de las columnas:

Describe por cada columna:

* ¿Qué contiene?
* ¿Cual es el rango de los datos?
* ¿Contiene datos sensibles?
* ¿Depende de otras?

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13335 entries, 0 to 13334
Data columns (total 10 columns):
id              13335 non-null int64
listing_url     13335 non-null object
name            13335 non-null object
summary         12846 non-null object
price           13335 non-null object
weekly_price    3512 non-null object
zipcode         12896 non-null object
country         13334 non-null object
latitude        13335 non-null float64
longitude       13335 non-null float64
dtypes: float64(2), int64(1), object(7)
memory usage: 1.0+ MB


In [5]:
df.head()

Unnamed: 0,id,listing_url,name,summary,price,weekly_price,zipcode,country,latitude,longitude
0,7830063,https://www.airbnb.com/rooms/7830063,Quiet room in Plaza Mayor,Room in magnificent property in the historic c...,$42.00,$300.00,28005,Spain,40.412275,-3.708718
1,9898596,https://www.airbnb.com/rooms/9898596,Homely apartment in the heart of Madrid,"Spacious apartment for up to 10 people, with a...",$135.00,,28005,Spain,40.411093,-3.708985
2,15334645,https://www.airbnb.com/rooms/15334645,Piso Muy Luminoso en pleno centro de Madrid,"Lugares de interés: Casa Lucio, Cine Doré, Cal...",$81.00,,28005,Spain,40.413587,-3.708945
3,1307795,https://www.airbnb.com/rooms/1307795,Rent room in the heart of Madrid,,$43.00,$240.00,28013,Spain,40.419936,-3.70918
4,17410608,https://www.airbnb.com/rooms/17410608,Luxury duplex penthouse in historic building,Amazing duplex penthouse in a historic buildin...,$50.00,,28005,Spain,40.410894,-3.712537


### id

In [6]:
df['id'].head()

0     7830063
1     9898596
2    15334645
3     1307795
4    17410608
Name: id, dtype: int64

In [7]:
df['id'].isnull().sum()

0

* contiene un identificador único (entero positivo) por cada usuario.
* No puede haber valores nulos
* Es sensible porque se puede inferir la url del domicilio a partir de su url.

### listing_url

In [8]:
df['listing_url'].head()

0     https://www.airbnb.com/rooms/7830063
1     https://www.airbnb.com/rooms/9898596
2    https://www.airbnb.com/rooms/15334645
3     https://www.airbnb.com/rooms/1307795
4    https://www.airbnb.com/rooms/17410608
Name: listing_url, dtype: object

In [9]:
df['listing_url'].isnull().sum()

0

* Url donde está descrito el item a alquilar.
* En sensible porque a partir de él se puede conocer todos los datos del item
* Se puede generar a partir del id

### name

In [10]:
df['name'].head()

0                       Quiet room in Plaza Mayor
1         Homely apartment in the heart of Madrid
2     Piso Muy Luminoso en pleno centro de Madrid
3                Rent room in the heart of Madrid
4    Luxury duplex penthouse in historic building
Name: name, dtype: object

* Cadena de texto donde se describe el activo
* Aparece información de la ciudad.

### summary

In [11]:
df['summary'].head(10)

0    Room in magnificent property in the historic c...
1    Spacious apartment for up to 10 people, with a...
2    Lugares de interés: Casa Lucio, Cine Doré, Cal...
3                                                  NaN
4    Amazing duplex penthouse in a historic buildin...
5    Apartament exceptionally located, next to the ...
6    Illuminated, very functional, great location (...
7    Un hogar para disfrutar, rodeado de zonas verd...
8    Lugares de interés: el apartamento esta situad...
9    BONITO APARTAESTUDIO UBICADO EN EL CORAZON DE ...
Name: summary, dtype: object

* Cadena de texto donde se describe el activo
* Aparece información de la ciudad.

### price

In [12]:
df['price'].head()

0     $42.00
1    $135.00
2     $81.00
3     $43.00
4     $50.00
Name: price, dtype: object

In [9]:
df['price'].max()

'$99.00'

In [13]:
df['price'].isnull().sum()

0

* Cadena de texto donde se describe el precio de la habitación en dólares.
* Aparece información de la ciudad.


In [14]:
# Convertimos la cantidad a un numero
df['price'] = df['price'].str.replace('$','')
df['price'] = df['price'].str.replace(',','')

df['price'] = pd.to_numeric(df['price'])

In [15]:
df['price'].head(5)

0     42.0
1    135.0
2     81.0
3     43.0
4     50.0
Name: price, dtype: float64

### weekly_price

In [16]:
df['weekly_price'].head()

0    $300.00
1        NaN
2        NaN
3    $240.00
4        NaN
Name: weekly_price, dtype: object

In [17]:
df['weekly_price'].isnull().sum() / len(df['weekly_price'])

0.73663292088488941

In [18]:
# Convertimos la cantidad a un numero
df['weekly_price'] = df['weekly_price'].str.replace('$','')
df['weekly_price'] = df['weekly_price'].str.replace(',','')

df['weekly_price'] = pd.to_numeric(df['weekly_price'])

In [19]:
(df['weekly_price'] / df['price']).describe()

count    3512.000000
mean        6.613983
std         2.128982
min         0.303333
25%         5.714286
50%         6.318182
75%         7.000000
max        58.333333
dtype: float64

* Cadena de texto donde se describe el precio de la habitación para una semana en dólares.
* Tiene valores nulos, el 73% de las muestras
* De los valores no nulos está es entre 5.7x y 7x el valor del precio diario.

### zipcode

In [20]:
df['zipcode'].value_counts()

28012           2065
28004           1803
28005           1195
28013           1019
28014            633
28015            601
28045            500
28010            384
28008            338
28028            264
28011            252
28001            231
28006            219
28009            217
28007            206
28019            202
28020            196
28003            186
28002            172
28039            162
28027            124
28025            124
28029            112
28017            111
28043            105
28026             93
28042             91
28033             90
28053             87
28038             79
                ... 
28                 1
-                  1
28730              1
28058              1
2805               1
28052              1
2804               1
20013              1
28056              1
28060              1
27004              1
84084              1
28105              1
28290              1
25008              1
28048              1
20126        

In [21]:
df['zipcode'].isnull().sum()

439

* Código postal de la ciudad donde está el municipio
* Hay algunos valores nulos
* Hay valores erróneos y algunos no corresponden a Madrid

### Country

In [22]:
df['country'].value_counts()

Spain    13333
Cuba         1
Name: country, dtype: int64

* Pais donde está el alojamiento
* Hay un outlier (Cuba)

### latitude y longitude

In [23]:
df[['latitude', 'longitude']].describe()

Unnamed: 0,latitude,longitude
count,13335.0,13335.0
mean,40.420731,-3.697255
std,0.020343,0.023837
min,40.331888,-3.863907
25%,40.41009,-3.707852
50%,40.418725,-3.701596
75%,40.427997,-3.69381
max,40.562736,-3.526821


In [24]:
df[['latitude', 'longitude']].isnull().sum()

latitude     0
longitude    0
dtype: int64

* Coordenadas GPS donde está el alojamiento
* No hay valores nulos
* La longitud está entre 40.41 +- 0.0203
* La latitud está entre -3.70 +- 0.0238

## Dependencias entre variables
A continuación os propongo hacer una matriz de dependencias para analizar que variables dependen entre sí y analizar que grupos de variables existen.

| Depende de   | id | listing_url | name | summary | price | weekly_price | zipcode | country | lat y long |
|---           |--- |---          |---   |---      |---    |---           |---      |---      |---         | 
| id           |  X |      X      |      |         |       |              |         |         |            | 
| listing_url  |  X |      X      |      |         |       |              |         |         |            | 
| name         |    |             |  X   |         |       |              |         |         |            | 
| summary      |    |             |      |    X    |       |              |         |         |            | 
| price        |    |             |      |         |   X   |        X     |         |         |            | 
| weekly_price |    |             |      |         |   X   |        X     |         |         |            | 
| zipcode      |    |             |      |         |       |              | X       | X       | X          | 
| country      |    |             |      |         |       |              | X       | X       | X          | 
| lat y long   |    |             |      |         |       |              | X       | X       | X          | 



## Estrategia de anonimización

A partir de aquí por cada grupo de variables determinaremos cual es la estrategia de anonimización y la aplicaremos.

### id y listing_url

Para el id generaremos un id aleatorio, dentro del rango de datos que manejamos, y la url supone concatenar un prefijo a ese id.

In [25]:
df[['id', 'listing_url']].head()

Unnamed: 0,id,listing_url
0,7830063,https://www.airbnb.com/rooms/7830063
1,9898596,https://www.airbnb.com/rooms/9898596
2,15334645,https://www.airbnb.com/rooms/15334645
3,1307795,https://www.airbnb.com/rooms/1307795
4,17410608,https://www.airbnb.com/rooms/17410608


In [26]:
def anonimiza_id(row):
    id_aleatorio = fake.random_int(min=1000000, max=99999999)
    row['id'] = id_aleatorio
    row['listing_url'] = "https://www.airbnb.com/rooms/" + str(id_aleatorio)
    return row
    
df = df.apply(anonimiza_id, axis=1)

In [27]:
df[['id', 'listing_url']].head()

Unnamed: 0,id,listing_url
0,67922077,https://www.airbnb.com/rooms/67922077
1,60891667,https://www.airbnb.com/rooms/60891667
2,45308864,https://www.airbnb.com/rooms/45308864
3,96393370,https://www.airbnb.com/rooms/96393370
4,98409096,https://www.airbnb.com/rooms/98409096


### name y summary

Como estos campos son cadenas de texto, buscaremos palabras clave, por ej: Madrid y la sustituiremos por valladolid. Además reodenaremos los campos para anonimizar más los datos:

In [28]:
df[['name', 'summary']].head()

Unnamed: 0,name,summary
0,Quiet room in Plaza Mayor,Room in magnificent property in the historic c...
1,Homely apartment in the heart of Madrid,"Spacious apartment for up to 10 people, with a..."
2,Piso Muy Luminoso en pleno centro de Madrid,"Lugares de interés: Casa Lucio, Cine Doré, Cal..."
3,Rent room in the heart of Madrid,
4,Luxury duplex penthouse in historic building,Amazing duplex penthouse in a historic buildin...


Reemplazamos las palabras clave:

In [29]:
def anonimiza_texto(row):
    row['name'] = row['name'].lower().replace('madrid', 'valladolid')
    if type(row['summary']) != float:
        row['summary'] = row['summary'].lower().replace('madrid', 'valladolid')
    return row
    
df = df.apply(anonimiza_texto, axis=1)

In [30]:
df[['name', 'summary']].head()

Unnamed: 0,name,summary
0,quiet room in plaza mayor,room in magnificent property in the historic c...
1,homely apartment in the heart of valladolid,"spacious apartment for up to 10 people, with a..."
2,piso muy luminoso en pleno centro de valladolid,"lugares de interés: casa lucio, cine doré, cal..."
3,rent room in the heart of valladolid,
4,luxury duplex penthouse in historic building,amazing duplex penthouse in a historic buildin...


Reordenamos mediante el método 'np.random.shuffle'. Es importante destacar que este método, realiza modificaciones `in place` sobre los datos. Por lo que tendremos que convertir a lista nuestros datos de forma intermedia.

In [31]:
def baraja_columna(df, nombre_columna):
    temp = list(df[nombre_columna])
    np.random.shuffle(temp)
    df[nombre_columna] = temp
    return df

In [32]:
df = baraja_columna(df, 'name')

In [33]:
df = baraja_columna(df, 'summary')

In [34]:
df[['name', 'summary']].head()

Unnamed: 0,name,summary
0,bright and spacious flat in the heart of valla...,"lugares de interés: plaza mayor, plaza del sol..."
1,double room close to gran via!,"downtown at 500m puerta del sol, royal palace ..."
2,spacious room/,renovated apartment with pleasure in december ...
3,"nomad la latina i,valladolid,friendly rentals",habitación de 20m2 en piso de 150m2 en el barr...
4,"habitación con baño privado, ideal",te va a encantar mi alojamiento por la ubicaci...


### price y weekly_price

Aplicaremos una política parecida al grupo anterior. En este caso reodenaremos los elementos de la columna `price` y generaremos `weekly_price` ficticios multiplicando este valor por 6.

In [35]:
df[['price', 'weekly_price']].head()

Unnamed: 0,price,weekly_price
0,42.0,300.0
1,135.0,
2,81.0,
3,43.0,240.0
4,50.0,


In [36]:
df = baraja_columna(df, 'price')

In [37]:
df['weekly_price'] = 6.0 * df['price']

In [38]:
df[['price', 'weekly_price']].head()

Unnamed: 0,price,weekly_price
0,69.0,414.0
1,75.0,450.0
2,48.0,288.0
3,76.0,456.0
4,45.0,270.0


### zipcode

Para el código postal, generaremos códigos postales de Valladolid. Para ello utilizaremos faker. Podríamos estar tentados de usar la función `fake.postcode()` no obstante, esa función devuelve códigos postales aleatorios en toda España.

In [39]:
fake.postcode()  

'10972'

Como queremos restringir nuestro espectro a Valladolid utilizaremos la función `random_int` de faker indicándola un rango aceptable de códigos postales de Valladolid.

In [40]:
def anonimiza_zipcode(row):
    row['zipcode'] = fake.random_int(min=47001, max=47050)
    return row
    
df = df.apply(anonimiza_zipcode, axis=1)

In [41]:
df['zipcode'].head()

0    47021
1    47001
2    47017
3    47034
4    47002
Name: zipcode, dtype: int64

### Country

En este caso, este campo tiene un valor adecuado, así que no tenemos que hacer nada con él.

In [42]:
df['country'].head()

0    Spain
1    Spain
2    Spain
3    Spain
4    Spain
Name: country, dtype: object

### lat y long

En este caso usaremos coordenadas aleatorias, respecto a la posición GPS de valladolid centro. Para ello usaremos la función `fake.geo_coordinate`.

In [43]:
def anonimiza_gps(row):
    row['lat'] = fake.geo_coordinate(center=41.65, radius=0.01)
    row['long'] = fake.geo_coordinate(center=-4.72, radius=0.01)
    return row
    
df = df.apply(anonimiza_gps, axis=1)

In [44]:
df[['lat', 'long']].head()

Unnamed: 0,lat,long
0,41.646241,-4.729352
1,41.645657,-4.726789
2,41.656589,-4.729296
3,41.65504,-4.712933
4,41.642338,-4.721854


## Conclusiones

* ¿Qué ventajas / inconvenientes le ves a esta manera de anonimizar?
* ¿Cómo podríamos mejorar los algoritmos?
* ¿Cómo podríamos evaluar que una anonimización es buena?