# CADi Data Wrangling
## Example: Housing data cleaning
Objectives:
Doing pandas dataframe manipulation to clean and create a categorical
variable encoding.

## Import required libraries

In [1]:
import matplotlib as plt
import pandas as pd
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import OneHotEncoder
%matplotlib inline

## Setup data path and read data

In [2]:
# Para verificar la forma de la ruta para jalar el archivo:
import os
os.getcwd()

'C:\\Users\\L00871590\\Desktop\\GitHub\\dataPy\\scripts'

In [3]:
DATA_PATH = "C:\\Users\\L00871590\\Desktop\\GitHub\\dataPy\\data\\extracted\\housing\\"
DATA_FILE="housing.csv"
FULL_PATH=DATA_PATH+DATA_FILE
data=pd.read_csv(FULL_PATH)

## Get information about our dataframe

In [4]:
# Verificamos NA's:
data.isna

<bound method DataFrame.isna of        longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -122.23     37.88                41.0        880.0           129.0   
1        -122.22     37.86                21.0       7099.0          1106.0   
2        -122.24     37.85                52.0       1467.0           190.0   
3        -122.25     37.85                52.0       1274.0           235.0   
4        -122.25     37.85                52.0       1627.0           280.0   
5        -122.25     37.85                52.0        919.0           213.0   
6        -122.25     37.84                52.0       2535.0           489.0   
7        -122.25     37.84                52.0       3104.0           687.0   
8        -122.26     37.84                42.0       2555.0           665.0   
9        -122.25     37.84                52.0       3549.0           707.0   
10       -122.26     37.85                52.0       2202.0           434.0   
11       -122.26    

In [5]:
# Pedimos la suma de NA's:
data.isna().sum()

longitude               0
latitude                0
housing_median_age      0
total_rooms             0
total_bedrooms        207
population              0
households              0
median_income           0
median_house_value      0
ocean_proximity         0
dtype: int64

In [6]:
# Entramos en la columna "total_bedrooms" para verificar NA's:
data["total_bedrooms"].isna()

0        False
1        False
2        False
3        False
4        False
5        False
6        False
7        False
8        False
9        False
10       False
11       False
12       False
13       False
14       False
15       False
16       False
17       False
18       False
19       False
20       False
21       False
22       False
23       False
24       False
25       False
26       False
27       False
28       False
29       False
         ...  
20610    False
20611    False
20612    False
20613    False
20614    False
20615    False
20616    False
20617    False
20618    False
20619    False
20620    False
20621    False
20622    False
20623    False
20624    False
20625    False
20626    False
20627    False
20628    False
20629    False
20630    False
20631    False
20632    False
20633    False
20634    False
20635    False
20636    False
20637    False
20638    False
20639    False
Name: total_bedrooms, Length: 20640, dtype: bool

In [7]:
# Volvemos a verificar el total de NA's en la columna "total_bedrooms"
# Podemos observar que el objeto "data" va acompañado de las instrucciones 'isna' y 'sum':
data["total_bedrooms"].isna().sum()

207

In [None]:
# Esta instrucción elimina todas las filas en donde existan na's asociadas a la columna "total_bedrooms"
#data.dropna(subset=["total_bedrooms"])
# Esta instrucción elimina la columna "total_bedrooms"
#data.drop("total_bedrooms", axis=1)

In [8]:
# Estimamos la mediana que servirá para reemplazar los renglones con na's:
median = data["total_bedrooms"].median()
print(median)

435.0


In [9]:
# Reemplazamos los renglones na's en la columna "total_bedrooms" con el valor de la mediana:
data["total_bedrooms"].fillna(median, inplace=True)

In [10]:
# Pedimos el total de renglones de la columna "total_bedrooms" con valor igual a la mediana:
sum(data["total_bedrooms"]==median)

244

## Create imputer object

In [11]:
# Para imputar se utiliza como estrategia a la mediana;
# Se crea el objeto "imputer"
imputer=SimpleImputer(strategy='median')

In [12]:
# Creamos un dataframe sin la variable categórica "ocean_proximity", la instrucción "axis=1"se refiere a que opera sobre la columna
# En R es equivalente a "2":
housingNum=data.drop("ocean_proximity",axis=1)

In [13]:
# Insertamos el imputer al dataframe "housingNum" con la instrucción "fit" y calculamos sus estadísticas;
# Al objeto "imputer" le sigue la instrucción 'fit':
imputer.fit(housingNum)
imputer.statistics_
# Devuelve la mediana de las columnas del objeto "housingNum":
housingNum.median().values

array([-1.1849e+02,  3.4260e+01,  2.9000e+01,  2.1270e+03,  4.3500e+02,
        1.1660e+03,  4.0900e+02,  3.5348e+00,  1.7970e+05])

In [14]:
# Imputamos el dataframe (el cual devuelve un arreglo tipo numpy):
impArray=imputer.transform(housingNum)
print(impArray)

[[-1.2223e+02  3.7880e+01  4.1000e+01 ...  1.2600e+02  8.3252e+00
   4.5260e+05]
 [-1.2222e+02  3.7860e+01  2.1000e+01 ...  1.1380e+03  8.3014e+00
   3.5850e+05]
 [-1.2224e+02  3.7850e+01  5.2000e+01 ...  1.7700e+02  7.2574e+00
   3.5210e+05]
 ...
 [-1.2122e+02  3.9430e+01  1.7000e+01 ...  4.3300e+02  1.7000e+00
   9.2300e+04]
 [-1.2132e+02  3.9430e+01  1.8000e+01 ...  3.4900e+02  1.8672e+00
   8.4700e+04]
 [-1.2124e+02  3.9370e+01  1.6000e+01 ...  5.3000e+02  2.3886e+00
   8.9400e+04]]


In [15]:
# Extraemos las encabezados del objeto "housingNum":
colNames=housingNum.columns
print(colNames)

Index(['longitude', 'latitude', 'housing_median_age', 'total_rooms',
       'total_bedrooms', 'population', 'households', 'median_income',
       'median_house_value'],
      dtype='object')


In [16]:
# Convertimos el objeto "impArray" de vuelta a un dataframe; como se muestra arriba, la instrucción crea un objeto con los títulos de las columnas:
colNames=housingNum.columns
# Se convierte a dataframe
housingTr=pd.DataFrame(impArray,columns=colNames)
print(housingTr)

       longitude  latitude  housing_median_age  total_rooms  total_bedrooms  \
0        -122.23     37.88                41.0        880.0           129.0   
1        -122.22     37.86                21.0       7099.0          1106.0   
2        -122.24     37.85                52.0       1467.0           190.0   
3        -122.25     37.85                52.0       1274.0           235.0   
4        -122.25     37.85                52.0       1627.0           280.0   
5        -122.25     37.85                52.0        919.0           213.0   
6        -122.25     37.84                52.0       2535.0           489.0   
7        -122.25     37.84                52.0       3104.0           687.0   
8        -122.26     37.84                42.0       2555.0           665.0   
9        -122.25     37.84                52.0       3549.0           707.0   
10       -122.26     37.85                52.0       2202.0           434.0   
11       -122.26     37.85                52.0      

## The categorical variable

In [17]:
# Creamos un objeto con la variable categórica, en donde ésta se refiere a la ubicación física de la casa:
housingCat=data["ocean_proximity"]
# Pedimos las primeras 10 filas:
print(housingCat.head(10))

0    NEAR BAY
1    NEAR BAY
2    NEAR BAY
3    NEAR BAY
4    NEAR BAY
5    NEAR BAY
6    NEAR BAY
7    NEAR BAY
8    NEAR BAY
9    NEAR BAY
Name: ocean_proximity, dtype: object


In [18]:
# Verificamos los elementos categóricos de la variable categórica:
(housingCatEncoded,housingCatCategories)=housingCat.factorize()
print(housingCatCategories)

Index(['NEAR BAY', '<1H OCEAN', 'INLAND', 'NEAR OCEAN', 'ISLAND'], dtype='object')


In [19]:
# Creamos objeto "encoder" que más adelante permitirá juntar todas las variables (categóricasy la no categórica):
encoder = OneHotEncoder(categories="auto", sparse=False)
housingCatT = housingCat.values.reshape(-1, 1)
housingCatOne = encoder.fit_transform(housingCatT)
housingCatOne
encoder.categories_
# Pedimos lista de los elementos categóricos en orden ascendente, por ello [0]:
list(encoder.categories_[0])

['<1H OCEAN', 'INLAND', 'ISLAND', 'NEAR BAY', 'NEAR OCEAN']

In [20]:
# Ponemos todo junto en un dataframe, recordemos que "housingTr" es un dataframe que no incluye la variable categórica:
cleanDataset=housingTr
# Convertimos a dataframe considerando los encabezados de las columnas:
encodedDataframe=pd.DataFrame(housingCatOne,columns=list(encoder.categories_[0]))
# Juntamos:
cleanDataset=cleanDataset.join(encodedDataframe)

## Convertimos (exportamos) el nuevo dataframe a un archivo tipo csv:

In [23]:
# Se debe especificar la dirección a donde se exporte el nuevo archivo (limpio);
# Lo último que dice "cleanhousing" es el nuevo nombre del archivo ya limpio:
cleanDataset.to_csv("C:\\Users\\L00871590\\Desktop\\GitHub\\dataPy\\data\\extracted\\housing\\cleanhousing.csv")