In [1]:
import pandas as pd
import numpy as np

<link rel="stylesheet" href="../../../common/dhds.css">
<div class="Table">
    <div class="Row">
        <div class="Cell grey left"> <img src="https://qph.fs.quoracdn.net/main-qimg-34514a99a842eb5e2f8e590caacbb337" align="center" /></div>
        <div class="Cell right">
            <div class="div-logo"><img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/common/logo_DH.png" align="center" width=70% /></div>
            <div class="div-curso">DATA SCIENCE</div>
            <div class="div-modulo">MÓDULO 2</div>
            <div class="div-contenido">Limpieza de Datos</div>
        </div>
    </div>
</div>

### Agenda

- Aprender operaciones involucradas en la limpieza de datos y los métodos asociados


- Introducir el concepto de expresiones regulares (regex) y su utilidad en la limpieza de datos


<div class="div-dhds-fondo-1"> Limpieza y preparación de datos

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


### Limpieza y preparación de datos

---

En 2009 Mike Driscoll (data scientist y CEO de Metamarkets) popularizó el término **"data munging"** para referirse al **arduo proceso de limpiar, preparar y validar los datos** 


<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_tiempo_data_scientist_1.png" align="center"></img>


Fuente: <a href="http://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/" target="_blank">http://www.forbes.com/sites/gilpress/2016/03/23/data-preparation-most-time-consuming-least-enjoyable-data-science-task-survey-says/</a>



### Limpieza y preparación de datos

---

**En 2013**, **Josh Wills** (ex director de Data Science de Cloudera y posterior Director of Data Engineering en Slack ) comenta:  **"I’m a data janitor. That’s the sexiest job of the 21st century. It’s very flattering, but it’s also a little baffling."**

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_data_preparation.png" align="center"></img>


Traducción: 
En Data Science, se invierte un 80% del tiempo en preparar los datos y el 20% restante en quejarse de la necesidad de preparar los datos


<div class="div-dhds-fondo-1"> Limpieza de datos con 
Pandas


<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


### Limpieza de datos

---

La limpieza es un paso necesario en todo proyecto de datos. 
Podemos resumir el proceso de limpieza de datos refiriéndonos a las siguientes <u>cinco tareas</u>:

**1. Resolver problemas de formato y asignar los tipos correctos de datos**: 

Por ejemplo cuando al pasar de CSV a Pandas una fecha no se importa correctamente. Ej: 20090609231247 en lugar de 2009-06-09 23:12:47.

El formato en que se encuentran los datos va a afectar nuestro análisis por varias razones. Por ejemplo, las operaciones que se pueden realizar dependen del tipo de datos. Además algunos tipos ocupan menos espacio en memoria que otros.


**2. Estandarizar categorías**: 

Cuando los datos se recolectaron con un sistema que no tiene los valores tipificados, valores que representan las mismas categorías pueden estar expresados de forma distinta, por ejemplo Arg, AR y Argentina. 





**3. Corregir valores erróneos**: 

Por ejemplo un valor numérico o inválido para describir el género. O una edad representada por un número negativo o mucho mayor que 100.



**4. Completar datos faltantes**: 

Los datasets del mundo real suelen venir con datos faltantes que responden a información que se perdió o nunca se recolectó. 

Existen varias técnicas para completar datos faltantes. Al proceso de completar datos faltantes se lo llama **"imputación"**.




<div class="div-dhds-fondo-1"> Tidy Data

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


### Las reglas “tidy data”

---

Decimos que un dataset está ordenado cuando:

* Cada variable es una columna

* Cada observación es una fila

* Cada tipo de unidad observacional forma una tabla

Algunas definiciones:

* Variable: Es la medición de un atributo, por ejemplo, peso, altura, etc 

* Valor: Es la medida que toma una variable para una observación

* Observación: Todas las observaciones toman el mismo tipo de valores para cada variable. 




### Tidy data:

---

![](https://www.openscapes.org/img/blog/tidydata/tidydata_2.jpg)


### Limpieza de datos

---



* Outliers

* Nulos/Faltantes

* Formato

<div class="div-dhds-fondo-1"> Datos faltantes

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>

### Representación de datos faltantes

---

* Los datasets del mundo real siempre tienen **datos faltantes**

* Cada lenguaje/framework tiene su forma de lidiar con estos

* Pandas utiliza los valores **None**, **NaN** o **NaT** debido a que se basa en Numpy

    - **None**: objeto de Python que representa ausencia de dato
    
    - **NaN**: definición de valor faltante de floats 
    
    - **NaT**: se utiliza para valores faltantes del tipo Timestamp


Se usa NaN (en vez de  None) por que numpy lo toma como un float64 dtype, en vez del dtype object del None, esto hace manejar estas estructuras de manera mas eficiente.


In [2]:

#  cual es la diferencia entre None y nan?

s_bad = pd.Series([1, None], dtype=object)
s_good = pd.Series([1, np.nan])

In [5]:
s_bad.dtype


dtype('O')

In [6]:
s_good.dtype


dtype('float64')

### Valores faltantes

---

En general todo conjunto de datos suele tener datos faltantes (ya sea porque esos datos no fueron recolectado o nunca existieron)

* Debemos poder detectar, rellenar o eliminar datos faltantes

* Hay que utilizar conocimiento del dominio para definir cuáles datos faltantes se completarán y cómo. 

* Pandas ofrece varias formas de hacer esto.

* Los removemos o intentamos completarlos



### Valores faltantes

---

#### <u>Análisis con datos completos</u>.

Una forma de proceder consiste en eliminar los registros que presentan algún dato faltante:

* Ventaja: fácil implementación

* Desventaja: pérdida importante de información, posibles sesgos en los estimadores de los parámetros.

Este método asume que la falta de respuesta se generó de forma aleatoria, lo que por lo general no sucede. 

Si los datos que faltan son pocos y al azar, entonces este método es el ideal.


In [7]:
data_location = "../Data/melb_data.csv"

data = pd.read_csv(data_location)

print(data.shape)

data.head(3)



(13580, 21)


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


##### ```dropna```

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html

In [8]:
# elimino los registros que tienen algún campo con valor nulo
# 0, or 'index' : Drop rows which contain missing values.
# default 0

data.dropna(axis=0, how = 'any', inplace = True)

#el any es sobre las columnas

print(data.shape)

data.head(3)


(6196, 21)


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


```python
thresh : int, optional
    Require that many non-NA values.
subset : array-like, optional
    Labels along other axis to consider, e.g. if you are dropping rows
    these would be a list of columns to include.
``` 



#### <u>Métodos de imputación</u>

##### **Imputación Simple**:

Consiste en asignar un valor por cada dato faltante a partir de la propia variable o las demás variables para lograr una base de datos completa.


##### **Imputación Múltiple**:

A cada valor faltante se le asigna un grupo de <i>m</i> valores, generando <i>m</i> bases de datos completas. En cada una de las <i>m</i> bases de datos se estiman los parámetros de interés y luego se combinan los resultados obtenidos.



##### **Imputación por Media**:

Se puede completar los valores faltantes reemplazandolos **por la media** de la serie o **por la media condicionada** a determinada categoría. Por ejemplo, dado un valor de estatura faltante para una mujer, reemplazarlo por la media de las mujeres. 

Este enfoque tiene ventajas y desventajas:

* Ventaja: Es muy probable acercarme al verdadero valor del dato faltante

* Desventajas: 

    - Reduzco artificialmente la variabilidad y la aleatoriedad de los datos, lo cual me puede llevar a conclusiones equivocadas.

    - Si existía correlación entre esta variable y otras, ese valor puede verse afectado.






##### **Imputación Hot Deck**:

Consisten en completar con un dato existente de la muestra, siguiendo algún criterio. 

Pueden ser 

* aleatorios (se elige un elemento al azar), 
* secuencial (se completa con el valor inmediatamente anterior o posterior),
* vecino más cercano.

##### **Imputación por Regresión**:

Se emplean modelos de regresión para estimar el dato que falta a partir de las demás variables del dataset. 


<div class="div-dhds-fondo-1"> Introducción a imputación en Pandas

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


### Introducción a imputación en Pandas

---

El método <b>fillna()</b> de Pandas, permite varios tipos de imputación que puede especificarse en el parámetro “method”:

* Completar los datos con valores definidos por fuera del data set. (<b>method = None</b>) ya que se ingresa directamente como argumento el valor con el que se imputará. 

* Completar los datos faltantes con el valor anterior o el siguiente (ideal para series de tiempo) (<b>method = ffill</b>) o (<b>method = bfill</b>)

* Completar por la media, moda o la mediana. <b>df.fillna(df.mean())</b>


### Imputación Simple en Pandas

In [159]:
data_location = "../Data/melb_data.csv"

data = pd.read_csv(data_location)

print(data.shape)

data.BuildingArea.isnull().sum()


(13580, 21)


6450

Hay 6450 propiedades que tienen nulo en el dato BuildingArea. 

Vamos a completar los valores nulos en este campo asignando un valor al azar de ```data.BuildingArea```



In [22]:
data.BuildingArea.head(5)

0      NaN
1     79.0
2    150.0
3      NaN
4    142.0
Name: BuildingArea, dtype: float64

In [23]:
possible_values = data.BuildingArea[data.BuildingArea.notnull()]

print("cantidad de valores posibles: ", len(possible_values))

rng = np.random.default_rng()

# All values generated will be less than high:
fill_value_indexes = rng.integers(low = 0, high = len(possible_values), size = 1)

fill_value_index = fill_value_indexes[0]

print("índice del elemento que usamos para imputar: ", fill_value_index)

fill_value = possible_values.iloc[fill_value_index]

print("valor de imputación: ", fill_value)

cantidad de valores posibles:  7130
índice del elemento que usamos para imputar:  4582
valor de imputación:  98.0


In [24]:
data_BuildingArea_complete = data.BuildingArea.fillna(fill_value)
print("cantidad de nulos: ", data_BuildingArea_complete.isnull().sum())
data_BuildingArea_complete.head(5)

cantidad de nulos:  0


0     98.0
1     79.0
2    150.0
3     98.0
4    142.0
Name: BuildingArea, dtype: float64

### Imputación por Media en Pandas

Hay 6450 registros que tienen valor nulo en el campo BuildingArea

In [25]:
data.BuildingArea.isnull().sum()

6450

Vamos a completar estos registros con el valor medio del campo BuildingArea

In [26]:
data.BuildingArea.fillna(data.BuildingArea.mean(), inplace = True)

Y verificamos que no quedó ningún registro con valor nulo en BuildingArea

In [28]:
data.BuildingArea.isnull().sum()

0

<div class="div-dhds-fondo-1"> Herramientas para la limpieza de datos

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>

### Expresiones lambda

---

Recordemos cómo construir una función usando ```def:```

Este forma de declarar funciones sirve, entre otras cosas, para no duplicar y para modularizar el código.



In [19]:
def square(x):
    return x ** 2

square(10)

100

¿Tendría sentido definir una función de este modo si vamos a invocar dicha función una única vez?

Las funciones ```lambda``` pueden ser directamente definidas en el código que las va a utilizar y sin necesidad de otorgarles un nombre (son **funciones descartables**).

**Toman una única expresión y no contienen la expresión ```return```**.

Se definen en una única línea.


In [20]:
square = lambda x: x ** 2

square(10)

100

### ```apply()``` en Pandas

---

- El método ```apply()``` permite aplicar cualquier función a los elementos de un DataFrame. 

    Se puede utilizar:

    * Por columna: ```df.apply(mi_funcion)``` (iterando por columnas, axis=0 por default)
    
    * Por fila  ```df.apply(mi_funcion, axis = 1)``` (iterando por filas)

    * Elemento por elemento ```df.applymap(mi_funcion)```


- ```.apply()``` también se puede utilizar sobre una instancia de Series, elemento por elemento.


- Una buena propiedad de ```apply()``` es que permite aplicar las operaciones vectorizadas de NumPy.

#### **el apply devuelve una df/serie depende donde sea usado**


#### Ejemplo ```apply()``` y ```lambda```

In [192]:
data = pd.read_csv(data_location)

print(data.shape)

data.head(3)


(13580, 21)


Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0


Vamos a calcular el precio por m2 teniendo en cuenta que no podemos dividir por 0:

In [193]:
precio_m2 = data.apply(lambda x: 0 if x['Landsize'] == 0 else x['Price'] / x['Landsize'], axis=1)

print(type(precio_m2))


<class 'pandas.core.series.Series'>


In [194]:
precio_m2.head(5)

0     7326.732673
1     6634.615385
2    10932.835821
3     9042.553191
4    13333.333333
dtype: float64

### Imputación por Media Condicionada en Pandas

Vamos a calcular la media de BuildingArea por CouncilArea, y vamos a imputar los valores faltantes usando esta media condicionada

**Aviso**:
    
Los métodos presentados en esta parte se verán en profundidad en la clase de Pandas 2, pero los mencionamos aquí para presentar los pasos a seguir al realizar este tipo de imputación.

Calculamos la media de BuildingArea para cada valor de CouncilArea

In [12]:
data['CouncilArea'].value_counts()


Moreland             658
Boroondara           576
Moonee Valley        504
Darebin              433
Glen Eira            426
Maribyrnong          401
Yarra                339
Port Phillip         336
Stonnington          335
Banyule              279
Melbourne            241
Bayside              223
Hobsons Bay          220
Brimbank             193
Monash               175
Manningham           150
Whitehorse           139
Kingston             111
Hume                  97
Whittlesea            89
Wyndham               47
Melton                42
Knox                  42
Maroondah             35
Frankston             30
Greater Dandenong     21
Nillumbik             18
Casey                 16
Yarra Ranges          10
Cardinia               5
Macedon Ranges         5
Name: CouncilArea, dtype: int64

In [84]:
dic={}

for x in data['CouncilArea'].value_counts().index:
    dic[str(x)]=data[data['CouncilArea']==x].BuildingArea.mean()


In [158]:
dic

{'Moreland': 136.84631177588795,
 'Boroondara': 170.59074421278473,
 'Moonee Valley': 150.2116462854482,
 'Darebin': 138.3724809913476,
 'Glen Eira': 149.21586008911322,
 'Stonnington': 140.86686885664014,
 'Maribyrnong': 134.148770258555,
 'Yarra': 131.53919484855123,
 'Port Phillip': 126.39451889794626,
 'Banyule': 151.49627300579428,
 'Bayside': 172.03511170018095,
 'Melbourne': 121.56902505577274,
 'Hobsons Bay': 150.18560847519083,
 'Brimbank': 147.1018716388367,
 'Monash': 149.95013733516126,
 'Manningham': 194.35737229242864,
 'Whitehorse': 154.55154319863254,
 'Kingston': 154.20511589216147,
 'Whittlesea': 162.35073737744708,
 'Hume': 152.11110940811753,
 'Wyndham': 158.52770983544798,
 'Knox': 171.78544244950913,
 'Maroondah': 150.69470743828893,
 'Melton': 174.04584768817205,
 'Frankston': 154.25619429304825,
 'Greater Dandenong': 145.72075955065273,
 'Casey': 156.215806516941,
 'Nillumbik': 162.81715827723235,
 'Yarra Ranges': 150.08062217235468,
 'Cardinia': 224.46161870792

In [175]:
def mifillna(fila):
    
    if  pd.isnull(fila['BuildingArea']):
        nuevovalor=dic[fila['CouncilArea']]
        fila['BuildingArea']=nuevovalor
    else:      
        pass
    return fila

In [182]:
data=data.dropna(subset=['CouncilArea'])

In [184]:
data=data.apply(lambda x: mifillna(x),axis=1)

Vemos si quedan registros con valor nulo en el campo BuildingArea después de la imputación

In [185]:
data.BuildingArea.isnull().sum()

0

### Nan no es Nan

In [187]:
data = pd.read_csv(data_location)

In [188]:
data.head(5).BuildingArea.iloc[0]

nan

In [189]:
type(data.head(5).BuildingArea.iloc[0])

numpy.float64

In [190]:
pd.isnull(data.head(5).BuildingArea.iloc[0])

True

In [191]:
data.head(5).BuildingArea.iloc[0] == np.nan

False

https://stackoverflow.com/questions/52436356/pandas-numpy-nan-none-comparison

<div class="div-dhds-fondo-1"> Expresiones regulares

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


### Expresiones regulares

---

¿Qué son las expresiones regulares y para qué sirven?


Una expresión regular es una **secuencia de caracteres** que define un **patrón de búsqueda** de texto. Las regex constituyen un lenguaje muy flexible que sirve para identificar y extraer información de un cuerpo de caracteres **no estructurado**.

Ejemplos:

* identificar direcciones de correo electrónico

* identificar DNI, CUIT, CUIL, etc.




In [202]:
prope=pd.read_csv('https://raw.githubusercontent.com/carabedo/labs/master/data/prope.csv',index_col=0)
prope.head(14)

Unnamed: 0,place_with_parent_names,lat-lon,price,currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,description,title
0,|Argentina|Capital Federal|Mataderos|,"-34.6618237,-58.5088387",62000.0,USD,62000.0,55.0,40.0,1127.272727,,,,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB
1,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,"-34.9038831,-57.9643295",150000.0,USD,150000.0,,,,,,,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...
2,|Argentina|Capital Federal|Mataderos|,"-34.6522615,-58.5229825",72000.0,USD,72000.0,55.0,55.0,1309.090909,,,,2 AMBIENTES 3ER PISO LATERAL LIVING COMEDOR AM...,2 AMB 3ER PISO CON ASCENSOR APTO CREDITO
3,|Argentina|Capital Federal|Liniers|,"-34.6477969,-58.5164244",95000.0,USD,95000.0,,,,,,,PH 3 ambientes con patio. Hay 3 deptos en lote...,PH 3 amb. cfte. reciclado
4,|Argentina|Buenos Aires Costa Atlántica|Mar de...,"-38.0026256,-57.5494468",64000.0,USD,64000.0,35.0,35.0,1828.571429,,,,DEPARTAMENTO CON FANTÁSTICA ILUMINACIÓN NATURA...,DEPTO 2 AMB AL CONTRAFRENTE ZONA CENTRO/PLAZA ...
5,|Argentina|Entre Ríos|Gualeguaychú|,"-33.0140714,-58.519828",,,,53.0,,,,,,"Casa en el perímetro del barrio 338, ubicada e...","Casa Barrio 338. Sobre calle 3 de caballería, ..."
6,|Argentina|Bs.As. G.B.A. Zona Norte|Vicente Ló...,"-34.5329567,-58.5217825",130000.0,USD,130000.0,106.0,78.0,1226.415094,,,,MUY BUEN PH AL FRENTE CON ENTRADA INDEPENDIENT...,"MUY BUEN PH AL FRENTE DOS DORMITORIOS , PATIO,..."
7,|Argentina|Capital Federal|Belgrano|,"-34.5598729,-58.443362",138000.0,USD,138000.0,45.0,40.0,3066.666667,,,,EXCELENTE MONOAMBIENTE A ESTRENAR AMPLIO SUPER...,JOSE HERNANDEZ 1400 MONOAMBIENTE ESTRENAR CAT...
8,|Argentina|Capital Federal|Belgrano|,"-34.5598729,-58.443362",195000.0,USD,195000.0,65.0,60.0,3000.0,,,,EXCELENTE DOS AMBIENTES ESTRENAR AMPLIO SUPER...,"JOSE HERNANDEZ 1400 DOS AMBIENTES ESTRENAR ,..."
9,|Argentina|Santa Fe|Rosario|,"-32.942031,-60.7259192",460000.0,ARS,25798.49,,,,,,,MEDNOZA AL 7600A UNA CUADRA DE CALLE MENDOZAWH...,WHITE 7637 - 2 DORMITORIOS CON PATIO


In [204]:
prope.iloc[:2,-2].values

array(['2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO, REFACCIONADO A NUEVO, PATIO GRANDE, CON LAVADERO, LIVING COMEDOR CON COCINA INTEGRADA, ARTEFACTO DE COCINA, ALACENA, BAÑO COMPLETO, Y DORMITORIO. TODO EN EXCELENTE ESTADO, PARA HABITAR.NO ES APTO CREDITO Aviso publicado por Pixel Inmobiliario (Servicio de Páginas Web para Inmobiliarias).',
       'Venta de departamento en décimo piso al frente, a estrenar. Living comedor con ventanales hacia el balcón con pisos de madera. Cocina completa con doble mesada, muebles bajo mesada. Lavadero separado. Toilette.Dormitorio con placard. Segundo dormitorio a dividir. Calefacción por radiadorBaño completo.Balcón corrido. Posibilidad de cochera semicubierta. U$D 20.000                     Aviso publicado por Pixel Inmobiliario (Servicio de Páginas Web para Inmobiliarias).'],
      dtype=object)

In [205]:
prope.head(2)

Unnamed: 0,place_with_parent_names,lat-lon,price,currency,price_aprox_usd,surface_total_in_m2,surface_covered_in_m2,price_usd_per_m2,floor,rooms,expenses,description,title
0,|Argentina|Capital Federal|Mataderos|,"-34.6618237,-58.5088387",62000.0,USD,62000.0,55.0,40.0,1127.272727,,,,"2 AMBIENTES TIPO CASA PLANTA BAJA POR PASILLO,...",2 AMB TIPO CASA SIN EXPENSAS EN PB
1,|Argentina|Bs.As. G.B.A. Zona Sur|La Plata|,"-34.9038831,-57.9643295",150000.0,USD,150000.0,,,,,,,Venta de departamento en décimo piso al frente...,VENTA Depto 2 dorm. a estrenar 7 e/ 36 y 37 ...


### Metacaracteres especiales (wildcards/comodines)

---

Los **metacaracteres especiales** son aquellos que indican que se debe matchear algo de forma **no literal**, o que afectan a otras partes de la regex repitiendo caracteres o cambiando su significado.



<u>Algunos metacaracteres frecuentes</u>:

**\d** Cualquier dígito del 0 al 9

**\w** Cualquier caracter alfanumérico (A-Z, a-z, 0-9 y _)

**\s** Cualquier espacio en blanco (espacio, tabulado, nueva línea, etc.)

**.** Cualquier caracter con excepción de nueva línea (\n)


Y sus complementos:

**\D** Todo menos cualquier dígito

**\W** Todo menos cualquier carácter alfanumérico

**\S** Todo menos cualquier espacio en blanco

<u>Cuantificadores</u>:

**\*** Cero o más del elemento anterior

**+** Uno o más del elemento anterior

**{min,max}** Definen mínimos y máximos de repetición

**?** Opcional, ó cero o uno del elemento anterior



<u>Ejemplos</u>:

**\d+** Encuentra un número o más

**.\*** Encuentra cero o más de cualquier caracter

**\w{2,6}** Encuentra un conjunto de caracteres alfanuméricos con una longitud que va de 2 a 6 caracteres

<u>Otros metacaracteres importantes</u>:

**[ ]** Definen un conjunto de caracteres

**[A-Za-z0-9_]** Definen rangos

**( )** Definen un grupo de captura

**|** Operador "o"

**\** Escapa los caracteres especiales

Metacaracteres de posición:

**^** Comienzo de un string (o negación dentro de un conjunto, [^ ])

**$** Final de un string

**\b** Límite de palabra



### ¿Qué patrón pueden identificar para los siguientes strings?

---

```
ana_laura@hotmail.com
juan.perez@gmail.com
florgimenez@yahoo.com.ar
PEPITO@FULLZERO.COM
mengano arroba gmail
sultano@gmai.com
no
jaimito@hotmail.com


hector.peres.picaro@gmail.com
```

Queremos una expresión que sirva como patrón para cualquier direcciones de email presentadas.


### Empecemos con:

```
ana_laura@hotmail.com
```

Cada par de paréntesis ( ) define un grupo:

```(usuario) @ (dominio) .com```

In [217]:
import re

patron = "(.*)@(.*)(\.com)"

regex = re.compile(patron)

In [220]:
texto1 = "ana_laura@hotmail.com"


regex.findall(texto1) 

# este metodo encuentra todos los grupos y devuelve una lista
# una lista de que?

[('ana_laura', 'hotmail', '.com')]

In [221]:
regex.search(texto1)

#este metodo encuentra todos los grupos y devuelve un objeto match

<re.Match object; span=(0, 21), match='ana_laura@hotmail.com'>

In [208]:
regex.search(texto1).groups()

('ana_laura', 'hotmail', '.com')

In [209]:
regex.search(texto1).group(0)

'ana_laura@hotmail.com'

In [210]:
regex.search(texto1).group(1)

'ana_laura'

In [183]:
regex.search(texto1).group(2)

'hotmail'

In [184]:
regex.search(texto1).group(3)

'.com'

### poniendole nombre a los grupos

In [223]:
patron2 = "(?P<user>.*)@(?P<dominio>.*)(\.com)"


regex2 = re.compile(patron2)

In [224]:
regex2.search(texto1).group("user")

'ana_laura'

In [225]:
regex2.search(texto1).group("dominio")

'hotmail'

```
ana_laura@hotmail.com
juan.perez@gmail.com
florgimenez@yahoo.com.ar

```

In [226]:
texto2 = "juan.perez@gmail.com"

regex2.search(texto2).groups()


('juan.perez', 'gmail', '.com')

In [227]:
texto3 = "florgimenez@yahoo.com.ar"

regex2.search(texto3).groups()


('florgimenez', 'yahoo', '.com')

In [228]:
regex2.search(texto3).groupdict()

{'user': 'florgimenez', 'dominio': 'yahoo'}

#### Cual es el problema?

Que paso con el .ar?


In [229]:
patron3 = "(?P<user>.*)@(?P<dominio>.*)(\.com)(\.ar)?"
regex3 = re.compile(patron3)

In [230]:
texto3 = "florgimenez@yahoo.com.ar"

regex3.search(texto3).groups()


('florgimenez', 'yahoo', '.com', '.ar')

In [231]:
regex3.search(texto3).groupdict()

{'user': 'florgimenez', 'dominio': 'yahoo'}

In [232]:
patron4 = "(?P<user>.*)@(?P<dominio>.*\.com(\.ar)?)"
regex4 = re.compile(patron4)
regex4.search(texto3).groupdict()

{'user': 'florgimenez', 'dominio': 'yahoo.com.ar'}

In [233]:
regex4.search(texto1).groupdict()

{'user': 'ana_laura', 'dominio': 'hotmail.com'}

In [234]:
regex4.search(texto2).groupdict()

{'user': 'juan.perez', 'dominio': 'gmail.com'}

In [235]:
texto4="PEPITO@FULLZERO.COM"
regex4.search(texto4).groupdict()

AttributeError: 'NoneType' object has no attribute 'groupdict'

In [236]:
texto5="pepito@fullzero.com"
regex4.search(texto5).groupdict()

{'user': 'pepito', 'dominio': 'fullzero.com'}

### Flags:

Podemos ademas de la expresion regular agregar un parametro global que defina alguna caracteristica de la busqueda:

```python
re.I	re.IGNORECASE	ignore case.
re.M	re.MULTILINE	make begin/end {^, $} consider each line.
re.S	re.DOTALL	make . match newline too.
re.U	re.UNICODE	make {\w, \W, \b, \B} follow Unicode rules.
re.L	re.LOCALE	make {\w, \W, \b, \B} follow locale.
re.X	re.VERBOSE	allow comment in regex.
```

In [237]:
patron5 = "(?P<user>.*)@(?P<dominio>.*\.com(\.ar)?)"
regex5 = re.compile(patron5, flags=re.I)
regex5.search(texto4).groupdict()

{'user': 'PEPITO', 'dominio': 'FULLZERO.COM'}

In [238]:
doc="""ana_laura@hotmail.com
juan.perez@gmail.com
florgimenez@yahoo.com.ar
PEPITO@FULLZERO.COM
mengano arroba gmail.com
sultano@gmail.com
no
jaimito@hotmail.com


hector.peres.picaro@gmail.com"""


regex6 = re.compile(patron5, flags = re.I )

In [246]:
regex6.findall(doc)

[('ana_laura', 'hotmail.com', ''),
 ('juan.perez', 'gmail.com', ''),
 ('florgimenez', 'yahoo.com.ar', '.ar'),
 ('PEPITO', 'FULLZERO.COM', ''),
 ('sultano', 'gmail.com', ''),
 ('jaimito', 'hotmail.com', ''),
 ('hector.peres.picaro', 'gmail.com', '')]

In [247]:
mails=regex6.findall(doc)

In [248]:
type(mails),type(mails[0]),type(mails[0][0])

(list, tuple, str)

In [250]:
# podemos hacer todo en una linea

re.compile("(?P<user>.*)(@|arroba)(?P<dominio>.*(\.com)?(\.ar)?)", flags = re.I ).findall(doc)


[('ana_laura', '@', 'hotmail.com', '', ''),
 ('juan.perez', '@', 'gmail.com', '', ''),
 ('florgimenez', '@', 'yahoo.com.ar', '', ''),
 ('PEPITO', '@', 'FULLZERO.COM', '', ''),
 ('mengano ', 'arroba', ' gmail.com', '', ''),
 ('sultano', '@', 'gmail.com', '', ''),
 ('jaimito', '@', 'hotmail.com', '', ''),
 ('hector.peres.picaro', '@', 'gmail.com', '', '')]

## Otro ejemplo, usuarios de twitter:

```
f@ulanito
@pepito1
@pepito23
@mengano
```

### Line Anchors

Voy querer que agarre cosas SI Y SOLO SI aparecen al principio (^) de la linea  o al final ($).


https://stackoverflow.com/questions/16944357/carets-in-regular-expressions


In [255]:
doc2="""f@ulanito
@pepito1
@pepito23
@mengano"""



### \D complemento de \d  agarra todo lo que no es digitos (tambien podes negar la lista  [^0-9] con el ^ )

patron6 = "^@(\D*)?"



#re.M    re.MULTILINE    make begin/end {^, $} consider each line.
regex7 = re.compile(patron6, flags = re.MULTILINE)


regex7.findall(doc2)

['pepito', 'pepito', 'mengano']

In [256]:
# quiero agarrar los numeros que estan al final de la linea
### multiplicadores
### \d matches a digit (equivalent to [0-9])
# * matches the previous token between zero and unlimited times, as many times as possible, giving back as needed

regex8 = re.compile("\d*$", flags = re.MULTILINE )
regex8.findall(doc2)

['', '1', '', '23', '', '']

In [257]:
### multiplicadores
### + matches the previous token between one and unlimited times, as many times as possible, giving back as needed

regex9 = re.compile("\d+$", flags = re.MULTILINE )
regex9.findall(doc2)

['1', '23']

# Probando patrones:

https://regex101.com/

``` patron_clase = "^(?P<nombre_de_usuario>.*)@(?P<dominio>.*)(\.com)(\.ar)?$" ```

```
ana_laura@hotmail.com
juan.perez@gmail.com
florgimenez@yahoo.com.ar
PEPITO@FULLZERO.COM
mengano arroba gmail
sultano@gmai.com
no
jaimito@hotmail.com

hector.peres.picaro@gmail.com
```

In [None]:
#(?P<nombre_de_usuario>.*)(@|arroba)(?P<dominio>.*)(\.com)?(\.ar)?

![](https://geekandpoke.typepad.com/.a/6a00d8341d3df553ef0192aa54031f970d-800wi)

![](https://imgs.xkcd.com/comics/perl_problems_2x.png)

### Para llevarse:

---

* Formato: Variables=Columnas, Observaciones=Filas

* Outliers, puedo filtar con mascaras mirando la distribucion de los datos

* Nulos/Faltantes, uso `.dropna()` para tirar las filas que tengan alguna, varias o las que yo elija columnas con datos faltantes

* `.apply()` me permitia 'iterar' de manera eficiente por filas o por columnas y aplicar alguna funcion

* las `lambda x :` son funciones de `x` descartables que podia usar con el apply para hacer algo corto o puedo usar una funcion definida previamente

* la syntaxis `regex`  me permitia procesar grandes volumenes de texto de manera eficiente para la busqueda y reemplazo de patrones de texto



<div class="div-dhds-fondo-1"> Hands-on
<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


### Ejercicio 1

Usando los datos de propiedades de Melbourne (../Data/melb_data.csv), queremos imputar los valores faltantes del campo ```YearBuilt``` usando la mediana de ese campo por vendedor ```SellerG```

¿Cántos valores nulos en el campo ```YearBuilt``` hay antes de la imputación?

¿Cántos valores nulos en el campo ```YearBuilt``` hay después de la imputación?




### Ejercicio 2


Queremos definir una expresión regular que nos permita extraer el punto cardinal al que referencia Regionname en los datos de propiedades de Melbourne (../Data/melb_data.csv), 

Por ejemplo:

* si el valor es Northern Metropolitan o Northern Victoria, el resultado debe ser North

* si el valor es Western Metropolitan o Western Victoria, el resultado debe ser West

* si el valor es Southern Metropolitan o Southern Victoria, el resultado debe ser South

* si el valor es Eastern Metropolitan o Eastern Victoria, el resultado debe ser East






Sugerencia: usar como textos para hacer pruebas 

* 'Northern Metropolitan', 

* 'Western Metropolitan', 

* 'Southern Metropolitan', 

* 'Eastern Metropolitan', 

* 'South-Eastern Metropolitan', 

* 'Eastern Victoria',

* 'Northern Victoria', 

* 'Western Victoria' 

y el método ```search```

### Ejercicio 3

Usando la expresión regular definida en el punto anterior, el método ```apply``` y una función ```lambda```, obtener una instancia de Series con los puntos cardinales a los que referencia ```Regionname``` en cada registro.

### Solución

---


### Ejercicio 1


In [258]:
data_location = "../Data/melb_data.csv"

data = pd.read_csv(data_location)

print("cantidad de nulos antes de la imputación: ", data.YearBuilt.isnull().sum())


cantidad de nulos antes de la imputación:  5375


In [259]:
fill_values = data.groupby('SellerG').YearBuilt.median()

fill_values.head(5)

SellerG
@Realty         1970.0
ASL             1962.5
Abercromby's    1946.5
Ace                NaN
Alexkarbon      2000.0
Name: YearBuilt, dtype: float64

In [37]:
fill_values_df = pd.DataFrame(fill_values)
fill_values_df.reset_index(inplace=True)
fill_values_df.head(5)

Unnamed: 0,SellerG,YearBuilt
0,@Realty,1970.0
1,ASL,1962.5
2,Abercromby's,1946.5
3,Ace,
4,Alexkarbon,2000.0


In [38]:
data = data.merge(fill_values_df, on = "SellerG", suffixes = ("", "_median"), how = 'left')
data.head(5)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,YearBuilt_median
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,1970.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,1970.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,1970.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,1970.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,1960.0


In [39]:
data.YearBuilt.fillna(data.YearBuilt_median, inplace = True)

data.head(5)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount,YearBuilt_median
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,202.0,,1970.0,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0,1970.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0,1970.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0,1970.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,1.0,94.0,,1970.0,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0,1970.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0,1960.0


In [40]:
print("cantidad de nulos después de la imputación: ", data.YearBuilt.isnull().sum())

cantidad de nulos después de la imputación:  51


**¿A qué vendedores corrresponden los 51 registros que quedaron en nulo?**

### Ejercicio 2


In [260]:
data_location = "../Data/melb_data.csv"

data = pd.read_csv(data_location)

In [261]:
patron = "^(?P<punto_cardinal>.*)ern\s(Metropolitan|Victoria)$"

regex = re.compile(patron, flags = re.IGNORECASE)


In [262]:
texto1 = 'Northern Metropolitan'

regex.search(texto1).group("punto_cardinal")

'North'

In [44]:
texto2 = 'Western Metropolitan'

regex.search(texto2).group("punto_cardinal")

'West'

In [45]:
texto3 = 'Southern Metropolitan'

regex.search(texto3).group("punto_cardinal")

'South'

In [46]:
texto4 = 'Southern Metropolitan'

regex.search(texto4).group("punto_cardinal")

'South'

In [47]:
texto5 = "South-Eastern Metropolitan"

regex.search(texto5).group("punto_cardinal")

'South-East'

In [48]:
texto6 = "Eastern Victoria"

regex.search(texto6).group("punto_cardinal")

'East'

In [49]:
texto7 = "Northern Victoria"

regex.search(texto7).group("punto_cardinal")

'North'

In [50]:
texto8 = "Western Victoria"

regex.search(texto8).group("punto_cardinal")

'West'

### Ejercicio 3

In [263]:
patron = "^(?P<punto_cardinal>.*)ern\s(Metropolitan|Victoria)$"

regex = re.compile(patron, flags = re.IGNORECASE)


In [264]:
resultado = data.Regionname.apply(lambda x: regex.search(x).group("punto_cardinal"))

resultado.sample(10)

763      South
7500     South
7814      West
5890      West
3328     South
6918     North
7675     South
6179     South
647      South
11380    North
Name: Regionname, dtype: object

In [265]:
type(resultado)

pandas.core.series.Series

<div class="div-dhds-fondo-1"> Referencias

<img src="https://raw.githubusercontent.com/Digital-House-DATA/ds_blend_2021_img/master/M2/CLASE_09_LimpiezaDeDatos/Presentacion/img/M2_CLASE_09_separador.png" align="center"></img>    
</div>


Tutorial de expresiones regulares:

<a href="https://github.com/Digital-House-DATA/ds_blend_2021_img/wiki/Tutorial-de-Expresiones-Regulares-(regex)" target="_blank">Tutorial de Expresiones Regulares (regex)</a>

Documentación:

<a href="https://docs.python.org/3/library/re.html" target="_blank">re</a>

<a href="https://docs.python.org/3/howto/regex.html" target="_blank">regex</a>


Sitios web para practicar:

<a href="https://regexr.com/" target="_blank">regexr</a>

<a href="https://regex101.com/" target="_blank">regex101</a>

Missing Data

https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html

https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#filling-missing-values-fillna