

<img src="https://user-images.githubusercontent.com/7065401/39117173-a433bf6a-46e6-11e8-8a40-b4d4d6422493.jpg"
    style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Limpiando valores no nulos

Después de tratar con muchos conjuntos de datos, puedo decirte que los "datos faltantes" no son tan importantes. Lo mejor que puede pasar es ver claramente valores como `np.nan`. Lo único que tenes que hacer es utilizar métodos como `isnull` y `fillna`/`dropna` y pandas se encargará del resto.Pero a veces, puedes tener valores no válidos que no son simplemente "datos faltantes" (`None`, o `nan`). Por ejemplo:




![separator2](https://i.imgur.com/4gX5WFr.png)



In [1]:
# importamos las librerias
import numpy as np
import pandas as pd

In [2]:
# generamos un df de prueba
df = pd.DataFrame({
    'Sex': ['M', 'F', 'F', 'D', '?'],
    'Age': [29, 30, 24, 290, 25],
})

In [3]:
df

Unnamed: 0,Sex,Age
0,M,29
1,F,30
2,F,24
3,D,290
4,?,25


In [5]:
df.shape

(5, 2)

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5 entries, 0 to 4
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   Sex     5 non-null      object
 1   Age     5 non-null      int64 
dtypes: int64(1), object(1)
memory usage: 212.0+ bytes


In [8]:
df.describe()

Unnamed: 0,Age
count,5.0
mean,79.6
std,117.644804
min,24.0
25%,25.0
50%,29.0
75%,30.0
max,290.0


El `DataFrame` anterior no tiene ningún "valor faltante", pero claramente tiene datos no válidos. La edad '290' no parece ser una edad válida, y 'D' y '?' no se corresponden con ninguna categoría de sexo conocida. Entonces, ¿cómo se pueden limpiar estos valores que no faltan, pero que son claramente inválidos?

### Buscando valores unicos

El primer paso para limpiar valores invalidos es encontrarlos o identificarlos, para luego eliminarlos o reemplazarlos. Por lo general, para un campo categorico donde las posibilidades son discretas comenzamos analizando la variedad de los valores presentes. Para esto usamos el método `unique()`.


In [6]:
df['Sex'].unique()

array(['M', 'F', 'D', '?'], dtype=object)

In [7]:
df['Sex'].value_counts()

Unnamed: 0_level_0,count
Sex,Unnamed: 1_level_1
F,2
M,1
D,1
?,1


Claramente, si ves valores como `'D'` o `'?'`, inmediatamente llamará tu atención. Ahora bien, ¿qué hacer con ellos? Vamos a suponer que te dicen que `'D'` fue un error tipográfico y que en realidad debería ser `'F'`. Podemos utilizar la función `replace` para reemplazar estos valores:



In [9]:
df['Sex'].replace('D', 'F')

Unnamed: 0,Sex
0,M
1,F
2,F
3,F
4,?


La función `replace` puede aceptar un diccionario de valores para reemplazar. Por ejemplo, también te dijeron que podría haber algunas `'N's`, que en realidad deberían ser `'M's`:


In [10]:
df['Sex'].replace({'D': 'F', 'N': 'M'})


Unnamed: 0,Sex
0,M
1,F
2,F
3,F
4,?


Si hay mas de una columna con valores a reemplazar se puede aplicar a nivel de "DataFrame":

In [12]:
df.replace({'Sex': {'D': 'M'}, "Age": {290: 29}})

Unnamed: 0,Sex,Age
0,M,29
1,F,30
2,F,24
3,M,29
4,?,25


En el ejemplo anterior, reemplazamos explícitamente 290 por 29 (asumiendo que era solo un 0 adicional ingresado en la fase de entrada de datos). Pero, ¿qué pasa si desea eliminar todos los 0 adicionales de las columnas de edades? (ejemplo, `150 > 15`, `490 > 49`).El primer paso sería establecer el límite de la edad. ¿Es 100? 120? Digamos que cualquier cosa por encima de 100 no es creíble para **nuestro** conjunto de datos. A continuación, podemos combinar la selección booleana con la operación:





In [13]:
df[df['Age']> 100]

Unnamed: 0,Sex,Age
3,D,290


y dividimos por 10:

In [14]:
df.loc[df['Age']>100, 'Age'] = df.loc[df['Age']>100, 'Age']/10

In [15]:
df

Unnamed: 0,Sex,Age
0,M,29
1,F,30
2,F,24
3,D,29
4,?,25


![separator1](https://i.imgur.com/ZUWYTii.png)

### Duplicados

Comprobar la existencia de valores duplicados es extremadamente sencillo. Se comporta de manera diferente entre Series y DataFrames. Empecemos por las series. Por ejemplo, supongamos que estamos organizando una fiesta elegante e invitamos a embajadores de Europa. Pero solo se puede invitar a un embajador por país. Esta es nuestra lista original, y como puedes ver, tanto el Reino Unido como Alemania tienen embajadores duplicados:



In [16]:
ambassadors = pd.Series([
    'France',
    'United Kingdom',
    'United Kingdom',
    'Italy',
    'Germany',
    'Germany',
    'Germany',
], index=[
    'Gérard Araud',
    'Kim Darroch',
    'Peter Westmacott',
    'Armando Varricchio',
    'Peter Wittig',
    'Peter Ammon',
    'Klaus Scharioth '
])

In [17]:
ambassadors

Unnamed: 0,0
Gérard Araud,France
Kim Darroch,United Kingdom
Peter Westmacott,United Kingdom
Armando Varricchio,Italy
Peter Wittig,Germany
Peter Ammon,Germany
Klaus Scharioth,Germany


El método `duplicated` (nos dice quer valores están duplicados) y `drop_duplicates` (eliminara los duplicados):

In [18]:
ambassadors.duplicated()

Unnamed: 0,0
Gérard Araud,False
Kim Darroch,False
Peter Westmacott,True
Armando Varricchio,False
Peter Wittig,False
Peter Ammon,True
Klaus Scharioth,True


En este caso `duplicated` no considera a `'Kim Darroch'`, la primer ocurrencia para United Kingdom o a `'Peter Wittig'` como duplicados. Esto es, ya que por defecto, considera la primer ocurrencia como no duplicada. Se puede cambiar este comportamiento con el parametro `keep`:

In [19]:
ambassadors.duplicated(keep='last')

Unnamed: 0,0
Gérard Araud,False
Kim Darroch,True
Peter Westmacott,False
Armando Varricchio,False
Peter Wittig,True
Peter Ammon,True
Klaus Scharioth,False


Ahora, `'Kim Darroch'` y `'Peter Wittig'` (la primer ocurrencia de cada país) es considerada duplicada, pero `'Peter Westmacott'` y `'Klaus Scharioth'` no son considerados duplicados. También se puede seleccionar para que todos sean considerados duplicados con el valor de `keep=False`:

In [20]:
ambassadors.duplicated(keep=False)

Unnamed: 0,0
Gérard Araud,False
Kim Darroch,True
Peter Westmacott,True
Armando Varricchio,False
Peter Wittig,True
Peter Ammon,True
Klaus Scharioth,True


El método `drop_duplicates`, elimina los valores duplicados y tiene el parametro `keep` visto en el ejemplo anterior:

In [21]:
ambassadors.drop_duplicates()

Unnamed: 0,0
Gérard Araud,France
Kim Darroch,United Kingdom
Armando Varricchio,Italy
Peter Wittig,Germany


In [22]:
ambassadors.drop_duplicates(keep='last')

Unnamed: 0,0
Gérard Araud,France
Peter Westmacott,United Kingdom
Armando Varricchio,Italy
Klaus Scharioth,Germany


In [23]:
ambassadors.drop_duplicates(keep=False)

Unnamed: 0,0
Gérard Araud,France
Armando Varricchio,Italy


### Duplicados en DataFrames

Conceptualmente hablando, los duplicados en un DataFrame ocurren en el nivel de "fila". Dos filas con exactamente los mismos valores se consideran duplicados:

In [24]:
players = pd.DataFrame({
    'Name': [
        'Kobe Bryant',
        'LeBron James',
        'Kobe Bryant',
        'Carmelo Anthony',
        'Kobe Bryant',
    ],
    'Pos': [
        'SG',
        'SF',
        'SG',
        'SF',
        'SF'
    ]
})

In [25]:
players

Unnamed: 0,Name,Pos
0,Kobe Bryant,SG
1,LeBron James,SF
2,Kobe Bryant,SG
3,Carmelo Anthony,SF
4,Kobe Bryant,SF


En el DataFrame anterior, vemos claramente que Kobe está duplicado; Pero aparece con dos posiciones diferentes. Veamos la salida del método `duplicated`

In [26]:
players.duplicated()

Unnamed: 0,0
0,False
1,False
2,True
3,False
4,False


El método `duplicated` devuelve una serie booleana que indica si una fila es un duplicado de una fila anterior en el DataFrame (basándose en todas las columnas por defecto). Solo la primera ocurrencia de cada conjunto duplicado se marca como False, y las repeticiones posteriores como True.

Para buscar duplicados en una columna especifica, usamos el parámetro `subset`:

In [27]:
players.duplicated(subset=['Name'])

Unnamed: 0,0
0,False
1,False
2,True
3,False
4,True


y aplican las mismas reglas para el parámetro `keep`:

In [28]:
players.duplicated(subset=['Name'], keep='last')

Unnamed: 0,0
0,True
1,False
2,True
3,False
4,False


`drop_duplicates` takes the same parameters:

![separator1](https://i.imgur.com/ZUWYTii.png)

### Normalizando Texto

Limpiar los valores de texto puede ser increíblemente difícil. Los valores de texto no válidos implican, el 99% de las veces, errores de escritura, que son completamente impredecibles y no siguen ningún patrón. Afortunadamente, no es tan común en estos días, donde las tareas de entrada de datos han sido reemplazadas por máquinas. Aún así, exploremos los casos más comunes:

### Separando Columnas

Vamos a suponer que cargamos un DF con los resultados de una encuesta:

In [29]:
df = pd.DataFrame({
    'Data': [
        '1987_M_US _1',
        '1990?_M_UK_1',
        '1992_F_US_2',
        '1970?_M_   IT_1',
        '1985_F_I  T_2'
]})

In [30]:
df

Unnamed: 0,Data
0,1987_M_US _1
1,1990?_M_UK_1
2,1992_F_US_2
3,1970?_M_ IT_1
4,1985_F_I T_2


Sabemos que las columnas individuales representan los valores "año, sexo, país y número de hijos", pero todo se ha agrupado en la misma columna y se ha separado por un guión bajo. Pandas tiene un método conveniente llamado `split` que podemos usar en estas situaciones:

In [31]:
df['Data'].str.split('_')

Unnamed: 0,Data
0,"[1987, M, US , 1]"
1,"[1990?, M, UK, 1]"
2,"[1992, F, US, 2]"
3,"[1970?, M, IT, 1]"
4,"[1985, F, I T, 2]"


In [32]:
df['Data'].str.split('_', expand=True)

Unnamed: 0,0,1,2,3
0,1987,M,US,1
1,1990?,M,UK,1
2,1992,F,US,2
3,1970?,M,IT,1
4,1985,F,I T,2


In [33]:
df = df['Data'].str.split('_', expand=True)

In [34]:
df

Unnamed: 0,0,1,2,3
0,1987,M,US,1
1,1990?,M,UK,1
2,1992,F,US,2
3,1970?,M,IT,1
4,1985,F,I T,2


In [35]:
df.columns = ['Year', 'Sex', 'country', 'Children']

In [36]:
df

Unnamed: 0,Year,Sex,country,Children
0,1987,M,US,1
1,1990?,M,UK,1
2,1992,F,US,2
3,1970?,M,IT,1
4,1985,F,I T,2


Podemos buscar valores con el metodos `contains`:

In [37]:
df

Unnamed: 0,Year,Sex,country,Children
0,1987,M,US,1
1,1990?,M,UK,1
2,1992,F,US,2
3,1970?,M,IT,1
4,1985,F,I T,2


In [38]:
df['country'].str.contains('U')

Unnamed: 0,country
0,True
1,True
2,True
3,False
4,False


Como [`contains`](http://pandas.pydata.org/pandas-docs/version/0.22.0/generated/pandas.Series.str.contains.html) puede tomar una expresión regular (regex/pattern) com primer valor es necesario poner la barra antes del simbolo `?` para especificar que es el caracter y no una expresion regular. Para las letras no es necesario poner el caracter de escape:

False

Sacando espacios en blanco (como en `'US '` o `'I  T'` se puede hacer con los metodos `strip` (`lstrip` y `rstrip` tambien existen) o simplementwe con `replace`:

In [41]:
df['country'].str.strip()

Unnamed: 0,country
0,US
1,UK
2,US
3,IT
4,I T


In [42]:
df['country'].replace(" ", "")

Unnamed: 0,country
0,US
1,UK
2,US
3,IT
4,I T


Como se puede ver, todas estas operaciones relacionadas con cadenas/texto se aplican sobre el atributo `str` de la serie. Para mas información les dejo un link de consulta [aca](https://pandas.pydata.org/pandas-docs/stable/text.html).

![separator2](https://i.imgur.com/4gX5WFr.png)