# Limpieza de datos

La limpieza de datos implica observar más de cerca los problemas en los datos que ha seleccionado incluir en el análisis.

### Problema de datos 

In [1]:
import pandas as pd
import numpy as np

Podemos crear un base de datos (DataFrame):

In [2]:
x = {'Company': ['Ford', 'Ford', 'VW', 'BMW', 'Cooper', 'Cooper'], 
     'Stars' : [1, 2, np.nan, 2, 1, 1], 
     'Weight' : [2, 4, 2, 2, 3, None], 
     'Origin' : ['China', 'Mexico', 'Mexico', None, 'China', np.nan], 
     'Length': [40, 50, 30, np.nan, 45, pd.NaT]
}

In [3]:
df  = pd.DataFrame(data = x)
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40
1,Ford,2.0,4.0,Mexico,50
2,VW,,2.0,Mexico,30
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45
5,Cooper,1.0,,,NaT


Guardamos en un archivo CSV (coma separated value)

In [5]:
df.to_csv('data.csv')

Alternativamente, podemos leer un conjunto de datos ya disponible:

In [6]:
df = pd.read_csv('/content/data.csv', index_col=0)
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Para verificar, ¿falta algún dato?:

Verificamos si del DataFrame df falta algun dato con isnull(), posteriormente checamos valores (values) y cualquier valor, si resulta verdadero es que faltan datos.

In [7]:
df.isnull().values.any()

True

Si quitamos el values, la funcion arrojara True para las columnas que tengan datos perdidos, en este caso todas menos Company

In [8]:
df.isnull().any()

Company    False
Stars       True
Weight      True
Origin      True
Length      True
dtype: bool

alternativamente:

Otra manera de checarlos es mediante isna, se puede hacer lo mismo que se hizo anteriormente con isnull

In [9]:
df.isna().values.any()

True

In [10]:
df.isna().any()

Company    False
Stars       True
Weight      True
Origin      True
Length      True
dtype: bool

In [11]:
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


### Solucion 1: 

Descartar las observaciones con valores faltantes

Medianto dropna, se van a borrar todos los renglones que tengand datos perdidos

In [12]:
df.dropna(inplace = True)

checamos por datos perdidos y ahora notamos que arroja False, ya no hay datos perdidos

In [13]:
df.isna().values.any()

False

imprimimos el dataframe, se muestra que ya solo tiene 3 renglones, se eliminaron la mitad de los datos.

In [14]:
df

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
4,Cooper,1.0,3.0,China,45.0


El problema con esta estrategia es que, 
>> si falta algún dato en todo el conjunto de datos, la fila correspondiente se elimina.

Recuperamos el dataframe original, colviendo a leer el .csv

In [15]:
df = pd.read_csv('/content/data.csv', index_col=0)
df.isna().any()

Company    False
Stars       True
Weight      True
Origin      True
Length      True
dtype: bool

In [16]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Suelte las columnas donde falta al menos un elemento.

del nuevo data frame (ndf) se pueden retirar solo las columnas donde hace falta informacion añadiendo parametros a la funcion dropna, seleccionando axis =1. Inplace = True indica que se modificará el data frame y no crear uno nuevo

In [17]:
ndf.dropna(axis = 1, inplace = True) # axis 1 is columns / axis 0 is rows. 
ndf

Unnamed: 0,Company
0,Ford
1,Ford
2,VW
3,BMW
4,Cooper
5,Cooper


Recuperamos el dataframe original haciendo una copia de df

In [18]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Drop the rows where all elements are missing.

el parametro how='all' indica que solo eliminara el renglon si faltan todos los datos del renglon estan perdidos

In [19]:
ndf.dropna(how='all', inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Una alternativa para evitar perder todos los datos y solo eliminar renglones o columnas de acuerdo a la cantidad de datos perdidos que consideremos adecuada para borrarlos, se puede usar Threshold.

Alternativamente: usamos Threshold. 

Mantenga solo las filas con al menos 2 valores que  **NO SEAN** `nan`


In [20]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Al hacer thresh=4 indicamos que si hay almenos 4 datos validos, conservaremos el renglon, por lo que se eliminaran los renglones donde haya 2 o mas NaN, en este ejemplo.

In [21]:
ndf.dropna(thresh=4, inplace = True) # In a row, it needs at least 4 nan values is needed, to maintain in df
ndf # in case of column  add   axis=1 

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
4,Cooper,1.0,3.0,China,45.0


Defina en qué columnas buscar valores faltantes.

In [22]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Tambien se pueden eliminar columnas, en el siguiente ejemplo se eliminaran las columnas (haciendo axis =1) que no tengan al menos 5 datos validos (thresh=5)

In [23]:
ndf.dropna(thresh = 5,  #if there is not 5 nan values, the column will be eliminated 
           axis = 1, 
           inplace = True
           ) 
ndf 

Unnamed: 0,Company,Stars,Weight
0,Ford,1.0,2.0
1,Ford,2.0,4.0
2,VW,,2.0
3,BMW,2.0,2.0
4,Cooper,1.0,3.0
5,Cooper,1.0,


Para saber mas: 

https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html

### Solucion 2: 



para la solucion 2, usaremos tecnicas de sustitucioón de NaN por datos calculados, en este caso la media

In [24]:
ndf = df.copy()

Calculamos la media de la columna Weight del dataframe

In [25]:
wm = ndf.Weight.mean()
wm

2.6

reemplazamos los datos NaN con el valor medio, en este caso, el renglon 5 indica el peso medio de 2.6

In [26]:
df['Weight'].fillna(value = wm, 
                    inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,2.6,,


[Datos faltantes: dos grandes problemas con la imputación media](https://www.theanalysisfactor.com/mean-imputation/)

Ahora calculamos la media para la longitud, y sustituimos los valores NaN, ahora los renglones 3 y 5 muestran 42.5 como valor.

In [27]:
ndf['Length'].fillna(value = ndf.Length.median(), 
                    inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,42.5
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,2.6,,42.5


para el pais de origen, usaremos la moda.

In [28]:
mm  = ndf.Origin.mode()
mm

0     China
1    Mexico
dtype: object

Como moda hay 2 paises, seleccionaremos Mexico, correspondiente al elemento 1.

In [29]:
mm[1]

'Mexico'

reemplazamos los valores NaN de Origen por la moda seleccionada

In [30]:
ndf['Origin'].fillna(value = mm[1], #'NoPais', 
                    inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,Mexico,42.5
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,2.6,Mexico,42.5


Revisamos si siguen existiendo datos faltantes

In [31]:
ndf.isnull().values.any()

True

Retomamos el dataframe original

In [32]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Impute particular columns - 

Se puede borrar los renglones que tengan datos invalidos en de columnas que se especifiquen medinte subset, en en este caso, si Origin o Length tienen datos perdidos se eliminaran los renglones

In [33]:
ndf.dropna(subset=['Origin', 'Length'], inplace = True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
4,Cooper,1.0,3.0,China,45.0


retomamos el dataframe original

t

In [34]:
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Fill values in each column with favorite strategy: 

rellenamos el origen con la moda

In [35]:
ndf.Origin.mode()[0]

'China'

In [36]:
favs = {'Origin': ndf.Origin.mode()[0], 'Length': ndf['Length'].mean()}

rellenamos el origen con la moda y la longitud con la mediana, utilizando fillna (se especifica el dataframe, columna y valor)

In [37]:
ndf.Origin.fillna(ndf.Origin.mode()[0], inplace=True)
ndf.Length.fillna(ndf.Length.mean(), inplace=True)
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,China,41.25
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,China,41.25


more on `fillna` method : https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html

More on Imputing strategies: https://www.theanalysisfactor.com/seven-ways-to-make-up-data-common-methods-to-imputing-missing-data/

## ¿Cuándo es una mediana mejor en comparación con la media?

In [38]:
data = {'Salary':  [28, 30, 30, 35, 37, 40, 400]
}
adf = pd.DataFrame(data)
adf

Unnamed: 0,Salary
0,28
1,30
2,30
3,35
4,37
5,40
6,400


In [39]:
adf.describe()

Unnamed: 0,Salary
count,7.0
mean,85.714286
std,138.653903
min,28.0
25%,30.0
50%,35.0
75%,38.5
max,400.0


### Para seleccionar las columnas de la base de datos, puede usar la siguiente codigos: 



In [40]:
df = pd.read_csv('/content/data.csv', index_col=0)
ndf = df.copy()
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


** Syntaxis ** de loc & iloc

* loc : If you use, `loc`, use the `names`

> df.`loc` [ row-start:row-end,  column-start:column_end]  



* iloc : If you use, `loc`, use the `indices`

> df.`iloc` [row-start:row-end, column-start:columnEnd]  

obtener las columnas del dataframe

In [41]:
ndf.columns

Index(['Company', 'Stars', 'Weight', 'Origin', 'Length'], dtype='object')

ordena las columnas mediante sort

In [42]:
ndf.columns.sort_values()

Index(['Company', 'Length', 'Origin', 'Stars', 'Weight'], dtype='object')

se pueden tomar los datos del dataframe especificando de que renglon a que renglon y de que columna a que columna mediante loc, en este caso los renglones del 2 al 5 y columnad de company a Origin

In [43]:
ndf.loc[2:5 , 'Company':'Origin']  # rows 2 to 5, columns  'Company' to 'Origin'

Unnamed: 0,Company,Stars,Weight,Origin
2,VW,,2.0,Mexico
3,BMW,2.0,2.0,
4,Cooper,1.0,3.0,China
5,Cooper,1.0,,


se puede hacer una tupla de columnas, para despues solo seleccionarlas

In [44]:
favs = ['Stars', 'Weight', 'Origin']

mediante loc y la tupla de columnas podemos seleccionar los datos de los renglones del 2 al 5 y las columnas dentro de favs.

In [45]:
ndf.loc[2:5 , favs]

Unnamed: 0,Stars,Weight,Origin
2,,2.0,Mexico
3,2.0,2.0,
4,1.0,3.0,China
5,1.0,,


iloc es como el loc, pero solo acepta indices numericos, podemos mencionar de que renglon a que renglon o indicar explicitamente cuales acceder, en el siguiente ejemplo accedemos a los renglones del 2 al 5 y las columnas 1, 2 y 3

In [46]:
ndf.iloc[2:5, [1,2, 3]] # iloc  - so, indices

Unnamed: 0,Stars,Weight,Origin
2,,2.0,Mexico
3,2.0,2.0,
4,1.0,3.0,China


si checamos las columnas, podemos notar que no se eliminaron, siguen existiendo

In [47]:
ndf.columns

Index(['Company', 'Stars', 'Weight', 'Origin', 'Length'], dtype='object')

In [48]:
for i in ndf.columns:
  print(i)

Company
Stars
Weight
Origin
Length


In [49]:
ndf.head(4)

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,


para conocer los datos que hay en cada columna, filtrando los repetidos, se puede usar Unique.

In [50]:
ndf.Company.unique()

array(['Ford', 'VW', 'BMW', 'Cooper'], dtype=object)

mediante groupby se pueden hacer filtros, en este caso que agrupen y cuente (por añadir size) cuantos renglones hay con los parametros a agrupar, en este caso Company y Origin

In [51]:
df.groupby(['Company', 'Origin']).size()

Company  Origin
Cooper   China     1
Ford     China     1
         Mexico    1
VW       Mexico    1
dtype: int64

In [52]:
df[['Company', 'Origin']].value_counts()

Company  Origin
Cooper   China     1
Ford     China     1
         Mexico    1
VW       Mexico    1
dtype: int64

### Eliminar columns / Cambiar nombre de las columns

In [53]:
ndf

Unnamed: 0,Company,Stars,Weight,Origin,Length
0,Ford,1.0,2.0,China,40.0
1,Ford,2.0,4.0,Mexico,50.0
2,VW,,2.0,Mexico,30.0
3,BMW,2.0,2.0,,
4,Cooper,1.0,3.0,China,45.0
5,Cooper,1.0,,,


Borramos las columnas Stars y Origin si tienen datos perdidos

In [54]:
ndf2 = ndf.drop(['Stars', 'Origin',], axis = 1)
ndf2

Unnamed: 0,Company,Weight,Length
0,Ford,2.0,40.0
1,Ford,4.0,50.0
2,VW,2.0,30.0
3,BMW,2.0,
4,Cooper,3.0,45.0
5,Cooper,,


rename nos permite renombrar, en este caso columnas mediante un diccionario

In [55]:
ndf2.rename(columns = {'Company' : 'Empresa', 'Weight': 'Peso'}, inplace = True)
ndf2

Unnamed: 0,Empresa,Peso,Length
0,Ford,2.0,40.0
1,Ford,4.0,50.0
2,VW,2.0,30.0
3,BMW,2.0,
4,Cooper,3.0,45.0
5,Cooper,,


## Datos perdidos - Tener en cuenta

* Excluya las filas o características. 
* Cumpliméntelas con un valor estimado.

Errores de datos	Utilice recursos lógicos para descubrir errores manuales y corríjalos. O, excluya las características.


Incoherencias de codificación	Decida un esquema de codificación simple y convierta y sustituya los valores.


Metadatos perdidos o erróneos	Examine manualmente los campos sospechosos y compruebe el significado correcto.

# Crear un informe de limpieza de datos


Registrar sus actividades de limpieza de datos es esencial para registrar las modificaciones de los datos. 

Los futuros proyectos de minería de datos se beneficiarán de los detalles del trabajo disponible.


Es una excelente idea considerar las siguientes cuestiones cuando genere el informe:


* ¿Qué tipos de ruido se han producido en los datos?
* ¿Qué métodos utiliza para eliminar el ruido? 
    
    > ¿Qué técnicas han demostrado ser eficaces?

* ¿Existen casos o atributos que no se pueden recuperar? 
> Asegúrese de registrar los datos que se han excluido por causas del ruido.