# 11. Manipulación de datos

En Aprendizaje Automático es muy importante manipular las bases de datos. El éxito de un buen aprendizaje radica en la calidad de la base de datos que se tenga. En este documento explicaremos algunas funciones útiles para manipular datos.

In [1]:
#Importar librería de pandas

import pandas as pd

## 11.1 Unión de dataframes

Crearemos dos dataframes que compartan una columna y después las uniremos utilizando la función $merge()$:

1. Detecta automáticamente cual es la columna que se comparte y sólo tomará aquéllos valores compartidos:

        - pd.DataFrame.merge(df1, df2)   
    
2. Se define sobre qué columna unir los dataframes:

        - pd.DataFrame.merge(df1, df2, on = 'columna') 
        
3. Se define sobre qué columna unir los dataframes y además priorizar las columnas del lado izquierdo o del lado derecho correspondientes a los dataframes:

        - pd.DataFrame.merge(df1, df2, on = 'columna', how = 'left') 
        - pd.DataFrame.merge(df1, df2, on = 'columna', how = 'right') 

4. Se define sobre qué columna unir los dataframes y se incluyen todos los datos de los dos dataframes:

        - pd.DataFrame.merge(df1, df2, on = 'columna', how = 'outer') 

In [2]:
#Crear 2 dataframes

df1 = pd.DataFrame({'c1': ['1', '2', '3'], 'clave':['a', 'b', 'c']})
print(df1)

df2 = pd.DataFrame({'c2':['4', '5', '6'], 'clave': ['c', 'b', 'e']})
print(df2)


  c1 clave
0  1     a
1  2     b
2  3     c
  c2 clave
0  4     c
1  5     b
2  6     e


### 1. Utilizar la función merge() en sus 4 formas explicadas con df1 y df2.

In [5]:
df3 = pd.DataFrame.merge(df1, df2, on='clave', how='outer')
print(df3)


    c1 clave   c2
0    1     a  NaN
1    2     b    5
2    3     c    4
3  NaN     e    6


## 11.2 Concatenación de datos

A veces es necesario, manipular los datos y guardarlos en un array para ser manipulados posteriormente por los algoritmos de aprendizaje automático.

In [6]:
#Importar la librería numpy
import numpy as np

### 11.2.1 Concatenar arrays

Para concatenar arreglos tipo numpy utilizamos la función concatenate():

    matriz = np.concatenate([array1, array2])              #concatena de forma vertical
    matriz = np.concatenate([array1, array2], axis = 1)    #concatena de forma horizontal
    
### 2. Concatena la siguiente matriz de (3x3) dos veces utilizando la función concatenate() de numpy.

In [9]:
#Crear una matriz de 3x3, donde sus elementos sean del 0 al 9

array1 = np.arange(9).reshape(3,3)

array2 = np.arange(10,19).reshape(3,3)

print(array1)
print(array2)

[[0 1 2]
 [3 4 5]
 [6 7 8]]
[[10 11 12]
 [13 14 15]
 [16 17 18]]


In [11]:
#Concatenación vertical
matriz = np.concatenate([array1, array2])

print(matriz)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [10 11 12]
 [13 14 15]
 [16 17 18]]


In [13]:
# Concatenación horizontal
matriz = np.concatenate([array1, array2], axis=1)
print(matriz)


[[ 0  1  2 10 11 12]
 [ 3  4  5 13 14 15]
 [ 6  7  8 16 17 18]]


### 11.2.2 Concatenar Dataframes

Para concatenar DFs utilizamos la función concat():

    df3 = pd.concat([df1, df2])    #concatena de forma vertical y conserva los índices
    df3 = pd.concat([df1, df2], ignore_index = True)    #concatena de forma vertical ignorando los índices
    
### 3. Concatena los siguientes DFs dos veces utilizando la función concat() de pandas

In [14]:
#Crear dataframes
import pandas as pd

df1 = pd.DataFrame(np.random.rand(3,3), columns = ['a','b','c'])
df2 = pd.DataFrame(np.random.rand(2,3), columns = ['a','b','c'])
print(df1)
print(df2)

          a         b         c
0  0.160321  0.478743  0.597957
1  0.974334  0.013990  0.534157
2  0.993237  0.917239  0.839520
          a         b         c
0  0.023940  0.288345  0.159451
1  0.656443  0.213021  0.631243


In [15]:
#Concatenar los dataframes
df3 = pd.concat([df1, df2])
print(df3)


          a         b         c
0  0.160321  0.478743  0.597957
1  0.974334  0.013990  0.534157
2  0.993237  0.917239  0.839520
0  0.023940  0.288345  0.159451
1  0.656443  0.213021  0.631243


In [16]:
#Concatenar los dataframes ignorando los índices
df3 = pd.concat([df1, df2], ignore_index=True)
print(df3)


          a         b         c
0  0.160321  0.478743  0.597957
1  0.974334  0.013990  0.534157
2  0.993237  0.917239  0.839520
3  0.023940  0.288345  0.159451
4  0.656443  0.213021  0.631243


## 11.3 Combinar Dataframes

De forma similar se pueden combinar dos dataframes, tomando como prioridad uno de ellos y el otro sólo utilizarlo para rellenar espacios con datos nulos, se utiliza la función combine() de pandas:

    df3 = df1.combine_first(df2)

### 4. Combina los siguientes DFs

In [17]:
#Crear dos dataframes
lista_valores = [1, 2, np.nan]
df1 = pd.DataFrame(lista_valores)

lista_valores_2 = [4, 5, 6]
df2 = pd.DataFrame(lista_valores_2)

In [19]:
#Combinar dataframes df1 con df2
df3 = df1.combine_first(df2)

print(df3)


     0
0  1.0
1  2.0
2  6.0


## 11.4 Eliminar duplicados en Dataframes

Para eliminar registros duplicados utilizamos:

    - df2 = df.drop_duplicates()                  #Para eliminar filas duplicadas
    
    - df2 = df.drop_duplicates(['columna1'])      #Para eliminar valores duplicados por columnas
    
    - df2 = df.drop_duplicates(['columna1'], keep = 'last')  #Para eliminar duplicados por columna pero manteniendo el último valor 
   
### 5. Codifica las instrucciones anteriores para el siguiente dataframe:

In [20]:
#Crear dataframe
lista_valores = [[1, 2], [1, 2], [5, 6], [5, 8]]
lista_indices = list('mnop')
lista_columnas = ['valor1', 'valor2']
df = pd.DataFrame(lista_valores, lista_indices, lista_columnas)
df

Unnamed: 0,valor1,valor2
m,1,2
n,1,2
o,5,6
p,5,8


In [21]:
#Eliminar filas duplicadas

df2 = df.drop_duplicates()
print(df2)


   valor1  valor2
m       1       2
o       5       6
p       5       8


In [23]:
#Eliminar duplicados por columna
df2 = df.drop_duplicates(['valor1'])
print(df2)


   valor1  valor2
m       1       2
o       5       6


In [24]:
#Eliminar duplicados por columna pero manteniendo el último valor
df2 = df.drop_duplicates(['valor1'], keep='last')
print(df2)

   valor1  valor2
n       1       2
p       5       8


## 11.5 Agrupar datos en categorías

En muchos problemas de Machine Learning, cuando se están manipulando los datos, a veces es necesario contar los datos por categorías. Una forma de hacerlo es con las siguientes instrucciones.

- Sea 'data' una lista que contiene los datos a categorizar
- Sea 'rank' una lista que contiene los rangos que se utilizarán para categorizar

1. Primero se determinan las categorías numéricas a utilizar:

        categories = pd.cut(data, rank) 

2. Se cuentan los valores dentro de las categorías:

        coonteo_por_categorias = pd.value_counts(categories)


### 6. Realice el conteo por categorías de la siguiente lista de precios y rango de categorías:

    precios = [42, 55, 48, 23, 5, 21, 88, 34, 26, 97, 62, 78, 15, 35, 25, 46]
    rango = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]
    

In [29]:
import pandas as pd

precios = [42, 55, 48, 23, 5, 21, 88, 34, 26, 97, 62, 78, 15, 35, 25, 46]
rango = [10, 20, 30, 40, 50, 60, 70, 80, 90, 100]

categories = pd.cut(precios, rango)

print(categories)

coonteo_por_categoria = pd.value_counts(categories)

print(coonteo_por_categoria)

[(40.0, 50.0], (50.0, 60.0], (40.0, 50.0], (20.0, 30.0], NaN, ..., (70, 80], (10, 20], (30, 40], (20, 30], (40, 50]]
Length: 16
Categories (9, interval[int64, right]): [(10, 20] < (20, 30] < (30, 40] < (40, 50] ... (60, 70] < (70, 80] < (80, 90] < (90, 100]]
(20, 30]     4
(40, 50]     3
(30, 40]     2
(10, 20]     1
(50, 60]     1
(60, 70]     1
(70, 80]     1
(80, 90]     1
(90, 100]    1
dtype: int64
