# Transformación de datos

La transformación de datos es un conjunto de técnicas utilizadas para convertir datos de un formato o estructura a otro formato o estructura. La principal razón para transformar los datos es obtener una mejor representación de modo que los datos transformados sean compatibles con otros datos. Además de esto, la interoperabilidad en un sistema se puede lograr siguiendo una estructura y formato de datos comunes.


##  Concatenación y unión de dataframes

Pandas ofrece dos principales funciones con este objetivo: `pandas.concat` y `pandas.merge`.

La función `concat` permite concatenar dataframes a lo largo de un determinado eje
La función `merge` permite realizar uniones (joins) entre dataframes tal y como se realizan en bases de datos. Esta función también está disponible como método: pandas.DataFrame.merge

Hay una tercera función que está disponible solo como método: 
pandas.DataFrame.append. El método `append` ofrece una funcionalidad semejante a la de la función concat pero reducida. Así, por ejemplo, solo permite realizar concatenaciones a lo largo del eje 0 (es decir, verticalmente).

La función `pandas.concat` es la responsable de concatenar dos o más dataframes (y de todas las estructuras provenientes de pandas) a lo largo de un eje, con soporte a lógica de conjuntos a la hora de gestionar etiquetas en ejes no coincidentes. Veamos un ejemplo

In [1]:
import pandas as pd
import numpy as np

# Combinando dataframes



In [2]:
dataFrame1 =  pd.DataFrame({ 'StudentID': [1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 
                                           21, 23, 25, 27, 29], 
                            'Nota' : [89, 39, 50, 97, 22, 66, 31, 51, 71, 91, 
                                       56, 32, 52, 73, 92]})
dataFrame2 =  pd.DataFrame({'StudentID': [2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 
                                          22, 24, 26, 28, 30], 
                            'Nota': [98, 93, 44, 77, 69, 56, 31, 53, 78, 93, 
                                      56, 77, 33, 56, 27]})

In [3]:
dataFrame1

Unnamed: 0,StudentID,Nota
0,1,89
1,3,39
2,5,50
3,7,97
4,9,22
5,11,66
6,13,31
7,15,51
8,17,71
9,19,91


En el conjunto de datos anterior, la primera columna contiene información 
sobre el identificador del estudiante y la segunda columna contiene sus 
puntajes respectivos en cualquier materia. La estructura del data frame es 
la misma en ambos casos. En este caso, tendríamos que concatenar ambos.

In [4]:
# Podemos hacer uso de concat() de pandas.

dataframe = pd.concat([dataFrame1, dataFrame2], ignore_index=True, axis=0)
dataframe

Unnamed: 0,StudentID,Nota
0,1,89
1,3,39
2,5,50
3,7,97
4,9,22
5,11,66
6,13,31
7,15,51
8,17,71
9,19,91


El argumento ignore_index crea un nuevo índice y su ausencia mantiene los índices originales. Tenga en cuenta que combinamos los data frame a lo largo del *axis = 0*, es decir, los combinamos en la misma dirección (sentido vertical). ¿Qué pasa si queremos combinar ambos lado a lado? Luego tenemos que especificar *axis = 1* (sentido horizontal). Verifique la salida y vea la diferencia.

In [5]:
pd.concat([dataFrame1, dataFrame2], axis=1)

Unnamed: 0,StudentID,Nota,StudentID.1,Nota.1
0,1,89,2,98
1,3,39,4,93
2,5,50,6,44
3,7,97,8,77
4,9,22,10,69
5,11,66,12,56
6,13,31,14,31
7,15,51,16,53
8,17,71,18,78
9,19,91,20,93


# Unión

En el primer ejemplo, recibió dos archivos para el mismo tema. Ahora, considere el caso de dos cursos. Por lo tanto, obtendrá dos data frame de cada sección: dos para el curso de ingeniería de software y otros dos para el curso de introducción al aprendizaje automático.

In [6]:
df1SE = pd.DataFrame({ 'StudentID': [9, 11, 13, 15, 17, 19, 21, 23, 25, 27, 29], 
                      'NotaIS' : [22, 66, 31, 51, 71, 91, 56, 32, 52, 73, 92]})
df2SE = pd.DataFrame({'StudentID': [2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24, 
                                    26, 28, 30], 
                      'NotaIS': [98, 93, 44, 77, 69, 56, 31, 53, 78, 93, 56, 
                                  77, 33, 56, 27]})

df1ML = pd.DataFrame({ 'StudentID': [1, 3, 5, 7, 9, 11, 13, 15, 17, 19, 21, 23, 
                                     25, 27, 29], 
                      'NotaML' : [39, 49, 55, 77, 52, 86, 41, 77, 73, 51, 86, 
                                   82, 92, 23, 49]})
df2ML = pd.DataFrame({'StudentID': [2, 4, 6, 8, 10, 12, 14, 16, 18, 20], 
                      'NotaML': [93, 44, 78, 97, 87, 89, 39, 43, 88, 78]})

Como puede ver en el conjunto de datos anterior, tiene dos data frame para cada curso. Así que la primera tarea sería concatenar estos dos cursos en uno solo. En segundo lugar, estos estudiantes también han tomado el curso Introducción al aprendizaje automático. Entonces, necesitamos unir estos puntajes en los mismos data frame. Hay varias formas de hacer esto. Exploremos algunas opciones.

### Concatenación a lo largo del eje

In [7]:
# Opción 1
dfSE = pd.concat([df1SE, df2SE], ignore_index=True)
dfML = pd.concat([df1ML, df2ML], ignore_index=True)

df = pd.concat([dfML, dfSE], axis=1)
df

Unnamed: 0,StudentID,NotaML,StudentID.1,NotaIS
0,1.0,39.0,9,22
1,3.0,49.0,11,66
2,5.0,55.0,13,31
3,7.0,77.0,15,51
4,9.0,52.0,17,71
5,11.0,86.0,19,91
6,13.0,41.0,21,56
7,15.0,77.0,23,32
8,17.0,73.0,25,52
9,19.0,51.0,27,73


### Uso de df.merge con una unión interna

 Aquí, realizará una unión interna con cada data frame. Es decir, 
 si existe un elemento en ambos data frame, se incluirá en el nuevo 
 data frame. Esto significa que obtendremos la lista de estudiantes 
que aparecen en ambos cursos.

In [8]:
# Opción 2
dfSE = pd.concat([df1SE, df2SE], ignore_index=True)
dfML = pd.concat([df1ML, df2ML], ignore_index=True)

df = dfSE.merge(dfML, how='inner', sort=True)
df

Unnamed: 0,StudentID,NotaIS,NotaML
0,2,98,93
1,4,93,44
2,6,44,78
3,8,77,97
4,9,22,52
5,10,69,87
6,11,66,86
7,12,56,89
8,13,31,41
9,14,31,39


Ahora sabemos que hay 21 estudiantes que tomaron ambos cursos.

### Uso del método pd.merge() con una combinación a la izquierda

In [9]:
# Opción 3
dfSE = pd.concat([df1SE, df2SE], ignore_index=True)
dfML = pd.concat([df1ML, df2ML], ignore_index=True)

df = dfSE.merge(dfML, how='left')
df

Unnamed: 0,StudentID,NotaIS,NotaML
0,9,22,52.0
1,11,66,86.0
2,13,31,41.0
3,15,51,77.0
4,17,71,73.0
5,19,91,51.0
6,21,56,86.0
7,23,32,82.0
8,25,52,92.0
9,27,73,23.0


Al observar la tabla sabremos cuántos estudiantes solo aparecieron para el curso de Ingeniería de Software. El número total sería de 26. Tenga en cuenta que estos estudiantes no se presentaron al examen de aprendizaje automático y, por lo tanto, sus puntajes están marcados como **NaN**.

### Uso del método pd.merge() con una combinación a la derecha


In [10]:
# Opción 4
dfSE = pd.concat([df1SE, df2SE], ignore_index=True)
dfML = pd.concat([df1ML, df2ML], ignore_index=True)

df = dfSE.merge(dfML, how='right')
df

Unnamed: 0,StudentID,NotaIS,NotaML
0,1,,39
1,3,,49
2,5,,55
3,7,,77
4,9,22.0,52
5,11,66.0,86
6,13,31.0,41
7,15,51.0,77
8,17,71.0,73
9,19,91.0,51


### Uso de métodos pd.merge() con unión externa

Esta es la quinta opción. Finalmente, queremos saber el número total de estudiantes que se presentan al menos a un curso. Esto se puede hacer usando una unión externa:

In [11]:
# Opción 5
dfSE = pd.concat([df1SE, df2SE], ignore_index=True)
dfML = pd.concat([df1ML, df2ML], ignore_index=True)

df = dfSE.merge(dfML, how='outer', sort=True)
df

Unnamed: 0,StudentID,NotaIS,NotaML
0,1,,39.0
1,2,98.0,93.0
2,3,,49.0
3,4,93.0,44.0
4,5,,55.0
5,6,44.0,78.0
6,7,,77.0
7,8,77.0,97.0
8,9,22.0,52.0
9,10,69.0,87.0


## Unión en el índice

A veces, las claves para combinar dataframe se encuentran en el índice del dataframe. En tal situación, podemos pasar `left_index=True` o `right_index=True` para indicar que el índice debe aceptarse como clave de unión

Consideremos los siguientes dos dataframes

In [12]:
left1 = pd.DataFrame({'key': ['apple','ball','apple', 'apple','ball', 'cat'], 
                      'value': range(6)})
right1 = pd.DataFrame({'group_val': [33.4, 5]}, index=['apple','ball'])

Al concatenar los dos dataframes, el resultado tiene el siguiente aspecto

In [13]:
df=pd.concat([left1,right1], axis=1)
df

Unnamed: 0,key,value,group_val
0,apple,0.0,
1,ball,1.0,
2,apple,2.0,
3,apple,3.0,
4,ball,4.0,
5,cat,5.0,
apple,,,33.4
ball,,,5.0


Tenga en cuenta que las claves del primer dataframe son **apple, ball** y **cat**. En el segundo dataframe, tenemos valores de grupo para las claves **apple** y **ball**.


Ahora, consideremos dos casos diferentes. En primer lugar, intentemos fusionar usando una **unión interna**, que es el tipo predeterminado de unión. En este caso, la unión predeterminada es la **intersección** de las claves. Compruebe el siguiente código de ejemplo:


In [14]:
df = pd.merge(left1, right1, left_on='key', right_index=True)
df

Unnamed: 0,key,value,group_val
0,apple,0,33.4
2,apple,2,33.4
3,apple,3,33.4
1,ball,1,5.0
4,ball,4,5.0


El resultado es la intersección de las claves de estos dataframe. Dado que no hay una clave **cat** en el segundo dataframe, no se incluye en la tabla final.


Intentemos fusionar usando una unión externa, de la siguiente manera:


In [15]:
df = pd.merge(left1, right1, left_on='key', right_index=True, how='outer') 
df


Unnamed: 0,key,value,group_val
0,apple,0,33.4
2,apple,2,33.4
3,apple,3,33.4
1,ball,1,5.0
4,ball,4,5.0
5,cat,5,


Tenga en cuenta que la última fila incluye la clave **cat**. Esto se debe a la unión externa.


## Reorganizando y pivotando

Durante EDA, a menudo necesitamos reorganizar los datos en un dataframe de alguna manera consistente. Esto se puede hacer con la indexación jerárquica utilizando dos acciones:

- **Apilamiento (stacking)**: La pila rota desde cualquier columna particular de los datos a las filas. 

- **Desapilamiento (unstacking)**: Desapilar gira de las filas a la columna.

Veremos el siguiente ejemplo:


In [16]:
data = np.arange(15).reshape((3,5)) 
indexers = ['Rainfall', 'Humidity', 'Wind']
dframe1 = pd.DataFrame(data, index=indexers,
                       columns=['Bergen','Oslo', 'Trondheim', 
                                'Stavanger', 'Kristiansand'])
dframe1

Unnamed: 0,Bergen,Oslo,Trondheim,Stavanger,Kristiansand
Rainfall,0,1,2,3,4
Humidity,5,6,7,8,9
Wind,10,11,12,13,14


Ahora, usando el método `stack()` en el dframe1 anterior, podemos pivotar las columnas en filas para producir una serie:

In [17]:
stacked = dframe1.stack() 
stacked

Rainfall  Bergen           0
          Oslo             1
          Trondheim        2
          Stavanger        3
          Kristiansand     4
Humidity  Bergen           5
          Oslo             6
          Trondheim        7
          Stavanger        8
          Kristiansand     9
Wind      Bergen          10
          Oslo            11
          Trondheim       12
          Stavanger       13
          Kristiansand    14
dtype: int32

Las series anteriores almacenadas sin apilar en la variable se pueden reorganizar en un marco de datos utilizando el método `unstack()`: 

`stacked.unstack()`

Esto debería revertir la serie en el dataframe original. Tenga en cuenta que existe la posibilidad de que el desapilamiento crea datos faltantes si todos los valores no están presentes en cada uno de los subgrupos. Veamos dos series, *series1* y *series2*, y luego concatenarlas. Hasta ahora, todo tiene sentido.

Ahora, vamos a desapilar la frame concatenado

In [18]:
serie1=pd.Series([000, 111, 222, 333],index=['ceros','unos','dos', 'tres'])
serie2=pd.Series([444, 555, 666], index=['cuatros', 'cincos', 'seises'])
frame2=pd.concat([serie1, serie2], keys=['Numero1', 'Numero2']) 

frame2.unstack()


Unnamed: 0,ceros,cincos,cuatros,dos,seises,tres,unos
Numero1,0.0,,,222.0,,333.0,111.0
Numero2,,555.0,444.0,,666.0,,


Dado que en la `serie1`, no hay cuatros, cincos y seises, sus valores se almacenan como **NaN** durante el proceso de desapilamiento. Del mismo modo, no hay unos, dos y ceros en la `serie2`, por lo que los valores correspondientes se almacenan como **NaN**.

## Técnicas de transformación

Ahora, profundicemos más en cómo podemos realizar otros tipos de transformaciones de datos, incluida la limpieza, el filtrado, la deduplicación y otros.


### Realización de la desduplicación de datos

Es muy probable que el dataframe contenga filas duplicadas. Eliminarlos es esencial para mejorar la calidad del conjunto de datos. Esto se puede hacer con los siguientes pasos:

Consideremos un dataframe simple, de la siguiente manera:

In [19]:
frame3 = pd.DataFrame({'columna 1': ['Bucleando']*3 + ['Funciones']*4, 
                       'columna 2': [10, 10, 22, 23, 23, 24, 24]})
frame3

Unnamed: 0,columna 1,columna 2
0,Bucleando,10
1,Bucleando,10
2,Bucleando,22
3,Funciones,23
4,Funciones,23
5,Funciones,24
6,Funciones,24


El código anterior crea un dataframe simple con dos columnas. Puede ver claramente que en ambas columnas, hay algunas entradas duplicadas:

El dataframe *pandas* viene con un método duplicated() que devuelve una serie booleana que indica cuáles de las filas son duplicadas: 

In [20]:
frame3.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
dtype: bool

Las filas que dice **True** son las que contienen datos duplicados.

Ahora, podemos eliminar estos duplicados usando el método `drop_duplicates()`:

In [21]:
frame4 = frame3.drop_duplicates()
frame4

Unnamed: 0,columna 1,columna 2
0,Bucleando,10
2,Bucleando,22
3,Funciones,23
5,Funciones,24


Tenga en cuenta que se quitan las filas 1, 4 y 6. Básicamente, los métodos *duplicated()* y *drop_duplicates()* consideran todas las columnas para la comparación. En lugar de todas las columnas, podríamos especificar cualquier subconjunto de las columnas para detectar elementos duplicados.

Agreguemos una nueva columna e intentemos encontrar elementos duplicados basados en la segunda columna:

In [22]:
frame3['columna 3'] = range(7)
frame5 = frame3.drop_duplicates(['columna 2'])
frame5


Unnamed: 0,columna 1,columna 2,columna 3
0,Bucleando,10,0
2,Bucleando,22,2
3,Funciones,23,3
5,Funciones,24,5


Tenga en cuenta que tanto el método *duplicated* y el *drop_duplicates* mantienen el primero observado durante el proceso de eliminación de duplicación. Si pasamos el argumento `take_last=True`, los métodos devuelven el último.

### Sustitución de valores

A menudo, es esencial encontrar y reemplazar algunos valores dentro de un dataframe. Esto se puede hacer con los siguientes pasos:

Ahora usamos el método `replace` en tal caso

In [23]:
import numpy as np
replaceFrame = pd.DataFrame({'columna 1': [200., 3000., -786., 3000., 234., 
                                          444., -786., 332., 3332. ], 
                             'columna 2': range(9)}) 
replaceFrame.replace(to_replace =-786, value= np.nan)


Unnamed: 0,columna 1,columna 2
0,200.0,0
1,3000.0,1
2,,2
3,3000.0,3
4,234.0,4
5,444.0,5
6,,6
7,332.0,7
8,3332.0,8


Note que acabamos de reemplazar un valor con los otros valores. También podemos reemplazar varios valores a la vez.

Para ello, lo mostramos mediante una lista:

In [24]:
replaceFrame = pd.DataFrame({'columna 1': [200., 3000., -786., 3000., 
                                          234., 444., -786., 332., 3332. ], 
                             'columna 2': range(9)}) 
replaceFrame.replace(to_replace =[-786, 0], value= [np.nan, 2])

Unnamed: 0,columna 1,columna 2
0,200.0,2
1,3000.0,1
2,,2
3,3000.0,3
4,234.0,4
5,444.0,5
6,,6
7,332.0,7
8,3332.0,8


En el código anterior, hay dos reemplazos. Todos los valores *-786* serán reemplazados por *NaN* y todos los valores *0* serán reemplazados por *2*.

### Manejo de datos faltantes

Siempre que faltan valores, se utiliza un valor **NaN**, que indica que no hay ningún valor especificado para ese índice en particular. Podría haber varias razones por las que un valor podría ser NaN:

- Puede ocurrir cuando los datos se recuperan de un origen externo y hay algunos valores incompletos en el conjunto de datos.

- También puede suceder cuando unimos dos conjuntos de datos diferentes y algunos valores no coinciden.

- Faltan valores debido a errores de recopilación de datos.

- Cuando la forma de los datos cambia, hay nuevas filas o columnas adicionales que no están determinadas.

- La reindexación de datos puede dar lugar a datos incompletos. 

Veamos cómo podemos trabajar con los datos que faltan:

In [25]:
data = np.arange(15, 30).reshape(5, 3)
dfx = pd.DataFrame(data, index=['manzana', 'banano', 'kiwi', 
                                'uva', 'mango'], 
                   columns=['tienda1', 'tienda2', 'tienda3']) 
dfx

Unnamed: 0,tienda1,tienda2,tienda3
manzana,15,16,17
banano,18,19,20
kiwi,21,22,23
uva,24,25,26
mango,27,28,29


Supongamos que tenemos una cadena de tiendas de frutas por toda la ciudad. Actualmente, el dataframe muestra las ventas de diferentes frutas de diferentes tiendas. Ninguna de las tiendas informa de valores faltantes.

Agreguemos algunos valores faltantes a nuestro dataframe:

In [26]:
dfx['tienda4'] = np.nan
dfx.loc['sandia'] = np.arange(15, 19)
dfx.loc['naranja'] = np.nan 
dfx['tienda5'] = np.nan 
dfx['tienda4']['manzana'] = 20. 
dfx

Unnamed: 0,tienda1,tienda2,tienda3,tienda4,tienda5
manzana,15.0,16.0,17.0,20.0,
banano,18.0,19.0,20.0,,
kiwi,21.0,22.0,23.0,,
uva,24.0,25.0,26.0,,
mango,27.0,28.0,29.0,,
sandia,15.0,16.0,17.0,18.0,
naranja,,,,,


Tenga en cuenta las siguientes características de los valores que faltan en el dataframe anterior:

- Una fila entera puede contener valores *NaN*. 
- Una columna completa puede contener valores *NaN*. 
- Algunos valores (pero no necesariamente todos) tanto en una fila como en una columna pueden ser *NaN*.

Basándonos en estas características, examinemos los valores de *NaN* en la siguiente sección.


### Valores de NaN en objetos pandas

Podemos usar la función `isnull()` de la librería pandas para identificar valores de *NaN*:

Compruebe el siguiente ejemplo:

In [27]:
dfx.isnull()

Unnamed: 0,tienda1,tienda2,tienda3,tienda4,tienda5
manzana,False,False,False,False,True
banano,False,False,False,True,True
kiwi,False,False,False,True,True
uva,False,False,False,True,True
mango,False,False,False,True,True
sandia,False,False,False,False,True
naranja,True,True,True,True,True


los valores *True* indican los valores que son *NaN*. Alternativamente, también podemos usar el método `notnull()` para hacer lo mismo. La única diferencia sería que la función indicará *True* para los valores que no son nulos.

In [28]:
dfx.notnull()

Unnamed: 0,tienda1,tienda2,tienda3,tienda4,tienda5
manzana,True,True,True,True,False
banano,True,True,True,False,False
kiwi,True,True,True,False,False
uva,True,True,True,False,False
mango,True,True,True,False,False
sandia,True,True,True,True,False
naranja,False,False,False,False,False


Podemos usar el método `sum()` para contar el número de valores *NaN* en cada tienda.

In [29]:
dfx.isnull().sum()

tienda1    1
tienda2    1
tienda3    1
tienda4    5
tienda5    7
dtype: int64

El hecho de que *True* es 1 y *False* es 0 es la lógica principal para sumar. Los resultados anteriores muestran que *tienda1, tienda2* y *tienda3* no notificaron un valor. Cinco valores no fueron reportados por *tienda4* y siete valores no fueron reportados por *tienda5*

Podemos ir un nivel más profundo para encontrar el número total de valores que faltan:

In [30]:
dfx.isnull().sum().sum()

15

Esto indica 15 valores faltantes en nuestras tiendas. Podemos usar una forma alternativa de encontrar cuántos valores se informaron realmente.

Entonces, en lugar de contar el número de valores faltantes, podemos contar el número de valores reportados:


In [31]:
 dfx.count()

tienda1    6
tienda2    6
tienda3    6
tienda4    2
tienda5    0
dtype: int64

### Eliminación de valores que faltan

Una de las formas de manejar los valores faltantes es simplemente eliminarlos de nuestro conjunto de datos. Hemos visto que podemos usar las funciones `isnull()` y `notnull()` de la librería pandas para determinar valores nulos:


In [32]:
dfx.tienda4[dfx.tienda4.notnull()]

manzana    20.0
sandia     18.0
Name: tienda4, dtype: float64

El resultado muestra que *tienda4* solo informó dos elementos de datos. Ahora, podemos usar el método dropna() para eliminar las filas:


In [33]:
dfx.tienda4.dropna()

manzana    20.0
sandia     18.0
Name: tienda4, dtype: float64

El método `dropna()` simplemente devuelve una copia del dataframe eliminando las filas con *NaN*. El dataframe original no se cambia.  

Si dropna() se aplica a todo el dataframe, eliminará todas las filas del dataframe, cuando hay al menos un valor de *NaN* en nuestro dataframe: 

In [34]:
dfx.dropna()

Unnamed: 0,tienda1,tienda2,tienda3,tienda4,tienda5


El resultado es un dataframe vacio

#### Colocación por filas

También podemos colocar filas que tengan valores *NaN*. Para hacerlo, podemos usar el argumento `how=all` para eliminar solo aquellos valores enteros de filas que son completamente *NaN*:


In [35]:
dfx.dropna(how='all')

Unnamed: 0,tienda1,tienda2,tienda3,tienda4,tienda5
manzana,15.0,16.0,17.0,20.0,
banano,18.0,19.0,20.0,,
kiwi,21.0,22.0,23.0,,
uva,24.0,25.0,26.0,,
mango,27.0,28.0,29.0,,
sandia,15.0,16.0,17.0,18.0,


Sola la fila naranja fue removida porque esta la fila entera contenía valores *NaN*.

#### Colocación por columnas

Además, también podemos pasar *axis=1* para indicar una comprobación de *NaN* por columnas.
Compruebe el siguiente ejemplo:

In [36]:
dfx.dropna(how='all', axis=1)

Unnamed: 0,tienda1,tienda2,tienda3,tienda4
manzana,15.0,16.0,17.0,20.0
banano,18.0,19.0,20.0,
kiwi,21.0,22.0,23.0,
uva,24.0,25.0,26.0,
mango,27.0,28.0,29.0,
sandia,15.0,16.0,17.0,18.0
naranja,,,,


*Tienda5* se elimina del dataframe. Al pasar en axis=1, estamos instruyendo a *pandas* para que eliminen columnas si todos los valores de la columna son *NaN*. Además, también podemos pasar otro argumento, `thresh`, para especificar un número mínimo de *NaNs* que deben existir antes de que se elimine la columna:

In [37]:
dfx.dropna(thresh=5, axis=1)

Unnamed: 0,tienda1,tienda2,tienda3
manzana,15.0,16.0,17.0
banano,18.0,19.0,20.0
kiwi,21.0,22.0,23.0
uva,24.0,25.0,26.0
mango,27.0,28.0,29.0
sandia,15.0,16.0,17.0
naranja,,,


## Operaciones matemáticas con NaN

Pandas y las bibliotecas numpy manejan los valores de *NaN* de manera diferente para las operaciones matemáticas.


In [75]:
ar1 = np.array([100, 200, np.nan, 300]) 
ser1 = pd.Series(ar1)
ar1.mean(), ser1.mean()

(nan, 200.0)

Tenga en cuenta lo siguiente:
    
Cuando una función *NumPy* encuentra valores *NaN*, devuelve *NaN*.

Pandas, por otro lado, ignora los valores de *NaN* y sigue adelante con el procesamiento. Al realizar la operación de suma, *NaN* se trata como 0. Si todos los valores son *NaN*, el resultado también es *NaN*.

Calculemos la cantidad total de frutas vendidas por tienda4:

In [39]:
ser2 = dfx.tienda4 
ser2.sum()

38.0

Del mismo modo, podemos calcular promedios como se muestra aquí:

In [40]:
ser2.mean()

19.0

Los *NaN* se tratan como 0s. Es lo mismo para la suma acumulativa: 

In [41]:
ser2.cumsum()

manzana    20.0
banano      NaN
kiwi        NaN
uva         NaN
mango       NaN
sandia     38.0
naranja     NaN
Name: tienda4, dtype: float64

Note que solo los valores reales se ven afectados al calcular la suma acumulada.

### Rellenar los valores que faltan

Podemos usar el método `fillna()` para reemplazar los valores de *NaN* con cualquier valor particular.


In [80]:
filledDf=dfx.fillna(0)
filledDf

Unnamed: 0,tienda1,tienda2,tienda3,tienda4,tienda5
manzana,15.0,16.0,17.0,20.0,0.0
banano,18.0,19.0,20.0,0.0,0.0
kiwi,21.0,22.0,23.0,0.0,0.0
uva,24.0,25.0,26.0,0.0,0.0
mango,27.0,28.0,29.0,0.0,0.0
sandia,15.0,16.0,17.0,18.0,0.0
naranja,0.0,0.0,0.0,0.0,0.0


Todos los valores de *NaN* se reemplazan por 0. Reemplazar los valores con 0 afectará a varias estadísticas, incluidas la media, la suma y la mediana.

In [81]:
dfx.mean()

tienda1    20.0
tienda2    21.0
tienda3    22.0
tienda4    19.0
tienda5     NaN
dtype: float64

In [44]:
filledDf.mean()

tienda1    17.142857
tienda2    18.000000
tienda3    18.857143
tienda4     5.428571
tienda5     0.000000
dtype: float64

Por lo tanto, llenar con 0 podría no ser la solución óptima.


### Llenado hacia atrás y hacia adelante

Los valores de *NaN* se pueden rellenar en función de los últimos valores conocidos. Para entender esto, consideremos tomar nuestro dataframe de almacén como ejemplo.

Queremos llenar tienda4 utilizando la técnica de llenado hacia adelante:

In [45]:
dfx.tienda4.fillna(method='ffill')

manzana    20.0
banano     20.0
kiwi       20.0
uva        20.0
mango      20.0
sandia     18.0
naranja    18.0
Name: tienda4, dtype: float64

Aquí, desde la técnica de llenado hacia adelante, el último valor conocido es 20 y, por lo tanto, el resto de los valores de *NaN* se reemplazan por él. 
La dirección del relleno se puede cambiar cambiando `method='bfill'`. Compruebe lo siguiente

In [46]:
dfx.tienda4.fillna(method='bfill')

manzana    20.0
banano     18.0
kiwi       18.0
uva        18.0
mango      18.0
sandia     18.0
naranja     NaN
Name: tienda4, dtype: float64

 Aquí los valores de *NaN* se reemplazan por 18.0.

### Interposición de valores faltantes

La biblioteca pandas proporciona la función `interpolate()` tanto para la serie como para el dataframe. Por defecto, realiza una interpolación lineal de nuestros valores faltantes. Compruebe el siguiente ejemplo:


In [47]:
ser3 = pd.Series([100, np.nan, np.nan, np.nan, 292]) 
ser3.interpolate()

0    100.0
1    148.0
2    196.0
3    244.0
4    292.0
dtype: float64

Se pregunta cómo se calculan estos valores? Bueno, se hace tomando el primer valor antes y después de cualquier secuencia de los valores de NaN. En la serie anterior, *ser3*, el primer y el último valor son 100 y 292 respectivamente. Por lo tanto, calcula el siguiente valor como (292-100)/(5-1) = 48. Entonces, el siguiente valor después de 100 es 100 + 48 = 148.

### Renombrar el índices de ejes

Supongamos que desea transformar los términos del índice en mayúsculas en el dframe1, que vimos antes

In [83]:
dframe1.index=dframe1.index.map(str.upper)
dframe1

Unnamed: 0,Bergen,Oslo,Trondheim,Stavanger,Kristiansand
RAINFALL,0,1,2,3,4
HUMIDITY,5,6,7,8,9
WIND,10,11,12,13,14


Los índices se han capitalizado. Si queremos crear una versión transformada del dataframe, entonces podemos usar el método `rename()`. Este método es útil cuando no queremos modificar los datos originales. Compruebe el siguiente ejemplo: 


In [86]:
dframe1.rename(index=str.upper, columns=str.upper)

Unnamed: 0,BERGEN,OSLO,TRONDHEIM,STAVANGER,KRISTIANSAND
RAINFALL,0,1,2,3,4
HUMIDITY,5,6,7,8,9
WIND,10,11,12,13,14


 método `rename` no hace una copia del dataframe.

In [87]:
dframe1

Unnamed: 0,Bergen,Oslo,Trondheim,Stavanger,Kristiansand
RAINFALL,0,1,2,3,4
HUMIDITY,5,6,7,8,9
WIND,10,11,12,13,14


### Discretización y agrupamiento

A menudo, cuando trabajamos con conjuntos de datos continuos, necesitamos convertirlos en formas discretas o de intervalo. Cada intervalo se conoce como binning, y por lo tanto el nombre *binning*.

Suponga que tenemos datos sobre las alturas de un grupo de estudiantes de la siguiente manera:

In [50]:
altura = [120, 122, 125, 127, 121, 123, 137, 131, 161, 145, 141, 132]

Y queremos convertir ese conjunto de datos en intervalos de 118 a 125, 126 a 135, 136 a 160 y, finalmente, 160 y más.

In [51]:
bins = [118, 125, 135, 160, 200] 
categoria = pd.cut(altura, bins) 
categoria

[(118, 125], (118, 125], (118, 125], (125, 135], (118, 125], ..., (125, 135], (160, 200], (135, 160], (135, 160], (125, 135]]
Length: 12
Categories (4, interval[int64, right]): [(118, 125] < (125, 135] < (135, 160] < (160, 200]]

Si observa detenidamente la salida, verá que hay notaciones matemáticas para los intervalos.

$$(a,b]=\{x|a<x\leq b\}$$

Por lo tanto, 118 no está incluido, pero cualquier cosa mayor que 118 está incluido, mientras que 125 se incluye en el intervalo.


Podemos  establecer un argumento `right=False` para cambiar la forma del intervalo:

In [52]:
categoria2 = pd.cut(altura, [118, 126, 136, 161, 200], right=False) 
categoria2

[[118, 126), [118, 126), [118, 126), [126, 136), [118, 126), ..., [126, 136), [161, 200), [136, 161), [136, 161), [126, 136)]
Length: 12
Categories (4, interval[int64, left]): [[118, 126) < [126, 136) < [136, 161) < [161, 200)]

Vemos que se ha cambiado la forma de salida. Ahora, los resultados están en forma de cerrado a la izquierda y abierto a la derecha.

Podemos comprobar el número de valores en cada contenedor (bin) utilizando el método `pd.value_counts()`:


In [89]:
pd.value_counts(categoria)


(118, 125]    5
(125, 135]    3
(135, 160]    3
(160, 200]    1
Name: count, dtype: int64

La salida muestra que hay cinco valores en el intervalo (118-125].

También podemos indicar los nombres de los contenedores pasando una lista de etiquetas:

In [90]:
bin_names = ['Altura baja', 'Altura promedia', 'Buena altura',
'Muy alto'] 
pd.cut(altura, bins, labels=bin_names)

['Altura baja', 'Altura baja', 'Altura baja', 'Altura promedia', 'Altura baja', ..., 'Altura promedia', 'Muy alto', 'Buena altura', 'Buena altura', 'Altura promedia']
Length: 12
Categories (4, object): ['Altura baja' < 'Altura promedia' < 'Buena altura' < 'Muy alto']

Hemos pasado al menos dos argumentos, los datos que deben discretizarse y el número requerido de contenedores. Además, hemos utilizado un argumento `right=False` para cambiar la forma del intervalo.

Ahora, es esencial que si pasamos solo un número entero para nuestros contenedores, calculará contenedores de igual longitud basados en los valores mínimos y máximos en los datos. Veamos

In [95]:
import numpy as np
pd.cut(np.random.rand(40), bins=4, precision=1)

[(0.001, 0.2], (0.001, 0.2], (0.5, 0.7], (0.2, 0.5], (0.5, 0.7], ..., (0.001, 0.2], (0.7, 1.0], (0.001, 0.2], (0.7, 1.0], (0.7, 1.0]]
Length: 40
Categories (4, interval[float64, right]): [(0.001, 0.2] < (0.2, 0.5] < (0.5, 0.7] < (0.7, 1.0]]

Podemos ver, según el número de contenedores, que creó cinco categorías. Ahora, vayamos un paso más allá. Otro término técnico de interés para nosotros de las matemáticas es cuantiles. Los cuantiles dividen el rango de una distribución de probabilidad en intervalos continuos con probabilidades similares.

Pandas proporciona un método `qcut` que forma los contenedores basados en cuantiles de muestra. Vamos a comprobar esto con un ejemplo:

In [108]:
randomNumbers = np.random.rand(2000)
categoria3 = pd.qcut(randomNumbers, 4, precision=2) # la categoria3 es cortada en cuantiles
categoria3

[(-0.00971, 0.25], (-0.00971, 0.25], (-0.00971, 0.25], (-0.00971, 0.25], (0.25, 0.5], ..., (0.5, 0.74], (0.5, 0.74], (0.5, 0.74], (0.5, 0.74], (-0.00971, 0.25]]
Length: 2000
Categories (4, interval[float64, right]): [(-0.00971, 0.25] < (0.25, 0.5] < (0.5, 0.74] < (0.74, 1.0]]

Según el número de contenedores, que establecimos en 4, convirtió nuestros datos en cuatro categorías diferentes. Si contamos el número de valores en cada categoría, deberíamos obtener contenedores de igual tamaño según nuestra definición. Vamos a comprobarlo con el siguiente comando:

In [109]:
pd.value_counts(categoria3)

(-0.00971, 0.25]    500
(0.25, 0.5]         500
(0.5, 0.74]         500
(0.74, 1.0]         500
Name: count, dtype: int64

In [110]:
categoria3.value_counts()

(-0.00971, 0.25]    500
(0.25, 0.5]         500
(0.5, 0.74]         500
(0.74, 1.0]         500
Name: count, dtype: int64

Por lo tanto, nuestra afirmación está verificada. Cada categoría contiene un tamaño igual de 500 valores. Tenga en cuenta que, al igual que el corte, también podemos pasar nuestros propios contenedores:

In [111]:
pd.qcut(randomNumbers, [0, 0.3, 0.5, 0.7, 1.0])

[(-0.000714, 0.293], (-0.000714, 0.293], (-0.000714, 0.293], (-0.000714, 0.293], (0.293, 0.497], ..., (0.497, 0.696], (0.497, 0.696], (0.497, 0.696], (0.497, 0.696], (-0.000714, 0.293]]
Length: 2000
Categories (4, interval[float64, right]): [(-0.000714, 0.293] < (0.293, 0.497] < (0.497, 0.696] < (0.696, 0.999]]

Se creó cuatro categorías diferentes basadas en nuestro código. Así Aprendimos cómo convertir conjuntos de datos continuos en conjuntos de datos discretos.


###  Detección y filtrado de valores atípicos

Los valores atípicos son puntos de datos que divergen de otras observaciones por varias razones. Durante la fase EDA, una de nuestras tareas comunes es detectar y filtrar estos valores atípicos. La razón principal de esta detección y filtrado de valores atípicos es que la presencia de dichos valores atípicos puede causar serios problemas en el análisis estadístico. En esta sección, vamos a realizar una detección y filtrado de valores atípicos simples. Comencemos:



In [114]:
df = pd.read_csv('sales.csv')
df.head()

Unnamed: 0,Account,Company,Order,SKU,Country,Year,Quantity,UnitPrice,transactionComplete
0,123456779,Kulas Inc,99985,s9-supercomputer,Aruba,1981,5148,545,False
1,123456784,GitHub,99986,s4-supercomputer,Brazil,2001,3262,383,False
2,123456782,Kulas Inc,99990,s10-supercomputer,Montserrat,1973,9119,407,True
3,123456783,My SQ Man,99999,s1-supercomputer,El Salvador,2015,3097,615,False
4,123456787,ABC Dogma,99996,s6-supercomputer,Poland,1970,3356,91,True


In [60]:
df.describe()

Unnamed: 0,Account,Order,Year,Quantity,UnitPrice
count,10000.0,10000.0,10000.0,10000.0,10000.0
mean,123456800.0,99989.5629,1994.6198,4985.4473,355.8666
std,5.741156,5.905551,14.432771,2868.949686,201.378478
min,123456800.0,99980.0,1970.0,0.0,10.0
25%,123456800.0,99985.0,1982.0,2505.75,181.0
50%,123456800.0,99990.0,1995.0,4994.0,356.0
75%,123456800.0,99995.0,2007.0,7451.5,531.0
max,123456800.0,99999.0,2019.0,9999.0,700.0


In [61]:
df['Company'].value_counts()

Company
My SQ Man                   869
Kirlosker Service Center    863
Will LLC                    862
ABC Dogma                   848
Kulas Inc                   840
Gen Power                   836
Name IT                     836
Super Sexy Dingo            828
GitHub                      823
Loolo INC                   822
SAS Web Tec                 798
Pryianka Ji                 775
Name: count, dtype: int64

Agregue una nueva columna que es el precio total basado en la cantidad y el precio unitario

In [115]:
df['TotalPrice'] = df['UnitPrice']*df['Quantity']
df.head()

Unnamed: 0,Account,Company,Order,SKU,Country,Year,Quantity,UnitPrice,transactionComplete,TotalPrice
0,123456779,Kulas Inc,99985,s9-supercomputer,Aruba,1981,5148,545,False,2805660
1,123456784,GitHub,99986,s4-supercomputer,Brazil,2001,3262,383,False,1249346
2,123456782,Kulas Inc,99990,s10-supercomputer,Montserrat,1973,9119,407,True,3711433
3,123456783,My SQ Man,99999,s1-supercomputer,El Salvador,2015,3097,615,False,1904655
4,123456787,ABC Dogma,99996,s6-supercomputer,Poland,1970,3356,91,True,305396


Ahora, respondamos algunas preguntas basadas en la tabla anterior.

Busquemos la transacción que superó los 3.000.000:

In [118]:
TotalTransaction = df["TotalPrice"]
TotalTransaction[np.abs(TotalTransaction) > 3000000]

2       3711433
7       3965328
13      4758900
15      5189372
17      3989325
         ...   
9977    3475824
9984    5251134
9987    5670420
9991    5735513
9996    3018490
Name: TotalPrice, Length: 2094, dtype: int64

En el ejemplo anterior, hemos asumido que cualquier precio superior a 3.000.000 es un valor atípico.

Muestre todas las columnas y filas de la tabla anterior si TotalPrice es mayor que 6741112, como se indica a continuación:



In [119]:
df[np.abs(TotalTransaction) > 6741112]

Unnamed: 0,Account,Company,Order,SKU,Country,Year,Quantity,UnitPrice,transactionComplete,TotalPrice
818,123456781,Gen Power,99991,s1-supercomputer,Burkina Faso,1985,9693,696,False,6746328
1402,123456778,Will LLC,99985,s11-supercomputer,Austria,1990,9844,695,True,6841580
2242,123456770,Name IT,99997,s9-supercomputer,Myanmar,1979,9804,692,False,6784368
2876,123456772,Gen Power,99992,s10-supercomputer,Mali,2007,9935,679,False,6745865
3210,123456782,Loolo INC,99991,s8-supercomputer,Kuwait,2006,9886,692,False,6841112
3629,123456779,My SQ Man,99980,s3-supercomputer,Hong Kong,1994,9694,700,False,6785800
7674,123456781,Loolo INC,99989,s6-supercomputer,Sri Lanka,1994,9882,691,False,6828462
8645,123456789,Gen Power,99996,s11-supercomputer,Suriname,2005,9742,699,False,6809658
8684,123456785,Gen Power,99989,s2-supercomputer,Kenya,2013,9805,694,False,6804670


Observe todos los valores de TotalPrice son mayores que 6741112. Podemos usar cualquier tipo de condición, ya sea en filas o en columnas, para detectar y filtrar valores atípicos.


## Permutación y muestreo aleatorio

Ahora tenemos algunos términos matemáticos más para aprender: permutación y muestreo aleatorio. Examinemos cómo podemos realizar la permutación y el muestreo aleatorio utilizando la biblioteca de pandas:

Con la función `numpy.random.permutation()` de NumPy, podemos seleccionar o permutar aleatoriamente una serie de filas en un dataframe. Entendamos esto con un ejemplo:

In [122]:
dat = np.arange(80).reshape(10,8)
df = pd.DataFrame(dat)

df

Unnamed: 0,0,1,2,3,4,5,6,7
0,0,1,2,3,4,5,6,7
1,8,9,10,11,12,13,14,15
2,16,17,18,19,20,21,22,23
3,24,25,26,27,28,29,30,31
4,32,33,34,35,36,37,38,39
5,40,41,42,43,44,45,46,47
6,48,49,50,51,52,53,54,55
7,56,57,58,59,60,61,62,63
8,64,65,66,67,68,69,70,71
9,72,73,74,75,76,77,78,79


A continuación, llamamos al método `np.random.permutation()`. Este método toma un argumento (la longitud del eje que requerimos permutar) y da una matriz de enteros que indican el nuevo orden:

In [127]:
muestra = np.random.permutation(10)
muestra

array([2, 5, 1, 7, 0, 6, 9, 3, 8, 4])

La matriz de salida anterior se utiliza en la indexación basada en *ix* para la función `take()` de la biblioteca pandas. Consulte el siguiente ejemplo para obtener aclaraciones:

In [128]:
df.take(muestra)

Unnamed: 0,0,1,2,3,4,5,6,7
2,16,17,18,19,20,21,22,23
5,40,41,42,43,44,45,46,47
1,8,9,10,11,12,13,14,15
7,56,57,58,59,60,61,62,63
0,0,1,2,3,4,5,6,7
6,48,49,50,51,52,53,54,55
9,72,73,74,75,76,77,78,79
3,24,25,26,27,28,29,30,31
8,64,65,66,67,68,69,70,71
4,32,33,34,35,36,37,38,39


## Muestra aleatoria sin reemplazo

Para calcular el muestreo aleatorio sin reemplazo, siga estos pasos:

Primero creamos una array de permutación, 

luego cortamos los primeros $n$ elementos del array donde $n$ es el tamaño deseado del subconjunto que desea muestrear.

Luego usamos el método `df.take()` para obtener muestras reales:

In [132]:
df.take(np.random.permutation(len(df))[:3])

Unnamed: 0,0,1,2,3,4,5,6,7
8,64,65,66,67,68,69,70,71
9,72,73,74,75,76,77,78,79
7,56,57,58,59,60,61,62,63


En el código anterior, solo especificamos una muestra de tamaño 3. Por lo tanto, solo obtenemos tres filas en la muestra aleatoria.


## Muestra aleatoria con reemplazo

Para generar un muestreo aleatorio con reemplazo, siga los pasos dados:

Podemos generar una muestra aleatoria con reemplazo usando el método `numpy.random.randint()` y dibujando enteros aleatorios:

In [133]:
bolsa= np.array([4, 8, -2, 7, 5])
muestra = np.random.randint(0, len(bolsa), size = 10)
muestra

array([1, 2, 1, 1, 0, 1, 0, 2, 2, 2])

Ahora, podemos mostrar las muestras requeridas:

In [134]:
extraer = bolsa.take(muestra)
extraer

array([ 8, -2,  8,  8,  4,  8,  4, -2, -2, -2])

Muestreo con reemplazo en la data anterior (df)

In [138]:
muestra = np.random.randint(0, len(df), size = 4)
muestra

array([9, 4, 7, 9])

In [139]:
extraer = df.take(muestra)
extraer

Unnamed: 0,0,1,2,3,4,5,6,7
9,72,73,74,75,76,77,78,79
4,32,33,34,35,36,37,38,39
7,56,57,58,59,60,61,62,63
9,72,73,74,75,76,77,78,79


## Variables dummy

A menudo, necesitamos convertir una variable categórica en una matriz ficticia. Especialmente para el modelado estadístico o el desarrollo de modelos de aprendizaje automático, es esencial crear variables ficticias. Comencemos:
Digamos que tenemos un dataframe con datos sobre género y votos, como se muestra aquí:

In [140]:
df = pd.DataFrame({'genero': ['femenino', 'femenino', 
                              'masculino', 'desconocido', 
                              'masculino', 'femenino'], 
                   'votos': range(6, 12, 1)})
df

Unnamed: 0,genero,votos
0,femenino,6
1,femenino,7
2,masculino,8
3,desconocido,9
4,masculino,10
5,femenino,11


Necesitamos codificar estos valores en forma de vector.

Podemos hacerlo usando la función `pd.get_dummies()`:


In [147]:
pd.get_dummies(df['genero'], dtype=int)

Unnamed: 0,desconocido,femenino,masculino
0,0,1,0
1,0,1,0
2,0,0,1
3,1,0,0
4,0,0,1
5,0,1,0


Hay cinco valores en el dataframe original con tres valores únicos de masculino, femenino y desconocido. Cada valor único se transforma en una columna y cada valor original en una fila. Por ejemplo, en el dataframe original, el primer valor es femenino, por lo tanto, se agrega como una fila con *True* en el valor femenino y el resto de ellos son valores *False*, y así sucesivamente.

A veces, queremos agregar un prefijo a las columnas. Podemos hacerlo agregando el argumento del prefijo, como se muestra aquí:



In [73]:
dummis = pd.get_dummies(df['genero'], prefix='genero',dtype=int)
dummis

Unnamed: 0,genero_desconocido,genero_femenino,genero_masculino
0,0,1,0
1,0,1,0
2,0,0,1
3,1,0,0
4,0,0,1
5,0,1,0


Tenga en cuenta el prefijo de género agregado a cada uno de los nombres de columna.

Ahora agregemos una columna con los votos con el método `join`

In [150]:
con_dummis = df[['votos']].join(dummis)
con_dummis

Unnamed: 0,votos,genero_desconocido,genero_femenino,genero_masculino
0,6,0,1,0
1,7,0,1,0
2,8,0,0,1
3,9,1,0,0
4,10,0,0,1
5,11,0,1,0


## Beneficios de la transformación de datos

Hasta ahora hemos visto varios casos de uso útiles de transformación de datos.
Tratemos de enumerar estos beneficios:

- La transformación de datos promueve la interoperabilidad entre varias aplicaciones. La razón principal para crear un formato y estructura similares en el conjunto de datos es que se vuelve compatible con otros sistemas.

- La comprensibilidad tanto para humanos como para computadoras mejora cuando se usan datos mejor organizados en comparación con datos más desordenados.

- La transformación de los datos garantiza un mayor grado de calidad de estos y protege las aplicaciones de varios desafíos computacionales, como valores nulos, duplicados inesperados e indexaciones incorrectas, así como estructuras o formatos incompatibles.

- La transformación de los datos garantiza un mayor rendimiento y escalabilidad para bases de datos analíticas y data frames modernos.