# Práctica de uso de pandas

## Introducción

La parte que más tiempo consume en un proyecto de ciencia de datos es la limpieza  preparación de los datos. Pandas es una biblioteca de análisis de datos de Python muy potente y versátil que agiliza los pasos de preprocesamiento de tu proyecto. A continuación, cubriremos una gran cantidad de capacidades de Pandas con muchos ejemplos que te ayudarán a construir un proceso de análisis de datos robusto y eficiente.

La estructura de datos básica de Pandas es DataFrame que representa los datos en forma de tabla con filas y columnas etiquetadas.

Como importar la librería

In [None]:
import numpy as np
import pandas as pd

### Lectura de datos

En la mayoría de los casos, leemos datos de un fichero y los convertimos en un DataFrame. Pandas proporciona funciones para leer datos de muchos tipos de archivos diferentes. La más utilizada es read_csv. También existen otros tipos como read_excel, read_json, read_html, etc. Vamos a ver un ejemplo usando read_csv:

In [None]:
df = pd.read_csv("boston.csv")
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0,0.538,6.575,65.2,4.09,1,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0,0.469,6.421,78.9,4.9671,2,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0,0.469,7.185,61.1,4.9671,2,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0,0.458,6.998,45.8,6.0622,3,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0,0.458,7.147,54.2,6.0622,3,222.0,18.7,396.9,5.33,36.2


### Manipulación de los datos y NaN

df.head() estamos haciendo un llamado para ver un resumen de los datos teniendo los primeros cinco datos registrados dentro de nuestra variable. Cabe resaltar que asignamos a df como un nuevo dataframe extraído desde el CSV que analizamos.

In [None]:
cols = ['CRIM','ZN','CHAS']
df = pd.read_csv("boston.csv", usecols=cols)
df.head()

Unnamed: 0,CRIM,ZN,CHAS
0,0.00632,18.0,0
1,0.02731,0.0,0
2,0.02729,0.0,0
3,0.03237,0.0,0
4,0.06905,0.0,0


También podemos obtener unas columnas específicas. Para ello, nombramos una variable aparte indicando el nombre de las columnas que deseamos. El metodo de read_csv reconoce la palabra reservada de usecols para obtener solo dichas columnas con dichos nombres. En este caso CRIM, ZN y CHAS.

In [None]:
df = pd.read_csv("boston.csv", usecols=cols, nrows=500)
df.shape

(500, 3)

Podemos, mediante el uso de shape obtener el tamaño del dataframe. Esta vez para utilizar la propiedad de nrows para indicar cuantas filas del csv queremos usar. Bastante útil cuando queremos solo leer parte de una bd.

In [None]:
df.describe()

Unnamed: 0,CRIM,ZN,CHAS
count,500.0,500.0,500.0
mean,3.655786,11.5,0.07
std,8.644375,23.428739,0.255403
min,0.00632,0.0,0.0
25%,0.082598,0.0,0.0
50%,0.266005,0.0,0.0
75%,3.69407,12.5,0.0
max,88.9762,100.0,1.0


Con el uso de describe también podemos tener una vista genera de nuestros datos. Podemos obtener una información básica sobre ellos sin tener que indagar a analizar cada columna por aparte.

In [None]:
df.CHAS.value_counts()

0    465
1     35
Name: CHAS, dtype: int64

Podemos también tener una información individual por columna, en este caso. CHAS al ser una variable catégorica podemos ver cuantas apariciones tenemos del 0 y 1.

In [None]:
df.dtypes

CRIM    float64
ZN      float64
CHAS      int64
dtype: object

Podemos tener información sobre los diferentes tipos de datos que tenemos. En este caso podemos evidencia que CHAS solo varía entre el uso de variables enteras int64 mientrás que las demás solo funcionan con variables de tipo decimal o de punto flotante float64.

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 ,None, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', '--', np.nan, 'd'],
'column_d':[True, True, np.nan, None, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,
3,4.0,6.2,d,
4,,,--,False
5,,1.1,,True
6,6.0,4.3,d,False


En muchas ocasiones nos encontraremos con bases de datos con datos faltantes, en este caso descritos como NaN. Esto es muy común verlo entre grandes cantidades de datos. Dichos datos pueden generar algún tipo de ruido o imprecisión sobre nuestro análisis. Por tanto, aprenderémos a como identificarlos e eliminarlos en caso de ser necesario.

In [None]:
df.isna()

Unnamed: 0,column_a,column_b,column_c,column_d
0,False,False,False,False
1,False,False,False,False
2,False,True,False,True
3,False,False,False,True
4,True,True,False,False
5,True,False,True,False
6,False,False,False,False


Con isNa tenemos información sobre que variables que tenemos dentro de nuestro dataframe. Podemos ver notna caso contrario al anterior visto.

In [None]:
df.isna().sum()

column_a    2
column_b    2
column_c    1
column_d    2
dtype: int64

Podemos sumar la cantidad de NaN o datos faltantes por columnas.

In [None]:
df.replace(['?','--'],np.nan, inplace=True)
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,,True
2,4.0,,c,
3,4.0,6.2,d,
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


Podemos remplazar otros valores como el ? o el -- por NaN. Para tener una normalización de datos faltantes.

In [None]:
df.dropna(axis=0)

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
6,6.0,4.3,d,False


O, eliminar de la base de datos registros completos en caso de tener un valor NaN. Caos más utilizado para no generar algún tipo de ruido en los datos. El axis = 0 indica que haga el análisis tomando en cuenta las columnas como criterio de decisión de eliminación. En caso de que fuera axis = 1, estaría buscando por columna donde exista algún NaN, y eliminaría toda la columna, como se muestra a continuación.

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,False
3,4.0,6.2,d,True
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


Dataframe ahora con columna D sin ningún NaN

In [None]:
df.dropna(axis=1)

Unnamed: 0,column_d
0,True
1,True
2,False
3,True
4,False
5,True
6,False


Resultado final solo teniendo en cuenta que la columna D cumple con no tener ningún NaN

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,False
3,4.0,6.2,d,True
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


Podemos también rellenar un NaN con un valor escalar o valor fijo

In [None]:
df.fillna(1.0)

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,1.0,c,False
3,4.0,6.2,d,True
4,1.0,1.0,1.0,False
5,1.0,1.1,1.0,True
6,6.0,4.3,d,False


O podemos rellenarlo con algo más común como una media de la columna

In [None]:
df = pd.DataFrame({
'column_a':[1, 2, 4, 4, np.nan, np.nan, 6],     
'column_b':[1.2, 1.4, np.nan, 6.2 , np.nan, 1.1, 4.3],
'column_c':['a', '?', 'c', 'd', np.nan, np.nan, 'd'],
'column_d':[True, True, False, True, False, True, False]
})
df

Unnamed: 0,column_a,column_b,column_c,column_d
0,1.0,1.2,a,True
1,2.0,1.4,?,True
2,4.0,,c,False
3,4.0,6.2,d,True
4,,,,False
5,,1.1,,True
6,6.0,4.3,d,False


In [None]:
mean = df.column_a.mean()
df.column_a.fillna(mean)

0    1.0
1    2.0
2    4.0
3    4.0
4    3.4
5    3.4
6    6.0
Name: column_a, dtype: float64

También podemos rellenarlo según e dato anterior presentado con df.fillna(axis=0,method="ffill") ffill refenriendóse a forward fill.

### Combinaciones

Ahora, parte principal de la manipulación de los dataframes es la creacion o concatenación de columnas adicionales o la copias sobre las mismas. Esto, porque siempre estaremos se estará añadiendo información adicional que ayude sobre nuestros analísis.

In [None]:
df1 = pd.DataFrame({
'column_a':[1,2,3,4],
'column_b':['a','b','c','d'],
'column_c':[True,True,False,True]
})

df1

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True


In [None]:
df2 = pd.DataFrame({
'column_a':[1,2,9,10],
'column_b':['a','k','l','m'],
'column_c':[False,False,False,True]
})

df2

Unnamed: 0,column_a,column_b,column_c
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


Una forma de combinar o concatenar DataFrames es la función concat(). Puede utilizarse para concatenar DataFrames a lo largo de filas o columnas cambiando el parámetro del eje. El valor por defecto del parámetro del eje es 0, que indica la combinación a lo largo de las filas.

In [None]:
df = pd.concat([df1,df2])
df

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


In [None]:
df = pd.concat([df1,df2], axis=1)
df

Unnamed: 0,column_a,column_b,column_c,column_a.1,column_b.1,column_c.1
0,1,a,True,1,a,False
1,2,b,True,2,k,False
2,3,c,False,9,l,False
3,4,d,True,10,m,True


Como pueden ver en la primera figura de arriba, los índices de los DataFrames individuales se mantienen. Para cambiarlo y volver a indexar el DataFrame combinado, el parámetro ignore_index se establece como True.

In [None]:
df = pd.concat([df1,df2], ignore_index=True)
df

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True
4,1,a,False
5,2,k,False
6,9,l,False
7,10,m,True


El parámetro join de la función concat() determina cómo combinar los DataFrames. El valor por defecto es 'outer' y devuelve todos los índices de ambos DataFrames. Si se selecciona la opción 'inner', sólo se devuelven las filas con índices compartidos. A cotinuación diferencia entre 'inner' y 'outer'. 

In [None]:
df2 = pd.DataFrame({
'column_b':['y','q','n','a','k','l','m'],
'column_c':[False,False,False,False,False,False,True]
})
df2 = df2.drop([0,1,2])
df2

Unnamed: 0,column_b,column_c
3,a,False
4,k,False
5,l,False
6,m,True


In [None]:
df = pd.concat([df1,df2], axis=1, join='inner')
df

Unnamed: 0,column_a,column_b,column_c,column_b.1,column_c.1
3,4,d,True,a,False


In [None]:
df = pd.concat([df1,df2], axis=1, join='outer')
df

Unnamed: 0,column_a,column_b,column_c,column_b.1,column_c.1
0,1.0,a,True,,
1,2.0,b,True,,
2,3.0,c,False,,
3,4.0,d,True,a,False
4,,,,k,False
5,,,,l,False
6,,,,m,True


La función append() también se utiliza para combinar DataFrames. Se puede ver como un caso particular de la función concat() (axis=0 y join='outer').

In [None]:
df = df1.append(df2)
df

  df = df1.append(df2)


Unnamed: 0,column_a,column_b,column_c
0,1.0,a,True
1,2.0,b,True
2,3.0,c,False
3,4.0,d,True
3,,a,False
4,,k,False
5,,l,False
6,,m,True


Otra función muy utilizada para combinar DataFrames es merge(). La función Concat() simplemente añade los DataFrames uno encima del otro o los añade uno al lado del otro. Es más bien una forma de añadir DataFrames. Merge() combina los DataFrames basándose en los valores de las columnas compartidas. La función Merge() ofrece más flexibilidad que la función concat(). Se verá claramente cuando vea los ejemplos.

In [None]:
df1 = pd.DataFrame({
'column_a':[1,2,3,4],
'column_b':['a','b','c','d'],
'column_c':[True,True,False,True]
})

df1

Unnamed: 0,column_a,column_b,column_c
0,1,a,True
1,2,b,True
2,3,c,False
3,4,d,True


In [None]:
df2 = pd.DataFrame({
'column_a':[1,2,9,10],
'column_b':['a','k','l','m'],
'column_c':[False,False,False,True]
})

df2

Unnamed: 0,column_a,column_b,column_c
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


In [None]:
df_merge = pd.merge(df1, df2, on='column_a')
df_merge

Unnamed: 0,column_a,column_b_x,column_c_x,column_b_y,column_c_y
0,1,a,True,a,False
1,2,b,True,k,False


Los nombres de las columnas no tienen por qué ser los mismos. Nuestro objetivo son los valores de las columnas. Supongamos que dos DataFrames tienen valores comunes en una columna que desea utilizar para fusionar estos DataFrames pero los nombres de las columnas son diferentes. En este caso, en lugar del parámetro on, puede utilizar los parámetros left_on y right_on. Para mostrar la diferencia, cambiaré el nombre de la columna en df2 y luego usaré merge:

In [None]:
df2.rename(columns={'column_a':'new_column_a'}, inplace=True)
df2

Unnamed: 0,new_column_a,column_b,column_c
0,1,a,False
1,2,k,False
2,9,l,False
3,10,m,True


In [None]:
df_merge = pd.merge(df1, df2, left_on='column_a', right_on='new_column_a')
df_merge

Unnamed: 0,column_a,column_b_x,column_c_x,new_column_a,column_b_y,column_c_y
0,1,a,True,1,a,False
1,2,b,True,2,k,False


También puede pasar múltiples valores al parámetro on. El DataFrame devuelto sólo incluye las filas que tienen los mismos valores en todas las columnas pasadas al parámetro on.

In [None]:
df2.rename(columns={'new_column_a':'column_a'}, inplace=True)
df_merge = pd.merge(df1, df2, on=['column_a','column_b'])
df_merge

Unnamed: 0,column_a,column_b,column_c_x,column_c_y
0,1,a,True,False


### Selección de datos

iloc y loc permiten seleccionar parte de un DataFrame. iloc: Seleccionar por posición y loc: Seleccionar por etiqueta

#### iloc

In [None]:
df.iloc[1] 

column_a     2.0
column_b       b
column_c    True
Name: 1, dtype: object

Seleccione la primera fila, la segunda columna (es decir, el segundo valor de la primera fila):

In [None]:
df.iloc[0,1]

'a'

Todas las filas, tercera columna (Es lo mismo que seleccionar la segunda columna pero sólo quiero mostrar el uso de ':' ):

In [None]:
df.iloc[:,2]

0     True
1     True
2    False
3     True
3    False
4    False
5    False
6     True
Name: column_c, dtype: bool

Las dos primeras filas, la segunda columna:

In [None]:
df.iloc[:2,1]

0    a
1    b
Name: column_b, dtype: object

#### loc

Filas hasta la 2, columna "b" :

In [None]:
df.loc[:2,'column_b']

0    a
1    b
2    c
Name: column_b, dtype: object

Filas hasta 2 y columnas hasta 'b' :

In [None]:
df.loc[:2, :'column_b']

Unnamed: 0,column_a,column_b
0,1.0,a
1,2.0,b
2,3.0,c


Fila '2' y columnas hasta 'b' :

In [None]:
df.loc[2, :'column_b']

column_a    3.0
column_b      c
Name: 2, dtype: object

## Referencias

Base de datos bostón housing -> https://www.kaggle.com/datasets/fedesoriano/the-boston-houseprice-data // Soner Yildirin, complete Guide For Pandas