# 1. Introducción a Pandas

Pandas es una potente librería Open Source de Python escrita como extensión de NumPy para manipulación y análisis de datos. En particular, ofrece estructuras de datos y operaciones para manipular tablas numéricas y series temporales.

Dicho de un modo más sencillo, pandas principalmente nos permite realizar operaciones sobre tablas (aquí llamadas DataFrame), como hariamos por ejemplo en Excel. De este modo, los datos se organizan por columnas donde cada una tiene un nombre determinado y a partir de ahí podemos aplicar disitintas operaciones matemáticas o filtros.

Por tanto, las coordenadas asociadas a cada dato dentro del DataFrame son una columna y un índice o fila ("index" en inglés).

La gran ventaja es que Pandas permite manejar volúmenes de datos mucho más grande que Excel, realizar operaciones de mayor complejidad y, sobre todo, de forma más rápida. Por todo ello, a día de hoy se trata de una de las herramientas fundamentales que todo analista de datos debería conocer

In [1]:
#Importamos las librerías necesarias
import pandas as pd
import numpy as np

In [2]:
#Empezamos por un dataframe de ejemplo creado a partir de numpy arrays
edad = np.array([20,35,18,50,14,25])
peso = np.array([71,65,80,90,60,75])
altura = np.array([1.70,1.55,1.75,1.81,1.68,1.85])

df = pd.DataFrame({'Edad': edad, 'Peso': peso, 'Altura': altura})

df

Unnamed: 0,Edad,Peso,Altura
0,20,71,1.7
1,35,65,1.55
2,18,80,1.75
3,50,90,1.81
4,14,60,1.68
5,25,75,1.85


# 2. ACCEDIENDO A LOS DATOS

"shape" o "columns" son propiedades del objeto dataframe, por eso no tienen paréntesis al final. Los métodos en cambio, terminan en (), como veremos más adelante.

In [3]:
#Nombre de las columnas presentes en el df
df.columns


Index(['Edad', 'Peso', 'Altura'], dtype='object')

In [5]:
#Podemos acceder al nombre de una columna determinada. Por ejemplo para la primera columna sería:
df.columns[0]

'Edad'

In [6]:
#Comprobar número de filas y columnas de DataFrame
df.shape

(6, 3)

In [7]:
print('Número de filas= '+str(df.shape[0]))
print('Número de columnas= '+str(df.shape[1]))

Número de filas= 6
Número de columnas= 3


In [8]:
#Obtener información sobre las columnas
df.describe()

Unnamed: 0,Edad,Peso,Altura
count,6.0,6.0,6.0
mean,27.0,73.5,1.723333
std,13.38656,10.747093,0.106521
min,14.0,60.0,1.55
25%,18.5,66.5,1.685
50%,22.5,73.0,1.725
75%,32.5,78.75,1.795
max,50.0,90.0,1.85


In [9]:
#Información sobre el tipo de datos contenidos en la tabla
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Edad    6 non-null      int32  
 1   Peso    6 non-null      int32  
 2   Altura  6 non-null      float64
dtypes: float64(1), int32(2)
memory usage: 224.0 bytes


In [10]:
#Acceder a los datos de una columna
df['Edad']

0    20
1    35
2    18
3    50
4    14
5    25
Name: Edad, dtype: int32

In [11]:
#Acceder a varias columnas
df[['Edad','Altura']]

Unnamed: 0,Edad,Altura
0,20,1.7
1,35,1.55
2,18,1.75
3,50,1.81
4,14,1.68
5,25,1.85


In [13]:
#Visualizar los datos de las primeras filas (las dos primeras por ejemplo). 
#Esto resulta especialmente útil con datasets muy grandes para hacernos una primera idea de como son los datos
df.head(2)


Unnamed: 0,Edad,Peso,Altura
0,20,71,1.7
1,35,65,1.55


In [14]:
#Algo parecido se puede hacer para las últimas filas
df.tail(2)


Unnamed: 0,Edad,Peso,Altura
4,14,60,1.68
5,25,75,1.85


In [15]:
#Coger los datos de una fila y una columna en concreto (la edad con index=3 por ejemplo)
df['Edad'][3]

50

In [16]:
#Fila completa con index=3 
df.iloc[3,:]

Edad      50.00
Peso      90.00
Altura     1.81
Name: 3, dtype: float64

In [18]:
#Elemento [3,0] o elemento 3 de la columna 'Edad'
df.iloc[3,0]

50

In [19]:
#Hecho de otro modo (usando el nombre de la columna)
df.loc[3,'Edad']

50

In [20]:
#Cambiar nombre de las columnas. Vamos a ponerlas por ejemplo en mayúsculas en un nuevo DataFrame
df2 = df.copy()
df2.columns = ['EDAD','PESO','ALTURA']

df2

Unnamed: 0,EDAD,PESO,ALTURA
0,20,71,1.7
1,35,65,1.55
2,18,80,1.75
3,50,90,1.81
4,14,60,1.68
5,25,75,1.85


In [21]:
#Algo parecido se puede hacer con los índices, donde incluso podemos poner strings en lugar de valores numéricos

df2.index = ['a','b','c','d','e','f']

df2

Unnamed: 0,EDAD,PESO,ALTURA
a,20,71,1.7
b,35,65,1.55
c,18,80,1.75
d,50,90,1.81
e,14,60,1.68
f,25,75,1.85


# 3.OPERACIONES

Se pueden aplicar directamente operaciones matemáticas sobre las columnas de un modo similar a como se hace con la librería numpy

In [22]:
#Sumatorio de los valores de una columna
df['Edad'].sum()

162

In [24]:
#Desviación típica (se puede comprobar que coincide con la desviación típica obtenida usando df.describe() más arriba)
df['Edad'].std()

13.386560424545209

In [25]:
#Mínimo
df['Edad'].min()

14

In [26]:
#Indice donde se encuentra el mínimo
df['Edad'].idxmin()

4

In [27]:
#Máximo
df['Edad'].max()

50

In [28]:
#Indice donde se encuentra el máximo
df['Edad'].idxmax()

3

In [29]:
#También podemos trasponer el DataFrame. De esta forma, lo que antes eran índices ahora pasan a ser columnas y viceversa.
#Esto habrá que tenerlo en cuenta a la hora de acceder a los datos

df_T = df[['Edad','Altura']].T

df_T

Unnamed: 0,0,1,2,3,4,5
Edad,20.0,35.0,18.0,50.0,14.0,25.0
Altura,1.7,1.55,1.75,1.81,1.68,1.85


In [30]:
df_T[3]['Edad']

50.0

Podemos realizar operaciones con las columnas como suma, resta o multiplicación. También podemos aplicar operadores como sqrt o funciones trigonométricas a todos los valores de una columna o a elementos en concreto. Veamos varios ejemplos

In [31]:
#Multiplicación del DataFrame por una constante
df2 = df*1.25

df2

Unnamed: 0,Edad,Peso,Altura
0,25.0,88.75,2.125
1,43.75,81.25,1.9375
2,22.5,100.0,2.1875
3,62.5,112.5,2.2625
4,17.5,75.0,2.1
5,31.25,93.75,2.3125


In [32]:
#Cálculos usando varias columnas. Vamos a añadir una nueva columna que contenga el índice de masa corporal.
#Los cálculos se realizan fila a fila, es dedcir, el IMC de la primera fila se calcula solo con el peso y la altura de la fila 1

df['IMC'] = df['Peso']/(df['Altura']**2)

df

Unnamed: 0,Edad,Peso,Altura,IMC
0,20,71,1.7,24.567474
1,35,65,1.55,27.055151
2,18,80,1.75,26.122449
3,50,90,1.81,27.471689
4,14,60,1.68,21.258503
5,25,75,1.85,21.913806


In [37]:
#Vamos a crear un nuevo DataFrame que en este caso va contener las longitudes de un triángulo rectángulo. 
#La primera fila será el cateto menor y la segunda el cateto mayor. En la tercera fila de momento ponemos un 0

df_tri = pd.DataFrame()
df_tri['Longitud [cm]'] = np.array([2,3,0.]) 

df_tri

Unnamed: 0,Longitud [cm]
0,2.0
1,3.0
2,0.0


In [38]:
#Calculamos la longitud de la hipotenusa e introducimos su valor en la tercera fila
df_tri['Longitud [cm]'][2] = np.sqrt(df_tri['Longitud [cm]'][0]**2+df_tri['Longitud [cm]'][1]**2)

df_tri

Unnamed: 0,Longitud [cm]
0,2.0
1,3.0
2,3.605551


In [39]:
#Añadimos una columna con los ángulos
df_tri['Angulos [rad]'] = np.array([np.pi/2,np.arcsin(df_tri['Longitud [cm]'][0]/df_tri['Longitud [cm]'][2]),
                                    np.arcsin(df_tri['Longitud [cm]'][1]/df_tri['Longitud [cm]'][2])]) 
df_tri

Unnamed: 0,Longitud [cm],Angulos [rad]
0,2.0,1.570796
1,3.0,0.588003
2,3.605551,0.982794


In [41]:
#Calculamos seno y coseno de dichos ángulos
df_tri['sin(Angulos)'] = np.sin(df_tri['Angulos [rad]']) 
df_tri['cos(Angulos)'] = np.cos(df_tri['Angulos [rad]']) 

df_tri

Unnamed: 0,Longitud [cm],Angulos [rad],sin(Angulos),cos(Angulos)
0,2.0,1.570796,1.0,6.123234000000001e-17
1,3.0,0.588003,0.5547,0.8320503
2,3.605551,0.982794,0.83205,0.5547002


También se pueden realizar operaciones matriciales. Para esto vamos a usar el DataFrame de edad, peso y altura que hemos empleado antes

In [43]:
#Multiplicación de matrices como df*df.T. Donde df.T es el DataFrame transpuesto
df.dot(df.T)
    

Unnamed: 0,0,1,2,3,4,5
0,6047.450781,5982.311717,6684.737587,8067.987004,5065.123731,6366.511853
1,5982.311717,6184.383689,6539.459299,8346.056188,4967.756017,6345.74882
2,6684.737587,6539.459299,7409.444841,8820.795292,5610.26417,7025.679771
3,8067.987004,8346.056188,8820.795292,11357.969791,6687.047792,8605.357753
4,5065.123731,4967.756017,5610.26417,6687.047792,4250.746367,5318.962713
5,6366.511853,6345.74882,7025.679771,8605.357753,5318.962713,6733.63738


In [44]:
#Módulo de la primera fila
fila = df.iloc[0,:]
fila

Edad      20.000000
Peso      71.000000
Altura     1.700000
IMC       24.567474
Name: 0, dtype: float64

In [45]:
np.sqrt(fila.dot(fila.T))

77.76535720435493

Además, en caso de que nos resulte más cómodo por alguna razón a la hora de operar, podemos convertir DataFrames en numpy arrays

In [46]:
arr = np.array(df)

arr

array([[20.        , 71.        ,  1.7       , 24.56747405],
       [35.        , 65.        ,  1.55      , 27.05515088],
       [18.        , 80.        ,  1.75      , 26.12244898],
       [50.        , 90.        ,  1.81      , 27.4716889 ],
       [14.        , 60.        ,  1.68      , 21.2585034 ],
       [25.        , 75.        ,  1.85      , 21.9138057 ]])

# 4. Lectura y escritura de archivos

A partir de esta sección emplearemos como referencia el dataset "diamonds" ya que se trata de un buen punto de partida para iniciarse en el análisis y representación de datos. Este dataset muestra las características de cercad e 54,000 diamantes. Las columnas de este dataset son las siguientes:

    1. carat: Es el peso en quilates de cada diamante
    
    2. cut: Describe la calidad de corte del diamante. Los valores que toma, en orden creciente de calidad, son: Fair, Good, Very Good, Premium, Ideal.
    
    3. color: Color del diamante, siendo D el mejor y J el peor
    
    4. clarity: Indica cómo de visibles son las inclusiones en el diamante. El orden de peor a mejor es I1, SI2, SI1, VS2, VS1, VVS2, VVS1, IF
    
    5. depth: Altura del diamante en %. Se calcula haciendo z/mean(x,y)
    
    6. table: Anchura de la cara superior del diamante relativa a su punto más ancho 
    
    7. price: Precio en US dollars
    
    8. x: Lngitud en mm
    
    9. y: Achura en mm
    
    10. z: Altura en mm


Este dataset es de acceso público desde la plataforma Kaggle https://www.kaggle.com/shivam2503/diamonds

## 4.1. Leer y escribir CSV

El formato .cvs (comma separated values) es uno de los más populares a la hora de almacenar datos. En esta sección se va a explorar el uso del método "read_csv" de pandas, que nos permite leer este tipo de archivos y transformar los datos en un DataFrame para su posterior análisis.

In [47]:
#leer csv con las opciones por defecto
df = pd.read_csv('diamonds.csv')

#Como el número de filas de este DataFrame (casi 54,000) es muy superior a los que hemos manejado hasta ahora, 
#solo mostramos las 10 primeras

df.head(10)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


Podemos ver cómo aparece una columna llamada "Unnamed: 0". Pandas emplea por defecto la primera fila del csv para asignar el nombre de cada columna. En caso de que alguna columna tenga la primera celda vacía, pandas asigna de forma automática a esa columna el nombre "Unnamed: XX". 

In [48]:
#Podemos ver que las opciones por defecto no sirven cuando se tiene un csv separado por ";" (nos sale un DataFrame de 1 columna)
df = pd.read_csv('diamonds_puntocoma.csv')

df

Unnamed: 0,";""carat"";""cut"";""color"";""clarity"";""depth"";""table"";""price"";""x"";""y"";""z"""
0,"1;0.23;""Ideal"";""E"";""SI2"";61.5;55;326;3.95;3.98..."
1,"2;0.21;""Premium"";""E"";""SI1"";59.8;61;326;3.89;3...."
2,"3;0.23;""Good"";""E"";""VS1"";56.9;65;327;4.05;4.07;..."
3,"4;0.29;""Premium"";""I"";""VS2"";62.4;58;334;4.2;4.2..."
4,"5;0.31;""Good"";""J"";""SI2"";63.3;58;335;4.34;4.35;..."
...,...
53935,"53936;0.72;""Ideal"";""D"";""SI1"";60.8;57;2757;5.75..."
53936,"53937;0.72;""Good"";""D"";""SI1"";63.1;55;2757;5.69;..."
53937,"53938;0.7;""Very Good"";""D"";""SI1"";62.8;60;2757;5..."
53938,"53939;0.86;""Premium"";""H"";""SI2"";61;58;2757;6.15..."


In [49]:
#Para solucionarlo, podemos especificar el separador en read_csv

df = pd.read_csv('diamonds_puntocoma.csv',sep=";")

df.head(10)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


Existen muchas otras opcines en la función read_csv que se pueden consultar en: https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html

También podemos realizar el proceso inverso, es decir, crear un archivo CSV a partir de un DataFrame. Esto es especialmente interesante si queremos almacenar nuestros datos una vez que ya hemos realizado una serie de operaciones y cálculos sobre nuestro DataFrame. 

En el siguiente ejemplo se va a mostrar el funcionamiento del comando to_csv a partir del dataframe que acabamos de importar en el paso anterior.

In [51]:
df.to_csv('diamonds_write.csv',sep=';',index=False) #index=False hace que no se añada una columna con los indices de df

## 4.2. Leer y escribir Excel


De forma análoga, se pueden importar en DataFrames los datos contenidos en archivos excel. Para ello se emplea el método read_excel. El funcionamiento de este comando es muy similar a read_csv, solo que en este caso no es necesario especificar el tipo de separador pero sí la hoja de la que queremos extraer los datos. Como se podrá comprobar durante los ejercicios, la lectura de archivos csv es mucho más rápida que la de archivos excel. Esta diferencia se va haciendo más clara conforme mayor es el volumen de datos que se lee.

Para este ejemplo se han tomados los datos de "diamonds.csv" y se han dividido en las siguientes hojas de Excel:

    1. Datos_generales: Contiene los mismos datos que "diamonds.csv"
    2. Valor: Incluye los datos de quilates y precio
    3. Propiedades_fisicas: Contiene los datos de color, corte y claridad
    4. Propiedades geométricas: Resto de datos


In [52]:
#Supongamos que solo nos interesan las propiedades geométricas de los diamantes

Prop_geom = pd.read_excel('Diamonds_excel.xlsx',sheet_name='Propiedades_fisicas')

Prop_geom.head(10)

Unnamed: 0,cut,color,clarity
0,Ideal,E,SI2
1,Premium,E,SI1
2,Good,E,VS1
3,Premium,I,VS2
4,Good,J,SI2
5,Very Good,J,VVS2
6,Very Good,I,VVS1
7,Very Good,H,SI1
8,Fair,E,VS2
9,Very Good,H,VS1


In [53]:
#Al igual que con los CSV, también podemos crear un excel a partir de un DataFrame. 
#Por ejemplo, vamos a hacerlo con el dataframe que acabamos de crear

Prop_geom.to_excel('Propiedades_geometricas.xlsx', sheet_name='Prop_geom',index=False)

Como se puede observar, el código anterior solo permite crear un archivo excel con una sola hoja. Para crear por ejemplo un excel con varias hojas como 'Diamonds_excel.xlsx' se puede emplear el siguiente procedimiento:

    1. Crear un dataframe por cada hoja que queremos crear en el Excel
    2. Emplear la función ExcelWriter para ir añadiendo hojas

In [54]:
#Cargamos los datos
df = pd.read_csv('diamonds.csv')

#Definimos un dataframe por cada hoja que queramos crear
Datos_generales = df.copy()
Valor = df[['carat','price']]
Propiedades_fisicas = df[['cut','color','clarity']]
Propiedades_geom = df[['depth','table','x','y','z']]


#Definimos el excel que queremos crear y vamos añadiendo hojas
with pd.ExcelWriter('output_DF.xlsx') as writer:
    
    Datos_generales.to_excel(writer,sheet_name='Datos_generales',index=False)
    Valor.to_excel(writer,sheet_name='Valor',index=False)
    Propiedades_fisicas.to_excel(writer,sheet_name='Propiedades_fisicas',index=False)
    Propiedades_geom.to_excel(writer,sheet_name='Propiedades_geom',index=False)

## 4.3. Leer y escribir archivos HDF5

Los archivos HDF5 resultan de especialidad utilidad cuando se trabaja con grandes volúmenes de datos. Algunos ejemplos prácticos en los que el tamaño potencial de los datos puede llegar a resultar problemático son: procesamiento de datos de sensores (especialmente cuando se tiene un sampling muy alto como en acelerometría), training sets para algoritmos de Machine Learning o Deep Learning o time series con un gran número de parámetros (como por ejemplo los datos de DFDR -o caja negra- de un avión).

Haciendo una analogía con Excel, los archivos HDF5 se componen de varios "keys", que serían como las hojas de Excel, dentro de los cuales se tienen tablas. Dichas "keys" se pueden cargar de forma independiente como veremos a continuación

A lo largo de los siguientes ejercicios se puede comprobar como la carga de los datos es mucho más rápida en este tipo de archivos que en los Excel. Para ello se ha creado el archivo 'diamonds.h5', que tiene la misma estructura de 'keys' que el archivo 'Diamonds_excel.xlsx' usado anteriormente

In [55]:
#Leer hdf5
Datos_generales = pd.read_hdf('diamonds.h5','Datos_generales')
Datos_generales.head(10)

Unnamed: 0.1,Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,1,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,2,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,3,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,4,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,5,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75
5,6,0.24,Very Good,J,VVS2,62.8,57.0,336,3.94,3.96,2.48
6,7,0.24,Very Good,I,VVS1,62.3,57.0,336,3.95,3.98,2.47
7,8,0.26,Very Good,H,SI1,61.9,55.0,337,4.07,4.11,2.53
8,9,0.22,Fair,E,VS2,65.1,61.0,337,3.87,3.78,2.49
9,10,0.23,Very Good,H,VS1,59.4,61.0,338,4.0,4.05,2.39


In [56]:
Valor = pd.read_hdf('diamonds.h5','Valor')
Valor.head(10)

Unnamed: 0,carat,price
0,0.23,326
1,0.21,326
2,0.23,327
3,0.29,334
4,0.31,335
5,0.24,336
6,0.24,336
7,0.26,337
8,0.22,337
9,0.23,338


In [57]:
Propiedades_fisicas = pd.read_hdf('diamonds.h5','Propiedades_fisicas')
Propiedades_fisicas.head(10)

Unnamed: 0,cut,color,clarity
0,Ideal,E,SI2
1,Premium,E,SI1
2,Good,E,VS1
3,Premium,I,VS2
4,Good,J,SI2
5,Very Good,J,VVS2
6,Very Good,I,VVS1
7,Very Good,H,SI1
8,Fair,E,VS2
9,Very Good,H,VS1


In [58]:
Propiedades_geom = pd.read_hdf('diamonds.h5','Propiedades_geom')
Propiedades_geom.head(10)

Unnamed: 0,depth,table,x,y,z
0,61.5,55.0,3.95,3.98,2.43
1,59.8,61.0,3.89,3.84,2.31
2,56.9,65.0,4.05,4.07,2.31
3,62.4,58.0,4.2,4.23,2.63
4,63.3,58.0,4.34,4.35,2.75
5,62.8,57.0,3.94,3.96,2.48
6,62.3,57.0,3.95,3.98,2.47
7,61.9,55.0,4.07,4.11,2.53
8,65.1,61.0,3.87,3.78,2.49
9,59.4,61.0,4.0,4.05,2.39


Ahora vamos a mostrar como se crea un archivo hdf5 análogo al que hemos usado antes 

In [59]:
#Cargamos los datos
df = pd.read_csv('diamonds.csv')

#Los guardamos en un archivo hdf5 con varios keys
df.to_hdf('diamonds.h5','Datos_generales')
df[['carat','price']].to_hdf('diamonds.h5','Valor')
df[['cut','color','clarity']].to_hdf('diamonds.h5','Propiedades_fisicas')
df[['depth','table','x','y','z']].to_hdf('diamonds.h5','Propiedades_geom')

# 5. Concatenar DataFrames

En esta sección se va a mostrar el funcionamiento del método "concat", que nos permite unir (o concatenar) DataFrames de dos formas distintas: por columnas y por filas

In [60]:
#Cargamos los datos
df = pd.read_csv('diamonds.csv')

#Creamos varios dataframes
Valor = df[['carat','price']]
Propiedades_fisicas = df[['cut','color','clarity']]
Propiedades_geom = df[['depth','table','x','y','z']]

Concatenar por columnas: Lo que hacemos aquí es juntar la columnas de los distintos DataFrames que concatenamos, es decir, creamos un nuevo DataFrame que contiene cada una de las columnas de los DataFrames que lo forman

In [61]:
Valor.head(3)

Unnamed: 0,carat,price
0,0.23,326
1,0.21,326
2,0.23,327


In [62]:
Propiedades_fisicas.head(3)

Unnamed: 0,cut,color,clarity
0,Ideal,E,SI2
1,Premium,E,SI1
2,Good,E,VS1


In [63]:
df1 = pd.concat([Valor,Propiedades_fisicas],axis=1) #la opción axis=1 es la que especifica que la concatenación es por columnas

df1.head(3)

Unnamed: 0,carat,price,cut,color,clarity
0,0.23,326,Ideal,E,SI2
1,0.21,326,Premium,E,SI1
2,0.23,327,Good,E,VS1


¿Qué ocurre si unimos dos DataFrames que no tienen las mismas filas?

In [64]:
df1 = pd.concat([Valor.head(5),Propiedades_fisicas.head(3)],axis=1)

df1

Unnamed: 0,carat,price,cut,color,clarity
0,0.23,326,Ideal,E,SI2
1,0.21,326,Premium,E,SI1
2,0.23,327,Good,E,VS1
3,0.29,334,,,
4,0.31,335,,,


Concatenar filas: Aquí lo que hacemos es añadir las filas de un DataFrame a las de otro. Para ello el nombre de las columnas debe ser el mismo. En caso contrario, se crearan filas nuevas con las columnas que no coincidan y los huecos se rellenarán con NaN.

Aquí vamos a introcucir uno de los conceptos más interesantes de pandas como es el filtrado de datos (similar al que haríamos en una tabla de Excel). Lo que vamos a hacer es coger el DataFrame "Propiedades_fisicas", vamos a crear un DataFrame que contenga los 10 primeros diamantes con corte "Premium", otro que contenga los 10 primeros diamantes con corte "Good" y después los vamos a unir.

In [65]:
df_Premium = Propiedades_fisicas[Propiedades_fisicas['cut'] == 'Premium'].head(10)

df_Premium

Unnamed: 0,cut,color,clarity
1,Premium,E,SI1
3,Premium,I,VS2
12,Premium,F,SI1
14,Premium,E,SI2
15,Premium,E,I1
26,Premium,I,VS1
45,Premium,F,SI1
53,Premium,E,VS2
54,Premium,D,VS2
56,Premium,J,SI2


In [66]:
df_Good = Propiedades_fisicas[Propiedades_fisicas['cut'] == 'Good'].head(10)
df_Good

Unnamed: 0,cut,color,clarity
2,Good,E,VS1
4,Good,J,SI2
10,Good,J,SI1
17,Good,J,SI1
18,Good,J,SI1
20,Good,I,SI2
35,Good,F,VS1
36,Good,E,VS1
37,Good,H,SI1
42,Good,D,VS2


In [67]:
df_merged = pd.concat([df_Premium,df_Good],axis=0) #con axis=0 concatenamos por filas
df_merged

Unnamed: 0,cut,color,clarity
1,Premium,E,SI1
3,Premium,I,VS2
12,Premium,F,SI1
14,Premium,E,SI2
15,Premium,E,I1
26,Premium,I,VS1
45,Premium,F,SI1
53,Premium,E,VS2
54,Premium,D,VS2
56,Premium,J,SI2


# 6. Limpiar el DataFrame

In [None]:
#set index

In [None]:
#drop duplicates

# 7. Operaciones varias con el DataFrame--> Usando el de diamonds.csv

In [None]:
#Concatenar

In [None]:
#Construir un dataframe a partir de distintos arrays y luego concatenar

In [None]:
#Sacar max/min con indices

In [None]:
#Filtros varios-->Contar lo del reindexing

In [None]:
#GroupBy

In [None]:
#Lambda

In [None]:
#Pivot table

In [None]:
#Meter vectores en celdas