In [2]:
import pandas as pd 
from glob import glob

# Reading DataFrames from multiple files

A la hora de leer ficheros la función más usada es **pd.read_csv()**, si queremos leer múltiples ficheros una forma es llamar a esta función tantas veces como ficheros queramos leer.

In [2]:
#Leemos el fichero Bronze.csv
bronze = pd.read_csv('Bronze.csv')

#Leemos el fichero Silver.csv
silver = pd.read_csv('Silver.csv')

#Leemos el fichero Gold.csv
gold = pd.read_csv('Gold.csv')

# Reading DataFrames from multiple files in a loop

Otra opción que tenemos a la hora de leer múltiples ficheros es hacer uso de un bucle, agregando cada una de las lecturas dentro de una lista. De esta forma lo que obtenemos es una lista de DataFrames.

In [6]:
read_files = ['Bronze.csv', 'Silver.csv', 'Gold.csv']
list_files = []
for file in read_files:
    list_files.append(pd.read_csv(file))

print(list_files[0].head(3))

   NOC         Country   Total
0  USA   United States  1052.0
1  URS    Soviet Union   584.0
2  GBR  United Kingdom   505.0


# Combining DataFrames from multiple data files

A continuación vamos a proceder a concatenar los DataFrames bronze, silver y gold en un único DataFrame llamado medals.

In [7]:
#Nos creamos una copia de nuestro conjunto de datos gold
medals = gold.copy()

#Nos creamos una lista con las nuevas columnas
new_labels = ['NOC', 'Country', 'Gold']

#Asignamos los nuevos nombres
medals.columns = new_labels

#Añadimos las columnas de las dataframe silver y bronze
medals['Silver'] = silver['Total']
medals['Bronze'] = bronze['Total']

#Vemos el resultado 
print(medals.head(3))

   NOC         Country    Gold  Silver  Bronze
0  USA   United States  2088.0  1195.0  1052.0
1  URS    Soviet Union   838.0   627.0   584.0
2  GBR  United Kingdom   498.0   591.0   505.0


# Reading DataFrames from multiple files with glob

La función **glob()** se trata de una función que nos permite encontrar un determinado patrón en nuestro directorio de trabajo.

In [11]:
list_df = [pd.read_csv(file) for file in glob('sales*.csv')]
len(list_df)

3

# Sorting DataFrame with the Index & columns

En determinadas situaciones es conveniente reordenar nuestras filas, los dos principales métodos para realizar esto son **sort_index()** y **sort_values()**. 

In [6]:
#Cargamos nuestro conjunto de datos monthly_max_temp.csv indexado por mes
weather1 = pd.read_csv('monthly_max_temp.csv', index_col = 'Month')
weather1.head()

Unnamed: 0_level_0,Temperature
Month,Unnamed: 1_level_1
Jan,68
Feb,60
Mar,68
Apr,84
May,88


Por defecto la función **sort_index()** nos permite ordenar por orden alfabético.

In [8]:
#Ordenamos los datos haciendo uso de sort_index
weather2 = weather1.sort_index()
weather2.head()

Unnamed: 0_level_0,Temperature
Month,Unnamed: 1_level_1
Apr,84
Aug,86
Dec,68
Feb,60
Jan,68


In [9]:
#Invertimos el orden
weather3 = weather1.sort_index(ascending = False)
weather3.head()

Unnamed: 0_level_0,Temperature
Month,Unnamed: 1_level_1
Sep,90
Oct,84
Nov,72
May,88
Mar,68


# Reindexing DataFrame from a list

A la hora de ordenar nuestras filas, también tenemos la opción de hacer uso de **reindex()**, esta función nos permite por ejemplo ordenar nuestros datos a partir de por ejemplo de una lista.

In [10]:
#Cargamos los datos
data = pd.read_csv('temperature_quartile.csv', index_col = 'Month')
data

Unnamed: 0_level_0,Temperature
Month,Unnamed: 1_level_1
Apr,61.956044
Jan,32.133333
Jul,68.934783
Oct,43.434783


In [11]:
#Nos creamos la lista a partir de la cual deseamos ordenar
year = ['Jan','Feb','Mar','Apr','May','Jun','Jul','Aug','Sep','Oct','Nov','Dec']

#Ordenamos nuestro conjunto de datos a partir de la lista
weather2 = data.reindex(year)
weather2.head()

Unnamed: 0_level_0,Temperature
Month,Unnamed: 1_level_1
Jan,32.133333
Feb,
Mar,
Apr,61.956044
May,


Podemos ver que para los valores de la lista en los cuales nuestro dataset no tiene datos, se rellena con **NaN**. Podemos hacer uso del método **ffill()** para rellenar los valores faltantes con el valor anterior.

In [12]:
weather3 = data.reindex(year).ffill()
weather3.head()

Unnamed: 0_level_0,Temperature
Month,Unnamed: 1_level_1
Jan,32.133333
Feb,32.133333
Mar,32.133333
Apr,61.956044
May,61.956044


# Reindexing using another DataFrame Index

Otra opción que tenemos a la hora de reordenar nuestro conjunto de datos es a partir de los índices de otro conjunto de datos. Para esto e método **reindex()** permite como entrada un objeto tipo Serie. Para acceder a los índices de un DataFrame podemos hacer uso del método **.index**. 

In [32]:
#Cargamos los datos
name_1881 = pd.read_csv('names1881.csv', index_col = ['name', 'gender'])
name_1981 = pd.read_csv('names1981.csv', index_col = ['name', 'gender'])

#Vemos los nombres comunes en ambos datasets
commom_names = name_1881.reindex(name_1981.index)

#Vemos el número de nombres comunes
print(commom_names.shape)

#Eliminamos los filas con valores perdidos
commom_names = commom_names.dropna()

#Vemos ahora el número de nombres comunes
print(commom_names.shape)

(19455, 1)
(1587, 1)
