In [1]:
#Librerías
import numpy as np
import pandas as pd

In [2]:
# crear un array de tuplas
nombres = ['Ana','Rafa','Antonio','Pedro','Elena']
nacimientos = [968, 155, 77, 578, 100]

lista_datos = list(zip(nombres, nacimientos))
lista_datos

[('Ana', 968), ('Rafa', 155), ('Antonio', 77), ('Pedro', 578), ('Elena', 100)]

In [6]:
# crear un DataFrame
tabla = pd.DataFrame( data    = lista_datos,            # lista de tuplas
                      columns = ['Nombres', 'Nacimientos'])
tabla

Unnamed: 0,Nombres,Nacimientos
0,Ana,968
1,Rafa,155
2,Antonio,77
3,Pedro,578
4,Elena,100


In [7]:
tabla['Nueva'] = [7, None, 4, None, None]        # añadir nueva columna
tabla

Unnamed: 0,Nombres,Nacimientos,Nueva
0,Ana,968,7.0
1,Rafa,155,
2,Antonio,77,4.0
3,Pedro,578,
4,Elena,100,


In [8]:
#También es posible crear un DataFrame a partir de un diccionario.
#Las claves del diccionario serán los nombres de las columnas 
#Los valores del diccionario constituirán las filas

datos = {"Coffee" : ['Espresso', 'Long Black', 'Flat White', 'Cappuccino', 'Affogato'], 
         "Water"  : [ "No" , "Yes", "No" , "No" , "No" ],
         "Milk"   : ["No","No","Yes",  "Yes - Frothy" ,"No"],
         "Icecream" : ["No", "No","No","No",'Yes'    ]
         }
mi_tabla = pd.DataFrame(datos)
mi_tabla.tail()



Unnamed: 0,Coffee,Water,Milk,Icecream
0,Espresso,No,No,No
1,Long Black,Yes,No,No
2,Flat White,No,Yes,No
3,Cappuccino,No,Yes - Frothy,No
4,Affogato,No,No,Yes


In [9]:
#Podemos crear un DataFrame indexando las filas con un tipo de dato que no sea por defecto (int).
#Podemos crear un DataFrame cambiando la posición de las columnas, incluso con menos columnas.

datos = {"Coffee" : ['Espresso', 'Long Black', 'Flat White', 'Cappuccino', 'Affogato'], 
              "Water"  : [ "No" , "Yes", "No" , "No" , "No" ],
              "Milk"   : ["No","No","Yes",  "Yes - Frothy" ,"No"],
              "Icecream" : ["No", "No","No","No",'Yes'    ]
         }
mi_tabla = pd.DataFrame(datos, 
                        columns = ['Coffee',  'Water', 'Milk'], 
                        index   = [2001, 2003, 2002, 2005, 2010] )
mi_tabla

Unnamed: 0,Coffee,Water,Milk
2001,Espresso,No,No
2003,Long Black,Yes,No
2002,Flat White,No,Yes
2005,Cappuccino,No,Yes - Frothy
2010,Affogato,No,No


In [10]:
#Y si alguna columna no existe, el sistema pone NaN (not a number) para indicar que el valor no existe.

mi_tabla = pd.DataFrame(datos, columns = ['Coffee',  'Water', 'Milk', 'Price'], 
                               index  =[2001, 2003, 2002, 2005, 2010])
mi_tabla

Unnamed: 0,Coffee,Water,Milk,Price
2001,Espresso,No,No,
2003,Long Black,Yes,No,
2002,Flat White,No,Yes,
2005,Cappuccino,No,Yes - Frothy,
2010,Affogato,No,No,


In [11]:
mi_tabla.columns

Index(['Coffee', 'Water', 'Milk', 'Price'], dtype='object')

In [12]:
mi_tabla.index

Int64Index([2001, 2003, 2002, 2005, 2010], dtype='int64')

In [13]:
2005 in mi_tabla.index

True

In [14]:
mi_tabla.values

array([['Espresso', 'No', 'No', nan],
       ['Long Black', 'Yes', 'No', nan],
       ['Flat White', 'No', 'Yes', nan],
       ['Cappuccino', 'No', 'Yes - Frothy', nan],
       ['Affogato', 'No', 'No', nan]], dtype=object)

In [17]:
type(mi_tabla.values)

numpy.ndarray

In [18]:
#Un objeto del tipo Series es como un DataFrame pero con solo una columna. Se trata de un objto de tipo array 
#de una dimensión que tiene asociado un array de índices.

s = pd.Series([10, 20, 30,40])
s

0    10
1    20
2    30
3    40
dtype: int64

In [19]:
precio = pd.Series([10, 20, 30,40],  
                    index=['Espresso', 'Long Black', 'Flat White', 'Cappuccino'])                         
precio 

Espresso      10
Long Black    20
Flat White    30
Cappuccino    40
dtype: int64

In [20]:
type(precio)

pandas.core.series.Series

In [21]:
#Para acceder a las columnas, podemos usar la notación '.' (como si fuera un atributo) o con la notación 
#empleada en los diccionarios, utilizando como clave el nombre de la columna.

mi_tabla.Coffee

2001      Espresso
2003    Long Black
2002    Flat White
2005    Cappuccino
2010      Affogato
Name: Coffee, dtype: object

In [22]:
#El resultado es de tipo Serie:

type(mi_tabla.Coffee)

pandas.core.series.Series

In [23]:
#Para acceder a partes de un DataFrame eficientemente para grandes volumenes de datos -->
#funciones at, iat, loc, iloc.

# Selección de las 3 primeras filas
mi_tabla[0:3]         #   Notación típica en NumPy - Poco eficiente

Unnamed: 0,Coffee,Water,Milk,Price
2001,Espresso,No,No,
2003,Long Black,Yes,No,
2002,Flat White,No,Yes,


In [24]:
# Selección por indice
mi_tabla.loc[2001:2002]     # OJO: Ambos se incluyen

Unnamed: 0,Coffee,Water,Milk,Price
2001,Espresso,No,No,
2003,Long Black,Yes,No,
2002,Flat White,No,Yes,


In [25]:
# Selección por indices y etiquetas
res = mi_tabla.loc[2001:2002, ['Coffee', 'Milk']]     
res

Unnamed: 0,Coffee,Milk
2001,Espresso,No
2003,Long Black,No
2002,Flat White,Yes


In [26]:
# Selección por indice y etiqueta - resultado un escalar
mi_tabla.loc[2001, 'Coffee']     

'Espresso'

In [27]:
# Acceso a la segunda fila del DataFrame 
mi_tabla.iloc[1] 

Coffee    Long Black
Water            Yes
Milk              No
Price            NaN
Name: 2003, dtype: object

In [28]:
#El resultado es una Serie.
# Acceso a las filas con índices 1 y 2, 
#              columnas desde aquella con índice 1 hasta el final.
mi_tabla.iloc[1:3,1:]

Unnamed: 0,Water,Milk,Price
2003,Yes,No,
2002,No,Yes,


In [29]:
#Actualización de datos de un DataFrame

#Valor concreto

mi_tabla.Price = .85
mi_tabla

Unnamed: 0,Coffee,Water,Milk,Price
2001,Espresso,No,No,0.85
2003,Long Black,Yes,No,0.85
2002,Flat White,No,Yes,0.85
2005,Cappuccino,No,Yes - Frothy,0.85
2010,Affogato,No,No,0.85


In [30]:
#Array de valores

mi_tabla.Price = [.85, 0.95, 0.80, 1.10, 0.65]
mi_tabla

Unnamed: 0,Coffee,Water,Milk,Price
2001,Espresso,No,No,0.85
2003,Long Black,Yes,No,0.95
2002,Flat White,No,Yes,0.8
2005,Cappuccino,No,Yes - Frothy,1.1
2010,Affogato,No,No,0.65


In [31]:
#Podemos calcular el precio medio del café.

medio_cafe = mi_tabla.Price.mean()
medio_cafe

0.8699999999999999

In [32]:
pp = mi_tabla.mean()
pp

Price    0.87
dtype: float64

In [33]:
#Las operaciones sobre DataFrames son vectorizadas, al igual que ocurría con las operaciones sobre 
#los objetos ndarray de NumPy.
#Podemos aumentar el precio del café 10 céntimos.

mi_tabla['nuevo_pvp'] = mi_tabla.Price  + 0.10
mi_tabla

Unnamed: 0,Coffee,Water,Milk,Price,nuevo_pvp
2001,Espresso,No,No,0.85,0.95
2003,Long Black,Yes,No,0.95,1.05
2002,Flat White,No,Yes,0.8,0.9
2005,Cappuccino,No,Yes - Frothy,1.1,1.2
2010,Affogato,No,No,0.65,0.75


In [34]:
#Borrar columnas en un DataFrame (pop y drop)

#La función pop borra la columna especificada del DataFrame y guarda la columna borrada en un objeto de tipo Serie.
#Modifica el DataFrame

columna_price = mi_tabla.pop('Price')
columna_price

2001    0.85
2003    0.95
2002    0.80
2005    1.10
2010    0.65
Name: Price, dtype: float64

In [36]:
#La función drop permite borrar una o varias filas y columnas.
#No modifica el DataFrame. El resultado lo guarda en una copia.
#No permite acceder a los elementos borrados.

# borramos las filas correspondientes a los índices 2005 y 2010
mi_tabla.drop([2005,2010])
mi_tabla

Unnamed: 0,Coffee,Water,Milk,nuevo_pvp
2001,Espresso,No,No,0.95
2003,Long Black,Yes,No,1.05
2002,Flat White,No,Yes,0.9
2005,Cappuccino,No,Yes - Frothy,1.2
2010,Affogato,No,No,0.75


In [37]:
# borramos las columnas Water y Milk
otro = mi_tabla.drop(['Water', 'Milk'], axis = 1)
otro

Unnamed: 0,Coffee,nuevo_pvp
2001,Espresso,0.95
2003,Long Black,1.05
2002,Flat White,0.9
2005,Cappuccino,1.2
2010,Affogato,0.75


In [39]:
#También podemos utilizar la función insert para insertar la columna Price que hemos 
#eliminado anteriormente en una determinada posición.

# inserta la columna en la segunda posición 
mi_tabla.insert(2, 'Price', columna_price)
mi_tabla

Unnamed: 0,Coffee,Water,Price,Milk,nuevo_pvp
2001,Espresso,No,0.85,No,0.95
2003,Long Black,Yes,0.95,No,1.05
2002,Flat White,No,0.8,Yes,0.9
2005,Cappuccino,No,1.1,Yes - Frothy,1.2
2010,Affogato,No,0.65,No,0.75


In [40]:
# nueva fila (Total o parcial)
# -- se pierde el valor de los índices !!!!!!
mi_tabla.append({ 'Coffee': 'Other',
                   'Water': 'No',                      
                'Chocolat': 'Yes',
                  'Price' : 0.50 },
                    ignore_index = True)

Unnamed: 0,Coffee,Water,Price,Milk,nuevo_pvp,Chocolat
0,Espresso,No,0.85,No,0.95,
1,Long Black,Yes,0.95,No,1.05,
2,Flat White,No,0.8,Yes,0.9,
3,Cappuccino,No,1.1,Yes - Frothy,1.2,
4,Affogato,No,0.65,No,0.75,
5,Other,No,0.5,,,Yes


In [45]:
#Para no perder el nombre de los índices, se realiza la operación append con un 
#DataFrame en lugar de un diccionario:
otro_df = pd.DataFrame({  'Coffee': 'Other',
                                             'Water': 'No',                      
                                        'Chocolat': 'Yes',
                                              'Price' : 0.50 },
                               index = [2015])

mi_tabla.append(otro_df)

Unnamed: 0,Chocolat,Coffee,Milk,Price,Water,nuevo_pvp
2001,,Espresso,No,0.85,No,0.95
2003,,Long Black,No,0.95,Yes,1.05
2002,,Flat White,Yes,0.8,No,0.9
2005,,Cappuccino,Yes - Frothy,1.1,No,1.2
2010,,Affogato,No,0.65,No,0.75
2015,Yes,Other,,0.5,No,
2015,Yes,Other,,0.5,No,


In [46]:
#Cuidado!, la función append no modifica el objeto.
mi_tabla

Unnamed: 0,Chocolat,Coffee,Milk,Price,Water,nuevo_pvp
2001,,Espresso,No,0.85,No,0.95
2003,,Long Black,No,0.95,Yes,1.05
2002,,Flat White,Yes,0.8,No,0.9
2005,,Cappuccino,Yes - Frothy,1.1,No,1.2
2010,,Affogato,No,0.65,No,0.75
2015,Yes,Other,,0.5,No,


In [112]:
#La función merge permite combinar filas de dos o más DataFrames basándose en una o varias claves (columnas o índices).
#Trabaja de forma muy eficiente, de forma similar a las bases de datos relacionales tipo SQL. Hay tres tipos de merge:
#•interno (inner), 
#•externo (outer), 
#•cruzado (left, right)


In [48]:
# inner join on key
#inner join: Cada fila de la tabla df1 se combina con otro de la tabla df2 que cumpla las condiciones 
#(igualdad de una o varias columnas).

df1 = pd.DataFrame({'key': ['K0', 'K1', 'K1', 'K3'],  
                  'A': ['A0', 'A1', 'A2', 'A3'],    
                  'B': ['B0', 'B1', 'B2', 'B3']})   
                                                    
                                                    
df2 = pd.DataFrame({'key': ['K0', 'K1', 'K2', 'K3'], 
                   'A': ['C0', 'C1', 'C2', 'C3'],   
                   'D': ['D0', 'D1', 'D2', 'D3']})  
                                                    
                                                    
result = pd.merge(df1, df2, on='key') # por defecto, pandas.merge() combina de forma interna (inner)              
print (df1)
print (df2)
result

  key   A   B
0  K0  A0  B0
1  K1  A1  B1
2  K1  A2  B2
3  K3  A3  B3
  key   A   D
0  K0  C0  D0
1  K1  C1  D1
2  K2  C2  D2
3  K3  C3  D3


Unnamed: 0,key,A_x,B,A_y,D
0,K0,A0,B0,C0,D0
1,K1,A1,B1,C1,D1
2,K1,A2,B2,C1,D1
3,K3,A3,B3,C3,D3


In [50]:
# inner join on (key1 key2)
df1 = pd.DataFrame({'key1': ['K0', 'K0', 'K1', 'K2'],       
                     'key2': ['K0', 'K1', 'K0', 'K1'],       
                     'A': ['A0', 'A1', 'A2', 'A3'],          
                     'B': ['B0', 'B1', 'B2', 'B3']})         
                                                          
                                                          
df2 = pd.DataFrame({'key1': ['K0', 'K1', 'K1', 'K2'],      
                      'key2': ['K0', 'K0', 'K0', 'K0'],      
                      'C': ['C0', 'C1', 'C2', 'C3'],         
                      'D': ['D0', 'D1', 'D2', 'D3']})        
                                                          
                                                          
result = pd.merge( df1, df2, 
                              on=['key1', 'key2'])  

print (df1)
print (df2)
result

  key1 key2   A   B
0   K0   K0  A0  B0
1   K0   K1  A1  B1
2   K1   K0  A2  B2
3   K2   K1  A3  B3
  key1 key2   C   D
0   K0   K0  C0  D0
1   K1   K0  C1  D1
2   K1   K0  C2  D2
3   K2   K0  C3  D3


Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K1,K0,A2,B2,C1,D1
2,K1,K0,A2,B2,C2,D2


In [51]:
#left outer join : todas las filas de la tabla izquierda df1 tengan o no correspondencia con la tabla derecha.
#Las que no tengan correspondencia se rellenan con NaN.
result = pd.merge(df1, df2, 
                              how='left', 
                              on=['key1', 'key2'])

print (df1)
print (df2)
result

  key1 key2   A   B
0   K0   K0  A0  B0
1   K0   K1  A1  B1
2   K1   K0  A2  B2
3   K2   K1  A3  B3
  key1 key2   C   D
0   K0   K0  C0  D0
1   K1   K0  C1  D1
2   K1   K0  C2  D2
3   K2   K0  C3  D3


Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,


In [53]:
#outer join : Es la unión de left outer join y right outer join
result = pd.merge(df1, df2, 
                              how='outer', 
                              on=['key1', 'key2'])
result

Unnamed: 0,key1,key2,A,B,C,D
0,K0,K0,A0,B0,C0,D0
1,K0,K1,A1,B1,,
2,K1,K0,A2,B2,C1,D1
3,K1,K0,A2,B2,C2,D2
4,K2,K1,A3,B3,,
5,K2,K0,,,C3,D3


In [55]:
#skiprows : indica el número de filas al comienzo del fichero que queremos ignorar.
#names: indica el nombre de las columnas.

tabla = pd.read_csv('Animals2.csv', 
                                skiprows = 2,
                                names = ['Especie', 'Peso_cuerpo', 'Peso_cerebro']
                               )
tabla.iloc [:10]    # muestro solo las 10 primeras entradas

Unnamed: 0,Especie,Peso_cuerpo,Peso_cerebro
0,Little brown bat,0.01,0.25
1,Big brown bat,0.023,0.3
2,Mouse,0.023,0.4
3,Musk shrew,0.048,0.33
4,Star-nosed mole,0.06,1.0
5,E. American mole,0.075,1.2
6,Ground squirrel,0.101,4.0
7,Tree shrew,0.104,2.5
8,Golden hamster,0.12,1.0
9,Mole,0.122,3.0


In [56]:
type(tabla)

pandas.core.frame.DataFrame

In [58]:
#Podemos cargar los datos indicando que la columna de índices será la columna 0.
tabla = pd.read_csv('Animals2.csv',
                                    skiprows = 2,   
                                    names = ['Peso_cuerpo', 'Peso_cerebro'],
                                    index_col = 0
                               )
tabla.head()    # muestro solo las 5 primeras entradas

Unnamed: 0,Peso_cuerpo,Peso_cerebro
Little brown bat,0.01,0.25
Big brown bat,0.023,0.3
Mouse,0.023,0.4
Musk shrew,0.048,0.33
Star-nosed mole,0.06,1.0


In [61]:
#La función read_table ofrece las mismas opciones que read_csv y se usa cuando el delimitador es distinto de ','.
tabla = pd.read_table('Animals2.csv' ,  
                      delimiter = ',' ,
                      skiprows = 1,
                      names = ['Animal','Cuerpo(Kg.)', 'Cerebro(gr.)'] 
                      
                   )
tabla.iloc[:10]    # muestro solo las 10 primeras entradas

Unnamed: 0,Animal,Cuerpo(Kg.),Cerebro(gr.)
0,Lesser short-tailed shrew,0.005,0.14
1,Little brown bat,0.01,0.25
2,Big brown bat,0.023,0.3
3,Mouse,0.023,0.4
4,Musk shrew,0.048,0.33
5,Star-nosed mole,0.06,1.0
6,E. American mole,0.075,1.2
7,Ground squirrel,0.101,4.0
8,Tree shrew,0.104,2.5
9,Golden hamster,0.12,1.0


In [63]:
#El fichero pedidos.csv recoge la información de pedidos de ciertos productos, con la cantidad 
#pedida y el precio de cada producto.
tabla_pedidos = pd.read_csv('pedidos.csv')
tabla_pedidos.head()

Unnamed: 0,Numero_pedido,producto,cantidad,precio,linea_de_pedido
0,10105,S700_2610,31,65.77,3
1,10105,S700_3505,39,81.14,6
2,10105,S700_3962,22,116.19,7
3,10105,S72_3212,25,56.78,8
4,10106,S18_1662,36,146.65,12


In [64]:
#En este caso, podemos cargar los datos en un DataFrame donde los índices sean un multiíndice 
#compuesto por el número de pedido y la línea de pedido.
# indicando columnas de índices mediante lista de enteros
tabla_pedidos = pd.read_csv('pedidos.csv', 
                                                index_col = [0,4]
                                                )
tabla_pedidos.iloc[:10]    # muestro solo las 10 primeras entradas

Unnamed: 0_level_0,Unnamed: 1_level_0,producto,cantidad,precio
Numero_pedido,linea_de_pedido,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10105,3,S700_2610,31,65.77
10105,6,S700_3505,39,81.14
10105,7,S700_3962,22,116.19
10105,8,S72_3212,25,56.78
10106,12,S18_1662,36,146.65
10106,2,S18_2581,34,90.39
10106,18,S18_3029,41,83.44
10106,17,S18_3856,41,116.46
10106,4,S24_1785,28,88.63
10106,13,S24_2841,49,74.68


In [66]:
# indicando columnas de índices mediante lista de nombres
tabla_pedidos = pd.read_csv('pedidos.csv', 
                               index_col = ['Numero_pedido', 'linea_de_pedido']
                                               )
tabla_pedidos.iloc[:10]    # muestro solo las 10 primeras entradas

Unnamed: 0_level_0,Unnamed: 1_level_0,producto,cantidad,precio
Numero_pedido,linea_de_pedido,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
10105,3,S700_2610,31,65.77
10105,6,S700_3505,39,81.14
10105,7,S700_3962,22,116.19
10105,8,S72_3212,25,56.78
10106,12,S18_1662,36,146.65
10106,2,S18_2581,34,90.39
10106,18,S18_3029,41,83.44
10106,17,S18_3856,41,116.46
10106,4,S24_1785,28,88.63
10106,13,S24_2841,49,74.68


In [67]:
# recuperar los datos del pedido 10105
ped_10105 = tabla_pedidos.loc[10105]
ped_10105

Unnamed: 0_level_0,producto,cantidad,precio
linea_de_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3,S700_2610,31,65.77
6,S700_3505,39,81.14
7,S700_3962,22,116.19
8,S72_3212,25,56.78


In [68]:
#El fichero actor.csv recoge cierta información personal de actores nombre, apellido y teléfono.
#En algunos casos el dato de teléfono no se conoce, por lo que es NULL en unos casos y está vacío en otros.
tabla_actores = pd.read_csv('actor.csv')
primeros = tabla_actores.iloc[:10]    # muestro solo las 10 primeras entradas
primeros

Unnamed: 0,actor_id,first_name,last_name,last_update,tlf
0,61,CHRISTIAN,NEESON,2006-02-15 04:34:33,4784.0
1,62,JAYNE,NEESON,-1,5555.0
2,63,CAMERON,WRAY,-1,
3,64,RAY,JOHANSSON,2006-02-15 04:34:33,1234.0
4,65,ANGELA,HUDSON,2006-02-15 04:34:33,8976.0
5,66,MARY,TANDY,2006-02-15 04:34:33,2356.0
6,67,JESSICA,BAILEY,-1,
7,68,RIP,WINSLET,2006-02-15 04:34:33,
8,69,KENNETH,PALTROW,2006-02-15 04:34:33,
9,70,MICHELLE,MCCONAUGHEY,2006-02-15 04:34:33,


In [69]:
#En el ejemplo anterior, queremos sustituir los valores -1 de la columna last_update por NaN.
tabla_actores = pd.read_csv('actor.csv', 
                            na_values = {'last_update': ['NULL', -1],
                                                 'tlf': ['NULL']}                )
primeros = tabla_actores.iloc[:10]    # muestro solo las 10 primeras entradas
primeros

Unnamed: 0,actor_id,first_name,last_name,last_update,tlf
0,61,CHRISTIAN,NEESON,2006-02-15 04:34:33,4784.0
1,62,JAYNE,NEESON,,5555.0
2,63,CAMERON,WRAY,,
3,64,RAY,JOHANSSON,2006-02-15 04:34:33,1234.0
4,65,ANGELA,HUDSON,2006-02-15 04:34:33,8976.0
5,66,MARY,TANDY,2006-02-15 04:34:33,2356.0
6,67,JESSICA,BAILEY,,
7,68,RIP,WINSLET,2006-02-15 04:34:33,
8,69,KENNETH,PALTROW,2006-02-15 04:34:33,
9,70,MICHELLE,MCCONAUGHEY,2006-02-15 04:34:33,


In [70]:
#Cuando los ficheros de datos que queremos importar son muy grandes, es posible procesar 
#solo una parte de los datos y repetir el proceso para el resto.
trozos_sunspots = pd.read_csv('sunspots_month.csv',
                 skiprows = 1,        
                 names = ['Media','Mes' ,'Anno'],    
                 index_col = [2,1],
                 chunksize = 100)             # tamaño del bloque leído es: 100
                            
nueva_info = pd.DataFrame([])

# bucle for para procesar cada uno de los bloques: 
for t in trozos_sunspots:                        # t es un bloque de 100 filas
    mayor85 = t[t.Media > 85.]
    nueva_info = pd.concat([nueva_info,mayor85])
    
len(nueva_info)

564

In [71]:
nueva_info.head()

Unnamed: 0_level_0,Unnamed: 1_level_0,Media
Anno,Mes,Unnamed: 2_level_1
1749.0,7,94.8
1749.0,11,158.6
1749.0,12,85.2
1750.0,3,89.2
1750.0,4,88.3


In [72]:
#Para exportar un DataFrame a un fichero con extensión csv utilizamos la función to_csv:
nueva_info.to_csv('sunspots_procesed.csv')

In [73]:
#Admite una gran cantidad de parámetros. Opcionalmente podemos generar un fichero csv 
#con cabeceras o sin ellas, con índices o sin ellos.
nueva_info.to_csv('sunspots_procesed.csv', header = False, index = False)

In [75]:
#La librería pandas también ofrece la posibilidad de exportar datos en distintas hojas de cálculo dentro 
#del mismo fichero excel. Para eso es necesario importar la clase ExcelWriter de pandas.
from pandas import ExcelWriter

writer = ExcelWriter('output.xlsx')
nueva_info.to_excel(writer,'Hoja 1')
nueva_info.to_excel(writer,'Hoja 2')
writer.save()

In [77]:
#La función read_excel permite leer una tabla en formato excel y convertirla en un objeto DataFrame.
import pandas as pd
tabla = pd.read_excel('clientes.xlsx')
tabla.head()

Unnamed: 0,CODCLI,NOMCLI,FONOCLI,SEXO,CODDIS
0,CLI-0001,ROSA ELVIRA,8957452,F,DIS-04
1,CLI-0002,JOSE CARLOS,5638547,M,DIS-05
2,CLI-0003,MIGUEL ANGEL,5687451,M,DIS-04
3,CLI-0004,ANA MARIA,2301478,F,DIS-07
4,CLI-0005,DANIEL ALBERTO,6387412,M,DIS-08


In [79]:
#Por defecto lee la primera hoja dentro del libro, pero se puede indicar que lea otra hoja con el parámetro sheetname.
tabla= pd.read_excel('clientes.xlsx', 
                      sheetname = "Enero")    
tabla.tail()

  **kwds)


Unnamed: 0,CODCLI,NOMCLI,FONOCLI,SEXO,CODDIS
15,CLI-0016,MARIA ISABEL,6302104,F,DIS-08
16,CLI-0017,RAUL ANDRES,8574123,M,DIS-20
17,CLI-0018,SAULO ANDRE,5874123,M,DIS-07
18,CLI-0019,LUCIA MILAGROS,6875210,F,DIS-20
19,CLI-0020,MONICA LISSET,6301478,F,DIS-11


In [80]:
#Operaciones aritméticas y alineamiento de datos
#El fichero Arrestos.xls recoge los datos de asaltos y violaciones de algunos estados de USA. 
#Estos datos están divididos en dos hojas.
from pandas import ExcelFile
arrestos = pd.ExcelFile('Arrestos.xls')
datos_1 = arrestos.parse(0, index_col = [0])     # datos de la primera hoja
datos_2 = arrestos.parse(1, index_col = [0])     # datos de la segunda hoja

In [81]:
datos_1

Unnamed: 0_level_0,Violaciones
Estado,Unnamed: 1_level_1
Arizona,31.0
Connecticut,11.1
Delaware,15.8
Florida,31.9
Georgia,25.8


In [82]:
datos_2

Unnamed: 0_level_0,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,236,21.2
Arizona,294,31.0
California,276,40.6
Connecticut,110,11.1
Delaware,238,15.8
Georgia,211,25.8


In [83]:
datos_1.add(datos_2)     #mismo resultado que datos_1 + datos_2

Unnamed: 0_level_0,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,,
Arizona,,62.0
California,,
Connecticut,,22.2
Delaware,,31.6
Florida,,
Georgia,,51.6


In [84]:
#Para evitar esta pérdida de datos, pandas permite sumar los datos rellenando con un valor por defecto 
#para aquellos índices en la primer tabla que no existan en la segunda.
datos_1.add(datos_2, fill_value = 0)    

Unnamed: 0_level_0,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1
Alabama,236.0,21.2
Arizona,294.0,62.0
California,276.0,40.6
Connecticut,110.0,22.2
Delaware,238.0,31.6
Florida,,31.9
Georgia,211.0,51.6


In [None]:
#Ordenación de los índices y datos de una tabla

In [85]:
tabla_sismicos = pd.read_csv('quakes.csv', 
                                                  names = ['Latitud', 'Longitud', 'Profundidad','Magnitud', 'Estaciones'] )
tabla_sismicos.head()

Unnamed: 0,Latitud,Longitud,Profundidad,Magnitud,Estaciones
1,-20.42,181.62,562,4.8,41
2,-20.62,181.03,650,4.2,15
3,-26.0,-,42,5.4,43
4,-17.97,181.66,626,4.1,19
5,-20.42,181.96,649,4.0,11


In [86]:
t = tabla_sismicos.sort_index(axis = 1)  # ordena las columnas
t.head()

Unnamed: 0,Estaciones,Latitud,Longitud,Magnitud,Profundidad
1,41,-20.42,181.62,4.8,562
2,15,-20.62,181.03,4.2,650
3,43,-26.0,-,5.4,42
4,19,-17.97,181.66,4.1,626
5,11,-20.42,181.96,4.0,649


In [None]:
#Para ordenar los datos por una o varias columnas utilizamos la función sort_values e indicamos con el parámetro 
#by la/s columna por las que queremos ordenar. Por ejemplo si queremos ordenar la tabla anterior por orden 
#descendente de Magnitud de Richter:

In [87]:
t = tabla_sismicos.sort_values(by = ['Magnitud'])
t.tail()

Unnamed: 0,Latitud,Longitud,Profundidad,Magnitud,Estaciones
870,-12.23,167.02,242,6.0,132
17,-13.64,165.96,50,6.0,83
1000,-21.59,170.56,165,6.0,119
15,-20.7,169.92,139,6.1,94
152,-15.56,167.62,127,6.4,122


In [88]:
t = tabla_sismicos.sort_values(by = ['Magnitud', 'Estaciones'], 
                               ascending = [True,False])
t.tail()

Unnamed: 0,Latitud,Longitud,Profundidad,Magnitud,Estaciones
870,-12.23,167.02,242,6.0,132
1000,-21.59,170.56,165,6.0,119
17,-13.64,165.96,50,6.0,83
15,-20.7,169.92,139,6.1,94
152,-15.56,167.62,127,6.4,122


In [None]:
#Tratamiento de valores nulos

In [89]:
tabla_arrestos = pd.read_excel('Arrestos_all.xls',
                           index_col = [0])
tabla_arrestos.head()

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,15.0,236.0,21.2
Alaska,10.0,,
Arizona,8.1,294.0,31.0
Arkansas,8.8,190.0,
California,,276.0,40.6


In [90]:
tabla_arrestos.dropna().head()

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,15.0,236.0,21.2
Arizona,8.1,294.0,31.0
Colorado,7.9,204.0,38.7
Delaware,5.9,238.0,15.8
Florida,15.4,335.0,31.9


In [91]:
#Si solo queremos eliminar aquellas filas en las que los valores de todas las columnas
#son NaN, añadimos la opción how = 'all' y axis = 0
t = tabla_arrestos.dropna(how = 'all', axis = 0 )
t.head()

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,15.0,236.0,21.2
Alaska,10.0,,
Arizona,8.1,294.0,31.0
Arkansas,8.8,190.0,
California,,276.0,40.6


In [92]:
#Y si queremos filtrar solo aquellos estados que tienen datos para al menos un par de 
#variables, usaremos la opción thresh.
t = tabla_arrestos.dropna(thresh = 2 )
t.head()

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,15.0,236.0,21.2
Arizona,8.1,294.0,31.0
Arkansas,8.8,190.0,
California,,276.0,40.6
Colorado,7.9,204.0,38.7


In [93]:
#En los casos en los no deseamos eliminar filas con valores NaN, podemos sustituir los valores NaN por un valor por defecto. 
#Para ello usamos la función fillna.
t = tabla_arrestos.fillna(0)
t.head()

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,15.0,236.0,21.2
Alaska,10.0,0.0,0.0
Arizona,8.1,294.0,31.0
Arkansas,8.8,190.0,0.0
California,0.0,276.0,40.6


In [94]:
#Si queremos un valor por defecto para cada columna usaremos un diccionario como parámetro de fillna
defecto = {'Muertes': 0, 'Asaltos': 999, 'Violaciones': 555}
tabla_arrestos.fillna(defecto)[-9:]

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Tennessee,13.2,999.0,555.0
Texas,12.7,201.0,555.0
Utah,3.2,120.0,22.9
Vermont,2.2,999.0,11.2
Virginia,8.5,156.0,20.7
Washington,0.0,999.0,26.2
West Virginia,5.7,81.0,9.3
Wisconsin,0.0,999.0,555.0
Wyoming,6.8,161.0,15.6


In [None]:
#Operaciones estadísticas en pandas. BAsado en numpy e ignoran NaN

In [95]:
tabla_arrestos = pd.read_excel('Arrestos_all.xls',
                                                 index_col = [0])
tabla_arrestos.head()

Unnamed: 0_level_0,Muertes,Asaltos,Violaciones
Estado,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Alabama,15.0,236.0,21.2
Alaska,10.0,,
Arizona,8.1,294.0,31.0
Arkansas,8.8,190.0,
California,,276.0,40.6


In [96]:
#Por ejemplo, es posible calcular la suma por columnas. El resultado en esta caso será el número de muertes, 
#asaltos y violaciones en el conjunto total de estados.
tabla_arrestos.sum()

Muertes         356.9
Asaltos        7357.0
Violaciones     918.0
dtype: float64

In [97]:
#Si queremos calcular el número arrestos por estado, sumaremos por filas
tabla_arrestos.sum(axis = 1)

Estado
Alabama           272.2
Alaska             10.0
Arizona           333.1
Arkansas          198.8
California        316.6
Colorado          250.6
Connecticut        11.1
Delaware          259.7
Florida           382.3
Georgia           254.2
Hawaii             71.5
Idaho             136.8
Illinois          283.4
Indiana           141.2
Iowa               69.5
Kansas             24.0
Kentucky          135.0
Louisiana         271.2
Maine              92.9
Maryland          339.1
Massachusetts     169.7
Michigan          302.2
Minnesota          89.6
Mississippi        33.2
Missouri          215.2
Montana           115.0
Nebraska          122.8
Nevada            310.2
New Hampshire      68.6
New Jersey        185.2
New Mexico        328.5
New York          291.2
North Carolina    366.1
North Dakota       53.1
Ohio              148.7
Oklahoma          177.6
Oregon            193.2
Pennsylvania      127.2
Rhode Island      185.7
South Carolina    315.9
South Dakota      102.6
Tennessee

In [98]:
#También es posible calcular la media de muertes, asaltos y violaciones. 
#Por defecto se ignoran los valores NaN, pero si no queremos ignorarlos ha de usarse la opción skipna.
tabla_arrestos.mean(skipna=True)

Muertes          7.931111
Asaltos        175.166667
Violaciones     20.863636
dtype: float64

In [99]:
tabla_arrestos.std()    # desviación típica

Muertes         4.344632
Asaltos        83.593650
Violaciones     9.106402
dtype: float64

In [100]:
tabla_arrestos.std(axis = 1)

Estado
Alabama           125.842812
Alaska                   NaN
Arizona           158.866936
Arkansas          128.127749
California        166.452936
Colorado          105.457685
Connecticut              NaN
Delaware          131.238498
Florida           179.947224
Georgia           109.430770
Hawaii             20.591827
Idaho              64.692813
Illinois          134.002438
Indiana            57.515331
Iowa               28.796238
Kansas              8.485281
Kentucky           55.523779
Louisiana         160.371818
Maine              45.152224
Maryland          162.127923
Massachusetts      80.270439
Michigan          134.092891
Minnesota          36.994910
Mississippi         0.707107
Missouri           92.528986
Montana            72.831998
Nebraska           53.235921
Nevada            129.796302
New Hampshire      29.790994
New Jersey         84.428036
New Mexico        152.339456
New York          136.115037
North Carolina    186.173047
North Dakota       23.864828
Ohio   

In [None]:
#Pivoting

In [102]:
tabla_pedidos = pd.read_excel('pedidos.xls')
t = tabla_pedidos.iloc[-10:]                   # muestro solo las 10 primeras entradas
t

Unnamed: 0,Numero_pedido,linea_de_pedido,producto,cantidad,precio
190,10126,9,S18_4668,43,53.83
191,10126,1,S24_2300,27,126.51
192,10126,15,S24_4258,34,105.18
193,10126,3,S32_1268,43,96.31
194,10126,7,S32_3522,26,62.7
195,10126,6,S700_2824,45,102.16
196,10127,2,S12_1108,46,245.2
197,10127,3,S12_3148,46,160.14
198,10127,1,S12_3891,42,193.78
199,10127,11,S12_4473,24,106.65


In [None]:
En este ejemplo, las columnas número de pedido y producto forman lo que en bases de datos 
relacionales llamamos 'Clave primaria'. En algunas ocasiones nos puede interesar que el 
código de producto sea cabecera de columnas (nombre de columnas).

La función pivot(A, B, C) de pandas permite girar los datos; se trata de crear un nuevo DataFrame donde:
•Los índices son los valores de una columna A
•Las columnas son los distintos valores de otra columna B
•Los valores del nuevo DataFrame se rellenan con los valores de la columna C

In [103]:
t.pivot('Numero_pedido', 'producto', 'precio').head()

producto,S12_1108,S12_3148,S12_3891,S12_4473,S18_4668,S24_2300,S24_4258,S32_1268,S32_3522,S700_2824
Numero_pedido,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
10126,,,,,53.83,126.51,105.18,96.31,62.7,102.16
10127,245.2,160.14,193.78,106.65,,,,,,


In [None]:
#Eliminación de duplicados

In [104]:
islas = pd.read_csv('islands.csv',
                    skiprows = 1,
                   names = ['Nombre', 'Millas cuadradas'])
t = islas.iloc[:10]    # muestro solo las 10 primeras entradas
t

Unnamed: 0,Nombre,Millas cuadradas
0,Africa,11506
1,Africa,11506
2,Antarctica,5500
3,Asia,16988
4,Antarctica,5500
5,Australia,2968
6,Africa,11506
7,Baffin,184
8,Banks,23
9,Africa,10000


In [105]:
t.duplicated()

0    False
1     True
2    False
3    False
4     True
5    False
6     True
7    False
8    False
9    False
dtype: bool

In [106]:
t.drop_duplicates()

Unnamed: 0,Nombre,Millas cuadradas
0,Africa,11506
2,Antarctica,5500
3,Asia,16988
5,Australia,2968
7,Baffin,184
8,Banks,23
9,Africa,10000


In [None]:
También nos puede interesar eliminar filas si se repiten los datos de un subconjunto de columnas. 
En ese caso es necesario indicarlo como parámetro de la función.
En el ejemplo anterior hay dos entradas para Africa.

In [107]:
t.drop_duplicates(['Nombre'])

Unnamed: 0,Nombre,Millas cuadradas
0,Africa,11506
2,Antarctica,5500
3,Asia,16988
5,Australia,2968
7,Baffin,184
8,Banks,23


In [None]:
#Aplicación de funciones
Al igual que en NumPy, en pandas es posible aplicar funciones a un DataFrame o a una Serie.
Para la aplicación de funciones tenemos existen 3 posibilidades:
•apply: aplicable a Series (se aplica a filas o a columnas de un DataFrame).
•applymap: Se aplica solo a DataFrame (elemento a elemento).
•map: Se aplica elemento a elemento de una serie.
Supongamos que queremos transformar la tabla islas añadiendo una nueva columna que sea una transformación de 
los datos que contiene la propia tabla.

In [108]:
#Por ejemplo queremos añadir el idioma de algunas de las islas.
idiomas = {'Africa' : 'Kongo',
           'Australia' : 'English'}

islas['Idioma'] = islas['Nombre'].map(idiomas)
islas[0:10]

Unnamed: 0,Nombre,Millas cuadradas,Idioma
0,Africa,11506,Kongo
1,Africa,11506,Kongo
2,Antarctica,5500,
3,Asia,16988,
4,Antarctica,5500,
5,Australia,2968,English
6,Africa,11506,Kongo
7,Baffin,184,
8,Banks,23,
9,Africa,10000,Kongo


In [109]:
#Podemos añadir una columna con la conversión a kilómetros de las millas.
islas['Kilometros'] = islas['Millas cuadradas'].map(lambda x: x * 1.609344)
islas.head()

Unnamed: 0,Nombre,Millas cuadradas,Idioma,Kilometros
0,Africa,11506,Kongo,18517.112064
1,Africa,11506,Kongo,18517.112064
2,Antarctica,5500,,8851.392
3,Asia,16988,,27339.535872
4,Antarctica,5500,,8851.392


In [110]:
#Ahora podemos dar formato a la columna kilómetros para eliminar tantos decimales.
islas['Kilometros'] = islas['Kilometros'].map(lambda x: '%.1f' % x)
islas.head()

Unnamed: 0,Nombre,Millas cuadradas,Idioma,Kilometros
0,Africa,11506,Kongo,18517.1
1,Africa,11506,Kongo,18517.1
2,Antarctica,5500,,8851.4
3,Asia,16988,,27339.5
4,Antarctica,5500,,8851.4


In [111]:
def mi_fun(x):
    if type(x) == str:
        return x.upper()
    else:
        return 0

t = islas.applymap(mi_fun)
t.head()

Unnamed: 0,Nombre,Millas cuadradas,Idioma,Kilometros
0,AFRICA,0,KONGO,18517.1
1,AFRICA,0,KONGO,18517.1
2,ANTARCTICA,0,0,8851.4
3,ASIA,0,0,27339.5
4,ANTARCTICA,0,0,8851.4
