# Pandas

In [2]:
import pandas as pd # import pandas
import numpy as np # import numpy
import matplotlib.pyplot as plt # import libreria para plotear
pd.set_option('max_columns', 50) # maximo de columnas a mostrar cuando se muestra un pandas dataframe
# indica a python que plotee en el notebook
%matplotlib inline 

## Series

Crear una estructura _Series_ con indice por defecto

In [43]:
# crear una estructura Series desde una lista arbitraria
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'])
#print s

In [None]:
print s[0]
print s[1]
print s[2]
print s[3]
print s[4]

Crear una estructura _Series_ con indicando un indice

In [22]:
s = pd.Series([7, 'Heisenberg', 3.14, -1789710578, 'Happy Eating!'],
              index=['A', 'Z', 'C', 'Y', 'E'])
print s

Se puede acceder a los elementos utilizando el indice

In [None]:
print s['A']
print s['Z']
print s['C']
print s['Y']
print s['E']

Se puede acceder a los elementos igualmente utilizando el indice numerico

In [None]:
print s[0]
print s[1]
print s[2]
print s[3]
print s[4]

Tambien se puede convertir un diccionario a una estructura _Series_

In [3]:
d = {'Chicago': 1000, 'New York': 1300, 'Portland': 900, 'San Francisco': 1100,
     'Austin': 450, 'Boston': None}
cities = pd.Series(d)
cities

Austin            450
Boston            NaN
Chicago          1000
New York         1300
Portland          900
San Francisco    1100
dtype: float64

Se puede usar el indice para acceder a la estructura

In [None]:
print cities['Chicago']

In [None]:
print cities[['Chicago', 'Portland', 'San Francisco']]

O se puede utilizar indexado booleano (como en numpy) para el acceso

In [None]:
print cities[cities < 1000]

Que ocurrio arriba? cities < 1000 devuelve un _Series_ de valores _True/False_ que depues se pasan a la estructura _Series_ idexando los items que corresponden con los valore _True_

In [None]:
less_than_1000 = cities < 1000
print(less_than_1000)
print('\n')
print(cities[less_than_1000])

Se puede cambiar el valor de _Series_ 

In [None]:
# cambiando valores basado en el indice
print('Old value:', cities['Chicago'])
cities['Chicago'] = 1400
print('New value:', cities['Chicago'])

In [None]:
# cambiando valores usando logica booleana
print(cities[cities < 1000])
print('\n')
cities[cities < 1000] = 750

print cities[cities < 1000]

Se puede comprobar si un item esta contenido en la _Series_

In [None]:
print('Seattle' in cities)
print('San Francisco' in cities)

Se pueden hacer operaciones aritmeticas

In [None]:
# dividir por 3
print cities / 3

In [None]:
# elevar al cuadrado
print np.square(cities)

In [None]:
print(cities[['Chicago', 'New York', 'Portland']])
print('\n')
print(cities[['Austin', 'New York']])
print('\n')
print(cities[['Chicago', 'New York', 'Portland']] + cities[['Austin', 'New York']])

Nota que Austin, Chicago y Portlan no se encontraron en ambas _Series_, fueron retornadas con valores NULL/NaN.

Se puede comprobar si un valor es NULL a traves de _isnull_ y _notnull_ .

In [None]:
# devuelve una Serie booleana diciendo cuales no son Null
print cities.notnull()

Se puede usar logica booleana para indexar las ciudades que no son NULL

In [None]:
# usando logica booleana para indexar las ciudades que no son NULL
print(cities.isnull())
print('\n')
print(cities[cities.isnull()])

## Dataframe

Puedes pensar en un _Dataframe_ como una estructura de datos tabular que almacena cualquier clase de informacion en filas y columnas. Por hacer un simil, uno podria pensar en un hoja de Excel como algo similar (no es lo mismo pero se parecen).

En realidad un _Dataframe_ no es mas que un conjunto de estructuras _Series_ que comparten un mismo indice. Por defecto el indice va de 0 hasta N-1 donde N es el numero de filas del _Dataframe_. Se puede crear de forma manual un _Dataframe_ como sigue.

In [3]:
data = {'year': [2010, 2011, 2012, 2011, 2012, 2010, 2011, 2012],
        'team': ['Barca', 'Barca', 'Barca', 'Madrid', 'Madrid', 'Mallorca', 'Mallorca', 'Mallorca'],
        'wins': [11, 8, 10, 15, 11, 6, 10, 4],
        'losses': [5, 8, 6, 1, 5, 10, 6, 12]}
football = pd.DataFrame(data, columns=['year', 'team', 'wins', 'losses'])
football.head()

Unnamed: 0,year,team,wins,losses
0,2010,Barca,11,5
1,2011,Barca,8,8
2,2012,Barca,10,6
3,2011,Madrid,15,1
4,2012,Madrid,11,5


Es mucho mas habitual leer un _Dataframe_ desde un fichero de texto _csv_ con la funcion de _Pandas_ _pd.read\_csv_

In [4]:
nuc_pob = pd.read_csv('NucleosPoblacion.csv')

La funcion _head()_ nos permite explorar las primeras filas del _Dataframe_ y la funcion _tail()_ las ultimas.

In [5]:
nuc_pob.head() # primeras lineas del dataframe

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
0,0,1,Agüimes,29431,35002,Agüimes,35,Las Palmas,-15.446012,27.900542
1,1,2,Antigua,10458,35003,Antigua,35,Las Palmas,-14.013301,28.418966
2,2,3,Arrecife,58156,35004,Arrecife,35,Las Palmas,-13.551451,28.960649
3,3,4,Arucas,36745,35006,Arucas,35,Las Palmas,-15.521512,28.117496
4,4,5,Gáldar,24473,35009,Gáldar,35,Las Palmas,-15.654111,28.143873


In [6]:
nuc_pob.tail() # ultimas lineas del dataframe

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
847,847,848,Infante Juan Manuel,14192,30030,Murcia,30,Murcia,-1.124304,37.979033
848,848,849,Santa Maria de Gracia,13349,30030,Murcia,30,Murcia,-1.202069,37.984024
849,849,850,Vista Alegre,15208,30030,Murcia,30,Murcia,-1.130564,37.995715
850,850,851,Poligono Sta M de Benquerencia,19177,45168,Toledo,45,Toledo,-3.948364,39.866699
851,851,852,Grao,16367,12040,Castellón de la Plana/Castelló de la Plana,12,Castelló/Castellón,0.012911,39.973568


Al igual que en el modulo _Numpy_ se pueden realizar operaciones de forma muy sencilla con el indexado booleano

In [7]:
print 'Mean Poblacion', nuc_pob['Poblacion'].mean()
print 'STD Poblacion', nuc_pob['Poblacion'].std()
print 'Min Poblacion', nuc_pob['Poblacion'].min()
print 'Max Poblacion', nuc_pob['Poblacion'].max()

Mean Poblacion 45710.8568075
STD Poblacion 140598.143397
Min Poblacion 10037.0
Max Poblacion 3273049.0


Y se pueden combinar las operaciones para obtener resultados mas interesantes

In [8]:
nuc_pob[nuc_pob['Poblacion'] >50000].head()

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
2,2,3,Arrecife,58156,35004,Arrecife,35,Las Palmas,-13.551451,28.960649
9,9,10,Las Palmas de Gran Canaria,383308,35016,Las Palmas de Gran Canaria,35,Las Palmas,-15.413387,28.099775
13,13,14,Santa Lucía de Tirajana,64845,35022,Santa Lucía de Tirajana,35,Las Palmas,-15.540409,27.911841
16,16,17,Telde,100900,35026,Telde,35,Las Palmas,-15.416666,27.994202
22,22,23,Arona,79377,38006,Arona,38,Santa Cruz de Tenerife,-16.679684,28.099518


In [9]:
nuc_pob[(nuc_pob['Poblacion'] >50000) & (nuc_pob['Provincia'] == 'Granada') ].head()

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
272,272,273,Granada,239154,18087,Granada,18,Granada,-3.600019,37.176419
278,278,279,Motril,60884,18140,Motril,18,Granada,-3.521234,36.745746


Ordenar los valores en base a una columna nunca fue tan sencillo

In [10]:
nuc_pob.sort_values('Poblacion', ascending = False).head() # si pones ascending = True los ordena en orden ascendente 

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
355,355,356,Madrid,3273049,28079,Madrid,28,Madrid,-3.703797,40.41663
623,623,624,Barcelona,1619337,8019,Barcelona,8,Barcelona,2.176349,41.384247
561,561,562,Valencia,809267,46250,Valencia,46,València/Valencia,-0.375657,39.475344
492,492,493,Sevilla,704198,41091,Sevilla,41,Sevilla,-5.992514,37.386205
591,591,592,Zaragoza,675121,50297,Zaragoza,50,Zaragoza,-0.879287,41.656457


Puedes resetear el indice para que despues de ordenarlos cambie. Observa como cambia el indice y ahora se ha reseteado y aparece el nuevo indice con las ciudades ordenadas. 

In [11]:
# Esto puede servirte muy util para ordenar y encontrar luego posiciones
nuc_pob.sort_values('Poblacion', ascending = False).reset_index(drop=True).head() # con drop nos deshacemos del antiguo indice

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
0,355,356,Madrid,3273049,28079,Madrid,28,Madrid,-3.703797,40.41663
1,623,624,Barcelona,1619337,8019,Barcelona,8,Barcelona,2.176349,41.384247
2,561,562,Valencia,809267,46250,Valencia,46,València/Valencia,-0.375657,39.475344
3,492,493,Sevilla,704198,41091,Sevilla,41,Sevilla,-5.992514,37.386205
4,591,592,Zaragoza,675121,50297,Zaragoza,50,Zaragoza,-0.879287,41.656457


# Ejercicios

1 - Carga el fichero 'NucleosPoblacion.csv' explora con las funciones _head_ y _tail_ el principio y el final.

In [16]:
nuc_pob = pd.read_csv('NucleosPoblacion.csv')

2 - Cual es la ciudad mas poblada?

In [17]:
nuc_pob[nuc_pob['Poblacion']==nuc_pob['Poblacion'].max()]

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
355,355,356,Madrid,3273049,28079,Madrid,28,Madrid,-3.703797,40.41663


3 - Que posicion ocupa Granada en las mas pobladas?. La funcion _sort_values puede ayudarte en tu cometido

In [21]:
nuc_pob = nuc_pob.sort_values('Poblacion', ascending=False).reset_index(drop=True)
#nuc_pob.loc[17]
nuc_pob[nuc_pob['Municipio'] == 'Granada']

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
17,272,273,Granada,239154,18087,Granada,18,Granada,-3.600019,37.176419


4 - Escribe el nombre de los 10 municipios con menor poblacion

In [141]:
nuc_pob.sort_values('Poblacion')[:10]['Texto']

851         Zumarraga
850    Caldas de Reis
849           Amurrio
848    Premià de Dalt
847             Buñol
846          Bembibre
845             Ocaña
844               Sax
843      Marina-Oasis
842       Playa Honda
Name: Texto, dtype: object

5 - Cuantos municipios en Extremadura tienen mas de 5000 habitantes?

In [22]:
nuc_pob[(nuc_pob['Poblacion']>50000) & 
        ((nuc_pob['Provincia']=='Badajoz') | 
       (nuc_pob['Provincia']=='C\xc3\xa1ceres'))]

Unnamed: 0,FID,OBJECTID,Texto,Poblacion,CodMun,Municipio,CodProvin,Provincia,X,Y
43,42,43,Badajoz,150376,6015,Badajoz,6,Badajoz,-6.970997,38.878743
67,48,49,Cáceres,94179,10037,Cáceres,10,Cáceres,-6.371211,39.473168
131,43,44,Mérida,57127,6083,Mérida,6,Badajoz,-6.344172,38.917388


6 - ¿Cuál es el municipio situado más al Norte? (Usar el valor de la coordenada "Y" que representa la latitud en grados). Proporcione también la provincia a la que pertenece y su población.

In [23]:
print nuc_pob[(nuc_pob['Y']==nuc_pob['Y'].max())]['Municipio']
print nuc_pob.sort_values('Y', ascending=False)[:1].Municipio

534    Viveiro
Name: Municipio, dtype: object
534    Viveiro
Name: Municipio, dtype: object


7 - ¿Cual es el municipio de la provincia de Granada situado más al Este?. ¿Cual es el situado más al Oeste?.

In [27]:
a = nuc_pob[(nuc_pob['Provincia']=='Granada')]
print a[a['X']==a['X'].max()].Municipio
print a[a['X']==a['X'].min()].Municipio

378    Baza
Name: Municipio, dtype: object
388    Loja
Name: Municipio, dtype: object


8 - ¿Cuántos Municipios hay en un radio de 5 grados de la ciudad de Barcelona?.

In [72]:
X_bcn = nuc_pob[nuc_pob['Municipio'] == 'Barcelona'].X.iloc[0]
Y_bcn = nuc_pob[nuc_pob['Municipio'] == 'Barcelona'].Y.iloc[0]

nuc_pob[(nuc_pob['X']<X_bcn+5) & (nuc_pob['X']>X_bcn-5) &
       (nuc_pob['Y']<Y_bcn+5) & (nuc_pob['Y']>Y_bcn-5)].shape

(391, 10)

9 - Obtenga la media, mediana, desviación estándar, valor máximo y valor mínimo de la población de los municipios de la provincia de Granada

In [77]:
print 'Minimo:',nuc_pob['Poblacion'].min()
print 'Maximo:',nuc_pob['Poblacion'].max()
print 'Mediana:',nuc_pob['Poblacion'].median()
print 'STD:',nuc_pob['Poblacion'].std()
print 'Mean:',nuc_pob['Poblacion'].mean()

Minimo: 10037.0
Maximo: 3273049.0
Mediana: 19865.0
STD: 140598.143397
Mean: 45710.8568075
