# Pandas - Ejercicios

In [1]:
import numpy as np
import pandas as pd

### 1. Crea un función que reciba un número entero n y genere una serie de tamaño n cuyos valores sean una secuencia numérica de múltiplos de cinco ascendentes y su índice sea una secuencia numérica de múltiplos de cinco en orden inverso.

In [2]:
def five_fold_seq(n:np.int16=5):
    return(pd.Series(np.arange(5,(n+1)*5,5), index=np.arange(n*5,0,-5)))

five_fold_seq(10)

50     5
45    10
40    15
35    20
30    25
25    30
20    35
15    40
10    45
5     50
dtype: int32

### 2. Crea una función que reciba una lista de palabras y devuelva un DataFrame en el que las columnas sean las palabras y en filas tenga la longitud de la palaba y su frecuencia en la lista.

In [3]:
def build_df_from_word_list(word_list:list=[]):
    words = pd.Series(word_list)
    return(pd.DataFrame({
        'words':words, 
        'length':words.str.len(), 
        'freq':words.map(words.value_counts().to_dict())
    }))

words = ['manzana','banana','banana','naranja','mango','melón',
         'sandía','pera','pera', 'manzana','naranja','papaya','papaya','pera']

build_df_from_word_list(words)

Unnamed: 0,words,length,freq
0,manzana,7,2
1,banana,6,2
2,banana,6,2
3,naranja,7,2
4,mango,5,1
5,melón,5,1
6,sandía,6,1
7,pera,4,3
8,pera,4,3
9,manzana,7,2


### 3. Crea una función que reciba una ndarray bidimensional y devuelva un DataFrame creado a partir del array recibido. Crea otra función que reciba un DataFrame y establezca como índice de filas la secuencia 'f1'...'fn' y como índice de columnas la secuencia 'c1'...'cm'. Utiliza ambas funciones de forma conjunta para obtener un DataFrame de 4x8 relleno con valores aleatorios generados con una distribución normal.

In [4]:
def df_from_ndarray(ndarray:np.ndarray):
    return pd.DataFrame(ndarray)

def set_index_and_columns_labels(df:pd.DataFrame):
    df.columns = [f'c{i}' for i in np.arange(1, (df.shape[1]+1))]
    df.index   = [f'f{i}' for i in np.arange(1, (df.shape[0]+1))]
    return df

df = df_from_ndarray(np.random.randn(4,8))
df = set_index_and_columns_labels(df)

df

Unnamed: 0,c1,c2,c3,c4,c5,c6,c7,c8
f1,-0.04078,-2.330014,0.82015,0.332557,-1.134296,0.427112,2.547097,2.356449
f2,2.255293,-0.193988,-0.396305,1.24997,0.674162,-0.582052,-0.087492,1.057888
f3,0.701199,-0.232463,-0.747912,-0.315124,-0.245213,0.386193,0.050377,-1.244765
f4,-0.850944,-1.727915,-0.286951,1.088651,1.307962,1.206731,0.591843,1.570111


### 4. Crea una función que reciba un DataFrame cualquiera y genere otro cuyas dimensiones sean las del recibido traspuestas y su contenido sean números positivos aleatorios generados con una distribución normal.

In [5]:
def df_dim_trasp_and_fill_randn(df:pd.DataFrame):
    return(pd.DataFrame(np.random.randn(df.shape[1],df.shape[0])))

df = pd.DataFrame(np.arange(12).reshape(4,3))
display(df)

display(df_dim_trasp_and_fill_randn(df))

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


Unnamed: 0,0,1,2,3
0,0.838598,-0.185666,-1.285668,0.354784
1,0.224373,0.599052,-1.08367,0.288079
2,-0.241751,1.321652,0.984662,0.547752


### 5. Carga el fichero "datos/catastro.tsv" en un DataFrame y haz que el año sea el índice de filas de la información.

In [6]:
catastro = pd.read_table('datos/catastro.tsv', index_col=0)
catastro.head()

Unnamed: 0_level_0,id_distrito,distrito,id_barrio,barrio,id_uso,uso,num_inmuebles,año_cons_medio,sup_cons,sup_suelo,valor_catastral
año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2014,1,Centro,11,PALACIO,A,Almacén-Estacionamiento,3034,1969.0,214457.0,,129525900.0
2014,1,Centro,11,PALACIO,C,Comercial,1407,1921.0,223552.0,,407605500.0
2014,1,Centro,11,PALACIO,E,Cultural,36,1937.0,62963.0,,75828720.0
2014,1,Centro,11,PALACIO,G,Ocio y Hostelería,254,1919.0,114226.0,,195413800.0
2014,1,Centro,11,PALACIO,I,Industrial,22,1942.0,13228.0,,11807950.0


### 6. Obtén el número de registros del barrio "PALACIO" para el año 2014.

In [7]:
catastro[(catastro.index==2014) & (catastro.barrio=='PALACIO')].shape[0]

13

### 7. Selecciona las columnas sup_cons y valor_catastral para los 15 primeros registros que con año 2013 y de uso Residencial.

In [8]:
df = catastro[['sup_cons', 'valor_catastral']][(catastro.index==2013) & (catastro.uso == "Residencial")].head(15)
df

Unnamed: 0_level_0,sup_cons,valor_catastral
año,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,1370699.0,1859333000.0
2013,1991294.0,2474862000.0
2013,778432.0,1181972000.0
2013,1339143.0,2164152000.0
2013,1804472.0,2466697000.0
2013,651466.0,924762200.0
2013,992802.0,1286874000.0
2013,1644314.0,2082583000.0
2013,767930.0,903590800.0
2013,877666.0,1244198000.0


### 8. Añade una columna al resultado del DataFrame anterior que contenga el valor medio por metro cuadrado.

In [9]:
df['valor_med_x_metro_cuad'] = df.valor_catastral / df.sup_cons
df

Unnamed: 0_level_0,sup_cons,valor_catastral,valor_med_x_metro_cuad
año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1370699.0,1859333000.0,1356.484965
2013,1991294.0,2474862000.0,1242.841053
2013,778432.0,1181972000.0,1518.400659
2013,1339143.0,2164152000.0,1616.07233
2013,1804472.0,2466697000.0,1366.991069
2013,651466.0,924762200.0,1419.509556
2013,992802.0,1286874000.0,1296.204138
2013,1644314.0,2082583000.0,1266.535947
2013,767930.0,903590800.0,1176.657713
2013,877666.0,1244198000.0,1417.621318


### 9. Utilizando una pivot table obtén el total de valor catastral por uso y año.

In [10]:
pd.pivot_table(catastro, values='valor_catastral', columns=catastro.index, index=['uso'], aggfunc=np.sum)

año,2013,2014
uso,Unnamed: 1_level_1,Unnamed: 2_level_1
Almacén-Estacionamiento,10895380000.0,11004910000.0
Comercial,22467840000.0,22767300000.0
Cultural,8102890000.0,8333538000.0
Deportivo,3292083000.0,3414979000.0
Edificio Singular,5297291000.0,5606002000.0
Espectáculos,845564600.0,864521100.0
Industrial,6629823000.0,6682542000.0
Ocio y Hostelería,6297157000.0,6349723000.0
Oficinas,30170230000.0,29956350000.0
Religioso,1353677000.0,1358066000.0


### 10. Crea una función que a partir de un registro del fichero del catastro, calcule el valor catastral medio por inmueble y aplica esta función a los 10 últimos registros de la tabla del catastro.