# Acceso a los datos en pandas

Existen tres tipos de acceso a los datos en pandas:
1. **indexacion**: Se accede a un dato determinado
2. **Slicing**: Se accede a un grupo de datos del dataframe
3. **Filtering**: Se accede a ciertos datos del dataframe a traves de un filtro booleano

## 1. Indexacion

### 1.1. Acceso a las columnas

El acceso a las columnas puede hacerse con dos notaciones:
1. **Notacion tipo dict**: df["etiqueta"]
2. **Notacion tipo atributo (dot)**: df.etiqueta

Puede utilizarse una u otra de forma indistinta

In [8]:
import pandas as pd
import numpy as np
import pickle

In [9]:
with open('titanic_df.pkl','rb') as f:
    df = pickle.load(f)

In [10]:
df.head()


Unnamed: 0,sobrevive,clase,edad,familiares,hijos,tarifa,sexo
1,1,1,38.0,1,0,71.2833,1
2,1,3,26.0,0,0,7.925,1
3,1,1,35.0,1,0,53.1,1
4,0,3,35.0,0,0,8.05,0
5,0,3,27.0,0,0,8.4583,0


In [11]:
# accedemos a una columna: el resultado es un objeto del tipo 'Series'
df['edad']

1      38.0
2      26.0
3      35.0
4      35.0
5      27.0
       ... 
882    27.0
883    19.0
884     7.0
885    26.0
886    32.0
Name: edad, Length: 886, dtype: float64

In [12]:
# lo mismo con la dotacion tipo atributo
df.edad

1      38.0
2      26.0
3      35.0
4      35.0
5      27.0
       ... 
882    27.0
883    19.0
884     7.0
885    26.0
886    32.0
Name: edad, Length: 886, dtype: float64

In [15]:
# accedemos a varias columnas: en este caso el resultado es un dataframe. Ojo debemos pasar una lista de columnas
df[['edad','sexo']]

Unnamed: 0,edad,sexo
1,38.0,1
2,26.0,1
3,35.0,1
4,35.0,0
5,27.0,0
...,...,...
882,27.0,0
883,19.0,1
884,7.0,1
885,26.0,0


### 1.2. Acceso a las filas

Existen dos funciones para el acceso a las filas:
1. **iloc(fila,columna):** Nos permite el acceso numerico (como en numpy)
2. **loc(fila, columna):** Nos permite el acceso por etiqueta

#### iloc (fila, columna)

In [22]:
# accedemos a la fila 3
df.iloc[2]

sobrevive      1.0
clase          1.0
edad          35.0
familiares     1.0
hijos          0.0
tarifa        53.1
sexo           1.0
Name: 3, dtype: float64

In [23]:
# accedemos a la fila 3 y la columna 2 (edad)
df.iloc[3,2]

35.0

#### loc (fila, columna)

In [27]:
# accedemos a la fila 2. Este caso la fila no es la etiqueta si no el string '2'
df.loc[2]

sobrevive      1.000
clase          3.000
edad          26.000
familiares     0.000
hijos          0.000
tarifa         7.925
sexo           1.000
Name: 2, dtype: float64

In [29]:
# accedemos a la fila 2 y columna 'edad'
df.loc[2,'edad']

26.0

## 2. Slicing

In [30]:
# accedemos a las 5 primeras filas
df.iloc[:5]

Unnamed: 0,sobrevive,clase,edad,familiares,hijos,tarifa,sexo
1,1,1,38.0,1,0,71.2833,1
2,1,3,26.0,0,0,7.925,1
3,1,1,35.0,1,0,53.1,1
4,0,3,35.0,0,0,8.05,0
5,0,3,27.0,0,0,8.4583,0


In [31]:
# accedemos a las cinco primeras filas de la columna tarifa
df.iloc[:5,5]

1    71.2833
2     7.9250
3    53.1000
4     8.0500
5     8.4583
Name: tarifa, dtype: float64

## 3. Filtering
Es una tecnica muy potente que consiste en construir un filtro o mascara de valores booleanos. Este filtro (que es un objeto del tipo Series, se superpondra al indice y solo las filas para los valores 'true' seran visibles


In [35]:
# seleccionamos las columnas de pasajeros mayores de 35 años
filter = df.edad > 35

In [36]:
# filter es un objeto de la clase Series
type(filter)

pandas.core.series.Series

In [37]:
# sobreponemos el filtro sobre el indice del dataframe y solo nos devovera las filas para las que el valor del filtro es 'True'
df.loc[filter]

Unnamed: 0,sobrevive,clase,edad,familiares,hijos,tarifa,sexo
1,1,1,38.0,1,0,71.2833,1
6,0,1,54.0,0,0,51.8625,0
11,1,1,58.0,0,0,26.5500,1
13,0,3,39.0,1,5,31.2750,0
15,1,2,55.0,0,0,16.0000,1
...,...,...,...,...,...,...,...
861,1,2,42.0,0,0,13.0000,1
867,1,1,47.0,1,1,52.5542,1
869,0,3,47.0,0,0,9.0000,0
875,1,1,56.0,0,1,83.1583,1


In [38]:
# podemos construir filtros mas complejos utilizando expresiones booleanas
# por ejemplo vamos a seleccionar los pasajeros mayores de 35 y mujeres
filter = (df.edad > 35)&(df.sexo == 1)


In [39]:
# utilizamos el filtro
df.loc[filter]

Unnamed: 0,sobrevive,clase,edad,familiares,hijos,tarifa,sexo
1,1,1,38.0,1,0,71.2833,1
11,1,1,58.0,0,0,26.5500,1
15,1,2,55.0,0,0,16.0000,1
25,1,3,38.0,1,5,31.3875,1
31,1,1,48.0,1,0,146.5208,1
...,...,...,...,...,...,...,...
858,1,1,48.0,0,0,25.9292,1
861,1,2,42.0,0,0,13.0000,1
867,1,1,47.0,1,1,52.5542,1
875,1,1,56.0,0,1,83.1583,1


In [40]:
# como al fin y al cabo el filtro es un objeto de la clase series podemos crear una columna adicional a partir de ella
# en esta columna seran 'True' aquellos pasajeros mayores de 35 años y mujeres y el resto 'False'
df['mujeres_gt35'] = filter

In [41]:
df.head()

Unnamed: 0,sobrevive,clase,edad,familiares,hijos,tarifa,sexo,mujeres_gt35
1,1,1,38.0,1,0,71.2833,1,True
2,1,3,26.0,0,0,7.925,1,False
3,1,1,35.0,1,0,53.1,1,False
4,0,3,35.0,0,0,8.05,0,False
5,0,3,27.0,0,0,8.4583,0,False
