# Uso de pandas y extracción de datos
En este documento se muestra cómo operar con las librerías de python para la explotación de datos.
Para comenzar, se importará la librería de pandas con el comando _import pandas as pd_

In [1]:
import pandas as pd

## Lectura del archivo de datos
Se parte del fichero de datos ofrecido por bicicoruña para poder hacer el estudio de los datos que contiene. 

El fichero que vamos a utilizar es un csv que utiliza como delimitador de campo el punto y coma (;), por tanto se especificará en la función de lectura del documento.

Con la función head, se obtienen las 5 primeras líneas del Dataframe, y nos ayuda a ver cómo está estructurada la inforamción en el documento.

In [2]:
bike_raw_data = pd.read_csv("../data/hackatino_2017_bicicoruna.csv",delimiter=";")
bike_raw_data.head()

Unnamed: 0,USUARIO,SEXO,FECHA_NACIMIENTO,ORIGEN,ID_ORIGEN,INICIO_TRAYECTO,DESTINO,ID_DESTINO,FIN_TRAYECTO
0,8244,0,1960,Estación Autobuses,10,2015-07-16 07:30:35.243,Obelisco,7,2015-07-16 07:38:55.310
1,11323,1,1961,Los Rosales,16,2015-07-16 07:31:19.293,Plz Pontevedra,6,2015-07-16 07:49:17.063
2,8665,0,1968,Conchiñas,14,2015-07-16 07:31:32.523,Plz. de España,20,2015-07-16 07:43:55.890
3,8860,0,1965,Tabacos,18,2015-07-16 07:32:48.977,Obelisco,7,2015-07-16 07:39:05.870
4,9149,0,1982,Casa del Agua,9,2015-07-16 07:33:48.473,Obelisco,7,2015-07-16 07:39:38.990


## Categorización de una columna
En el caso de estudio, vemos que los usuarios se identifican con id numérico. Este id es interpretado en primera instancia por la librería de pandas como valores del tipo ratio. Por eso será necesario crear una nueva columna o Serie que indique que los valores que utiliza son categorizables.

Con la nueva columna añadida a nuestro dataframe, podemos utilizar la función describe sobre esta serie y ver cuántos usuarios únicos hay, y cuál es el usuario más activo según los datos aportados.

In [3]:
bike_raw_data['USUARIO_CAT'] = bike_raw_data['USUARIO'].astype('category')
bike_raw_data['USUARIO_CAT'].describe()

count     187099
unique      3801
top        10188
freq        1000
Name: USUARIO_CAT, dtype: int64

## Estación de salida más utilizada

In [4]:
bike_raw_data['ORIGEN'].describe()

count            187099
unique               23
top       Casa del Agua
freq              20513
Name: ORIGEN, dtype: object

## Estación de destino más utilizada

In [5]:
bike_raw_data['DESTINO'].describe()

count             187099
unique                41
top       Plz Pontevedra
freq               28693
Name: DESTINO, dtype: object

## División de los usuarios por sexo
En el siguiente ejemplo se van a dividir en dos subconjuntos los datos de los usuarios y así ver si el número de usuarios hombres es mayor o menor respecto al de usuarias.

In [17]:
woman_serie = bike_raw_data['SEXO'] == '1'
man_serie = bike_raw_data['SEXO'] == '0'
print ('hombres: {}, mujeres: {}'.format(man_serie.sum(),woman_serie.sum()))

hombres: 122985, mujeres: 64095
