# Como leer un archivo csv

Una manera usual de guardar datos en un archivo es hacerlo en un archivo donde los datos estan separados por un símbolo separador. El caso más común es el de separarlos con comas, eso dio origen a los archivos con extensión `csv` (Comma Separated Values), que significa "valores separados por comas". 

El módulo `pandas` cuenta con una función que permite leer este tipo de archivos fácilmente. Para ello leeremos un archivo descargado de Open Data BCN con la densidad poblacional por barrios de Barcelona. Veamos como hacerlo: 

In [2]:
import numpy as np
import pandas as pd

dens = pd.read_csv("data/superficiedens2013.csv", sep=";", encoding="latin")
dens.head()

Unnamed: 0,Dte,Barris,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
0,,,,,,
1,BARCELONA,,1.611.822,10.234,157.0,625.0
2,,,,,,
3,1,1. el Raval,48.800,110.0,444.0,983.0
4,1,2. el Barri Gòtic,16.267,84.0,193.0,477.0


En este caso hemos leído un archivo llamado `superficiedens2013.csv` que se encuentra en la carpeta `data`. En este caso el camino donde se encuentra la carpeta es relativo al sitio donde se encuentra nuestro notebook. Para leer los datos de los archivos se usa el método `read_csv` de `pandas`. Este método cuanta con parámetros modificadores de los parámetros predeterminados, por ejemplo, el separador predeterminado suele ser la coma ",", pero en este caso los datos estaban separados por punto y coma ";" así que hemos tenido que indicarlo con el modificador `sep=";"`. La codificación predeterminada es ASCII (la del alfabeto inglés), pero el archivo que leímos tenía otra codificación para poder usar tildes, por eso hemos tenido que usar el parámetro `encoding="latin"`.
Una vez leído el archivo se guarda en la variable `dens` que es un objeto `DataFrame` de `pandas`, como podemos ver a continuación:

In [2]:
type(dens)

pandas.core.frame.DataFrame

La función `head` nos permite ver solo las primeras filas del DataFrame para investigar como se ven. También existe la función `tail` que nos permite ver las últimas filas y comprobar si se ha leído completo.

In [4]:
dens.tail()

Unnamed: 0,Dte,Barris,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
71,10,69. Diagonal Mar i el Front Marítim del Poblenou,12.894,128,101,560.0
72,10,70. el Besòs i el Maresme,23.118,128,180,878.0
73,10,71. Provençals del Poblenou,20.052,111,180,1.487
74,10,72. Sant Martí de Provençals,25.994,75,349,1.144
75,10,73. la Verneda i la Pau,29.154,112,260,899.0


En la primera tabla pudimos ver que aparecían unos NaN (Not a Number). En este caso quiere decir que no hay datos allí, en cambio había separadores. Después veremos como arreglárnosla con ellos. 

## Especificar la columna índice cuando se lee un archivo CSV

En el ejemplo anterior vimos como leer un archivo y vimos que si no se especifica nada se agrega automáticamente una columna de números que funcionan como índice y que comienza por el 0.
La columna índice puede elegirse a la hora de leer el archivo, por ejemplo si eligiéramos la columna "Barris" como índice deberíamos poner: 

In [4]:
dens1 = pd.read_csv("data/superficiedens2013.csv", sep=";", encoding="latin", index_col=1)
dens1.head(n=10)

Unnamed: 0_level_0,Dte,Poblacio,Superficie(ha),Densitat(hab/ha),DensitatNeta(hab/ha)
Barris,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
,,,,,
,BARCELONA,1.611.822,10.234,157.0,625.0
,,,,,
1. el Raval,1,48.800,110.0,444.0,983.0
2. el Barri Gòtic,1,16.267,84.0,193.0,477.0
3. la Barceloneta,1,15.503,132.0,117.0,1.185
"4. Sant Pere, Santa Caterina i la Ribera",1,22.769,111.0,204.0,705.0
5. el Fort Pienc,2,31.738,93.0,343.0,950.0
6. la Sagrada Família,2,51.806,103.0,502.0,1.006
7. la Dreta de l'Eixample,2,43.384,212.0,204.0,381.0
