# Procesando archivos y bases de datos con Python 

Taller "Introducción a la Programación en Python".

[G.F. Rubilar](http://google.com/+GuillermoRubilar), Stefan Vogt y Esteban Vöhringer-Martinez

La última versión de este [jupyter notebook](http://ipython.org/notebook.html) está disponible en (https://github.com/PythonUdeC/CPC21/blob/master/05-Procesamiento_datos.ipynb).

### Este módulo entregará las herramientas para:

1. Lectura y escritura de archivos con funciones propias de python
2. Lectura y escritura de archivos con funciones de numpy: loadtxt, getfromtxt etc
3. Introducción al uso de base de datos con Pandas

In [None]:
import matplotlib.pyplot as plt
import numpy as np
%matplotlib inline

#### 1. Procesamiento de archivos con la función open y close de python

Vamos a trabajar con el archivo *posicion_velocidad.dat* que contiene la velocidad en km/h de un auto (segunda columna) medida en distintos puntos de su  trayectoria expresada en km. 

Este archivo se encuentra en el repositorio en el directorio _Data/Clases_

```
0.0  30
0.8  50
1.5  43.2
2.0  20.0
2.6  42.1
```

Primero abrimos un objeto con la ubicación (ruta) en donde se encuentra el archivo.

In [None]:
str_archivo = 'Data/Clases/posicion_velocidad.dat'
f = open(str_archivo)

In [None]:
type(f)

Obtener información sobre el objeto que apunta al archivo

In [None]:
f.name

In [None]:
f.mode

Por defecto los archivos se abren en modo de lectura solamente (**r** read). 

Otros modos son **w** (write=escritura), **a** (append=agregar)

### Usamos el método _read_ del objeto f para leer el contenido.

In [None]:
data = f.read()

In [None]:
data

Si queremos volver a leer el contenido

In [None]:
data = f.read()

In [None]:
data

**Problema:** El archivo se procesa una vez y después se llego al final del archivo.
Cerramos el objeto y volvemos a abrirlo para partir de nuevo.

In [None]:
f.close()

In [None]:
f = open(str_archivo)

### Ahora usamos método readline para leer el archivo

In [None]:
f.readline?

In [None]:
line = f.readline()

In [None]:
line

In [None]:
line.split()

In [None]:
x = line.split()[0]
x

In [None]:
line.split()[0], line.split()[1]

Volvemos a ejecutar readline para leer próxima linea.

In [None]:
line = f.readline()

In [None]:
line

In [None]:
f.close()

**También podemos leer todas las líneas de una vez en una lista de strings con la función _readlines_**

A diferencia de _read_ esto crea una lista de strings y no un string entero.

In [None]:
f = open(str_archivo)

In [None]:
lines = f.readlines()

In [None]:
lines

In [None]:
lines[0]

In [None]:
lines[0].split()

In [None]:
f.close()

**Ahora vamos a leer el contenido en dos variables que muestran la posición (x) y la velocidad (v).**

In [None]:
f = open(str_archivo)

Cuando usamos un bucle sobre el objeto f se ejecuta la función _readline_ en cada vuelta del bucle.

In [None]:
for line in f:
    x = line.split()[0]
    v = line.split()[1]

In [None]:
x

De esta forma se leen linea por linea.
**Pero la variable se sobreescribe.**
Por eso debemos trabajar con una lista

In [None]:
f.close()
f = open(str_archivo)

In [None]:
x = []
v = []

In [None]:
for line in f:
    x.append(line.split()[0])
    v.append(line.split()[1])

In [None]:
x

In [None]:
type(x[0])

In [None]:
v

In [None]:
type(v[0])

** Realizamos un gráfico de la velocidad contra la posición de la trayectoria en el cual se midio**

In [None]:
plt.plot(x,v,'o--')

** Supongamos que se nos solicita graficar velocidad pero en función de la posición en metros.**

In [None]:
x_m = []
for i in range(len(x)):
    x_m.append(x[i]*1000)

In [None]:
x_m

Debemos transformar la información leida al tipo de variable **float** para poder utilizar cualquier tratamiento númerico de los datos.

In [None]:
f.close()
f = open(str_archivo)
x = []
v = []
for line in f:
    x.append(float(line.split()[0]))
    v.append(float(line.split()[1]))

In [None]:
type(x[0])

In [None]:
x_m = []
for i in range(len(x)):
    x_m.append(x[i]*1000)

In [None]:
x_m

Ahora cambiamos las velocidades a m/s

In [None]:
v_ms = []
for i in range(len(v)):
    v_ms.append(v[i] * 1000 / 3600)

In [None]:
plt.plot(x_m,v_ms,'o',color='red')

### Cómo guardar los valores en metros y metros por segundo a un archivo diferente.

In [None]:
str_archivo_out = 'Data/Clases/posicion_velocidad_metros.dat'
f_out = open(str_archivo_out,'w')

In [None]:
f_out.write(str(x_m))

In [None]:
f_out.close()

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

Al observar el archivo vemos que se escribe todo junto.

Cómo escribimos cada item por separado?

In [None]:
f_out = open(str_archivo_out,'w')
for i in range(len(x_m)):
    f_out.write(str(x_m[i]))

In [None]:
f_out.close()

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

Como escribir en forma de columna?

In [None]:
f_out = open(str_archivo_out,'w')

In [None]:
for i in range(len(x_m)):
    f_out.write(str(x_m[i])+'\n')

In [None]:
f_out.close()

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

Ahora escribimos la posición junto a la velocidad en el archivo

In [None]:
f_out = open(str_archivo_out,'w')

for i in range(len(x_m)):
    f_out.write(str(x_m[i]) + '\t' + str(v_ms[i]) + '\n')

f_out.close()

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

Mejoremos el formato de los datos escritos.

Para mayor información ver  https://docs.python.org/3/library/string.html#formatstrings y https://docs.python.org/3/tutorial/inputoutput.html

In [None]:
f_out = open(str_archivo_out,'w')

for i in range(len(x_m)):
    f_out.write(f'{x_m[i]:.2f}\t{v_ms[i]:.2f}\n')

f_out.close()

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

**En python 2.7:**

for i in range(len(x_m)):

    f_out.write("%.2f\t%.2f\n" % (x_m[i], v_ms[i]))

Format Strings

%d : integer

%5d : %-5d : integer in a field of width 5 chars integer in a field of width 5 chars, but adjusted to the left

%05d :integer in a field of width 5 chars, padded with zeroes from the left

%g :  float variable in %f or %g notation

%e : float variable in scientific notation

%11.3e : float variable in scientific notation, with 3 decimals, field of width 11 chars 

%5.1f : float variable in fixed decimal notation, with one decimal, field of width 5 chars 

%.3f : float variable in fixed decimal form, with three decimals, field of min. width
%s : string

Alineamos los datos

In [None]:

f_out = open(str_archivo_out,'w')

for i in range(len(x_m)):
    f_out.write(f'{x_m[i]:<8.2f}   {v_ms[i]:<4.2f}\n')

f_out.close()

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

## Agregar datos a un archivo existente

In [None]:
f_out = open(str_archivo_out,'a')
f_out.mode

Go to end of file

In [None]:
f_out.write('END\n')

In [None]:
f_out.close()

_Abra el archivo para verificar si se añado END al final_

In [None]:
!head Data/Clases/posicion_velocidad_metros.dat

# 2. Procesar archivos con las funciones de numpy 

Cuando el archivo contiene comentarios que identifican con un caracter específico como **# @** se pueden usar las funciones _loadtxt_ o _genfromtxt_ de numpy para poder procesarlo. Si el contenido es muy heterogeneo se puede procesar el archivo a través de tratamientos de distintos casos con _if_

In [None]:
!head Data/Clases/posicion_velocidad_coment.dat

In [None]:
str_archivo = 'Data/Clases/posicion_velocidad_coment.dat'
f = open(str_archivo)

In [None]:
x = []
v = []
for line in f:
    x.append(float(line.split()[0]))
    v.append(float(line.split()[1]))        

In [None]:
f.close()
f = open(str_archivo)

In [None]:
x = []
v = []
for line in f:
    if line[0] != "#":
        x.append(float(line.split()[0]))
        v.append(float(line.split()[1]))        
        

In [None]:
x

In [None]:
f.close()

**El texto se puede procesar con distintas opciones de if hasta poder guardar los datos en distintos objetos.**

## Ahora usaremos la funciones de numpy para procesar archivos.

Trabajaremos con el archivo posicion_velocidad_coment.dat que se muestra aquí:


```#posicion velocidad
0.0  30
0.8  50
1.5  43.2
2.0  20.0
2.6  42.1```

### Función _loadtxt_

Usamos la función loadtxt de numpy que nos permite procesar archivos con datos númericos

In [None]:
np.loadtxt?

Existen las opciones de definir el tipo de información a procesar como float, string, double etc, el delimitador de los valores y el saltar los primeras n lineas con skiprows.

In [None]:
np.loadtxt(str_archivo)

In [None]:
data = np.loadtxt(str_archivo)

In [None]:
type(data)
np.shape(data)

In [None]:
data[:,0]

In [None]:
data[:,1]

In [None]:
x = data[:,0]

In [None]:
v = data[:,1]

In [None]:
x, v

Ahora importamos directamente en las dos variables con opción "unpack"

In [None]:
x,v  = np.loadtxt(str_archivo,unpack=True)

In [None]:
x

### Función genfromtxt

**Alternativa de genfromtxt para trabajar con archivos que presenten datos incompletos o para tener mayor flexibilidad en el procesamiento.**


In [None]:
np.genfromtxt?

El archivo posicion_velocidad_missing.dat le falta un valor en la velocidad:

```@ Archivo obtenido el 30 diciembre 2016
0.0  30
0.8  50
1.5  43.2
2.0  Bla 
2.6  42.1```

**Probamos con una función alternativa de numpy _loadtxt_**

In [None]:
str_archivo = 'Data/Clases/posicion_velocidad_missing.dat'
data = np.loadtxt(str_archivo,comments='@')

*No podemos usar esta función si los datos son incompletos*

**Ahora con genfromtxt**

In [None]:
!head Data/Clases/posicion_velocidad_missing.dat

In [None]:
str_archivo = 'Data/Clases/posicion_velocidad_missing.dat'
data = np.genfromtxt(str_archivo,comments='@')

In [None]:
data

Como cambiamos el valor del item ausente?

In [None]:
np.genfromtxt?

In [None]:
data = np.genfromtxt(str_archivo,comments='@',filling_values='0.0')

In [None]:
data

** Leer el nombre de la variable que representará los datos desde el archivo** 

Como ejemplo se usará el archivo posicion_velocidad_names.dat:

```@ Archivo obtenido el 30 diciembre 2016
x    v
0.0  30
0.8  50
1.5  43.2
2.0  Bla 
2.6  42.1```

In [None]:
str_archivo = 'Data/Clases/posicion_velocidad_names.dat'
data1 = np.genfromtxt(str_archivo,skip_header=1,names=True,filling_values='0.0')

_No se puede usar la opción de "comments" y "names" juntos_

In [None]:
str_archivo = 'Data/Clases/posicion_velocidad_names.dat'
data1 = np.genfromtxt(str_archivo,comments='@',names=True,filling_values='0.0')

In [None]:
data1

In [None]:
type(data1)

In [None]:
type(data1['x'])

In [None]:
data1['v']

In [None]:
data1['x']

In [None]:
np.genfromtxt?

In [None]:
np.savetxt?

## Después de hacer un análisis numérico con numpy como guardar array de datos en archivo

In [None]:
x

_Se recomienda usar la opción np.save del módulo numpy_

In [None]:
#np.save?

In [None]:
f = 'Data/Clases/array.npy'
np.save(f,x)

In [None]:
y = np.load(f)

In [None]:
y

*También se puede guardar en forma de texto sacrificando precisión y espacio de disco. Se puede especificar el formato de la variable a guardar*

In [None]:
#np.savetxt?

In [None]:
np.savetxt('Data/Clases/array.dat',x,fmt="%d")

In [None]:
#np.loadtxt?

In [None]:
y = np.loadtxt('Data/Clases/array.dat')

_Comparamos los tipos de arreglos entre el original (x) y el obtenido desde el archivo (y)_

In [None]:
type(y[0][1])

In [None]:
type(x[0][1])

In [None]:
y = np.loadtxt('Data/Clases/array.dat',dtype=int)

In [None]:
type(y[0][1])

# Modulo Pandas


## Cuando se tiene una bases de datos que tiene distintos tipos de datos con formato diferente se recomienda usar el módulo pandas

Para mayor información visite: http://pandas.pydata.org

![Pandas](images/pandas.png "Pandas")

In [None]:
import pandas as pd

Ahora procesaremos una base de datos bajada en internet bajo el link https://catalog.data.gov/dataset/most-popular-baby-names-by-sex-and-mothers-ethnic-group-new-york-city-8c742 que contiene información sobre los nombres de bebes según género y grupo etnico al cual pertenece la madre.

Las primeras lineas se ven aquí:
```

Year of Birth,Gender,Ethnicity,Child's First Name,Count,Rank

2011,FEMALE,HISPANIC,GERALDINE,13,75

2011,FEMALE,HISPANIC,GIA,21,67

2011,FEMALE,HISPANIC,GIANNA,49,42

2011,FEMALE,HISPANIC,GISELLE,38,51

2011,FEMALE,HISPANIC,GRACE,36,53```


La primera línea muestra el nombre de la variable de cada columna y las siguientes lineas contienen los datos.

Para eso usamos pandas que es un modulo de python que facilita el tratamiento de datos heterogéneos (strings, float etc.)


Mayor información se puede obtener en estos dos tutoriales de introducción:

http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/learn-pandas/raw/master/lessons/01%20-%20Lesson.ipynb

http://nbviewer.jupyter.org/urls/bitbucket.org/hrojas/learn-pandas/raw/master/lessons/02%20-%20Lesson.ipynb

Pandas permite la lectura y escritura de varios formatos usados para almacenar datos:

![Pandas](images/pandas_io.png "Pandas")

In [None]:
str_archivo = 'Data/Clases/Popular_Baby_Names.csv'

In [None]:
#pd.read_csv?

In [None]:
data = pd.read_csv(str_archivo)

In [None]:
type(data)

Un Dataframe es una estructura 2-dimensional de datos de diferentes tipos (float, int, etc.) organizdos en columnas. Por lo que es similar a una hoja de cálculo como utilizada en openoffice o excel. 

In [None]:
data.head()

In [None]:
data.tail()

Este dataframe tiene 6 columnas con nombres como "Year of Birth", "Gender" etc que se obtienen de la primera fila del archivo.

Cada columna puede tener diferente tipos de variable.

Cada columna representa una **series** que se puede obtener de la siguiente forma

In [None]:
data['Year of Birth']

In [None]:
data['Child\'s First Name']

**Pandas ofrece una serie de análisis estadísticos sobre cada serie**

Podemos sumar el número total de nombres (niños) de toda la base de datos

In [None]:
data['Count']

In [None]:
data['Count'].sum()

In [None]:
data['Count'].max()

In [None]:
data['Count'].min()

In [None]:
data['Count'].describe()

**Ahora lo vamos a ordenar según el número de niños con ese nombre.**

In [None]:
data.sort_values('Count')

In [None]:
data.sort_values('Count',ascending=False)

** Ahora ordenamos según el año, genero y número de niños.**

In [None]:
data.sort_values(['Year of Birth','Gender','Count'],ascending=False)

Busquemos un nombre en especial, p.e. EMMA

In [None]:
data_ema = data[(data['Child\'s First Name'] == "EMMA")]
data_ema

**Entre [] al definir un Dataframe se puede especificar el nombre de una serie, una lista de columnas y filas o expresión lógica sobre todo el Dataframe**

También se puede hacer con la función: `data.loc[df['column_name'] == some_value]`

In [None]:
data_ema = data.loc[data['Child\'s First Name'] == "EMMA"]
data_ema

También se puede usar la función `loc` y entregar solo el valor de una serie

In [None]:
data.loc[data['Count'] > 100,'Child\'s First Name']

Vamos a crear un nuevo Dataframe con todos los nacimientos en el 2012

In [None]:
data_ema_2012 = data_ema.loc[data_ema['Year of Birth'] == 2012]

In [None]:
data_ema_2012

**Ahora sumamos el número de veces que se dio el nombre EMMA**

In [None]:
data_ema_2012['Count'].sum()

In [None]:
data_ema_2012_corr.plot.bar(x='Ethnicity',y='Count')

In [None]:
hispanic_male = data[(data['Gender'] == 'MALE') & (data['Ethnicity'] == 'HISPANIC')]

Agrupar por columna y sumar el valor de las otras columnas

In [None]:
nacimiento_por_año = hispanic_male.groupby('Year of Birth').sum()
nacimiento_por_año

In [None]:
nacimiento_por_año.plot(y='Count')

In [None]:
nacimiento_por_año.plot.pie(y='Count')

In [None]:
nacimiennto_por_año['Count'].plot.bar()

In [None]:
nacimiento_por_año.columns

In [None]:
nacimiento_por_año['Count'].plot.area()

In [None]:
nacimiento_por_año['Count'].plot.box()

### Para mayor información sobre los atributos y métodos de la clase Dataframe en pandas ver:
http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html