# Lectura de bases de datos
<img src="https://raw.githubusercontent.com/fhernanb/fhernanb.github.io/master/docs/logo_unal_color.png" alt="drawing" width="200"/>

En esta lección vamos a mostrar como leer bases de datos en:
- formato .txt
- formato .csv
- desde una url
- formato .xlxs

En la carpeta Datos que está en este mismo repositorio se encuentran unas bases de datos sencillas que vamos a utilizar, los nombres de las bases de datos son: `datos1.txt` y `datos2.csv`.

La librería que vamos a usar se muestra a continuación.

In [1]:
import pandas as pd  # Librería con las funciones read_table y read_csv

## Lectura de archivos .txt

Para leer este tipo de archivos usamos la función `read_table`, la documentación completa de la función se puede consultar [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_table.html).

Las bases de datos de ejemplo se encuentran en la carpeta __Datos__.

Vamos a leer la base de datos `datos1.txt`. La información se almacenará en el marco de datos `dt1`, a continuación la instrucción.

In [2]:
dt1 = pd.read_table("Datos/datos1.txt", sep=" ")

Para explorar lo que está dentro de `dt1` usamos la función `head` así:

In [3]:
dt1.head()

Unnamed: 0,edad,sexo,fuma,deporte
0,25,Mujer,No,Si
1,36,Hombre,Si,No
2,45,Mujer,Si,Si
3,28,Mujer,No,No


De la salida anterior vemos que la base `dt1` tiene cuatro variables.

## Lectura de archivos .csv

Para leer este tipo de archivos usamos la función `read_csv`, la documentación completa de la función se puede consultar [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

Vamos a leer la base de datos `datos2.txt`. La información se almacenará en el marco de datos `dt2`, a continuación la instrucción.

In [4]:
dt2 = pd.read_csv("Datos/datos2.csv", sep=";")

Para explorar lo que está dentro de `dt2` usamos la función `head` así:

In [5]:
dt2.head()

Unnamed: 0,mes,dia,ventas
0,5,25,2563
1,7,14,2541
2,10,30,563


De la salida anterior vemos que la base `dt2` tiene tres variables.

## Lectura desde una url

Para leer este tipo de archivos se puede usar nuevamente la función `read_csv`, la documentación completa de la función se puede consultar [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html).

Vamos a leer la base de datos `medidas_cuerpo2` que se encuentra disponible [aquí](https://raw.githubusercontent.com/fhernanb/datos/master/medidas_cuerpo2). La información se almacenará en el marco de datos `dt3`, a continuación la instrucción.

In [6]:
url = 'https://raw.githubusercontent.com/fhernanb/datos/master/medidas_cuerpo2'
dt3 = pd.read_csv(url, comment='#', delimiter='\t')
dt3.head()

Unnamed: 0,Peso,Sexo,Estatura,circun_cuello,circun_muneca
0,47.6,F,1.57,29.5,13.9
1,68.1,M,1.66,38.4,16.0
2,68.0,M,1.9,36.5,16.6
3,80.0,M,1.76,38.0,17.1
4,68.1,M,1.83,38.0,17.1


De la salida anterior vemos que la base `dt3` tiene cinco variables.

## Lectura de archivos .xlsx

Para leer este tipo de archivos se puede usar nuevamente la función `read_excel`, la documentación completa de la función se puede consultar [aqui](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_excel.html).

Vamos a leer la base de datos `datos4.xlsx`. La información se almacenará en el marco de datos `dt4`, a continuación la instrucción.

In [18]:
dt4 = pd.read_excel("Datos/datos4.xlsx", sheet_name='hoja1')
dt4.head()

Unnamed: 0,Aquí no hay nada


## Dimensión de la base de datos

Para conocer la dimensión de una base de datos se usa la función `shape`.

A continuación de muestran las dimensiones de las tres bases de datos leídas.

In [8]:
dt1.shape

(4, 4)

In [9]:
dt2.shape

(3, 3)

In [10]:
dt3.shape

(26, 5)

In [11]:
dt4.shape

(5, 2)

## Usando las variables de las bases de datos

Para usar cada variable de la base de datos se usa la siguiente estructura `nombre_datos.nombre_variable`. A continuación la forma de extraer las variables `edad`, `ventas` y `Sexo` de las bases de datos `dt1`, `dt2` y `dt3`.

In [12]:
dt1.edad

0    25
1    36
2    45
3    28
Name: edad, dtype: int64

In [13]:
dt2.ventas

0    2563
1    2541
2     563
Name: ventas, dtype: int64

In [14]:
dt3.Sexo

0     F
1     M
2     M
3     M
4     M
5     F
6     F
7     M
8     M
9     M
10    M
11    F
12    M
13    M
14    F
15    M
16    M
17    F
18    F
19    F
20    F
21    F
22    M
23    M
24    M
25    M
Name: Sexo, dtype: object

In [15]:
dt4.deporte

0    Ciclismo
1      Fútbol
2      Fútbol
3    Voleibol
4    Natación
Name: deporte, dtype: object