# Data Acquisition

## Objetivos

1. Identificar el ciclo de vida de un proyecto de ciencia de datos.
2. Rastrear el origen de los datos y su uso.
3. Leer datos con `pandas`.

## 1. Librería `pandas`

En sesiones anteriores hemos realizado explorado la herramienta `pandas` para el procesamiento de datos, aquí veremos algunos ejemplos de su uso para la adquisición de datos de diversos formatos.

In [15]:
# Importar la librería
import pandas as pd

### 1.1. Lectura de archivos

La librería `pandas` permite manipular información de diversas fuentes. Con invocar un función, es posible transformar estas fuentes en objetos `Dataframe` dentro del entorno de Python.<br>

#### Importar archivos en formato `.csv`

Los archivos delimitados por comas o 'csv' son uno de los formatos de archivos más comunes en el procesamiento de datos.

In [16]:
# Cargar un dataframe con el archivo 'pune_1965_to_2002.csv'
df = pd.read_csv("pune_1965_to_2002.csv")
df.head()

Unnamed: 0,Year,Jan,Feb,Mar,Apr,May,Jun,Jul,Aug,Sep,Oct,Nov,Dec
0,1965,0.029,0.069,0.0,21.667,17.859,102.111,606.071,402.521,69.511,5.249,16.232,22.075
1,1966,0.905,0.0,0.0,2.981,63.008,94.088,481.942,59.386,150.624,1.308,41.214,4.132
2,1967,0.248,3.39,1.32,13.482,11.116,251.314,780.006,181.069,183.757,50.404,8.393,37.685
3,1968,0.318,3.035,1.704,23.307,7.441,179.872,379.354,171.979,219.884,73.997,23.326,2.02
4,1969,0.248,2.524,0.334,4.569,6.213,393.682,678.354,397.335,205.413,24.014,24.385,1.951


In [17]:
# Leer archivo de datos "us_presidents 2.csv"
presidentes = pd.read_csv("us_presidents 2.csv")
presidentes.head()

Unnamed: 0.1,Unnamed: 0,S.No.,start,end,president,prior,party,vice
0,0,1,"April 30, 1789","March 4, 1797",George Washington,Commander-in-Chief of the Continental Army ...,Nonpartisan [13],John Adams
1,1,2,"March 4, 1797","March 4, 1801",John Adams,1st Vice President of the United States,Federalist,Thomas Jefferson
2,2,3,"March 4, 1801","March 4, 1809",Thomas Jefferson,2nd Vice President of the United States,Democratic- Republican,Aaron Burr
3,3,4,"March 4, 1809","March 4, 1817",James Madison,5th United States Secretary of State (1801–...,Democratic- Republican,George Clinton
4,4,5,"March 4, 1817","March 4, 1825",James Monroe,7th United States Secretary of State (1811–...,Democratic- Republican,Daniel D. Tompkins


In [18]:
presidentes.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 45 entries, 0 to 44
Data columns (total 8 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Unnamed: 0  45 non-null     int64 
 1   S.No.       45 non-null     int64 
 2   start       45 non-null     object
 3   end         44 non-null     object
 4   president   45 non-null     object
 5   prior       45 non-null     object
 6   party       45 non-null     object
 7   vice        45 non-null     object
dtypes: int64(2), object(6)
memory usage: 2.9+ KB


#### Formato `.csv` con delimitador `;`

Cuando se tienen archivos su separador no es una `,` sino un `;`, se puede solucionar muy fácilmente usando `pandas` al establecer el delimitador.<br>
    
    read_csv(file = "nombre_archivo.csv", delimiter = ';')

In [19]:
# Cargar un dataframe con el archivo "DiccionarioPaises.csv"
pd.read_csv("DiccionarioPaises.csv", delimiter=";")

Unnamed: 0,País en español,País en inglés
0,Afganistán,Afghanistan
1,Albania,Albania
2,Alemania,Germany
3,Andorra,Andorra
4,Angola,Angola
...,...,...
204,Vietnam,Vietnam
205,Yemen,Yemen
206,Yibuti,Djibouti
207,Zambia,Zambia


#### Importación de archivos en formato Excel `.xls` o `.xlsx`

Los archivos provenientes de MS-Excel puede ser fácilmente importado mediante `pandas` con una estructura similar a la siguiente:<br>
    
    read_excel(file = "nombre_archivo.xlsx")

In [20]:
# Cargar un dataframe con el archivo "ArchivoSoporteS3TU1.xlsx"
pd.read_excel("ArchivoSoporteS3TU1.xlsx")

Unnamed: 0,Nombre,Edad,Ingresos,Ciudad Residencia
0,Juan,48,71,Bogotá
1,Maria,29,150,Lima
2,Jorge,43,98,Buenos Aires
3,Pablo,50,105,Bogotá
4,Laura,33,80,La Paz
5,Esteban,21,127,Lima
6,Juliana,48,131,La Paz
7,Valentina,47,89,Bogotá
8,Silvana,43,109,Buenos Aires


## 2. Ejemplos de aplicación

Aplicación del desafío genérico para el archivo de datos 'encuesta.txt'

In [21]:
# Cargar un dataframe con los datos del archivo 'encuesta.txt'
pd.read_csv('encuesta.txt', delim_whitespace=True, true_values=['si'], false_values=['no'], dtype={'asistio':bool, 'Tarea':bool})

Unnamed: 0,ID,asistio,Tarea,Comportamiento,Pago
0,cef3615d61b202f1dc794ef2746df14,True,True,0.0,True
1,323e5a13644d18185c743c241407754,False,False,,False
2,b29a107e5cd062e654a63764157461d,False,False,,False
3,04a11e4bcb573a1261eb0d9948d32637,True,False,0.0,True
4,9368291c3d5d5f5c8cdb1a575e18bec,True,False,0.0,True
5,dd0e77eab270e4b67c19b0d6bbf621b,False,False,,False
6,7599c0aa419b59fd11ffede98a3665d,False,False,,True
7,6dff182b452487f07a47596f314bddc,False,True,,True
8,9dc233fed1c6eb2432672ab4bb39249,False,False,,False
9,265fa78a1fb2409ff5416aec3c4f950d,True,False,0.0,True


Lectura de archivos `pickle`

In [22]:
# Leamos el archivo 'data.pkl'
pd.read_pickle('data.pkl')

UnpicklingError: invalid load key, '\x1f'.

Comparación de velocidad entre distintos tipos de archivos

## 3. Importación de multiples archivos a Python

Existen varias formas en las que podemos traer varios archivos al entorno de trabajo de `python`. Traigamos todos los dataframes de los archivos `.csv` corrientes.

### 3.1. Metodo exhaustivo

### 3.2. Metodo basado en los nombres

### 3.3. Metodo de inspección de entorno

In [None]:
# Importe la libreria glob