In [1]:
import pandas as pd
import re

### 1. Para leer correctamente las columnas se necesita que el argumento *sep* sea igual a "*;*".

In [2]:
dolar_2019 = pd.read_csv("../data/raw/dolar_2019_sii.csv", sep = ";")

In [3]:
dolar_2019.head()

Unnamed: 0,Día,Ene,Feb,Mar,Abr,May,Jun,Jul,Ago,Sep,Oct,Nov,Dic
0,1,,65781.0,65179.0,67853,,,67915,70082.0,,72821.0,,
1,2,69477.0,,,67256,67871.0,,67762,70488.0,72020.0,72938.0,,81213.0
2,3,69709.0,,,67005,68331.0,70980.0,68130,,72472.0,72780.0,,80429.0
3,4,69764.0,65539.0,65657.0,66755,,70459.0,68048,,72569.0,71953.0,73505.0,80244.0
4,5,,65380.0,65907.0,66632,,69678.0,67764,71113.0,72330.0,,73666.0,79675.0


### 2. dolar_2020_sii.txt

Diferencias:
- *dolar_2020_sii.txt* no tiene los nombres de las columnas.
- El separador es distinto (|).
- La extensión de los archivos es distinta (.txt)

Similitudes:
- Ambos presentan los valores del dólar por día del mes.
- Ambos presentan valores numéricos reales con 2 decimales.
- Ambos incluyen al final una fila con los promedios por mes.
- Ambos presentan datos para 31 días. 

In [4]:
dolar_2020_txt = pd.read_csv("../data/raw/dolar_2020_sii.txt", sep = "|", header = None)

Para leer correctamente las columnas se necesita que el argumento *sep* sea igual a "|" y agregar el argumento *header* con un valor igual a *None*.

In [5]:
dolar_2020_txt.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12
0,1,,,,85203.0,,80632,82123.0,,77646.0,78815.0,,76729.0
1,2,74874.0,,81832.0,86381.0,,79646,81629.0,,77059.0,78504.0,77192.0,76016.0
2,3,75416.0,79911.0,81745.0,86189.0,,78286,80398.0,75706.0,77145.0,,76917.0,75534.0
3,4,,79092.0,80981.0,,83792.0,76913,,76134.0,77371.0,,75853.0,75203.0
4,5,,78178.0,81219.0,,83874.0,77558,,76798.0,,79081.0,75716.0,


### 3. El archivo dolar_2020_sii_AA.dat contiene la misma información que el archivo anterior pero esta vez con valores separados por combinaciones de 3 letras.

In [6]:
from io import StringIO
data = open(r"../data/raw/dolar_2020_sii_AA.dat", "r").read()
regex = r'[a-zA-Zá-ý]{3}'
for line in re.findall(regex, data):
    if line != "Pro" and line != "med" and line != "ioX":
        data = re.sub(line, ";", data)
data = StringIO(data)
dolar_2020_regex = pd.read_csv(data, sep=';', header = None)

### 4. Wrangling y limpieza

In [7]:
dolar_2019 = dolar_2019.drop(axis = 0, index = 31)

dolar_2020_txt = dolar_2020_txt.drop(axis = 0, index = 31)
dolar_2020_txt.columns = list(dolar_2019.columns)

dolar_2020_regex = dolar_2020_regex.drop(axis = 0, index = 31)
dolar_2020_regex.columns = list(dolar_2019.columns)

In [8]:
dolar_2019.head()
# dolar_2020_txt.head()
# dolar_2020_regex.head()

Unnamed: 0,Día,Ene,Feb,Mar,Abr,May,Jun,Jul,Ago,Sep,Oct,Nov,Dic
0,1,,65781.0,65179.0,67853,,,67915,70082.0,,72821.0,,
1,2,69477.0,,,67256,67871.0,,67762,70488.0,72020.0,72938.0,,81213.0
2,3,69709.0,,,67005,68331.0,70980.0,68130,,72472.0,72780.0,,80429.0
3,4,69764.0,65539.0,65657.0,66755,,70459.0,68048,,72569.0,71953.0,73505.0,80244.0
4,5,,65380.0,65907.0,66632,,69678.0,67764,71113.0,72330.0,,73666.0,79675.0


In [9]:
dolar_2019["year"] = 2019
dolar_2020_txt["year"] = 2020
dolar_2020_regex["year"] = 2020

In [10]:
for column in dolar_2019.columns[1:-1]:
    dolar_2019[column] = dolar_2019[column].apply(lambda x: str(x).replace(',', '.')).astype(float)
    dolar_2020_txt[column] = dolar_2020_txt[column].apply(lambda x: str(x).replace(',', '.')).astype(float)
    dolar_2020_regex[column] = dolar_2020_regex[column].apply(lambda x: str(x).replace(',', '.')).astype(float)

In [11]:
dolar_2019["Día"] = dolar_2019["Día"].astype(int)
dolar_2020_txt["Día"] = dolar_2020_txt["Día"].astype(int)
dolar_2020_regex["Día"] = dolar_2020_regex["Día"].astype(int)

### 5. Exportar archivos

In [12]:
dolar_2019.to_csv("../data/interim/d2019.csv", sep = ",", index = False)
dolar_2020_txt.to_csv("../data/interim/d2020.txt", sep = " ", index = False)
dolar_2020_regex.to_csv("../data/interim/dolar_2020_excel.csv", sep = ";", index = False) 

### 6. Concatenación de DataFrames

In [13]:
df_concat_1 = pd.concat([dolar_2019, dolar_2020_txt], axis = 1) 
df_concat_0 = pd.concat([dolar_2019, dolar_2020_txt], axis = 0) 

In [14]:
df_concat_1.head()

Unnamed: 0,Día,Ene,Feb,Mar,Abr,May,Jun,Jul,Ago,Sep,...,Abr.1,May.1,Jun.1,Jul.1,Ago.1,Sep.1,Oct,Nov,Dic,year
0,1,,657.81,651.79,678.53,,,679.15,700.82,,...,852.03,,806.32,821.23,,776.46,788.15,,767.29,2020
1,2,694.77,,,672.56,678.71,,677.62,704.88,720.2,...,863.81,,796.46,816.29,,770.59,785.04,771.92,760.16,2020
2,3,697.09,,,670.05,683.31,709.8,681.3,,724.72,...,861.89,,782.86,803.98,757.06,771.45,,769.17,755.34,2020
3,4,697.64,655.39,656.57,667.55,,704.59,680.48,,725.69,...,,837.92,769.13,,761.34,773.71,,758.53,752.03,2020
4,5,,653.8,659.07,666.32,,696.78,677.64,711.13,723.3,...,,838.74,775.58,,767.98,,790.81,757.16,,2020


In [15]:
df_concat_0.head()

Unnamed: 0,Día,Ene,Feb,Mar,Abr,May,Jun,Jul,Ago,Sep,Oct,Nov,Dic,year
0,1,,657.81,651.79,678.53,,,679.15,700.82,,728.21,,,2019
1,2,694.77,,,672.56,678.71,,677.62,704.88,720.2,729.38,,812.13,2019
2,3,697.09,,,670.05,683.31,709.8,681.3,,724.72,727.8,,804.29,2019
3,4,697.64,655.39,656.57,667.55,,704.59,680.48,,725.69,719.53,735.05,802.44,2019
4,5,,653.8,659.07,666.32,,696.78,677.64,711.13,723.3,,736.66,796.75,2019


- En df_concat_1 tendremos columnas llamadas de la misma forma (meses) lo que complicaría el análisis de un mes en particular en distintos años.
- En df_concat_0 tendremos filas con índices repetidos y que no reflejan el número real del día, lo que podría llevar a confusión al momento de analizar.