**Ejercicio 2**

Análisis Descriptivo y Exploratorio de Dataframes sobre Tipos de Cambio y Turismo en Argentina

**Objetivo:**
El propósito de este ejercicio es realizar un análisis descriptivo y exploratorio de dos dataframes,
relacionados con los tipos de cambio oficial y paralelo en Argentina y la cantidad de turistas que
llegaron desde países limítrofes. El análisis permitirá conocer mejor la distribución de las variables y
las posibles relaciones entre ellas, asegurando que los datos sean precisos y confiables antes de
continuar con el análisis.
Instrucciones:
1. Importar los dos dataframes desde el archivo "tc_turistas.xlsx": un dataframe con datos diarios
de tipos de cambio oficial y paralelo en Argentina durante el período de junio de 2017 a
febrero de 2020, y otro con la cantidad de turistas que llegaron desde países limítrofes en
frecuencia mensual.
2. Ajustar la frecuencia del dataframe de tipos de cambio a mensual, para que sea compatible con
el dataframe de turistas.
3. Explorar ambos dataframes mediante gráficos y medidas de resumen. Verificar la distribución
de las variables, la presencia de valores faltantes o extremos, y las correlaciones entre las
variables.
4. Realizar un análisis exploratorio de los datos para conocer mejor la distribución de los mismos y
las posibles relaciones entre las variables.
5. Si se encuentra algún problema en los datos, determine la mejor manera de solucionarlo.
Verificar que los datos sean precisos y confiables antes de continuar con el análisis.
6. Realizar cualquier tarea de limpieza o curación de los datos que sea necesaria para asegurar la
calidad de la información.
10/5/23, 15:31 (5) Trabajo Práctico 1
https://www.notion.so/Trabajo-Pr-ctico-1-f1f8328d4866481f9e92b481a0deb723 3/4
7. Presentar los hallazgos y conclusiones del análisis, destacando cualquier patrón o tendencia
que resulte relevante y contribuya a una mayor comprensión de las relaciones entre las
variables estudiadas.
8. Escribir el informe incluyendo código Python utilizado, las visualizaciones y las conclusiones en
un cuaderno Google Colab. El dataframe final curado debe ser exportado a formato .parquet

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import pyarrow as pa
import pyarrow.parquet as pq

### Carga de Dataframe

In [None]:
cambio = pd.read_excel('../datasets/tc_turistas.xlsx',
                       sheet_name=0)

turista = pd.read_excel('../datasets/tc_turistas.xlsx',
                        sheet_name=2)

In [None]:
cambio = pd.read_excel("tc_turistas.xlsx", sheet_name="tipos de cambio")
turistas = pd.read_excel("tc_turistas.xlsx", 
                            sheet_name="llegadas de turistas")

In [None]:
cambio.head(5)

Unnamed: 0,FECHA,DOLAR Oficial,DOLAR Blue
0,2017-06-01,16.25,16.3
1,2017-06-02,16.2,16.32
2,2017-06-03,,
3,2017-06-04,,
4,2017-06-05,16.2,16.34


In [None]:
turistas.head(12)

Unnamed: 0,anio,mes,date,Bolivia,Brasil,Chile,Paraguay,Uruguay
0,2013,ene,41275,141417.45919,112996.623524,66007.699999,50277.720853,52456.413939
1,2013,feb,41306,95204.256341,161366.098439,62013.313451,52666.951095,41377.875955
2,2013,mar,41334,82862.061107,96727.365114,81096.057038,92714.958474,43728.713276
3,2013,abr,41365,72009.46262,66978.88846,55096.585327,67716.242304,27458.646062
4,2013,may,41395,79131.435938,63886.966089,61641.446807,70544.694702,23592.398421
5,2013,jun,41426,92240.771289,49557.068042,60294.518333,76041.477572,22709.984476
6,2013,jul,41456,128591.344173,83523.489456,80964.911514,109663.440869,22744.910626
7,2013,ago,41487,94000.05222,65174.279618,59291.758991,58074.773643,21919.841955
8,2013,sep,41518,98763.751858,98676.915674,60163.9739,85314.547061,19645.771458
9,2013,oct,41548,96628.109373,77731.536894,63783.806424,67615.587626,23810.625172


### 2 - Manipulacion, limpieza y curacion de los datos

In [None]:
cambio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1004 entries, 0 to 1003
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   FECHA          1004 non-null   datetime64[ns]
 1   DOLAR Oficial  668 non-null    float64       
 2   DOLAR Blue     671 non-null    float64       
dtypes: datetime64[ns](1), float64(2)
memory usage: 23.7 KB


In [None]:
# Se reemplazan los valores NaN por el valor inmediato anterior
cambio['DOLAR Oficial'].fillna(method='ffill', inplace=True)
cambio['DOLAR Blue'].fillna(method='ffill', inplace=True)


In [124]:
# Se separa la fecha en anio y mes
cambio['anio'] = cambio['FECHA'].dt.year 
cambio['mes'] = cambio['FECHA'].dt.month 

In [125]:
cambio.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1004 entries, 0 to 1003
Data columns (total 5 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   FECHA          1004 non-null   datetime64[ns]
 1   DOLAR Oficial  1004 non-null   float64       
 2   DOLAR Blue     1004 non-null   float64       
 3   anio           1004 non-null   int64         
 4   mes            1004 non-null   int64         
dtypes: datetime64[ns](1), float64(2), int64(2)
memory usage: 39.3 KB


In [126]:
cambio.head(5)

Unnamed: 0,FECHA,DOLAR Oficial,DOLAR Blue,anio,mes
0,2017-06-01,16.25,16.3,2017,6
1,2017-06-02,16.2,16.32,2017,6
2,2017-06-03,16.2,16.32,2017,6
3,2017-06-04,16.2,16.32,2017,6
4,2017-06-05,16.2,16.34,2017,6


In [127]:
#Se crea Dataframe para guardar los valores promedios mensuales del dolar oficial y blue
cambio_mensual = pd.DataFrame()
cambio_mensual['anio'] = 0
cambio_mensual['mes'] = 0
cambio_mensual['DOLAR Oficial'] = 0.00
cambio_mensual['DOLAR Blue'] = 0.00

cambio_mensual.info()

<class 'pandas.core.frame.DataFrame'>
Index: 0 entries
Data columns (total 4 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   anio           0 non-null      int64  
 1   mes            0 non-null      int64  
 2   DOLAR Oficial  0 non-null      float64
 3   DOLAR Blue     0 non-null      float64
dtypes: float64(2), int64(2)
memory usage: 0.0+ bytes


In [None]:
turistas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 99 entries, 0 to 98
Data columns (total 8 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   anio      99 non-null     int64  
 1   mes       99 non-null     object 
 2   date      99 non-null     int64  
 3   Bolivia   99 non-null     float64
 4   Brasil    99 non-null     float64
 5   Chile     99 non-null     float64
 6   Paraguay  99 non-null     float64
 7   Uruguay   99 non-null     float64
dtypes: float64(5), int64(2), object(1)
memory usage: 6.3+ KB


In [None]:
#Se cambia los valores de mes por su correspondiente valor numerico
turistas['mes'] = turistas['mes'].replace (['ene','feb','mar','abr','may','jun','jul','ago','sep','oct','nov','dic'],
                            ['01','02','03','04','05','06','07','08','09','10','11','12'])

In [None]:
turistas['Fecha'] = turistas['anio'].map(str) + '-' + turistas['mes'].map(str)
#turistas['Fecha'] = pd.to_datetime(turistas['Fecha'])

In [None]:
#Cambio de tipo de dato a entero ya que el valor representa cantidad de turistas
turistas = turistas.astype({'Bolivia': 'int64', 'Brasil': 'int64', 'Chile':'int64', 'Paraguay':'int64', 'Uruguay':'int64'})

In [None]:
turistas.head(5)

Unnamed: 0,anio,mes,date,Bolivia,Brasil,Chile,Paraguay,Uruguay,Fecha
0,2013,1,41275,141417,112996,66007,50277,52456,2013-01
1,2013,2,41306,95204,161366,62013,52666,41377,2013-02
2,2013,3,41334,82862,96727,81096,92714,43728,2013-03
3,2013,4,41365,72009,66978,55096,67716,27458,2013-04
4,2013,5,41395,79131,63886,61641,70544,23592,2013-05
