# **Exploración de Datos**

In [1]:
# Instalación requerida para usar Plotly:
# pip install jupyterlab
# pip install ipywidgets
# pip install jupyter-dash

In [2]:
import pandas as pd
import numpy as np
import plotly.graph_objects as go
import plotly.express as px

----
----

## Exploración de datos individuales
----
### a) Dolar Blue

In [3]:
dolar_b = pd.read_csv('API_tables/usd_b.csv')
dolar_b.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5567 entries, 0 to 5566
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   d       5567 non-null   object 
 1   v       5567 non-null   float64
dtypes: float64(1), object(1)
memory usage: 87.1+ KB


In [4]:
dolar_b.head(10) # Primeros 10 valores

Unnamed: 0,d,v
0,2000-05-24,1.0005
1,2000-05-25,1.0005
2,2000-05-26,1.0004
3,2000-05-29,1.0007
4,2000-05-30,1.0009
5,2000-05-31,1.001
6,2000-06-01,1.0007
7,2000-06-02,1.0011
8,2000-06-05,1.0011
9,2000-06-06,1.001


In [5]:
print('Tipo de dato para la fecha: ',type(dolar_b.loc[0, 'd']))
print('Registro primero para fecha:',dolar_b.loc[0,'d'])
print('Registro último para fecha:',dolar_b.loc[len(dolar_b)-1,'d'])
print('-----------------------------------------')
print('Tipo de dato para el valor: ',type(dolar_b.loc[0, 'v']))
print('Registro mínimo para valor:',dolar_b['v'].min())
print('Registro máximo para valor:',dolar_b['v'].max())

Tipo de dato para la fecha:  <class 'str'>
Registro primero para fecha: 2000-05-24
Registro último para fecha: 2022-08-04
-----------------------------------------
Tipo de dato para el valor:  <class 'numpy.float64'>
Registro mínimo para valor: 0.9965
Registro máximo para valor: 338.0


In [6]:
fig = px.line(dolar_b, x='d', y='v', title='Dolar Blue',
         labels={'d': 'Fecha', 'v': 'Soles'})
fig

Antotaciones:
- **Número de Registros**: 5567 *
- **Número de valores nulos en primer 'd'**: 0
- **Número de valores nulos en primer 'v'**: 0
- **Tipo de dato para 'd'**: string de python
- **Tipo de dato para 'v'**: flotante de numpy
- **Rango en 'd'**: 2000-05-24 a 2022-08-04 *
- **Rango en 'v'**: 0.9965 a 0.338 *
- **Observación 1**: 'd' sólo contiene fechas de días laborales
- **Recomendación 1**: Modificar el tipo de dato en 'd' a datetime para facilidad en futuros cálculos
- **Recomendación 2**: Modificar el nombre de columnas: 'd' a 'fecha' ; 'v' a 'valor_b'

**Es probable que cambie si importamos datos de nuevo*

----
### Dolar Oficial

In [7]:
dolar_o = pd.read_csv('API_tables/usd_o.csv')
dolar_o.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5016 entries, 0 to 5015
Data columns (total 2 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   d       5016 non-null   object 
 1   v       5016 non-null   float64
dtypes: float64(1), object(1)
memory usage: 78.5+ KB


In [8]:
dolar_o.head(10) # Primeros 10 valores

Unnamed: 0,d,v
0,2002-03-04,2.01
1,2002-03-05,1.99
2,2002-03-06,2.05
3,2002-03-07,2.14
4,2002-03-08,2.2
5,2002-03-11,2.25
6,2002-03-12,2.37
7,2002-03-13,2.33
8,2002-03-14,2.37
9,2002-03-15,2.34


In [9]:
print('Tipo de dato para la fecha: ',type(dolar_o.loc[0, 'd']))
print('Registro primero para fecha:',dolar_o.loc[0,'d'])
print('Registro último para fecha:',dolar_o.loc[len(dolar_o)-1,'d'])
print('-----------------------------------------')
print('Tipo de dato para el valor: ',type(dolar_o.loc[0, 'v']))
print('Registro mínimo para valor:',dolar_o['v'].min())
print('Registro máximo para valor:',dolar_o['v'].max())

Tipo de dato para la fecha:  <class 'str'>
Registro primero para fecha: 2002-03-04
Registro último para fecha: 2022-08-04
-----------------------------------------
Tipo de dato para el valor:  <class 'numpy.float64'>
Registro mínimo para valor: 1.99
Registro máximo para valor: 132.64


In [10]:
fig = px.line(dolar_o, x='d', y='v', title='Dolar Oficial',
         labels={'d': 'Fecha', 'v': 'Soles'})
fig

Antotaciones:
- **Número de Registros**: 5016 *
- **Número de valores nulos en primer 'd'**: 0
- **Número de valores nulos en primer 'v'**: 0
- **Tipo de dato para 'd'**: string de python
- **Tipo de dato para 'v'**: flotante de numpy
- **Rango en 'd'**: 2002-03-04 a 2022-08-04 *
- **Rango en 'v'**: 1.99 a 132.64 *
- **Observación 1**: 'd' sólo contiene fechas de días laborales
- **Recomendación 1**: Modificar el tipo de dato en 'd' a datetime para facilidad en futuros cálculos
- **Recomendación 2**: Modificar el nombre de columnas: 'd' a 'fecha' ; 'v' a 'valor_o'

**Es probable que cambie si importamos datos de nuevo*

----
### Eventos

In [11]:
events = pd.read_csv('API_tables/events.csv')
events.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 55 entries, 0 to 54
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   d       55 non-null     object
 1   e       55 non-null     object
 2   t       55 non-null     object
dtypes: object(3)
memory usage: 1.4+ KB


In [12]:
events.head()

Unnamed: 0,d,e,t
0,1991-02-05,Roque Fernández,bcra
1,1991-04-01,Domingo Cavallo,econ
2,1995-08-08,Carlos Saúl Menem,pres
3,1996-08-05,Pedro Pou,bcra
4,1996-08-06,Roque Fernández,econ


In [13]:
print('Tipo de dato para la fecha:',type(events.loc[0, 'd']))
print('Registro primero para fecha:',events.loc[0,'d'])
print('Registro último para fecha:',events.loc[len(events)-1,'d'])
print('----------------------------------------------------')
print('Tipo de dato para la fecha:',type(events.loc[0, 'e']))
print('Cantidad de registros únicos:', len(np.unique(events['e'].values)))
print('----------------------------------------------------')
print('Tipo de dato para la fecha:',type(events.loc[0, 't']))
print('Cantidad de registros únicos:', len(np.unique(events['t'].values)))
print('Registros únicos:', np.unique(events['t'].values))

Tipo de dato para la fecha: <class 'str'>
Registro primero para fecha: 1991-02-05
Registro último para fecha: 2022-07-28
----------------------------------------------------
Tipo de dato para la fecha: <class 'str'>
Cantidad de registros únicos: 49
----------------------------------------------------
Tipo de dato para la fecha: <class 'str'>
Cantidad de registros únicos: 6
Registros únicos: ['bcra' 'econ' 'fina' 'misc' 'pres' 'trea']


In [14]:
events['t'].value_counts().values
events['t'].value_counts().index

Index(['econ', 'bcra', 'pres', 'misc', 'fina', 'trea'], dtype='object')

In [15]:
fig = px.bar(x = events['t'].value_counts().index, y = events['t'].value_counts().values,
             labels={'y': 'Cantidad', 'x': 'Tipo de evento'}, title='Conteo de eventos')
fig

In [16]:
px.scatter(events, x='d', y='t', color='t', labels={'t': 'Tipo', 'd':'Fecha'}, title='Eventos ocurridos')

Antotaciones:
- **Número de Registros**: 55 *
- **Número de valores nulos en primer 'd'**: 0
- **Número de valores nulos en primer 'e'**: 0
- **Número de valores nulos en primer 't'**: 0
- **Tipo de dato para 'd'**: string de python
- **Tipo de dato para 'e'**: string de python
- **Tipo de dato para 't'**: string de python
- **Rango en 'd'**: 1991-02-05 a 2022-07-28 *
- **Valores en 'e'**: Casi únicos pues representan personajes históricos.
- **Valores en 't'**: Dentro de estas 6 opciones: {'bcra', 'econ', 'fina', 'misc', 'pres', 'trea'}
- **Observación 1**: 'd' sólo son fechas donde hubo eventos
- **Recomendación 1**: Modificar el tipo de dato en 'd' a datetime para facilidad en futuros cálculos
- **Recomendación 2**: Modificar el nombre de columnas: 'd' a 'fecha' ; 'e' a 'personaje' ; 't' a 'tipo_evento'

**Es probable que cambie si importamos datos de nuevo*

----
----
## Exploración conjunta
Graficamos ambos dólares

In [17]:
fig = go.Figure()
fig.add_trace(go.Scatter(x = dolar_b['d'], y = dolar_b['v'], mode='lines', name='Blue'))
fig.add_trace(go.Scatter(x = dolar_o['d'], y = dolar_o['v'], mode='lines', name='Oficial'))
fig.update_layout(
    title='Valor de Dólares',
    xaxis_title = 'Price',
    yaxis_title = 'Soles')
fig

Ahora graficamos cada evento como un punto negro

In [18]:
fig = go.Figure()
fig.add_trace(go.Scatter(x = dolar_b['d'], y = dolar_b['v'], mode='lines', name='Blue'))
fig.add_trace(go.Scatter(x = dolar_o['d'], y = dolar_o['v'], mode='lines', name='Oficial'))
fig.add_trace(go.Scatter(x = events['d'], y = np.zeros(len(events)), mode='markers', 
                         marker_color='rgb(0,0,0)', name='Eventos'))
fig.update_layout(
    title='Valor de Dólares y eventos',
    xaxis_title = 'Price',
    yaxis_title = 'Soles')

Anotaciones:
- Hay registros de eventos que no nos serán útilies pues no hay valor de dolar para comparar.
- Ambos dólares se dispararon a partir del 2018 aproximadamente.
- Sería útil tener sincronizados los datos desde el inicio del dolar oficial (2002-03-04)