 # **<font color="DarkBlue">Limpieza y Preparación de Datos 🐼 </font>**

<p align="center">
<img src="https://pandas.pydata.org/static/img/pandas_mark.svg" width="50">
</p>


https://pandas.pydata.org/

 # **<font color="DarkBlue">Datos financieros</font>**

In [None]:
import yfinance as yf
import pandas as pd
from datetime import datetime, timedelta

<p align="justify">
🏷 <code>import yfinance as yf</code>: Esta línea importa la biblioteca <code>yfinance</code> y la asigna al alias <code>yf</code>. <code>yfinance</code> es una herramienta utilizada para descargar datos financieros históricos y actuales directamente desde Yahoo Finance. Proporciona una forma sencilla de obtener información de mercado, como precios de acciones, volúmenes y más.
</p>
<br>
<p align="justify">
🏷 <code>import pandas as pd</code>: Esta línea importa la biblioteca <code>pandas</code> y la asigna al alias <code>pd</code>.
</p>
<br>
<p align="justify">
🏷 <code>from datetime import datetime, timedelta</code>: Esta línea importa las clases <code>datetime</code> y <code>timedelta</code> del módulo <code>datetime</code>. <code>datetime</code> permite trabajar con fechas y horas, mientras que <code>timedelta</code> se utiliza para representar la diferencia entre dos puntos en el tiempo, facilitando el cálculo de intervalos de tiempo, como agregar días o semanas a una fecha.
</p>


In [None]:
# Define la fecha de inicio y la fecha de finalización

start_date = '2023-12-31'
end_date = (datetime.strptime(start_date, '%Y-%m-%d') + timedelta(days=210)).strftime('%Y-%m-%d')

<p align="justify">
🏷 <code>start_date = '2023-12-31'</code>: Esta línea define una variable <code>start_date</code> que almacena la fecha inicial como una cadena de texto en el formato <code>YYYY-MM-DD</code>. En este caso, la fecha de inicio es el 31 de diciembre de 2023.
</p>
<br>
<p align="justify">
🏷 <code>end_date = (datetime.strptime(start_date, '%Y-%m-%d') + timedelta(days=210)).strftime('%Y-%m-%d')</code>:
Esta línea realiza varios pasos:
<ul>
<li><code>datetime.strptime(start_date, '%Y-%m-%d')</code>: Convierte la cadena de texto <code>start_date</code> a un objeto <code>datetime</code> utilizando el formato <code>YYYY-MM-DD</code>.</li>
<li><code>+ timedelta(days=210)</code>: Suma 210 días al objeto <code>datetime</code> generado a partir de <code>start_date</code> utilizando <code>timedelta</code>.</li>
<li><code>.strftime('%Y-%m-%d')</code>: Convierte el nuevo objeto <code>datetime</code> (con los días añadidos) de nuevo en una cadena de texto en el formato <code>YYYY-MM-DD</code>.</li>
</ul>
<p align="justify">
<br>
El resultado es que <code>end_date</code> contiene la fecha final, que es 210 días después de la fecha inicial (31 de diciembre de 2023).
</p>


In [None]:
start_date, end_date

('2023-12-31', '2024-07-28')

In [None]:
# Descarga los datos de Mercado Libre (símbolo: MELI)

ticker = 'MELI'
data = yf.download(ticker, start=start_date, end=end_date)

[*********************100%***********************]  1 of 1 completed


<p align="justify">
🏷 <code>ticker = 'MELI'</code>: Esta línea define una variable llamada <code>ticker</code> que almacena el símbolo bursátil. En este caso, <code>'MELI'</code> se refiere a Mercado Libre, una compañía que cotiza en bolsa. Este símbolo será utilizado para descargar los datos financieros de esta acción.</p>
<br>
<p align="justify">
🏷 <code>data = yf.download(ticker, start=start_date, end=end_date)</code>:
Esta línea utiliza el método <code>download()</code> de la biblioteca <code>yfinance</code> (importada previamente como <code>yf</code>) para descargar datos históricos de precios de la acción de Mercado Libre (<code>MELI</code>) desde Yahoo Finance. El rango de fechas es especificado por las variables <code>start_date</code> y <code>end_date</code>, previamente definidas. La información descargada incluye datos como el precio de apertura, cierre, máximo, mínimo, volumen, etc., y se almacena en el DataFrame <code>data</code> para su posterior análisis.
</p>


In [None]:
# Muestra los primeros registros del DataFrame

data.head()

Unnamed: 0_level_0,Open,High,Low,Close,Adj Close,Volume
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2024-01-02,1562.609985,1562.609985,1518.119995,1529.160034,1529.160034,350200
2024-01-03,1515.01001,1523.189941,1497.900024,1500.0,1500.0,272400
2024-01-04,1489.52002,1543.069946,1483.640015,1519.380005,1519.380005,436400
2024-01-05,1527.079956,1559.660034,1527.079956,1538.829956,1538.829956,317400
2024-01-08,1548.180054,1579.380005,1548.180054,1575.599976,1575.599976,278600


In [None]:
# Dejando solo el valor de cierre

data = data['Close'].to_frame()

<p align="justify">
🏷 <code>data = data['Close'].to_frame()</code>:
Esta línea selecciona la columna <code>'Close'</code> del DataFrame <code>data</code>, que contiene los precios de cierre diarios de la acción <code>MELI</code>. La columna <code>'Close'</code> se convierte en un nuevo DataFrame utilizando el método <code>to_frame()</code>. Esto es útil cuando quieres trabajar con una columna específica.</p>


In [None]:
# Reindexando

data.reset_index(inplace=True)

<p align="justify">
🏷 <code>data.reset_index(inplace=True)</code>:
Esta línea restablece el índice del DataFrame <code>data</code>. Al usar <code>reset_index()</code>, el índice actual (que generalmente es la columna de fechas cuando se descargan datos financieros) se convierte en una columna normal dentro del DataFrame. El parámetro <code>inplace=True</code> asegura que el DataFrame se modifique directamente sin necesidad de reasignarlo a otra variable. Esto es útil cuando se quiere trabajar con las fechas como una columna más y no como índice del DataFrame, facilitando operaciones posteriores.
</p>


In [None]:
# Agrega una columna con el nombre del día de la semana

data['Day of Week'] = data['Date'].dt.day_name()

<p align="justify">
🏷 <code>data['Day of Week'] = data['Date'].dt.day_name()</code>:
Esta línea crea una nueva columna en el DataFrame <code>data</code> llamada <code>'Day of Week'</code>, que contiene el nombre del día de la semana correspondiente a cada fecha en la columna <code>'Date'</code>. Utiliza el atributo <code>dt</code> para acceder a las funcionalidades de manejo de fechas de pandas, y el método <code>day_name()</code> devuelve el nombre del día (por ejemplo, "Monday", "Tuesday", etc.). Esto es útil para análisis de series temporales donde se desea estudiar el comportamiento de los datos según el día de la semana.
</p>


In [None]:
data.head()

Unnamed: 0,Date,Close,Day of Week
0,2024-01-02,1529.160034,Tuesday
1,2024-01-03,1500.0,Wednesday
2,2024-01-04,1519.380005,Thursday
3,2024-01-05,1538.829956,Friday
4,2024-01-08,1575.599976,Monday


In [None]:
# Agrega una columna con el nombre del mes

data['Month Name'] = data['Date'].dt.month_name()

<p align="justify">
🏷 <code>data['Month Name'] = data['Date'].dt.month_name()</code>:
Esta línea crea una nueva columna en el DataFrame <code>data</code> llamada <code>'Month Name'</code>, que contiene el nombre del mes correspondiente a cada fecha en la columna <code>'Date'</code>. Al igual que en el caso anterior, se utiliza el atributo <code>dt</code> para acceder a las funcionalidades de manejo de fechas de pandas, y el método <code>month_name()</code> devuelve el nombre del mes (por ejemplo, "January", "February", etc.). Esto es útil para realizar análisis estacionales o entender cómo se distribuyen los datos a lo largo de los diferentes meses del año.
</p>


In [None]:
data.head()

Unnamed: 0,Date,Close,Day of Week,Month Name
0,2024-01-02,1529.160034,Tuesday,January
1,2024-01-03,1500.0,Wednesday,January
2,2024-01-04,1519.380005,Thursday,January
3,2024-01-05,1538.829956,Friday,January
4,2024-01-08,1575.599976,Monday,January


In [None]:
# Redondea los valores de la columna 'Close' a dos decimales

data['Close'] = data['Close'].round(2)

In [None]:
data.head()

Unnamed: 0,Date,Close,Day of Week,Month Name
0,2024-01-02,1529.16,Tuesday,January
1,2024-01-03,1500.0,Wednesday,January
2,2024-01-04,1519.38,Thursday,January
3,2024-01-05,1538.83,Friday,January
4,2024-01-08,1575.6,Monday,January


In [None]:
# Calcula la diferencia diaria en la columna 'Close'

data['Diff'] = data['Close'].diff()

<p align="justify">
🏷 <code>data['Diff'] = data['Close'].diff()</code>:
Esta línea calcula la diferencia entre los precios de cierre de la acción <code>MELI</code> de un día al siguiente y almacena el resultado en una nueva columna llamada <code>'Diff'</code> dentro del DataFrame <code>data</code>. El método <code>diff()</code> de pandas devuelve la diferencia entre cada elemento y el elemento anterior en la serie. Esto es útil para analizar la variabilidad diaria del precio, permitiendo identificar cambios en el precio de la acción y evaluar su volatilidad a lo largo del tiempo.
</p>


In [None]:
data.head()

Unnamed: 0,Date,Close,Day of Week,Month Name,Diff
0,2024-01-02,1529.16,Tuesday,January,
1,2024-01-03,1500.0,Wednesday,January,-29.16
2,2024-01-04,1519.38,Thursday,January,19.38
3,2024-01-05,1538.83,Friday,January,19.45
4,2024-01-08,1575.6,Monday,January,36.77


In [None]:
# Calcula el cambio porcentual diario en la columna 'Close'

data['% Change'] = data['Close'].pct_change() * 100
data['% Change'] = data['% Change'].round(2)

<p align="justify">
🏷 <code>data['% Change'] = data['Close'].pct_change() * 100</code>:
Esta línea calcula el cambio porcentual de los precios de cierre de la acción <code>MELI</code> de un día al siguiente y lo almacena en una nueva columna llamada <code>'% Change'</code> dentro del DataFrame <code>data</code>. El método <code>pct_change()</code> de pandas calcula la variación relativa entre el valor actual y el valor anterior, y al multiplicar por 100 se convierte en un porcentaje. Esto es útil para evaluar el rendimiento diario de la acción y entender las fluctuaciones en su precio.
<br><br>
🏷 <code>data['% Change'] = data['% Change'].round(2)</code>:
Esta línea redondea los valores de la columna <code>'% Change'</code> a dos decimales. Esto ayuda a presentar los datos de forma más clara y concisa, facilitando la interpretación de los cambios porcentuales sin perder precisión significativa en la información.
</p>


In [None]:
data.head()

Unnamed: 0,Date,Close,Day of Week,Month Name,Diff,% Change
0,2024-01-02,1529.16,Tuesday,January,,
1,2024-01-03,1500.0,Wednesday,January,-29.16,-1.91
2,2024-01-04,1519.38,Thursday,January,19.38,1.29
3,2024-01-05,1538.83,Friday,January,19.45,1.28
4,2024-01-08,1575.6,Monday,January,36.77,2.39


In [None]:
# Eliminamos los valores nulos

data = data.dropna()
data.head()

Unnamed: 0,Date,Close,Day of Week,Month Name,Diff,% Change
1,2024-01-03,1500.0,Wednesday,January,-29.16,-1.91
2,2024-01-04,1519.38,Thursday,January,19.38,1.29
3,2024-01-05,1538.83,Friday,January,19.45,1.28
4,2024-01-08,1575.6,Monday,January,36.77,2.39
5,2024-01-09,1573.34,Tuesday,January,-2.26,-0.14


In [None]:
data.tail()

Unnamed: 0,Date,Close,Day of Week,Month Name,Diff,% Change
138,2024-07-22,1687.38,Monday,July,37.39,2.27
139,2024-07-23,1692.23,Tuesday,July,4.85,0.29
140,2024-07-24,1642.55,Wednesday,July,-49.68,-2.94
141,2024-07-25,1625.15,Thursday,July,-17.4,-1.06
142,2024-07-26,1651.69,Friday,July,26.54,1.63


In [None]:
# Vemos cuantos dias de la semana hay

data['Day of Week'].value_counts()

Unnamed: 0_level_0,count
Day of Week,Unnamed: 1_level_1
Wednesday,29
Thursday,29
Friday,29
Tuesday,29
Monday,26


<p align="center"><b>
💗
<font color="DarkBlue">
Hemos llegado al final de nuestro caso en colab, a seguir experimentando...
</font>
</p>
