## Perform the following transformations:

- Add deltas to know how much time has passed for each news item
    - Change the name of the “date” column to “created_date”
    - Create a new column “current_date”
    - Create a new column “delta_date” with the difference between current_date and created_date
- Clean titles if apply:
    - Remove line breaks
    - Remove spaces


In [1]:
import datetime

import pandas as pd

In [2]:
df = pd.read_csv('../data/raw/data.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 909888 entries, 0 to 909887
Data columns (total 6 columns):
 #   Column        Non-Null Count   Dtype 
---  ------        --------------   ----- 
 0   url           909888 non-null  object
 1   title         909888 non-null  object
 2   category      909888 non-null  object
 3   created_date  909888 non-null  object
 4   current_date  909888 non-null  object
 5   view_count    909888 non-null  int64 
dtypes: int64(1), object(5)
memory usage: 41.7+ MB


In [4]:
df.head()

Unnamed: 0,url,title,category,created_date,current_date,view_count
0,https://www.biobiochile.cl/noticias/futbol-int...,La dura niñez de Shevchenko entre Chernobyl y ...,noticias/futbol-internacional/notas-futbol-int...,2021/05/03,2023-10-19,7076
1,https://www.biobiochile.cl/noticias/nacional/r...,Alcalde de Tucapel solicita acelerar obras de ...,noticias/nacional/region-del-bio-bio,2021/05/03,2023-10-19,898
2,https://www.biobiochile.cl/noticias/internacio...,Agencia Europea de Medicamento evalúa el uso d...,noticias/internacional/europa,2021/05/03,2023-10-19,488
3,https://www.biobiochile.cl/noticias/nacional/r...,"TENS prestó $8,5 millones a su amor virtual pa...",noticias/nacional/region-metropolitana,2021/05/03,2023-10-19,23851
4,https://www.biobiochile.cl/noticias/nacional/r...,Dos incendios movilizaron a Bomberos en Los Án...,noticias/nacional/region-del-bio-bio,2021/05/03,2023-10-19,718


In [5]:
df.shape

(909888, 6)

## Getting deltas days from dates

In [6]:
# https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html
df['created_date'] = pd.to_datetime(df['created_date'], format='%Y/%m/%d')
df['current_date'] = pd.to_datetime(df['current_date'], format='%Y-%m-%d')

In [7]:
df['delta_date'] = df['current_date'] - df['created_date']

In [8]:
df.head()

Unnamed: 0,url,title,category,created_date,current_date,view_count,delta_date
0,https://www.biobiochile.cl/noticias/futbol-int...,La dura niñez de Shevchenko entre Chernobyl y ...,noticias/futbol-internacional/notas-futbol-int...,2021-05-03,2023-10-19,7076,899 days
1,https://www.biobiochile.cl/noticias/nacional/r...,Alcalde de Tucapel solicita acelerar obras de ...,noticias/nacional/region-del-bio-bio,2021-05-03,2023-10-19,898,899 days
2,https://www.biobiochile.cl/noticias/internacio...,Agencia Europea de Medicamento evalúa el uso d...,noticias/internacional/europa,2021-05-03,2023-10-19,488,899 days
3,https://www.biobiochile.cl/noticias/nacional/r...,"TENS prestó $8,5 millones a su amor virtual pa...",noticias/nacional/region-metropolitana,2021-05-03,2023-10-19,23851,899 days
4,https://www.biobiochile.cl/noticias/nacional/r...,Dos incendios movilizaron a Bomberos en Los Án...,noticias/nacional/region-del-bio-bio,2021-05-03,2023-10-19,718,899 days


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 909888 entries, 0 to 909887
Data columns (total 7 columns):
 #   Column        Non-Null Count   Dtype          
---  ------        --------------   -----          
 0   url           909888 non-null  object         
 1   title         909888 non-null  object         
 2   category      909888 non-null  object         
 3   created_date  909888 non-null  datetime64[ns] 
 4   current_date  909888 non-null  datetime64[ns] 
 5   view_count    909888 non-null  int64          
 6   delta_date    909888 non-null  timedelta64[ns]
dtypes: datetime64[ns](2), int64(1), object(3), timedelta64[ns](1)
memory usage: 48.6+ MB


## Cleaning categories

In [10]:
cat = df['category'].iloc[0]
print(cat)

print(cat.split('/'))
print(cat.split('/')[-1])
print('noticias'.split('/'))

noticias/futbol-internacional/notas-futbol-internacional
['noticias', 'futbol-internacional', 'notas-futbol-internacional']
notas-futbol-internacional
['noticias']


In [11]:
df['category'] = df['category'].map(lambda element: element.split('/')[-1])

In [12]:
df.head(n=10)

Unnamed: 0,url,title,category,created_date,current_date,view_count,delta_date
0,https://www.biobiochile.cl/noticias/futbol-int...,La dura niñez de Shevchenko entre Chernobyl y ...,notas-futbol-internacional,2021-05-03,2023-10-19,7076,899 days
1,https://www.biobiochile.cl/noticias/nacional/r...,Alcalde de Tucapel solicita acelerar obras de ...,region-del-bio-bio,2021-05-03,2023-10-19,898,899 days
2,https://www.biobiochile.cl/noticias/internacio...,Agencia Europea de Medicamento evalúa el uso d...,europa,2021-05-03,2023-10-19,488,899 days
3,https://www.biobiochile.cl/noticias/nacional/r...,"TENS prestó $8,5 millones a su amor virtual pa...",region-metropolitana,2021-05-03,2023-10-19,23851,899 days
4,https://www.biobiochile.cl/noticias/nacional/r...,Dos incendios movilizaron a Bomberos en Los Án...,region-del-bio-bio,2021-05-03,2023-10-19,718,899 days
5,https://www.biobiochile.cl/noticias/nacional/r...,Detienen a 21 personas por fiesta clandestina ...,region-de-coquimbo,2021-05-03,2023-10-19,580,899 days
6,https://www.biobiochile.cl/noticias/nacional/r...,Los Ángeles: 19 detenidos por asistir a asado ...,region-del-bio-bio,2021-05-01,2023-10-19,3196,901 days
7,https://www.biobiochile.cl/especial/aqui-tierr...,Cumbre del clima ¿qué hay detrás de los compro...,noticias,2021-05-01,2023-10-19,127230,901 days
8,https://www.biobiochile.cl/noticias/opinion/en...,"Ossandón apunta a Lavín: ""A lo mejor ahora es ...",entrevistas,2021-05-01,2023-10-19,63294,901 days
9,https://www.biobiochile.cl/noticias/espectacul...,Cathy Barriga presenta acción judicial para qu...,notas-espectaculos-tv,2021-05-01,2023-10-19,28282,901 days


In [13]:
df.to_csv('../data/interim/clean_data_01.csv', index=False)

print('- Finished!')

- Finished!
