# Limpieza de datos üßπ

La limpieza de datos es una etapa anterior al modelado que se centra en la detecci√≥n y correcci√≥n de errores o inconsistencias en los datos, como valores faltantes o datos duplicados.

<strong>Objetivos</strong>:

+ Eliminar filas con valores faltantes.
+ Cambiar los nombres de ciertas columnas.
+ Cambiar el tipo y formato de datos de ciertas columnas.
+ Eliminar columnas que sean irrelevantes para esta tarea.
 
El resultado final deben ser tres datasets limpios. 

## Importar librer√≠as/utilidades y cargar datos

In [64]:
# Importar
import pandas as pd

# Para ignorar Warnings
import warnings
warnings.filterwarnings('ignore')

In [65]:
# Leer datos
contents_df = pd.read_csv('./datasets-input/Content.csv', index_col=0)
reactions_df = pd.read_csv('./datasets-input/Reactions.csv', index_col=0)
reactions_types_df = pd.read_csv('./datasets-input/ReactionTypes.csv', index_col=0)

In [66]:
#contents_df
#reactions_df
reactions_types_df

Unnamed: 0,Type,Sentiment,Score
0,heart,positive,60
1,want,positive,70
2,disgust,negative,0
3,hate,negative,5
4,interested,positive,30
5,indifferent,neutral,20
6,love,positive,65
7,super love,positive,75
8,cherish,positive,70
9,adore,positive,72


## Tratar valores faltantes

In [70]:
# Funci√≥n para detectar columnas con valores faltantes
def nan_columns(df):
    nan_columns = df.isna().any(axis=0)
    if nan_columns.any():
        print(f'El DataFrame contiene valores NaN en las siguientes columnas: {nan_columns[nan_columns == True].index.tolist()}')
    else:
        print('El DataFrme no contiene valores NaN en ninguna columna.')

In [71]:
# Ver valores faltantes en contents_df
nan_columns(contents_df)

El DataFrame contiene valores NaN en las siguientes columnas: ['URL']


In [72]:
# Ver valores faltantes en reactions_df
nan_columns(reactions_df)

El DataFrame contiene valores NaN en las siguientes columnas: ['User ID', 'Type']


In [73]:
# Ver valores faltantes en reactions_types_df
nan_columns(reactions_types_df)

El DataFrme no contiene valores NaN en ninguna columna.


## Cambiar nombres de las columnas 'Type'

In [74]:
# Cambiar algunos nombres de columnas
contents_df.rename(columns={'Type':'Content Type'}, inplace=True)
reactions_df.rename(columns={'Type':'Reaction Type'}, inplace=True)
reactions_types_df.rename(columns={'Type':'Reaction Type'}, inplace=True)

In [75]:
#contents_df
#reactions_df
reactions_types_df

Unnamed: 0,Reaction Type,Sentiment,Score
0,heart,positive,60
1,want,positive,70
2,disgust,negative,0
3,hate,negative,5
4,interested,positive,30
5,indifferent,neutral,20
6,love,positive,65
7,super love,positive,75
8,cherish,positive,70
9,adore,positive,72


## Cambiar tipo y formato de datos

In [76]:
# Convertir la columna 'Datetime' al tipo datetime
reactions_df['Datetime'] = pd.to_datetime(reactions_df['Datetime'])
# Formatear la columna 'fecha' al formato deseado
reactions_df['Datetime'] = reactions_df['Datetime'].dt.strftime('%-d/%-m/%y %-H:%M')
reactions_df

Unnamed: 0,Content ID,User ID,Reaction Type,Datetime
0,97522e57-d9ab-4bd6-97bf-c24d952602d2,,,22/4/21 15:17
1,97522e57-d9ab-4bd6-97bf-c24d952602d2,5d454588-283d-459d-915d-c48a2cb4c27f,disgust,7/11/20 9:43
2,97522e57-d9ab-4bd6-97bf-c24d952602d2,92b87fa5-f271-43e0-af66-84fac21052e6,dislike,17/6/21 12:22
3,97522e57-d9ab-4bd6-97bf-c24d952602d2,163daa38-8b77-48c9-9af6-37a6c1447ac2,scared,18/4/21 5:13
4,97522e57-d9ab-4bd6-97bf-c24d952602d2,34e8add9-0206-47fd-a501-037b994650a2,disgust,6/1/21 19:13
...,...,...,...,...
25548,75d6b589-7fae-4a6d-b0d0-752845150e56,80c9ce48-46f9-4f5e-b3ca-3b698fc2e949,dislike,27/6/20 9:46
25549,75d6b589-7fae-4a6d-b0d0-752845150e56,2bd9c167-e06c-47c1-a978-3403d6724606,intrigued,16/2/21 17:17
25550,75d6b589-7fae-4a6d-b0d0-752845150e56,,interested,12/9/20 3:54
25551,75d6b589-7fae-4a6d-b0d0-752845150e56,5ffd8b51-164e-47e2-885e-8b8c46eb63ed,worried,4/11/20 20:08


In [77]:
# Resetear √≠ndice
reactions_df.reset_index(inplace=True, drop=True)

## Eliminar columnas irrelevantes

In [78]:
# Eliminar columnas irrelevantes en contents_df y reactions_df
final_contents_df = contents_df.drop(['URL', 'User ID'], axis=1)
final_reactions_df = reactions_df.drop('User ID', axis=1)

In [79]:
#final_contents_df
final_reactions_df

Unnamed: 0,Content ID,Reaction Type,Datetime
0,97522e57-d9ab-4bd6-97bf-c24d952602d2,,22/4/21 15:17
1,97522e57-d9ab-4bd6-97bf-c24d952602d2,disgust,7/11/20 9:43
2,97522e57-d9ab-4bd6-97bf-c24d952602d2,dislike,17/6/21 12:22
3,97522e57-d9ab-4bd6-97bf-c24d952602d2,scared,18/4/21 5:13
4,97522e57-d9ab-4bd6-97bf-c24d952602d2,disgust,6/1/21 19:13
...,...,...,...
25548,75d6b589-7fae-4a6d-b0d0-752845150e56,dislike,27/6/20 9:46
25549,75d6b589-7fae-4a6d-b0d0-752845150e56,intrigued,16/2/21 17:17
25550,75d6b589-7fae-4a6d-b0d0-752845150e56,interested,12/9/20 3:54
25551,75d6b589-7fae-4a6d-b0d0-752845150e56,worried,4/11/20 20:08


# Guardar datasets limpios

In [80]:
# Guardar nuevos datasets en la carpeta 'datasets-output'
final_contents_df.to_csv('./datasets-output/final-contents.csv', index=False)
final_reactions_df.to_csv('./datasets-output/final-reactions.csv', index=False)
reactions_types_df.to_csv('./datasets-output/final-reactions-types.csv', index=False)