In [13]:
import pandas as pd
# Revision inicial de la data en el archivo CSV
#Cuántas filas y columnas tiene.
#Qué columnas existen y qué tipos de datos tienen.
#Si hay valores nulos y cuántos.
#Ver si hay duplicados en columnas o filas.
# Ruta del archivo
import pandas as pd
import csv

ruta = r"C:\ProyectAnalisis2025A\extract\data.csv"

# Detectar delimitador automáticamente
with open(ruta, 'r', encoding='utf-8') as file:
    dialect = csv.Sniffer().sniff(file.read(2048))
    file.seek(0)
    delimiter = dialect.delimiter

print(f"Delimitador detectado: '{delimiter}'")

# Cargar el CSV con el delimitador detectado
df = pd.read_csv(ruta, encoding="utf-8", delimiter=delimiter, low_memory=False)

print("---- Revisión inicial del archivo ----")
print(f"Filas: {df.shape[0]}, Columnas: {df.shape[1]}")
print("\nColumnas:")
print(df.columns.tolist())
print("\nPrimeras 5 filas:")
print(df.head())


Delimitador detectado: ';'
---- Revisión inicial del archivo ----
Filas: 177509, Columnas: 17

Columnas:
['index', 'noticia', 'link_noticia', 'web', 'usuario', 'id_usuario', 'fecha_envio', 'fecha_publicacion', 'meneos', 'clicks', 'comentarios', 'votos_positivos', 'votos_anonimos', 'votos_negativos', 'karma', 'sub', 'extracto']

Primeras 5 filas:
     index                                            noticia  \
0  2869055   Ruptura inesperada de un iceberg gigante desp...   
1  2869761   El MIT logra hacer escáneres 3D baratos 1,000...   
2  2869841                    “Lárgame un cilindrín, fotero”    
3  2869859   El Tribunal Supremo deja en prisión a Junquer...   
4  2869823   La Fiscalía pide imputar a Aguirre y Gallardó...   

                                        link_noticia            web  \
0  https://www.bas.ac.uk/media-post/giant-west-an...      bas.ac.uk   
1  https://gizmodo.com/mit-figured-out-how-to-mak...    gizmodo.com   
2  http://www.teknoplof.com/2017/12/04/largame-u

In [14]:
# Revisión y limpieza inicial
# Revisión general del DataFrame 
print("\n--- Información general ---")
print(df.info())

# Ver cuántos valores nulos hay por columna
print("\n--- Valores nulos por columna ---")
print(df.isnull().sum())

# Ver tipos de datos de las columnas
print("\n--- Tipos de datos ---")
print(df.dtypes)

# Ver las piemras filas con posibles problemas (nulos, extraños)
print("\n--- Muestra de filas problemáticas ---")
print(df.sample(20))



--- Información general ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177509 entries, 0 to 177508
Data columns (total 17 columns):
 #   Column             Non-Null Count   Dtype 
---  ------             --------------   ----- 
 0   index              177509 non-null  int64 
 1   noticia            177509 non-null  object
 2   link_noticia       177509 non-null  object
 3   web                177291 non-null  object
 4   usuario            177509 non-null  object
 5   id_usuario         177509 non-null  int64 
 6   fecha_envio        177509 non-null  int64 
 7   fecha_publicacion  177509 non-null  int64 
 8   meneos             177509 non-null  int64 
 9   clicks             177509 non-null  object
 10  comentarios        177509 non-null  object
 11  votos_positivos    177509 non-null  int64 
 12  votos_anonimos     177509 non-null  int64 
 13  votos_negativos    177509 non-null  int64 
 14  karma              177509 non-null  int64 
 15  sub                177503 non-null  obj

In [15]:
#Convertir clicks y comentarios a números, reemplazando valores no válidos con 0.
#Rellenar o eliminar nulos en web, sub, extracto (dependiendo de qué tanto faltan).
#Convertir timestamps a fechas legibles.
#Eliminar columna index si no se necesita.
#Dejar todo con los tipos correctos (int, string, datetime).

import pandas as pd
import numpy as np

# Ruta del archivo
ruta = r"C:\ProyectAnalisis2025A\extract\data.csv"

# Cargar CSV detectando delimitador (;)
df = pd.read_csv(ruta, delimiter=";", encoding="utf-8", low_memory=False)

# --- LIMPIEZA DE DATOS ---

# 1. Eliminamos columna 'index' (es redundante si ya tenemos el índice del dataframe)
if 'index' in df.columns:
    df.drop(columns=['index'], inplace=True)

# 2. Convertimos 'clicks' y 'comentarios' a números (si hay valores no válidos los pasamos a 0)
for col in ['clicks', 'comentarios']:
    df[col] = pd.to_numeric(df[col], errors='coerce').fillna(0).astype(int)

# 3. Convertimos las fechas de timestamp a formato legible
for col in ['fecha_envio', 'fecha_publicacion']:
    df[col] = pd.to_datetime(df[col], unit='s', errors='coerce')

# 4. Rellenamos valores nulos en 'web', 'sub', 'extracto'
df['web'] = df['web'].fillna("desconocido")
df['sub'] = df['sub'].fillna("sin_categoria")
df['extracto'] = df['extracto'].fillna("sin_extracto")

# 5. Aseguramos que todos los tipos sean correctos para exportar
int_cols = ['id_usuario', 'meneos', 'clicks', 'comentarios',
            'votos_positivos', 'votos_anonimos', 'votos_negativos', 'karma']
df[int_cols] = df[int_cols].astype(int)

# --- RESULTADOS ---

print("Archivo limpio y listo para usar:")
print(df.info())
print("\nPrimeras 5 filas:")
print(df.head())

# Guardar versión limpia
salida = r"C:\ProyectAnalisis2025A\extract\data_clean.csv"
df.to_csv(salida, index=False, encoding="utf-8")
print(f"\nArchivo limpio exportado en: {salida}")


Archivo limpio y listo para usar:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177509 entries, 0 to 177508
Data columns (total 16 columns):
 #   Column             Non-Null Count   Dtype         
---  ------             --------------   -----         
 0   noticia            177509 non-null  object        
 1   link_noticia       177509 non-null  object        
 2   web                177509 non-null  object        
 3   usuario            177509 non-null  object        
 4   id_usuario         177509 non-null  int64         
 5   fecha_envio        177509 non-null  datetime64[ns]
 6   fecha_publicacion  177509 non-null  datetime64[ns]
 7   meneos             177509 non-null  int64         
 8   clicks             177509 non-null  int64         
 9   comentarios        177509 non-null  int64         
 10  votos_positivos    177509 non-null  int64         
 11  votos_anonimos     177509 non-null  int64         
 12  votos_negativos    177509 non-null  int64         
 13  karma     

In [16]:
# Meno de caracteres
# Revisar si hay caracteres extraños o no deseados en las columnas de texto
import pandas as pd

# Ruta del archivo original
ruta_original = r"C:\ProyectAnalisis2025A\extract\data.csv"
ruta_salida = r"C:\ProyectAnalisis2025A\extract\data_clean.csv"

# 1. Cargar el CSV con la codificación correcta (Latin-1)
df = pd.read_csv(ruta_original, encoding="latin1", sep=";", low_memory=False)

# 2. Normalizar y limpiar caracteres especiales (acentos, comillas, etc.)
# Reconvertir todo a UTF-8 correctamente
for col in df.select_dtypes(include=["object"]).columns:
    df[col] = df[col].astype(str).str.encode("latin1", errors="ignore").str.decode("utf-8", errors="ignore")

# 3. Guardar el archivo ya en UTF-8
df.to_csv(ruta_salida, index=False, encoding="utf-8")

print(f"Archivo limpio y convertido a UTF-8 guardado en:\n{ruta_salida}")
print("\nPrimeras 5 filas del archivo limpio:")
print(df.head())


Archivo limpio y convertido a UTF-8 guardado en:
C:\ProyectAnalisis2025A\extract\data_clean.csv

Primeras 5 filas del archivo limpio:
     index                                            noticia  \
0  2869055   Ruptura inesperada de un iceberg gigante desp...   
1  2869761   El MIT logra hacer escáneres 3D baratos 1,000...   
2  2869841                    “Lárgame un cilindrín, fotero”    
3  2869859   El Tribunal Supremo deja en prisión a Junquer...   
4  2869823   La Fiscalía pide imputar a Aguirre y Gallardó...   

                                        link_noticia            web  \
0  https://www.bas.ac.uk/media-post/giant-west-an...      bas.ac.uk   
1  https://gizmodo.com/mit-figured-out-how-to-mak...    gizmodo.com   
2  http://www.teknoplof.com/2017/12/04/largame-un...  teknoplof.com   
3  http://www.eldiario.es/politica/Tribunal-Supre...    eldiario.es   
4  http://www.elboletin.com/noticia/156624/nacion...  elboletin.com   

           usuario  id_usuario  fecha_envio  fec

In [17]:
#Limpieza avanzada de comillas y saltos de línea
# Columnas a limpiar
cols_texto = ['noticia', 'extracto', 'sub']

for col in cols_texto:
    df[col] = df[col].astype(str)
    df[col] = df[col].str.replace(r'[\r\n]+', ' ', regex=True)
    df[col] = df[col].str.replace(r'["\']', '', regex=True)
    df[col] = df[col].str.strip()

# Mostrar algunas filas para revisar
print(df[cols_texto].head(5))



                                             noticia  \
0  Ruptura inesperada de un iceberg gigante despr...   
1  El MIT logra hacer escáneres 3D baratos 1,000 ...   
2                     “Lárgame un cilindrín, fotero”   
3  El Tribunal Supremo deja en prisión a Junquera...   
4  La Fiscalía pide imputar a Aguirre y Gallardón...   

                                            extracto         sub  
0  Una animación del iceberg gigante que nació de...     cultura  
1  Los científicos ya desarrollaron una tecnologí...  tecnología  
2  ‘La gran superproducción‘ es, sin ningún géner...        ocio  
3  El juez Llarena acuerda libertad previo pago d...  actualidad  
4  La Fiscalía en el caso Lezo ha solicitado impu...  actualidad  


In [18]:
# Manejo de valores duplicados o filas con datos inconsistentes
# Revisar filas duplicadas considerando todo el contenido
duplicados_completos = df[df.duplicated(keep=False)]
print(f"Número de filas duplicadas completas: {duplicados_completos.shape[0]}")
print(duplicados_completos.head())





Número de filas duplicadas completas: 10
         index                                            noticia  \
44549  2102044  4 hechos chocantes sobre el sistema sanitario ...   
44550  2102044  4 hechos chocantes sobre el sistema sanitario ...   
84849  1273729               Linux kernel 3.0-rc1 anunciado [ENG]   
84850  1273729               Linux kernel 3.0-rc1 anunciado [ENG]   
85624  1260783  Madre pierde la custodia de su hija de 8 años ...   

                                            link_noticia           web  \
44549        http://www.youtube.com/watch?v=dqLdFFKvhH4    youtube.com   
44550        http://www.youtube.com/watch?v=dqLdFFKvhH4    youtube.com   
84849  http://www.phoronix.com/scan.php?page=news_ite...  phoronix.com   
84850  http://www.phoronix.com/scan.php?page=news_ite...  phoronix.com   
85624  http://www.infobae.com/notas/582019-Madre-pier...   infobae.com   

           usuario  id_usuario  fecha_envio  fecha_publicacion  meneos clicks  \
44549   --149806--

In [19]:
# Elimnación de duplicados e inconsistencias
# Eliminar filas duplicadas completas, dejando solo la primera ocurrencia
df = df.drop_duplicates(keep='first')

# Mostrarmos la cantidad de filas después de eliminar duplicados
print(f"Filas después de eliminar duplicados: {df.shape[0]}")


Filas después de eliminar duplicados: 177504


In [20]:
# Conteo de valores nulos por columna
nulos_por_columna = df.isnull().sum()

print("Valores nulos por columna:")
print(nulos_por_columna)


Valores nulos por columna:
index                0
noticia              0
link_noticia         0
web                  0
usuario              0
id_usuario           0
fecha_envio          0
fecha_publicacion    0
meneos               0
clicks               0
comentarios          0
votos_positivos      0
votos_anonimos       0
votos_negativos      0
karma                0
sub                  0
extracto             0
dtype: int64


In [21]:
#Normalización y estandarización básica de los datos
# Conversion minusculas
cols_texto = ['noticia', 'web', 'usuario', 'sub', 'extracto']
for col in cols_texto:
    df[col] = df[col].str.lower()

print(df[cols_texto].head(5))

print("\n")
# Conversión de números
num_cols = ['meneos', 'clicks', 'comentarios', 'votos_positivos', 'votos_anonimos', 'votos_negativos', 'karma']
print(df[num_cols].describe())

print("\n")
# Conversión de fechas
# Convertimos las columnas a datetime
df['fecha_envio'] = pd.to_datetime(df['fecha_envio'], errors='coerce')
df['fecha_publicacion'] = pd.to_datetime(df['fecha_publicacion'], errors='coerce')

# Mostramos una vista previa con las columnas ya convertidas
print(df[['fecha_envio', 'fecha_publicacion']].head(10))

# Filtrar y eliminar filas con fechas inválidas (NaT)
df = df.dropna(subset=['fecha_envio', 'fecha_publicacion'])

# Verificar cuántas filas quedaron
print(f"Filas restantes después de eliminar fechas inválidas: {len(df)}")

# Mostrar ejemplo de las columnas de fecha (primeras 10 filas)
print(df[['fecha_envio', 'fecha_publicacion']].head(10))


                                             noticia            web  \
0  ruptura inesperada de un iceberg gigante despr...      bas.ac.uk   
1  el mit logra hacer escáneres 3d baratos 1,000 ...    gizmodo.com   
2                     “lárgame un cilindrín, fotero”  teknoplof.com   
3  el tribunal supremo deja en prisión a junquera...    eldiario.es   
4  la fiscalía pide imputar a aguirre y gallardón...  elboletin.com   

           usuario         sub  \
0          jm22381     cultura   
1  calzadorcalzado  tecnología   
2         gobolino        ocio   
3           raditz  actualidad   
4     danichaguito  actualidad   

                                            extracto  
0  una animación del iceberg gigante que nació de...  
1  los científicos ya desarrollaron una tecnologí...  
2  ‘la gran superproducción‘ es, sin ningún géner...  
3  el juez llarena acuerda libertad previo pago d...  
4  la fiscalía en el caso lezo ha solicitado impu...  


              meneos  votos_positivo

In [22]:
# Manejo de clumnas numericas
# Verificar si hay columnas numéricas con valores no válidos y rellenar con 0 lo vacios
import pandas as pd
import numpy as np

# Cargar tu DataFrame (ajusta la ruta)
df = pd.read_csv("C:\ProyectAnalisis2025A\extract\data_clean.csv", encoding="utf-8", low_memory=False)

# Detectamos columnas que pueden ser numéricas (aunque sean tipo object)
for col in df.columns:
    if df[col].dtype == "object":
        # Intentamos limpiar y convertir
        df[col] = (
            df[col]
            .astype(str)                          # Convertir todo a string
            .str.replace(r'[\$,%\s]', '', regex=True)  # Quitar $, %, y espacios
            .replace("nan", np.nan)               # Reemplazar texto "nan" por NaN 
        )
        # Intentar convertir a número
        df[col] = pd.to_numeric(df[col], errors="ignore")

# Reemplazamos NaN por 0 solo en columnas numéricas
numeric_cols = df.select_dtypes(include=[np.number]).columns
df[numeric_cols] = df[numeric_cols].fillna(0)

# Confirmar cambios
print(df.info())
print(df.head())


  df = pd.read_csv("C:\ProyectAnalisis2025A\extract\data_clean.csv", encoding="utf-8", low_memory=False)
  df[col] = pd.to_numeric(df[col], errors="ignore")
  df[col] = pd.to_numeric(df[col], errors="ignore")
  df[col] = pd.to_numeric(df[col], errors="ignore")
  df[col] = pd.to_numeric(df[col], errors="ignore")
  df[col] = pd.to_numeric(df[col], errors="ignore")
  df[col] = pd.to_numeric(df[col], errors="ignore")
  df[col] = pd.to_numeric(df[col], errors="ignore")


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 177509 entries, 0 to 177508
Data columns (total 17 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   index              177509 non-null  int64  
 1   noticia            177509 non-null  object 
 2   link_noticia       177509 non-null  object 
 3   web                177291 non-null  object 
 4   usuario            177509 non-null  object 
 5   id_usuario         177509 non-null  int64  
 6   fecha_envio        177509 non-null  int64  
 7   fecha_publicacion  177509 non-null  int64  
 8   meneos             177509 non-null  int64  
 9   clicks             177509 non-null  float64
 10  comentarios        177509 non-null  object 
 11  votos_positivos    177509 non-null  int64  
 12  votos_anonimos     177509 non-null  int64  
 13  votos_negativos    177509 non-null  int64  
 14  karma              177509 non-null  int64  
 15  sub                177503 non-null  object 
 16  ex

  df[col] = pd.to_numeric(df[col], errors="ignore")


In [23]:
def is_convertible_to_numeric(series):
    try:
        pd.to_numeric(series.dropna().sample(min(len(series.dropna()), 10)))
        return True
    except:
        return False

numeric_like_cols = [col for col in df.columns if (df[col].dtype == 'object' and is_convertible_to_numeric(df[col]))]

# También consideramos las columnas que ya son numéricas (int, float)
numeric_cols = list(df.select_dtypes(include=['int64', 'float64']).columns)

# Combinamos y quitamos duplicados
all_numeric_cols = list(set(numeric_cols + numeric_like_cols))

# 2. Limpiar valores y convertir columnas numéricas
for col in all_numeric_cols:
    # Solo si la columna es object (podría tener símbolos)
    if df[col].dtype == 'object':
        # Limpiamos símbolos comunes: $, %, , y espacios
        df[col] = df[col].str.replace(r'[$,%\s]', '', regex=True)
        # Intentamos convertir a numérico
        df[col] = pd.to_numeric(df[col], errors='coerce')
    else:
        # Para numéricas reales no hacemos nada especial
        pass
    
    # 3. Reemplazar NaN con 0
    df[col] = df[col].fillna(0)
# Verificamos el resultado
print("Columnas numéricas después de limpieza:")
print(df[all_numeric_cols].head(5))
print("\nTipos de datos de las columnas numéricas:")
print(df[all_numeric_cols].dtypes)



Columnas numéricas después de limpieza:
   id_usuario  fecha_publicacion    index  votos_positivos  votos_negativos  \
0       21061         1512382803  2869055               55                2   
1      553023         1512381302  2869761               43                1   
2      511338         1512379520  2869841               53                5   
3      382296         1512379503  2869859               98                1   
4      407263         1512379203  2869823              144                0   

   meneos  comentarios  clicks  votos_anonimos  fecha_envio  karma  
0      73         10.0  1057.0              18   1512164817    340  
1      73         17.0   772.0              30   1512352183    331  
2      89         34.0  1608.0              36   1512377483    396  
3     171         90.0   889.0              73   1512378799    452  
4     354         39.0   353.0             210   1512375033    324  

Tipos de datos de las columnas numéricas:
id_usuario             int64

In [24]:
import pandas as pd

# Cargar el archivo CSV limpio
df_limpio = pd.read_csv('C:\\ProyectAnalisis2025A\\extract\\data_clean.csv', encoding='utf-8')

# Contar la cantidad de filas
cantidad_filas = df_limpio.shape[0]
print(f"Cantidad de datos (filas) en data_clean.csv: {cantidad_filas}")


Cantidad de datos (filas) en data_clean.csv: 177509


  df_limpio = pd.read_csv('C:\\ProyectAnalisis2025A\\extract\\data_clean.csv', encoding='utf-8')
