<a href="https://colab.research.google.com/github/gemaware/greenmovil/blob/main/LimpiezaPlanoNetflix.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [49]:
import pandas as pd

# Definir el path del archivo CSV crudo
file_path = '/content/netflix_titles.csv'

# Leer el archivo como texto, manejando la codificación a utf-8 para controlar y reemplazar
# caracteres especiales
with open(file_path, 'r', encoding='utf-8', errors='replace') as f:
    # Leer todo el contenido del archivo
    content = f.read()

# Escribir el contenido limpio en un nuevo archivo temporal
from io import StringIO
data = StringIO(content)

netflix_data = pd.read_csv(data) #paso a pandas dataframe


# pasar a dataframe copia para limpieza
netflix_data_clean = netflix_data[['show_id', 'type', 'title', 'director', 'cast', 'country', 'date_added',
                                   'release_year', 'rating', 'duration', 'listed_in', 'description']].copy()


################################ TRANSFORMACIONES DE LIMPIEZA ##############################################

# Diccionario de reemplazo para caracteres mal decodificados y especiales
replace_dict = {
    'Ã©': 'é', 'Ã¡': 'á', 'Ã³': 'ó', 'Ãº': 'ú', 'Ã': 'Á', 'Ã­': 'í', 'Ãñ': 'ñ', 'Ãè': 'è', 'Ã ': 'à',
    'Ãç': 'ç', 'Ã¢': 'â', 'Ã£': 'ã', 'Ã¼': 'ü', 'Ãª': 'ê', 'Ã“': 'Ó', 'Ã‰': 'É', 'Ã': 'a', '©': 'c',
    '¬': '', '¤': '', '¡': '', '¿': '', '¶': '', '®': '', '°': '', '¦': '', '¸': '', '¨': '', '¥': '',
    '£': '', '¡': '', '«': '', '»': '', '·': '', '§': '', '¯': '', '\xa0': '', '±': '', '\xad': '',
    '\n': ' ', '&': 'and', "'": '', '/': ' ', '*': '', '~': '', '@': 'at', '.': '', '?': '', '-': ' ',
    '"': '', ':': '', '(': '', ')': '', '©': '', '¶': '', '‘': '', '%': '', '’': '', '้': '',
    '”': '', '่': '', '„': '', '\u200b': '', '์': '', '“': '', '!': '', '+': '', '–': '', '…': '',
    '#': '', '=': '', '|': '', '_': ''
}


# Función para limpiar cualquier columna de texto reemplazando caracteres mal decodificados y especiales
def clean_text(text):
    if isinstance(text, str):  # Verificamos si el valor es un string antes de aplicar el replace
        # Aplicar reemplazos de caracteres mal decodificados y especiales
        for char, replacement in replace_dict.items():
            text = text.replace(char, replacement)
        return text.strip()
    else:
        return text  # Si no es string (por ejemplo, NaN), lo dejamos como está

# Aplicar la función de limpieza de caracteres especiales y anomalos a las columnas
netflix_data_clean['title'] = netflix_data_clean['title'].apply(clean_text)
netflix_data_clean['director'] = netflix_data_clean['director'].apply(clean_text)
netflix_data_clean['cast'] = netflix_data_clean['cast'].apply(clean_text)
netflix_data_clean['country'] = netflix_data_clean['country'].apply(clean_text)
netflix_data_clean['release_year'] = netflix_data_clean['release_year'].apply(clean_text)
netflix_data_clean['rating'] = netflix_data_clean['rating'].apply(clean_text)
netflix_data_clean['duration'] = netflix_data_clean['duration'].apply(clean_text)


# Convertir la columna 'date_added' al formato DD/MM/YYYY para facilitar la analitica posteriormente
netflix_data_clean['date_added'] = pd.to_datetime(netflix_data_clean['date_added'], format='%B %d, %Y', errors='coerce').dt.strftime('%d/%m/%Y')

# Rellenar los valores nulos o vacíos en la columna 'title' con "Sin título definido"
netflix_data_clean['title'] = netflix_data_clean['title'].fillna("Sin título definido")
netflix_data_clean['title'] = netflix_data_clean['title'].apply(lambda x: "Sin título definido" if x == "" else x)

# Rellenar los valores nulos o vacíos en la columna 'director' con "Sin director definido"
netflix_data_clean['director'] = netflix_data_clean['director'].fillna("Sin director definido")
netflix_data_clean['director'] = netflix_data_clean['director'].apply(lambda x: "Sin director definido" if x == "" else x)

# Rellenar los valores nulos o vacíos en la columna 'country' con "Sin pais definido"
netflix_data_clean['country'] = netflix_data_clean['country'].fillna("Sin pais definido")
netflix_data_clean['country'] = netflix_data_clean['country'].apply(lambda x: "Sin pais definido" if x == "" else x)

# Rellenar los valores nulos o vacíos en la columna 'cast' con "Sin reparto definido"
netflix_data_clean['cast'] = netflix_data_clean['cast'].fillna("Sin resparto definido")
netflix_data_clean['cast'] = netflix_data_clean['cast'].apply(lambda x: "Sin reparto definido" if x == "" else x)

# Rellenar los valores nulos o vacíos en la columna 'listed_in' con "Sin categoria definida"
netflix_data_clean['listed_in'] = netflix_data_clean['listed_in'].fillna("Sin categoria definida")
netflix_data_clean['listed_in'] = netflix_data_clean['listed_in'].apply(lambda x: "Sin categoria definida" if x == "" else x)

# Rellenar los valores nulos o vacíos en la columna 'duration' con "Sin duracion definida"
netflix_data_clean['duration'] = netflix_data_clean['duration'].fillna("Sin duracion definida")
netflix_data_clean['duration'] = netflix_data_clean['duration'].apply(lambda x: "Sin duracion definida" if x == "" else x)

######################################################################################################################

################################### EXPORTAR EL ARCHIVO FINAL ##########################################################
#archivo final resultado de la limpieza
#listo para procesos de analitica o extraccion hacia base de datos o data lake
netflix_data_clean.to_excel('netflix_titles_clean.xlsx', index=False)
########################################################################################################################







Sin duracion definida
