In [57]:
# Importar librerías
import pandas as pd
import numpy as np

In [58]:
# Lee el archivo CSV "movie_details.csv" donde se encuentran las columnas
df = pd.read_csv("../movie_details.csv")

In [59]:
# Dimenciones del dataSet
df.shape

(45463, 7)

### Listar las Columnas del DataSets

In [60]:
columnas_disponibles = df.columns.tolist()
print(columnas_disponibles)
print(len(columnas_disponibles))

['id', 'original_language', 'runtime', 'budget', 'revenue', 'homepage', 'tagline']
7


In [61]:
# Imprime los primeros 3 registros del DataFrame
df.head(3)

Unnamed: 0,id,original_language,runtime,budget,revenue,homepage,tagline
0,862,en,81,30000000.0,373554033.0,http://toystory.disney.com/toy-story,
1,8844,en,104,65000000.0,262797249.0,,Roll the dice and unleash the excitement!
2,15602,en,101,0.0,0.0,,Still Yelling. Still Fighting. Still Ready for...


### Verificar los tipo de datos que hay en cada columna

In [62]:
# Verificar el tipo de datos de cada columna
tipos_de_datos = df.dtypes

# Mostrar los tipos de datos de cada columna
print(tipos_de_datos)

id                     int64
original_language     object
runtime                int64
budget               float64
revenue              float64
homepage              object
tagline               object
dtype: object


### Revision y conversion de los tipos de datos de la columna "id"

In [63]:
# Convertir los datos de la columna "id" a tipo int64
df["id"] = pd.to_numeric(df["id"], errors='coerce')

# Eliminar las filas con valores faltantes en la columna "id"
df = df.dropna(subset=["id"])

# Convertir los datos de la columna "id" a tipo int64
df["id"] = df["id"].astype(int)

# Verificar el tipo de datos en la columna "id" después de la conversión
tipo_datos_id = df["id"].dtypes
print("Tipo de datos en la columna 'id' después de la conversión:", tipo_datos_id)

# Imprimir la cantidad de datos en la columna "id"
cantidad_datos_id = len(df["id"])
print("Cantidad de datos en la columna 'id':", cantidad_datos_id)

Tipo de datos en la columna 'id' después de la conversión: int32
Cantidad de datos en la columna 'id': 45463


### Revision y conversion de los tipos de datos de la columna "original_language"

In [64]:
# Convertir los datos de la columna "original_language" a tipo categorical
df["original_language"] = df["original_language"].astype("category")

# Reemplazar los valores nulos con la categoría "NaN"
df["original_language"] = df["original_language"].cat.add_categories("NaN").fillna("NaN")

# Verificar el tipo de datos y la cantidad de datos en la columna "original_language" después de la conversión
tipo_datos_original_language = df["original_language"].dtype
cantidad_datos_original_language = df["original_language"].count()
print("Tipo de datos en la columna 'original_language' después de la conversión:", tipo_datos_original_language)
print("Cantidad de datos en la columna 'original_language' después de la conversión:", cantidad_datos_original_language)

Tipo de datos en la columna 'original_language' después de la conversión: category
Cantidad de datos en la columna 'original_language' después de la conversión: 45463


### Revision y conversion de los tipos de datos de la columna "runtime"

In [65]:
# Convertir los datos de la columna "runtime" a tipo int64 y reemplazar los valores faltantes o nulos con cero
df["runtime"] = df["runtime"].fillna(0).astype(int)

# Verificar el tipo de datos y la cantidad de datos en la columna "runtime" después de la conversión
tipo_datos_runtime = df["runtime"].dtypes
cantidad_datos_runtime = df["runtime"].count()

print("Tipo de datos en la columna 'runtime' después de la conversión:", tipo_datos_runtime)
print("Cantidad de datos en la columna 'runtime':", cantidad_datos_runtime)

Tipo de datos en la columna 'runtime' después de la conversión: int32
Cantidad de datos en la columna 'runtime': 45463


In [66]:
# # Guardar los cambios en el archivo CSV
# ruta_archivo = "../movie_details.csv"
# df.to_csv(ruta_archivo, index=False)

La columna "id" actualmente se encuentra como tipo float64. Si el propósito de esta columna es representar identificadores únicos, puede ser más apropiado cambiar el tipo de dato a int64.

La columna "original_language" actualmente se encuentra como tipo object. Si los valores en esta columna representan códigos de lenguaje estándar, podría ser beneficioso cambiar el tipo de dato a categoría (categorical) para mejorar el rendimiento y la eficiencia de la manipulación de los datos.

La columna "runtime" actualmente se encuentra como tipo float64. Si los valores en esta columna representan la duración de las películas, el tipo de dato float64 es adecuado. Sin embargo, si deseas trabajar con valores enteros, puedes considerar cambiar el tipo de dato a int64.

Las columnas "budget" y "revenue" actualmente se encuentran como tipo float64. Si los valores en estas columnas representan cantidades monetarias, el tipo de dato float64 es apropiado para representar decimales. Sin embargo, si no hay necesidad de precisión decimal, puedes cambiar el tipo de dato a int64 si los valores son enteros.

Las columnas "homepage" y "tagline" actualmente se encuentran como tipo object. Si estos valores representan enlaces a sitios web y líneas de etiqueta respectivamente, el tipo de dato object es adecuado. Sin embargo, si deseas realizar operaciones específicas en los enlaces, como extraer información o verificar su validez, puedes considerar utilizar tipos de dato especializados como URL o realizar transformaciones adicionales en los datos.