In [19]:
# Importar librerías
import pandas as pd
import numpy as np

In [20]:
# Lee el archivo CSV "movie_details.csv" donde se encuentran las columnas
df = pd.read_csv("../movies.csv")

In [21]:
# Dimenciones del dataSet
df.shape

(45346, 13)

### Listar las Columnas del DataSets

In [22]:
columnas_disponibles = df.columns.tolist()
print(columnas_disponibles)
print(len(columnas_disponibles))

['id', 'title', 'original_title', 'overview', 'popularity', 'release_date', 'vote_average', 'vote_count', 'adult', 'imdb_id', 'poster_path', 'status', 'video']
13


In [23]:
# Imprime los primeros 3 registros del DataFrame
df.head(3)

Unnamed: 0,id,title,original_title,overview,popularity,release_date,vote_average,vote_count,adult,imdb_id,poster_path,status,video
0,862,Toy story,Toy Story,"Led by Woody, Andy's toys live happily in his ...",21.946943,1995-10-30,7.7,5415.0,True,tt0114709,/rhIRbceoE9lR4veEXuwCC2wARtG.jpg,Released,False
1,8844,Jumanji,Jumanji,When siblings Judy and Peter discover an encha...,17.015539,1995-12-15,6.9,2413.0,True,tt0113497,/vzmL6fP7aPKNKPRTFnZmiUfciyV.jpg,Released,False
2,15602,Grumpier old men,Grumpier Old Men,A family wedding reignites the ancient feud be...,11.7129,1995-12-22,6.5,92.0,True,tt0113228,/6ksm1sjKMFLbO7UY2i6G1ju9SML.jpg,Released,False


### Verificar los tipo de datos que hay en cada columna

In [24]:
# Verificar el tipo de datos de cada columna
tipos_de_datos = df.dtypes

# Mostrar los tipos de datos de cada columna
print(tipos_de_datos)

id                  int64
title              object
original_title     object
overview           object
popularity        float64
release_date       object
vote_average      float64
vote_count        float64
adult                bool
imdb_id            object
poster_path        object
status             object
video                bool
dtype: object


### Revision y conversion de los tipos de datos de la columna "id"

In [25]:
# Convertir los datos de la columna "id" a tipo int64
df["id"] = pd.to_numeric(df["id"], errors='coerce')

# Eliminar las filas con valores faltantes en la columna "id"
df = df.dropna(subset=["id"])

# Convertir los datos de la columna "id" a tipo int64
df["id"] = df["id"].astype(int)

# Verificar el tipo de datos en la columna "id" después de la conversión
tipo_datos_id = df["id"].dtypes
print("Tipo de datos en la columna 'id' después de la conversión:", tipo_datos_id)

# Imprimir la cantidad de datos en la columna "id"
cantidad_datos_id = len(df["id"])
print("Cantidad de datos en la columna 'id':", cantidad_datos_id)

Tipo de datos en la columna 'id' después de la conversión: int32
Cantidad de datos en la columna 'id': 45346


### Revision y conversion de los tipos de datos de la columna "overview"

In [26]:
# Convertir los datos de la columna "overview" a tipo str
df["overview"] = df["overview"].astype(str)

# Reemplazar valores faltantes o nulos por NaN
df["overview"].replace("", np.nan, inplace=True)

# Verificar el tipo de datos de la columna "overview" después de la conversión
tipo_datos_overview = df["overview"].dtypes
print("Tipo de datos en la columna 'overview' después de la conversión:", tipo_datos_overview)

# Imprimir la cantidad de datos en la columna "id"
tipo_datos_overview = len(df["overview"])
print("Cantidad de datos en la columna 'overview':", tipo_datos_overview)

Tipo de datos en la columna 'overview' después de la conversión: object
Cantidad de datos en la columna 'overview': 45346


### Revision y conversion de los tipos de datos de la columna "popularity"

In [27]:
df["popularity"] = df["popularity"].fillna(0).astype(float)

tipo_datos_popularity = df["popularity"].dtypes
cantidad_datos_popularity = len(df["popularity"])

print("Tipo de datos en la columna 'popularity' después de la conversión:", tipo_datos_popularity)
print("Cantidad de datos en la columna 'popularity':", cantidad_datos_popularity)

Tipo de datos en la columna 'popularity' después de la conversión: float64
Cantidad de datos en la columna 'popularity': 45346


### Revision y conversion de los tipos de datos de la columna "release_date"

In [28]:
# Convertir los datos de la columna "release_date" a tipo datetime
df["release_date"] = pd.to_datetime(df["release_date"], errors="coerce")

# Eliminar la sección de tiempo y fracciones de segundo
df["release_date"] = df["release_date"].dt.date

# Verificar el tipo de datos de la columna "release_date" después de la conversión
tipo_datos_release_date = df["release_date"].dtypes
cantidad_datos_release_date = len(df["release_date"])

print("Tipo de datos en la columna 'release_date' después de la conversión:", tipo_datos_release_date)
print("Cantidad de datos en la columna 'release_date':", cantidad_datos_release_date)

Tipo de datos en la columna 'release_date' después de la conversión: object
Cantidad de datos en la columna 'release_date': 45346


### Revision y conversion de los tipos de datos de la columna "adult"

In [29]:
# Convertir los datos de la columna "adult" a tipo booleano
df["adult"] = df["adult"].replace({"0": False, "1": True}).astype(bool)

# Convertir valores faltantes o nulos a NaN
df["adult"] = df["adult"].replace("", np.nan)

# Verificar el tipo de datos de la columna "adult" después de la conversión
tipo_datos_adult = df["adult"].dtypes

# Obtener la cantidad de datos en la columna "adult"
cantidad_datos_adult = df["adult"].shape[0]

print("Tipo de datos en la columna 'adult' después de la conversión:", tipo_datos_adult)
print("Cantidad de datos en la columna 'adult':", cantidad_datos_adult)

Tipo de datos en la columna 'adult' después de la conversión: bool
Cantidad de datos en la columna 'adult': 45346


### Revision y conversion de los tipos de datos de la columna "video"

In [30]:
# Convertir los datos de la columna "video" a tipo booleano
df["video"] = df["video"].replace({0: False, 1: True}).astype(bool)

# Convertir valores faltantes o nulos a NaN
df["video"] = df["video"].replace("", np.nan)

# Verificar el tipo de datos de la columna "video" después de la conversión
tipo_datos_video = df["video"].dtypes

# Obtener la cantidad de datos en la columna "video"
cantidad_datos_video = df["video"].shape[0]

print("Tipo de datos en la columna 'video' después de la conversión:", tipo_datos_video)
print("Cantidad de datos en la columna 'video':", cantidad_datos_video)

Tipo de datos en la columna 'video' después de la conversión: bool
Cantidad de datos en la columna 'video': 45346


In [31]:
# Dimenciones del dataSet
df.shape

(45346, 13)

### *Revisando columna 'release_date'*

In [32]:
# Obtener los tipos de datos de una columna específica
tipos_datos = df['release_date'].dtypes

# Imprimir los tipos de datos
print(tipos_datos)

object


In [37]:
# Convertir la columna "release_date" en datetime
df['release_date'] = pd.to_datetime(df['release_date'])

# Imprimir el tipo de dato resultante
print(df['release_date'].dtypes)

datetime64[ns]


In [34]:
# Eliminar las filas con valores vacíos en la columna "release_date"
df = df.dropna(subset=['release_date'])

### *Revisando columna 'adult'*

In [35]:
# Obtener el tipo de datos de la columna "adult"
tipo_dato = df['adult'].dtype

# Imprimir el tipo de datos
print(tipo_dato)

bool


In [36]:
# # Guardar los cambios en el archivo CSV
# ruta_archivo = "../movies.csv"
# df.to_csv(ruta_archivo, index=False)

Popularidad (popularity): El campo de popularidad parece ser representado como una cadena de texto ("object"). Si planeas realizar operaciones matemáticas o comparaciones con la popularidad, puede ser más adecuado convertirlo a un tipo de dato numérico, como "float" o "int".

Fecha de lanzamiento (release_date): Actualmente se representa como una cadena de texto ("object"). Si planeas realizar operaciones de filtrado o cálculos basados en la fecha de lanzamiento, podría ser beneficioso convertirlo al tipo de dato "datetime" para facilitar el manejo de fechas.

Votos promedio y conteo de votos (vote_average y vote_count): Los tipos de dato "float64" son apropiados para estos campos, ya que representan valores decimales y numéricos.

Adulto (adult): Si el campo "adult" representa un valor booleano, donde "True" indica contenido para adultos y "False" indica contenido no para adultos, puedes convertirlo al tipo de dato booleano ("bool") en lugar de una cadena de texto.

IMDb ID (imdb_id): Si el campo IMDb ID es una identificación única y no se realizarán operaciones matemáticas o cálculos con él, el tipo de dato "object" es apropiado. Sin embargo, si planeas realizar búsquedas o consultas basadas en el IMDb ID, podrías considerar convertirlo a un tipo de dato numérico, como "int" o "float".

Ruta del póster (poster_path): Si el campo de la ruta del póster es una cadena de texto que representa una ubicación de archivo, el tipo de dato "object" es apropiado para mantenerlo como una cadena de texto.

Estado (status): Si el campo de estado representa diferentes estados en formato de cadena de texto, el tipo de dato "object" es adecuado para mantenerlo como una cadena de texto.

Video (video): Si el campo de video representa un valor booleano, donde "True" indica la presencia de un video y "False" indica la ausencia de un video, puedes convertirlo al tipo de dato booleano ("bool") en lugar de un valor numérico.