## Los valores nulos de los campos "revenue", "budget" deben ser rellenados por el número 0.

### *Se revisan los tipos de datos en cada columna, si es necesario se modifican y/o eliminan filas con datos no coerentes*

In [1]:
# Importar librerías
import pandas as pd

In [2]:
# Lee el archivo CSV "movie_details.csv" donde se encuentran las columnas
df = pd.read_csv("../movie_details.csv")

In [3]:
# Dimenciones del dataSet
df.shape

(45463, 7)

### Listar las Columnas del DataSets

In [4]:
columnas_disponibles = df.columns.tolist()
columnas_disponibles

['id',
 'original_language',
 'runtime',
 'budget',
 'revenue',
 'homepage',
 'tagline']

In [5]:
# Imprime los primeros 5 registros del DataFrame
df.head()

Unnamed: 0,id,original_language,runtime,budget,revenue,homepage,tagline
0,862,en,81,30000000.0,373554033.0,http://toystory.disney.com/toy-story,
1,8844,en,104,65000000.0,262797249.0,,Roll the dice and unleash the excitement!
2,15602,en,101,0.0,0.0,,Still Yelling. Still Fighting. Still Ready for...
3,31357,en,127,16000000.0,81452156.0,,Friends are the people who let you be yourself...
4,11862,en,106,0.0,76578911.0,,Just When His World Is Back To Normal... He's ...


### Verificar los tipo de datos que hay en cada columna

In [6]:
# Verificar el tipo de datos de cada columna
tipos_de_datos = df.dtypes

# Mostrar los tipos de datos de cada columna
print(tipos_de_datos)

id                     int64
original_language     object
runtime                int64
budget               float64
revenue              float64
homepage              object
tagline               object
dtype: object


### Revision y conversion de los tipos de datos de la columna "id"

In [7]:
# Convertir los datos de la columna "id" a tipo int64
df["id"] = pd.to_numeric(df["id"], errors='coerce')

# Eliminar las filas con valores faltantes en la columna "id"
df = df.dropna(subset=["id"])

# Convertir los datos de la columna "id" a tipo int64
df["id"] = df["id"].astype(int)

# Verificar el tipo de datos en la columna "id" después de la conversión
tipo_datos_id = df["id"].dtypes
print("Tipo de datos en la columna 'id' después de la conversión:", tipo_datos_id)

# Imprimir la cantidad de datos en la columna "id"
cantidad_datos_id = len(df["id"])
print("Cantidad de datos en la columna 'id':", cantidad_datos_id)

Tipo de datos en la columna 'id' después de la conversión: int32
Cantidad de datos en la columna 'id': 45463


### Revision y conversion de los tipos de datos de la columna "original_language" 

In [8]:
# Convertir los datos de la columna "original_language" a tipo categórico
df["original_language"] = df["original_language"].astype("category")

# Verificar el tipo de datos en la columna "original_language" después de la conversión
tipo_datos_original_language = df["original_language"].dtypes
print("Tipo de datos en la columna 'original_language' después de la conversión:", tipo_datos_original_language)

# Imprimir la cantidad de datos en la columna "id"
cantidad_elementos_original_language = len(df["original_language"])
print("Cantidad de datos en la columna 'original_language':", cantidad_elementos_original_language)

Tipo de datos en la columna 'original_language' después de la conversión: category
Cantidad de datos en la columna 'original_language': 45463


### Revision y conversion de los tipos de datos de la columna "revenue"

In [9]:
# Verificar el tipo de datos de la columna "revenue"
tipo_datos_revenue = df["revenue"].dtypes
print("Tipo de datos en la columna 'revenue':", tipo_datos_revenue)

# Imprimir la cantidad de datos en la columna "revenue"
cantidad_datos_revenue = len(df["revenue"])
print("Cantidad de datos en la columna 'revenue':", cantidad_datos_revenue)

Tipo de datos en la columna 'revenue': float64
Cantidad de datos en la columna 'revenue': 45463


### Revision y conversion de los tipos de datos de la columna "budget"

In [10]:
# Reemplazar los valores no numéricos en la columna "budget" por cero
df["budget"] = pd.to_numeric(df["budget"], errors="coerce").fillna(0)

# Convertir los datos de la columna "budget" a tipo float64
df["budget"] = df["budget"].astype(float)

# Verificar el tipo de datos de la columna "budget" después de la conversión
tipo_datos_budget = df["budget"].dtypes
print("Tipo de datos en la columna 'budget' después de la conversión:", tipo_datos_budget)


Tipo de datos en la columna 'budget' después de la conversión: float64


### *Sustituir los valores nulos por ceros*

In [11]:
# Rellenar los valores nulos con 0 en las columnas "revenue" y "budget"
df["revenue"].fillna(0, inplace=True)
df["budget"].fillna(0, inplace=True)

In [12]:
# # Guardar los cambios en el archivo CSV
# ruta_archivo = "../movie_details.csv"
# df.to_csv(ruta_archivo, index=False)

In [13]:
# Dimenciones del dataSet
df.shape

(45463, 7)

### Resumen:

La columna "id" parece contener valores de tipo cadena de texto (object). Si los valores en esta columna representan identificadores únicos, podría ser más adecuado utilizar un tipo de dato numérico o una representación más eficiente, como int64. Sin embargo, esto depende del propósito y la naturaleza de los datos.

La columna "original_language" también contiene valores de tipo cadena de texto (object). Si los valores en esta columna representan códigos de idioma, podría ser más apropiado utilizar un tipo de dato categórico (category) en lugar de un tipo de dato de cadena de texto.

La columna "runtime" parece contener valores numéricos de tipo flotante (float64), lo cual es apropiado para representar la duración en minutos de una película.

Las columnas "budget" y "revenue" también parecen contener valores numéricos de tipo flotante (float64), lo cual es adecuado para representar montos monetarios.

La columna "homepage" contiene valores de tipo cadena de texto (object) que representan enlaces a sitios web. Si no se requiere realizar operaciones específicas en los enlaces, el tipo de dato de cadena de texto puede ser adecuado. Sin embargo, si se desea realizar operaciones adicionales, como extraer información de los enlaces, se podría considerar utilizar un tipo de dato especializado para manejar URLs.

La columna "tagline" también contiene valores de tipo cadena de texto (object), lo cual es apropiado si los valores representan frases o lemas promocionales de las películas.

En resumen, parece que los tipos de datos utilizados en la mayoría de las columnas son adecuados para los datos proporcionados. Sin embargo, podrías considerar ajustar los tipos de datos de las columnas "id" y "original_language" según el propósito y las operaciones que planeas realizar con ellos.