<a href="https://colab.research.google.com/github/Jos21os/DATA_WRANGLING_PROJECT_NETFLIX/blob/Python/PROYECTO_DE_DATA_WRANGLING.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto de Data Wrangling



## Base de Datos = [Netflix Data](https:https://www.kaggle.com/datasets/ariyoomotade/netflix-data-cleaning-analysis-and-visualization//)

### Preguntas Guías

*   ¿Cuántos valores nulos puedes encontrar en los datos? ¿Los puedes eliminar?

* ¿Cuántos valores incompletos puedes encontrar en los datos? ¿Los puedes reemplazar?

* ¿Se puede eliminar columnas que no te aportan información? ¿Cuáles son? ¿Por qué las eliminarías?

* ¿Qué tipo de dato es la columna “release_year”? ¿Se puede convertir a integer?

* La columna “listed_in” contiene diferentes valores separados por coma, ¿Se puede crear una columna y quedarte con el primer valor?



### Importar Librerias

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
from google.colab import files
uploaded = files.upload()

Saving netflix1.csv to netflix1.csv


In [None]:
df = pd.read_csv('/content/netflix1.csv')
df.head()

Unnamed: 0,show_id,type,title,director,country,date_added,release_year,rating,duration,listed_in
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,9/25/2021,2020,PG-13,90 min,Documentaries
1,s3,TV Show,Ganglands,Julien Leclercq,France,9/24/2021,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,s6,TV Show,Midnight Mass,Mike Flanagan,United States,9/24/2021,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,s14,Movie,Confessions of an Invisible Girl,Bruno Garotti,Brazil,9/22/2021,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,s8,Movie,Sankofa,Haile Gerima,United States,9/24/2021,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8790 entries, 0 to 8789
Data columns (total 10 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8790 non-null   object
 1   type          8790 non-null   object
 2   title         8790 non-null   object
 3   director      8790 non-null   object
 4   country       8790 non-null   object
 5   date_added    8790 non-null   object
 6   release_year  8790 non-null   int64 
 7   rating        8790 non-null   object
 8   duration      8790 non-null   object
 9   listed_in     8790 non-null   object
dtypes: int64(1), object(9)
memory usage: 686.8+ KB


### Pregunta 1: ¿Cuántos valores nulos puedes encontrar en los datos? ¿Los puedes eliminar?

In [None]:
# Chequear si existen valores faltantes o nulos
df.isnull().sum()

Unnamed: 0,0
show_id,0
type,0
title,0
director,0
country,0
date_added,0
release_year,0
rating,0
duration,0
listed_in,0


In [None]:
# Chequear si existen duplicados

df.duplicated().any()

False

In [None]:
# Convertir data added a datetime

df['date_added'] = pd.to_datetime(df['date_added'])

In [None]:
# Mostrar tipos de datos para confirmar cambios

df.dtypes

Unnamed: 0,0
show_id,object
type,object
title,object
director,object
country,object
date_added,datetime64[ns]
release_year,int64
rating,object
duration,object
listed_in,object


### Respuesta a pregunta 1

se utilizó el método df.isnull().sum() para contar los valores nulos en cada columna del DataFrame. El resultado muestra que no hay valores nulos en ninguna de las columnas. Todas tienen un conteo de 0 valores nulos.
Eliminación de valores nulos:

Ya que no existen valores nulos en los datos (todas las columnas tienen 0 valores faltantes), no es necesario eliminar nada. Los datos están completos en cuanto a valores nulos.
Por lo tanto, no hay valores nulos que eliminar en este conjunto de datos.

### Pregunta 2: ¿Cuántos valores incompletos puedes encontrar en los datos? ¿Los puedes reemplazar?

In [None]:
# Revisar valores nulos
print(df.isnull().sum())



show_id         0
type            0
title           0
director        0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
dtype: int64


In [None]:
# Filtrar filas con valores nulos
print(df[df.isnull().any(axis=1)])

Empty DataFrame
Columns: [show_id, type, title, director, country, date_added, release_year, rating, duration, listed_in]
Index: []


In [None]:
# Revisar valores duplicados
print(df.duplicated().sum())

0


In [None]:
# Revisar cadenas vacías
print((df == '').sum())

show_id         0
type            0
title           0
director        0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
dtype: int64


### Respuesta a pregunta 2

El resultado indica que no hay valores nulos en ninguna de las columnas, ya que todos los valores en la salida de df.isnull().sum() son 0. Además, al filtrar filas con valores nulos usando df[df.isnull().any(axis=1)], el resultado es un DataFrame vacío, confirmando que no hay filas con valores incompletos. Por lo tanto, no es necesario reemplazar valores faltantes, ya que no hay datos incompletos en este conjunto.


###Pregunta 3: ¿Se puede eliminar columnas que no te aportan información? ¿Cuáles son? ¿Por qué las eliminarías?

In [None]:
df.nunique()

Unnamed: 0,0
show_id,8790
type,2
title,8787
director,4528
country,86
date_added,1713
release_year,74
rating,14
duration,220
listed_in,513


In [None]:
# Crear un nuevo DataFrame sin las columnas show_id y type

df_sin_columnas = df.drop(columns=['show_id', 'type'])


In [None]:
df_sin_columnas.head()

Unnamed: 0,title,director,country,date_added,release_year,rating,duration,listed_in
0,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,90 min,Documentaries
1,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


### Respuesta a pregunta 3

Se decidió eliminar las columnas show_id y type del DataFrame porque no aportaban valor al análisis. La columna show_id es un identificador único para cada registro y no proporciona información descriptiva sobre el contenido, lo que la hace irrelevante para un análisis que busca descubrir patrones o tendencias. Estas columnas de identificación, aunque útiles para distinguir registros, no contribuyen a comprender características específicas del contenido.

La columna type, con solo dos valores únicos (probablemente "película" o "programa de televisión"), ofrece una clasificación básica que, aunque puede ser relevante en algunos análisis, no es necesaria si el objetivo principal es explorar otras características como el género, el país de origen o la duración del contenido.

Eliminar columnas innecesarias simplifica el DataFrame, eliminando el "ruido" en los datos y haciendo el análisis más eficiente, tanto en términos de interpretación como de rendimiento computacional. Al reducir el número de variables a solo aquellas que realmente influyen en el análisis, se optimiza el proceso y se facilita el enfoque en características con un impacto significativo en los resultados.

### Pregunta 4

###¿Qué tipo de dato es la columna “release_year”? ¿Se puede convertir a integer?

In [None]:
df_sin_columnas.head()

Unnamed: 0,title,director,country,date_added,release_year,rating,duration,listed_in
0,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,90 min,Documentaries
1,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


In [None]:
# Reemplazar valores nulos por un valor (por ejemplo, 0) y luego convertir a entero

df_sin_columnas['release_year'] = df_sin_columnas['release_year'].fillna(0).astype(int)

In [None]:
df_sin_columnas.head()

Unnamed: 0,title,director,country,date_added,release_year,rating,duration,listed_in
0,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,90 min,Documentaries
1,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


In [None]:
df_sin_columnas['release_year'] = df_sin_columnas['release_year'].astype(int)

In [None]:
df_sin_columnas.head()

Unnamed: 0,title,director,country,date_added,release_year,rating,duration,listed_in
0,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,90 min,Documentaries
1,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


### Respuesta a pregunta 4

La columna release_year es inicialmente de tipo float. Esto se deduce porque, en el primer intento, se utiliza fillna(0) antes de la conversión, lo cual es un indicio de que podría haber valores nulos. En los datos de muestra, release_year tiene valores numéricos que representan años, pero debido a los valores nulos (que suelen aparecer como NaN y se tratan como floats en pandas), la columna completa adopta el tipo float.

Sí, la columna release_year se puede convertir a integer. Al aplicar astype(int) después de manejar los valores nulos con fillna(0), la columna se convierte exitosamente a tipo entero, como se observa en las tablas resultantes en ambas imágenes. Esto confirma que, tras reemplazar posibles valores nulos, la conversión a entero es posible y efectiva.

### Pregunta 5:  

La columna “listed_in” contiene diferentes valores separados por coma, ¿Se puede crear una columna y quedarte con el primer valor?

In [None]:
df_sin_columnas.head()

Unnamed: 0,title,director,country,date_added,release_year,rating,duration,listed_in
0,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,90 min,Documentaries
1,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act..."
2,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,1 Season,"TV Dramas, TV Horror, TV Mysteries"
3,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,91 min,"Children & Family Movies, Comedies"
4,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,125 min,"Dramas, Independent Movies, International Movies"


In [None]:
# Creación de la nueva columna 'primary_category' con el primer valor de 'listed_in'
df_sin_columnas['primary_category'] = df_sin_columnas['listed_in'].str.split(',').str[0]


In [None]:
# Verificación de las primeras filas del DataFrame para corroborar
df_sin_columnas[['listed_in', 'primary_category']].head()

Unnamed: 0,listed_in,primary_category
0,Documentaries,Documentaries
1,"Crime TV Shows, International TV Shows, TV Act...",Crime TV Shows
2,"TV Dramas, TV Horror, TV Mysteries",TV Dramas
3,"Children & Family Movies, Comedies",Children & Family Movies
4,"Dramas, Independent Movies, International Movies",Dramas


In [None]:
# Crear la nueva columna 'primary_category' con el primer valor de 'listed_in'
df_sin_columnas['primary_category'] = df_sin_columnas['listed_in'].str.split(',').str[0]

# Eliminar la columna original 'listed_in'
df_sin_columnas = df_sin_columnas.drop(columns=['listed_in'])

# Renombrar la columna 'primary_category' a 'listed_in'
df_sin_columnas = df_sin_columnas.rename(columns={'primary_category': 'listed_in'})

In [None]:
# Corroboración de los resultados
df_sin_columnas.head()

Unnamed: 0,title,director,country,date_added,release_year,rating,duration,listed_in
0,Dick Johnson Is Dead,Kirsten Johnson,United States,2021-09-25,2020,PG-13,90 min,Documentaries
1,Ganglands,Julien Leclercq,France,2021-09-24,2021,TV-MA,1 Season,Crime TV Shows
2,Midnight Mass,Mike Flanagan,United States,2021-09-24,2021,TV-MA,1 Season,TV Dramas
3,Confessions of an Invisible Girl,Bruno Garotti,Brazil,2021-09-22,2021,TV-PG,91 min,Children & Family Movies
4,Sankofa,Haile Gerima,United States,2021-09-24,1993,TV-MA,125 min,Dramas


### Respuesta a pregunta 5

Sí, se puede crear una columna nueva a partir de la columna listed_in que tenga los nuevos valores.

