# üé¨ An√°lisis de Datos de Netflix con Limpieza y Visualizaci√≥n

Este an√°lisis tiene como objetivo limpiar y transformar el dataset de **Netflix** para posteriormente analizar la informaci√≥n m√°s relevante mediante un **dashboard interactivo en Power BI**.

## üìö Objetivos del Proyecto
1. **Limpieza de Datos:** Identificaci√≥n y tratamiento de valores nulos e inconsistencias.
2. **Transformaci√≥n de Datos:** Modificaci√≥n de columnas para facilitar el an√°lisis.
3. **Visualizaci√≥n de Insights:** Construcci√≥n de un tablero de an√°lisis visual.

---


![netflix](https://www.grupoisos.com/wp-content/uploads/2024/07/Nota-BB-Media.jpg)

## ‚ùì Preguntas de Gu√≠a para el An√°lisis

1. ¬øCu√°ntos valores nulos hay en los datos? ¬øSe pueden eliminar o reemplazar?
2. ¬øQu√© columnas contienen valores incompletos? ¬øCu√°l es la mejor estrategia para manejarlos?
3. ¬øExisten columnas irrelevantes para el an√°lisis? ¬øCu√°les son y por qu√© eliminarlas?
4. ¬øEl tipo de dato de la columna `release_year` es correcto? ¬øSe puede convertir a entero para un an√°lisis m√°s eficiente?
5. ¬øLa columna `listed_in` contiene valores m√∫ltiples? ¬øPodemos extraer y analizar el primer valor?
6. ¬øQu√© informaci√≥n clave deber√≠a reflejar el dashboard de **Power BI** para un an√°lisis relevante?

In [64]:
import pandas as pd
import numpy as np

peliculas = pd.read_csv('netflix_titles.csv')

## üîç Exploraci√≥n Inicial de los Datos

In [65]:
peliculas.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,1 Season,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,1 Season,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


In [66]:
peliculas.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      8804 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 825.8+ KB


In [67]:
peliculas.isnull().sum()

show_id            0
type               0
title              0
director        2634
cast             825
country          831
date_added        10
release_year       0
rating             4
duration           3
listed_in          0
description        0
dtype: int64

In [68]:
(peliculas == '').sum()

show_id         0
type            0
title           0
director        0
cast            0
country         0
date_added      0
release_year    0
rating          0
duration        0
listed_in       0
description     0
dtype: int64

## üßπ Limpieza y Transformaci√≥n de los Datos

A continuaci√≥n, procedemos a limpiar y transformar los datos para asegurar que est√©n preparados para el an√°lisis.


In [69]:
columnas_eliminar = ['show_id','cast','date_added','description','duration']
procesado = peliculas.drop(columns=columnas_eliminar )

In [70]:
procesado = procesado.fillna('desconocido')

In [71]:
procesado.isnull().sum()

type            0
title           0
director        0
country         0
release_year    0
rating          0
listed_in       0
dtype: int64

In [72]:
procesado['first_genre'] = procesado['listed_in'].str.split(',').str[0]

## Verificaci√≥n del tipo de dato de release_year

In [None]:
procesado['release_year'].dtype

dtype('int64')

## Mostrando el resultado final

In [74]:
procesado

Unnamed: 0,type,title,director,country,release_year,rating,listed_in,first_genre
0,Movie,Dick Johnson Is Dead,Kirsten Johnson,United States,2020,PG-13,Documentaries,Documentaries
1,TV Show,Blood & Water,desconocido,South Africa,2021,TV-MA,"International TV Shows, TV Dramas, TV Mysteries",International TV Shows
2,TV Show,Ganglands,Julien Leclercq,desconocido,2021,TV-MA,"Crime TV Shows, International TV Shows, TV Act...",Crime TV Shows
3,TV Show,Jailbirds New Orleans,desconocido,desconocido,2021,TV-MA,"Docuseries, Reality TV",Docuseries
4,TV Show,Kota Factory,desconocido,India,2021,TV-MA,"International TV Shows, Romantic TV Shows, TV ...",International TV Shows
...,...,...,...,...,...,...,...,...
8802,Movie,Zodiac,David Fincher,United States,2007,R,"Cult Movies, Dramas, Thrillers",Cult Movies
8803,TV Show,Zombie Dumb,desconocido,desconocido,2018,TV-Y7,"Kids' TV, Korean TV Shows, TV Comedies",Kids' TV
8804,Movie,Zombieland,Ruben Fleischer,United States,2009,R,"Comedies, Horror Movies",Comedies
8805,Movie,Zoom,Peter Hewitt,United States,2006,PG,"Children & Family Movies, Comedies",Children & Family Movies


In [77]:
procesado['release_year'] = pd.to_datetime(procesado['release_year'], format='%Y')
procesado['release_year']

0      2020-01-01
1      2021-01-01
2      2021-01-01
3      2021-01-01
4      2021-01-01
          ...    
8802   2007-01-01
8803   2018-01-01
8804   2009-01-01
8805   2006-01-01
8806   2015-01-01
Name: release_year, Length: 8807, dtype: datetime64[ns]

In [76]:
procesado.to_csv('procesado.csv')

## Visualizaci√≥n de los datos

![Dashboard de Power BI](image/Dashboard%20de%20netlifx.jpg)


## Conclusi√≥n

En este an√°lisis, se realiz√≥ una limpieza y transformaci√≥n de los datos del archivo `netflix_titles.csv` con el objetivo de preparar la informaci√≥n para su posterior uso. A continuaci√≥n, se resumen los pasos clave y los resultados obtenidos:

1. **Identificaci√≥n y manejo de valores nulos:**
    - Se identificaron **4,307 valores nulos** en el conjunto de datos.
    - Se decidi√≥ reemplazar estos valores nulos con la cadena `"desconocido"` para mantener la integridad de los datos y evitar la p√©rdida de registros.

2. **Identificaci√≥n de valores incompletos:**
   - Se utiliz√≥ `(peliculas == '').sum()` para verificar si hab√≠a valores vac√≠os o incompletos en el DataFrame.
   - No se encontraron valores incompletos (cadenas vac√≠as) en ninguna de las columnas.

3. **Eliminaci√≥n de las columnas innecesarias:**
    - Se eliminaron las columnas `show_id`, `cast`, `date_added`, `description`, y `duration` porque no aportaban informaci√≥n relevante para el an√°lisis. Estas columnas conten√≠an datos como identificadores √∫nicos, listas de actores, fechas de agregado, descripciones textuales y duraciones, que no eran √∫tiles para explorar g√©neros, a√±os de lanzamiento o ratings. Su eliminaci√≥n simplific√≥ el conjunto de datos y permiti√≥ enfocarse en las caracter√≠sticas clave de los t√≠tulos.

4.  **Verificaci√≥n del tipo de datos:**
    - Se identifico que la columna `release_year` es de tipo de dato ('int64') por lo que fue la necesario realizar la conversi√≥n

5. **Extraci√≥n del primer genero:**
    - La columna `listed_in` contenia m√∫ltiples generos separados por comas. por lo que fue necesario extraer el primer genero de cada columna para asi mostrarlo en una nueva columna llamada `first_genre`

6. **Exportaci√≥n del archivo:**
    - los datos ya fueron limpiados y procesados para su an√°lisis.
7. **An√°lisis y visualizaci√≥n**  
Los datos fueron analizados y se obtuvieron insights clave sobre los pa√≠ses con m√°s pel√≠culas, los g√©neros m√°s populares y la evoluci√≥n del cine a lo largo de los a√±os.
