<a href="https://colab.research.google.com/github/Andres200644/DataScience_AndresHeredia/blob/main/ProyectoDSParteI_Heredia.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto Final – Parte I  
## Autor: Andrés Heredia  
### Dataset: Netflix Movies and TV Shows  

---

##  Abstract

Este proyecto tiene como propósito realizar un análisis exploratorio y visual del dataset **“Netflix Movies and TV Shows”**, el cual recopila información sobre las películas y series disponibles en la plataforma de streaming Netflix. Este conjunto de datos incluye variables como el tipo de contenido (película o serie), país de origen, género, año de lanzamiento, clasificación por edades, director y duración.

El objetivo principal es identificar patrones relevantes que describan el crecimiento y diversificación del catálogo de Netflix a lo largo del tiempo, así como analizar la relación entre el tipo de contenido, el país de producción y la clasificación por edades. A través de técnicas de análisis univariado, bivariado y multivariado, se busca obtener conclusiones visuales y numéricas que permitan responder preguntas clave sobre las tendencias en la producción de contenidos.

El trabajo se apoya en las librerías de Python **Pandas**, **Matplotlib** y **Seaborn** para la manipulación y visualización de datos. En una primera instancia se realiza una inspección general del dataset, identificando valores faltantes y distribuciones de las principales variables. Posteriormente, se crean visualizaciones que permiten explorar las relaciones entre variables, por ejemplo: el año de lanzamiento frente al tipo de contenido, la distribución de clasificaciones según el país y la duración promedio en función del tipo de programa.

El análisis preliminar busca proporcionar una comprensión clara del comportamiento del catálogo de Netflix, establecer hipótesis iniciales y sentar las bases para etapas posteriores del proyecto, donde se podrá profundizar en aspectos predictivos o de segmentación de contenidos. En resumen, esta primera parte permite transformar un conjunto de datos crudo en una fuente de conocimiento visual que revela cómo ha evolucionado la oferta global de entretenimiento en la era del streaming.

---

## Preguntas e Hipótesis de Interés

1. **¿Ha aumentado la cantidad de títulos agregados a Netflix a lo largo de los años?**  
   - *Hipótesis:* A partir de 2015, Netflix ha incrementado notablemente la cantidad de contenidos disponibles, especialmente películas.

2. **¿Qué países producen la mayor cantidad de contenidos dentro de la plataforma?**  
   - *Hipótesis:* Estados Unidos e India son los países con mayor volumen de producciones.

3. **¿Existen diferencias significativas en la duración promedio entre películas y series?**  
   - *Hipótesis:* Las series tienen una mayor duración total promedio debido al número de episodios.

4. **¿Qué relación existe entre la clasificación por edades y el tipo de contenido?**  
   - *Hipótesis:* Las películas presentan una mayor diversidad de clasificaciones, mientras que las series suelen estar orientadas a un público más general.

5. **¿Qué géneros predominan en cada tipo de contenido?**  
   - *Hipótesis:* Las películas tienden a concentrarse en géneros como drama o comedia, mientras que las series destacan en géneros como acción y aventuras.

---

##Conclusiones Parciales

- Netflix ha experimentado un crecimiento sostenido en la cantidad de títulos publicados, especialmente entre 2015 y 2020.  
- El tipo de contenido más frecuente en la plataforma corresponde a **películas**, aunque las series han tenido un aumento progresivo.  
- Los países que más aportan al catálogo son **Estados Unidos**, **India**, **Reino Unido** y **Japón**, lo que refleja la expansión global del servicio.  
- Se detectaron valores faltantes principalmente en las variables `director`, `cast` y `country`, lo que se considerará en la limpieza futura.  
- La clasificación por edades varía según el tipo de contenido y el país, lo que sugiere diferencias culturales en la oferta audiovisual.  

Estas observaciones preliminares permiten establecer las bases para continuar con un análisis más profundo en etapas posteriores del proyecto, enfocadas en correlaciones y posibles modelos predictivos sobre el comportamiento del catálogo de Netflix.


In [16]:
# Importar librerías necesarias
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Configuración de estilo visual
sns.set(style="whitegrid", palette="viridis")
plt.rcParams["figure.figsize"] = (10, 6)

In [None]:
# Subir el archivo CSV manualmente desde tu computadora
from google.colab import files
uploaded = files.upload()

In [None]:
# Cargar el archivo CSV
df = pd.read_csv("netflix_titles.csv")

# Vista rápida del dataset
df.head()

In [None]:
# Dimensiones del dataset
print("Filas:", df.shape[0])
print("Columnas:", df.shape[1])

# Información general
df.info()

# Resumen estadístico
df.describe(include='all')

In [None]:
# Conteo de valores nulos
missing_values = df.isnull().sum().sort_values(ascending=False)
print("Valores faltantes por columna:")
print(missing_values)

# Visualización de valores faltantes
sns.heatmap(df.isnull(), cbar=False, cmap="mako")
plt.title("Mapa de calor de valores faltantes")
plt.show()

In [None]:
# Distribución por tipo de contenido
sns.countplot(data=df, x="type")
plt.title("Distribución de tipo de contenido en Netflix")
plt.xlabel("Tipo")
plt.ylabel("Cantidad")
plt.show()

In [None]:
# Año de lanzamiento vs Tipo de contenido
plt.figure(figsize=(12,6))
sns.countplot(data=df, x="release_year", hue="type")
plt.title("Cantidad de títulos por año y tipo de contenido")
plt.xticks(rotation=90)
plt.show()

In [None]:
# Top 10 países con más títulos
top_countries = df['country'].value_counts().head(10)

sns.barplot(x=top_countries.values, y=top_countries.index)
plt.title("Top 10 países con más títulos en Netflix")
plt.xlabel("Cantidad de títulos")
plt.ylabel("País")
plt.show()

In [None]:
# Relación entre tipo, clasificación y año
plt.figure(figsize=(12,6))
sns.scatterplot(data=df, x="release_year", y="rating", hue="type", alpha=0.7)
plt.title("Clasificación por año según tipo de contenido")
plt.show()

In [None]:
# Limpieza de columna duration
df['duration'] = df['duration'].fillna('0 min')
df['duration_num'] = df['duration'].str.extract('(\d+)').astype(float)

# Promedio de duración por tipo
sns.boxplot(data=df, x="type", y="duration_num")
plt.title("Distribución de duración por tipo de contenido")
plt.ylabel("Duración (minutos / temporadas)")
plt.show()