# Proyecto EDA

# Memoria del Proyecto: Análisis Exploratorio de Datos (EDA) en Netflix

## Introducción
Este proyecto se centra en realizar un análisis exploratorio de datos (EDA) para entender patrones y tendencias dentro del contenido disponible en Netflix. A partir de una base de datos limpia, se plantearon preguntas clave, se formularon hipótesis y se utilizaron técnicas gráficas y estadísticas para extraer insights valiosos.

---

## 1. Carga de Datos
Se utilizaron los siguientes archivos para el análisis:
- **Archivo original:** `Netflix_Movies_and_TV_Shows.csv`
- **Archivo limpio:** `Netflix_Movies_and_TV_Shows_cleaned.csv`

### Código para cargar los datos:
```python
import pandas as pd

# Ruta de los datos
file_path_original = r"C:\Users\migue\Documents\GitHub\ONLINE_DS_THEBRIDGE_Miguel_repo_test\EDA_Netflix_Entrega\src\data\Netflix_Movies_and_TV_Shows.csv"
file_path_cleaned = r"C:\Users\migue\Documents\GitHub\ONLINE_DS_THEBRIDGE_Miguel_repo_test\EDA_Netflix_Entrega\src\data\Netflix_Movies_and_TV_Shows_cleaned.csv"

# Carga de datos
original_data = pd.read_csv(file_path_original)
cleaned_data = pd.read_csv(file_path_cleaned)
```
Se realizo una limpieza en la parte de duration cambiando en TV Shows las season por 600min cada season, y en Movies las que tenian season se cambio por el tiempo promedio de una movie 141min
---

## 2. Análisis Univariante
El análisis univariante permite entender la distribución de cada variable de forma individual.

### Principales Resultados:
1. **Duración promedio:** La mayoría de los títulos tienen duraciones entre 100 y 300 minutos.
2. **Distribución por tipo:** Hay una ligera predominancia de programas de TV sobre las películas.

### Código Representativo:
```python
import seaborn as sns
import matplotlib.pyplot as plt

# Histograma de Duración
sns.histplot(cleaned_data['Duration'], kde=True)
plt.title("Distribución de la Duración")
plt.show()
```

---

## 3. Análisis Bivariante
Se exploraron las relaciones entre pares de variables para detectar patrones.

### Principales Resultados:
1. **Relación entre tipo y género:** 
   - Las películas destacan en los géneros de Thriller y Romance.
   - Los programas de TV predominan en los géneros Sci-Fi y Horror.

2. **Duración promedio por tipo:**
   - Las series tienen una duración promedio considerablemente mayor que las películas.

### Código Representativo:
```python
# Barras apiladas: Frecuencia de géneros por tipo
sns.countplot(data=cleaned_data, x='Genre', hue='Type')
plt.xticks(rotation=45)
plt.title("Frecuencia de Géneros por Tipo")
plt.show()
```

---

## 4. Análisis Multivariante
El análisis multivariante permite analizar relaciones entre varias variables simultáneamente.

### Principales Resultados:
1. **Correlación:** No se encontraron correlaciones fuertes entre variables numéricas como `Duration` y `Release Year`.
2. **Pairplot:** Permitió observar distribuciones y tendencias entre duración y año de lanzamiento.

### Código Representativo:
```python
# Heatmap de correlación
sns.heatmap(cleaned_data.corr(), annot=True, cmap="coolwarm")
plt.title("Mapa de Correlación")
plt.show()
```

---

## 5. Respuesta a las Hipótesis

### Hipótesis Principal:
**"Los géneros más populares en películas son distintos de los más populares en programas de TV."**
- **Resultado:** Confirmado.
  - Películas: Thriller y Romance.
  - TV Shows: Sci-Fi y Horror.

### Hipótesis Secundaria:
**"La mayoría de las producciones recientes (2010-2023) tienen una clasificación orientada al público joven (PG-13, TV-14)."**
- **Resultado:** Confirmado parcialmente.
  - PG-13 y TV-14 son comunes, pero otras clasificaciones también tienen una alta frecuencia.

---

## 6. Conclusiones y Plan de Acción

### Conclusiones:
1. Hay diferencias claras entre los géneros predominantes en películas y programas de TV.
2. Las series tienden a tener duraciones promedio mayores que las películas.
3. Los países más activos en producción son Canadá, Reino Unido y Corea del Sur.

### Plan de Acción:
1. Usar estos insights para desarrollar estrategias de contenido personalizadas.
2. Considerar la implementación de dashboards interactivos para compartir los resultados con equipos internos.

---

## 7. Tecnologías Utilizadas
- **Librerías:** Pandas, Matplotlib, Seaborn
- **Entorno:** Python, Jupyter Notebook

---

## 8. Documentos Complementarios
1. Presentación en PowerPoint del EDA.
2. Gráficos y visualizaciones almacenados en la carpeta de imagenes.
3. Archivos `ipynb` documentando cada etapa del análisis.
