# Semana 2: EDA e Introducción a la visualización de datos con Matplotlib.
## Práctica Dirigida


### Objetivos:
*   Aprender a cargar y explorar un dataset usando Pandas.
*   Realizar análisis univariado y bivariado con visualización.
*   Utilizar herramientas de automatización para EDA.
*   Interpretar los resultados de la exploración de datos.


# **Información Detallada sobre el Dataset:**

El dataset "Netflix Movies and TV Shows" contiene información sobre películas y series disponibles en Netflix hasta cierto punto en el tiempo. Es una base de datos pública obtenida de Kaggle, una plataforma reconocida por alojar datasets y desafíos de ciencia de datos. Este conjunto de datos es particularmente útil para realizar un análisis exploratorio de datos (EDA) debido a su diversidad de tipos de variables y su relevancia cultural, lo que lo hace atractivo para estudiantes y analistas.


* **Origen**: Extraído del catálogo de Netflix y compartido en Kaggle por el usuario Shivam Bansal. Representa una instantánea del contenido disponible en la plataforma en un momento específico.



* **Propósito**: Su objetivo principal es permitir el análisis del catálogo de Netflix, explorando aspectos como tendencias de producción, distribución geográfica, géneros populares y duración del contenido.



* **Variables clave**:
  - `type`: Tipo de contenido (película o serie de TV).
  - `title`: Título del contenido.
  - `director`: Nombre(s) del director o directores.
  - `cast`: Lista de actores principales.
  - `country`: País o países de producción.
  - `release_year`: Año de lanzamiento del contenido.
  - `rating`: Clasificación por edades (e.g., TV-MA, PG-13).
  - `duration`: Duración en minutos para películas o número de temporadas para series.
  - `listed_in`: Géneros o categorías asociadas al contenido.
  - `description`: Breve sinopsis.
  - `date_added`: Fecha en que el contenido fue añadido a Netflix.
  - `show_id`: Identificador único del contenido.


* **Tamaño**: Consta de aproximadamente 8807 filas y 12 columnas, lo que lo hace manejable pero suficientemente grande para un análisis significativo.




#### 1. **Carga de Librerías**:

Importamos las herramientas necesarias para el análisis y visualización.

In [None]:
!pip uninstall pandas_profiling -y
!pip install ydata-profiling
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from ydata_profiling import ProfileReport

**Explicación**:


* **Pandas**: Biblioteca esencial para manipulación de datos, usada para cargar, limpiar y transformar el dataset.

* **Matplotlib**: Biblioteca fundamental de visualización en Python que permite crear gráficos personalizados como histogramas, gráficos de barras y diagramas de dispersión. Ofrece control detallado sobre aspectos como ejes, colores y etiquetas, siendo ideal para visualizaciones básicas y avanzadas.

* **Seaborn**: Construida sobre Matplotlib, simplifica la creación de gráficos estadísticos con una sintaxis más intuitiva y estilos visuales atractivos por defecto. Es excelente para análisis univariados y bivariados (e.g., boxplots, heatmaps).

* **Ydata-Profiling**: Herramienta de automatización que genera reportes detallados del dataset, útil para una exploración inicial rápida.

**Nota**: En entornos como Google Colab, puede ser necesario instalar pandas-profiling con !pip install pandas-profiling.

#### 2. **Descargar el dataset**:



In [None]:
import kagglehub
import pandas as pd
import numpy as np
import os

# Descargar la base d
path = kagglehub.dataset_download("shivamb/netflix-shows")

print("Dirección de los archivos:", path)

# Construct the file paths for movies.csv and ratings.csv
netflix_titles_path = os.path.join(path, 'netflix_titles.csv')




#### 3. **Cargar con Pandas**:

In [None]:
# Cargar los datos
netflix_titles_df = pd.read_csv(netflix_titles_path)

In [None]:
netflix_titles_df.head()

#### 4. **Inspección**

In [None]:
## Tipos de datos y cantidad de no nulos
netflix_titles_df.info()

Revela tipos de datos (e.g., object para strings, int64 para enteros) y valores no nulos, destacando columnas con datos faltantes como director.

In [None]:
## Estadística descriptiva de los valores numéricos
netflix_titles_df.describe()

Para release_year, muestra el rango (mínimo, máximo), media y percentiles, indicando la distribución temporal del contenido.

Los años de lanzamiento (release_year) van de 1925 a 2021, con una media de 2014.

In [None]:
# Valores faltantes
netflix_titles_df.isnull().sum().to_frame("Cantidad de nulos")

Identifica columnas con datos incompletos (e.g., director con ~2634 faltantes), un aspecto clave para decidir estrategias de limpieza.

In [None]:
### Distribución de type de contenido en netflix
netflix_titles_df['type'].value_counts()

Hay más películas (6131) que series (2676).

#### 5. **Limpieza**
Aquí preparamos los datos para el análisis, manejando valores faltantes, duplicados y transformando variables.



In [None]:
# Valores faltantes: Decidir si eliminar filas o imputar valores.
netflix_titles_df.dropna(inplace=True)
netflix_titles_df.head()

Justificación: Elimina filas con valores faltantes para simplificar el análisis, aunque en escenarios reales podrías imputar datos.

In [None]:
# Transformación de datos
# Extraer duración numérica para películas

movies = netflix_titles_df[netflix_titles_df['type'] == 'Movie'].copy()
movies['duration_min'] = movies['duration'].str.extract('(\d+)').astype(float)
movies.head()

Nueva columna duration_min con valores como 90.0 para "90 min".

In [None]:
# Verificar duplicados
print("Número de duplicados:", netflix_titles_df.duplicated().sum())
netflix_titles_df.drop_duplicates(inplace=True)


In [None]:
# Verificar cambios
print("Tamaño del dataset tras limpieza:", netflix_titles_df.shape)
print("Primeras filas de películas con duración numérica:")
print(movies[['title', 'duration', 'duration_min']].head())


#### 6. **Visualización de Datos**

##### a. Análisis Univariado
Exploramos una variable a la vez.

In [None]:
# Histograma de años de lanzamiento:

plt.figure(figsize=(10, 6))
plt.hist(netflix_titles_df['release_year'], bins=20, color='skyblue', edgecolor='black')
plt.title('Distribución de Años de Lanzamiento')
plt.xlabel('Año')
plt.ylabel('Frecuencia')
plt.grid(True, alpha=0.3)
plt.savefig('release_year_hist.png')



 Muestra un aumento en contenido reciente, con un pico en los últimos años.

In [None]:
# Gráfico de barras de calificaciones

plt.figure(figsize=(10, 6))
sns.countplot(x='rating', data=netflix_titles_df, palette='viridis')
plt.title('Distribución de Calificaciones')
plt.xlabel('Calificación')
plt.ylabel('Cantidad')
plt.xticks(rotation=45)
plt.savefig('rating_count.png')


 Destaca calificaciones como TV-MA o TV-14 como las más comunes. Reflejando el público objetivo de Netflix



In [None]:
# Boxplot de duración de películas
plt.figure(figsize=(8, 6))
sns.boxplot(x='duration_min', data=movies, color='lightgreen')
plt.title('Distribución de Duración de Películas')
plt.xlabel('Duración (minutos)')
plt.savefig('duration_boxplot.png')


La mayoría de las películas duran entre 80-120 minutos, con outliers en ambos extremos.

##### b. Análisis Bivariado

Examinamos relaciones entre variables.

In [None]:
# Barras apiladas de tipo por país

plt.figure(figsize=(12, 6))
top_countries = netflix_titles_df['country'].value_counts().head(10).index
df_top = netflix_titles_df[netflix_titles_df['country'].isin(top_countries)]
country_type_count = df_top.groupby(['country', 'type']).size().unstack(fill_value=0)
country_type_count.plot(kind='bar', stacked=True, colormap='Set2', figsize=(12, 6))
plt.title('Películas y Series por País (Top 10)')
plt.xlabel('País')
plt.ylabel('Cantidad')
plt.legend(title='Tipo')
plt.savefig('country_type_stacked.png')

EE.UU. lidera, con una mezcla de películas y series; India podría favorecer películas.

In [None]:
# Boxplot de duración por calificación

plt.figure(figsize=(12, 6))
sns.boxplot(x='rating', y='duration_min', data=movies, palette='coolwarm')
plt.title('Duración de Películas por Calificación')
plt.xlabel('Calificación')
plt.ylabel('Duración (minutos)')
plt.xticks(rotation=45)
plt.savefig('duration_by_rating.png')

Explora si calificaciones como PG-13 tienen duraciones más consistentes.

In [None]:
# Gráfico de dispersión de año vs. duración

plt.figure(figsize=(10, 6))
sns.scatterplot(x='release_year', y='duration_min', data=movies, hue='type', size=5, alpha=0.6)
plt.title('Año de Lanzamiento vs. Duración de Películas')
plt.xlabel('Año de Lanzamiento')
plt.ylabel('Duración (minutos)')
plt.savefig('year_vs_duration_scatter.png')

Busca tendencias como si las películas más recientes son más cortas o largas.

#### 7. **Identificación de Patrones**



A. Tendencia temporal: El histograma de release_year muestra un crecimiento exponencial en contenido reciente, reflejando la expansión de Netflix.

B. Audiencia objetivo: Las calificaciones predominantes (TV-MA, TV-14) sugieren un enfoque en adultos y adolescentes.


C. Duración típica: Las películas suelen durar 80-120 minutos, con excepciones notables (boxplot).

D. Distribución geográfica: EE.UU., India y Reino Unido lideran la producción, con diferencias en preferencias por tipo (barras apiladas).

E. Relaciones: El gráfico de dispersión podría indicar si las duraciones han cambiado con el tiempo.

## **Automatización del EDA**

In [None]:

#Usamos Pandas-Profiling para un análisis rápido.

profile = ProfileReport(netflix_titles_df, title="Pandas Profiling Report")
profile.to_notebook_iframe()

# **Ejercicio Reto**

## Exploración de Datos de con los datos de tu proyecto y si no los tienes aún con "Students Performance in Exams"

**Los objetivos son**:

1. Aplicar EDA a un nuevo dataset.
2. Identificar patrones y relaciones.
3. Responder preguntas específicas mediante análisis.
4. Estructura y Contenido

**La estructura de apoyo es**:

El notebook está organizado en las siguientes secciones:

1. **Carga de Librerías**:

  Similar al Notebook 1, importando Pandas, Matplotlib, Seaborn y Pandas-Profiling.

2. **Carga del Dataset**:
  Instrucciones para descargar el dataset de Kaggle o de tu repositorio.

3. **Inspección del Dataset**:
  Se describe el dataset y su relevancia. Instrucciones para mostrar filas, información, estadísticas, y distribuciones categóricas.

4. **Limpieza del Dataset**:
   Reemplazo de nulos, Reemplazo de duplicados, Transformación de datos.

5. **Visualización de Dataset**:

  Visualización Univariada: Instrucciones para histogramas, gráficos de barras y diagramas de caja.

  Visualización Bivariada: Instrucciones para diagramas de dispersión, boxplots y barras agrupadas.

6. **Automatización**:
  Usar Pandas-Profiling.
