# Hector Sosa / 23-1243

# Ciencia de Datos

**Dataset de películas:** [Netflix Shows Dataset](https://www.kaggle.com/datasets/shivamb/netflix-shows)


## Informe de Proyecto

### 1. Metodología

**Herramientas y Técnicas Utilizadas:**

- **Herramientas:**
  - Python
  - Bibliotecas: pandas, numpy, matplotlib

- **Técnicas:**
  - **Carga de Datos:** Utilización de `pd.read_csv` para importar el conjunto de datos de películas.
  - **Limpieza de Datos:**
    - Identificación y eliminación de valores nulos.
    - Relleno de valores nulos con 'Unknown' en columnas específicas.
    - Eliminación de duplicados y valores 'Unknown'.
  - **Filtrado de Datos:** 
    - Selección de registros basados en el tipo de contenido (solo películas).
    - Filtrado de registros por calificación (TV-MA y R) y por año de lanzamiento (2002-2017).
  - **Análisis Estadístico:** Descripción estadística y distribución de registros.
  - **Visualización:** Creación de un gráfico de barras para mostrar la distribución de películas por año de lanzamiento.

**Abordaje de Preguntas de Investigación:**

- **Pregunta Principal:** ¿Cómo se distribuyen las películas por año de lanzamiento en los primeros 100 registros de películas con calificación TV-MA y R?
- **Decisiones Tomadas:**
  - Exclusión de datos irrelevantes y valores desconocidos.
  - Enfoque en películas con calificación específica y en un rango de años determinado.
  - Limitación a las primeras 100 entradas para un análisis detallado.

### 2. Resultados

**Estadísticas Generales:**

- **Descripción Estadística:** Se proporcionaron estadísticas descriptivas de las películas, incluyendo medidas de tendencia central y dispersión.

**Distribución de Calificaciones:**

- **Conteo de Calificaciones:** Se identificó la cantidad de películas para cada calificación específica.

**Distribución por Año de Lanzamiento:**

- **Gráfico de Barras:** Se presenta un gráfico de barras que ilustra la distribución de películas por año de lanzamiento entre 2002 y 2017, limitando el análisis a las primeras 100 películas con calificaciones TV-MA y R.

- **Gráfico:**
  ![image.png](attachment:image.png)

### 3. Conclusiones

**Resumen de Hallazgos:**

- La mayoría de las películas con calificaciones TV-MA y R analizadas se concentran en ciertos años específicos, lo cual puede indicar tendencias en la producción de contenido para adultos.
- La distribución de películas varía significativamente entre los años, con ciertos años mostrando una mayor concentración de películas en estas categorías.

**Respuestas a Preguntas de Investigación:**

- **Distribución por Año:** El gráfico muestra claramente los años con más películas clasificadas como TV-MA y R entre 2002 y 2017.

### 4. Recomendaciones

**Acciones Propuestas:**

- **Para Productores de Contenido:** Considerar la tendencia en años específicos para planificar lanzamientos futuros o analizar la demanda en diferentes periodos.
- **Para Plataforma de Streaming:** Ajustar las recomendaciones y promociones basadas en la popularidad de ciertos años y calificaciones.

**Siguientes Pasos:**

- Realizar un análisis más detallado considerando otros aspectos como la duración de las películas y el país de origen para obtener una visión más completa.


In [197]:
#Imports
import numpy as np 
import pandas as pd
import matplotlib.pyplot as plt
#Reading file of movies
read_csv = pd.read_csv("movies/netflix_movies.csv",delimiter=',' , header='infer')

#Find count of null values 
remove_null_values = read_csv.isnull().sum()

#Fill the NaN values
read_csv['director'] = read_csv['director'].fillna('Unknown')
read_csv['cast'] = read_csv['cast'].fillna('Unknown')
read_csv['country'] = read_csv['country'].fillna('Unknown')
read_csv['date_added'] = read_csv['date_added'].fillna('Unknown')
read_csv['duration'] = read_csv['duration'].fillna('Unknown')
read_csv['rating'] = read_csv['rating'].fillna('Unknown')

#Remove duplicate data
remove_duplicate_data = read_csv.drop_duplicates()

#Reseting index after remove duplicate 
remove_duplicate_data.reset_index(drop=True , inplace=True) 

#Removing 'unknown' values
cleaned_data = remove_duplicate_data[~remove_duplicate_data.isin(['Unknown']).any(axis=1)]

#Filter movies only 
movies_only = cleaned_data[cleaned_data['type'] == 'Movie']

#Analyze the data
stadistic = movies_only.describe()

#Count the mayority users that see movies (18+) 
rating_distribution = movies_only['rating'].value_counts()

#Filter users that see TV-MA and R && only the 100 first records of TV_MA and R
filtered_ratings = movies_only[movies_only['rating'].isin(['TV-MA' , 'R'])].head(100)

# Filter movies released between 2002 and 2017
filtered_ratings = filtered_ratings[(filtered_ratings['release_year'] >= 2002) & 
                                    (filtered_ratings['release_year'] <= 2017)]

filtered_release_year = filtered_ratings['release_year'].value_counts().sort_index().head(20)
#Bar Graphic 
plt.bar(x=filtered_release_year.index, height=filtered_release_year.values, color='orange')
plt.title('Distribution of Movies by Release Year (2002-2017, First 100 TV-MA and R Rated Movies)')
plt.grid(color='#95a5a6', linestyle='--', linewidth=2, axis='y', alpha=0.7)
plt.xlabel('Release Year') 
plt.ylabel('Number of Movies')
plt.xticks(rotation=45)
plt.show()



     show_id   type         title             director  \
7         s8  Movie       Sankofa         Haile Gerima   
9        s10  Movie  The Starling       Theodore Melfi   
12       s13  Movie  Je Suis Karl  Christian Schwochow   
24       s25  Movie         Jeans           S. Shankar   
27       s28  Movie     Grown Ups         Dennis Dugan   
...      ...    ...           ...                  ...   
8801   s8802  Movie       Zinzana      Majid Al Ansari   
8802   s8803  Movie        Zodiac        David Fincher   
8804   s8805  Movie    Zombieland      Ruben Fleischer   
8805   s8806  Movie          Zoom         Peter Hewitt   
8806   s8807  Movie        Zubaan          Mozez Singh   

                                                   cast  \
7     Kofi Ghanaba, Oyafunmike Ogunlano, Alexandra D...   
9     Melissa McCarthy, Chris O'Dowd, Kevin Kline, T...   
12    Luna Wedler, Jannis Niewöhner, Milan Peschel, ...   
24    Prashanth, Aishwarya Rai Bachchan, Sri Lakshmi...   
27    Ad