# Proyecto EDA

### Data Cleaning

1) Cargar y Verificar Datos

In [51]:
# Importar librerías
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

# Cargar la base de datos desde la carpeta 'data'
file_path = r"C:\Users\migue\Documents\GitHub\ONLINE_DS_THEBRIDGE_Miguel_repo_test\EDA_Netflix_Entrega\src\data\Netflix_Movies_and_TV_Shows.csv"

# Cargar los datos
netflix_data = pd.read_csv(file_path)

# Explorar la base de datos
print("Dimensiones del dataset (filas, columnas):", netflix_data.shape)

print("\nNombres de las columnas:")
print(netflix_data.columns)

print("\nPrimeras 5 filas del dataset:")
print(netflix_data.head())

print("\nInformación general del dataset:")
print(netflix_data.info())

print("\nValores nulos por columna:")
print(netflix_data.isnull().sum())


Dimensiones del dataset (filas, columnas): (3000, 7)

Nombres de las columnas:
Index(['Title', 'Type', 'Genre', 'Release Year', 'Rating', 'Duration',
       'Country'],
      dtype='object')

Primeras 5 filas del dataset:
     Title     Type     Genre  Release Year Rating   Duration        Country
0  Title 1  TV Show    Comedy          1955     PG  3 Seasons          Japan
1  Title 2  TV Show    Horror          2020      G  3 Seasons          India
2  Title 3  TV Show    Action          1966  TV-PG    140 min  United States
3  Title 4    Movie  Thriller          2011  PG-13  3 Seasons         Canada
4  Title 5  TV Show   Romance          1959  TV-14    172 min          India

Información general del dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3000 entries, 0 to 2999
Data columns (total 7 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   Title         3000 non-null   object
 1   Type          3000 non-null   object
 2   Gen

1.1) Extraer información útil de variables

In [52]:
# Verificar columnas constantes o casi constantes
for column in netflix_data.columns:
    unique_values = netflix_data[column].nunique()
    print(f"{column}: {unique_values} valores únicos")

# Identificar columnas con demasiados valores nulos
missing_values = netflix_data.isnull().sum()
print("\nValores nulos por columna:")
print(missing_values)

# Filtrar columnas que no aportan información (ejemplo: constantes o demasiados nulos)
useless_columns = missing_values[missing_values > len(netflix_data) * 0.7].index  # Más del 70% de valores nulos
print("\nColumnas candidatas a ser eliminadas por falta de datos:")
print(useless_columns)


Title: 3000 valores únicos
Type: 2 valores únicos
Genre: 8 valores únicos
Release Year: 74 valores únicos
Rating: 7 valores únicos
Duration: 124 valores únicos
Country: 8 valores únicos

Valores nulos por columna:
Title           0
Type            0
Genre           0
Release Year    0
Rating          0
Duration        0
Country         0
dtype: int64

Columnas candidatas a ser eliminadas por falta de datos:
Index([], dtype='object')


1.2) Identificar Valores Nulos (Missings)

In [53]:
# Resumen de valores nulos por columna
print("\nValores nulos por columna:")
print(netflix_data.isnull().sum())



Valores nulos por columna:
Title           0
Type            0
Genre           0
Release Year    0
Rating          0
Duration        0
Country         0
dtype: int64


1.3) Identificar Errores

In [54]:
# Revisar rangos incorrectos en "Release Year"
print("\nValores únicos de 'Release Year':")
print(netflix_data['Release Year'].unique())

# Filtrar años fuera de un rango lógico (1900-2023)
errores_year = netflix_data[(netflix_data['Release Year'] < 1900) | (netflix_data['Release Year'] > 2023)]
print("\nFilas con 'Release Year' fuera de rango (1900-2023):")
print(errores_year)

# Revisar valores extraños en 'Duration'
print("\nValores únicos en 'Duration':")
print(netflix_data['Duration'].unique())


Valores únicos de 'Release Year':
[1955 2020 1966 2011 1959 2007 1977 1971 2000 1975 2021 1986 1997 1994
 1996 1969 1983 2023 1993 1968 1965 1991 2004 1952 1992 1989 2019 1999
 1964 2003 1981 2012 1961 1967 1973 1980 2018 2016 2014 2005 1970 1960
 2001 2015 1954 1962 1995 2006 1974 1963 1950 2002 1988 1951 1978 1972
 1985 2010 2008 1982 1953 1998 1979 1984 1976 1956 1990 2022 1958 2017
 1987 1957 2009 2013]

Filas con 'Release Year' fuera de rango (1900-2023):
Empty DataFrame
Columns: [Title, Type, Genre, Release Year, Rating, Duration, Country]
Index: []

Valores únicos en 'Duration':
['3 Seasons' '140 min' '172 min' '68 min' '104 min' '2 Seasons'
 '1 Seasons' '139 min' '85 min' '129 min' '107 min' '147 min' '120 min'
 '115 min' '164 min' '175 min' '78 min' '88 min' '133 min' '156 min'
 '141 min' '76 min' '130 min' '67 min' '128 min' '97 min' '169 min'
 '137 min' '166 min' '66 min' '89 min' '174 min' '72 min' '138 min'
 '143 min' '86 min' '168 min' '108 min' '109 min' '124 min' '84 m

In [8]:
# Valores Únicos

for column in netflix_data.columns:
    print(f"\nColumna: {column}")
    print("Valores únicos:")
    print(netflix_data[column].unique())
    print(f"Cantidad de valores únicos: {netflix_data[column].nunique()}")


Columna: Title
Valores únicos:
['Title 1' 'Title 2' 'Title 3' ... 'Title 2998' 'Title 2999' 'Title 3000']
Cantidad de valores únicos: 3000

Columna: Type
Valores únicos:
['TV Show' 'Movie']
Cantidad de valores únicos: 2

Columna: Genre
Valores únicos:
['Comedy' 'Horror' 'Action' 'Thriller' 'Romance' 'Drama' 'Documentary'
 'Sci-Fi']
Cantidad de valores únicos: 8

Columna: Release Year
Valores únicos:
[1955 2020 1966 2011 1959 2007 1977 1971 2000 1975 2021 1986 1997 1994
 1996 1969 1983 2023 1993 1968 1965 1991 2004 1952 1992 1989 2019 1999
 1964 2003 1981 2012 1961 1967 1973 1980 2018 2016 2014 2005 1970 1960
 2001 2015 1954 1962 1995 2006 1974 1963 1950 2002 1988 1951 1978 1972
 1985 2010 2008 1982 1953 1998 1979 1984 1976 1956 1990 2022 1958 2017
 1987 1957 2009 2013]
Cantidad de valores únicos: 74

Columna: Rating
Valores únicos:
['PG' 'G' 'TV-PG' 'PG-13' 'TV-14' 'TV-MA' 'R']
Cantidad de valores únicos: 7

Columna: Duration
Valores únicos:
['3 Seasons' '140 min' '172 min' '68 min' '

1.4) Crear Copia de la Base

In [55]:
# Crear una copia del dataset
netflix_copy = netflix_data.copy()


"El tiempo promedio para ver una temporada completa de una serie en Netflix varía según la duración de los episodios y la cantidad de episodios por temporada. Sin embargo, en general, los usuarios suelen terminar una temporada en aproximadamente cinco días, viendo alrededor de dos horas por día.

Esto significa que una temporada promedio podría tomar alrededor de 600 minutos (10 horas) en total. Claro, esto puede variar dependiendo de la serie y de los hábitos de visualización de cada persona."

"la duración de las películas es de 141 minutos en 2022."

1.5) Crear Copia Arreglando los Valores de Duration

In [56]:
# Función para convertir la columna "Duration" según el tipo (Type)
def convertir_duracion(row):
    duracion = row['Duration']
    tipo = row['Type']
    
    if pd.isnull(duracion):
        return np.nan  # Mantener nulos
    
    if tipo == "TV Show" and "Season" in duracion:
        temporadas = int(duracion.split()[0])  # Extraer número de temporadas
        return temporadas * 600  # Convertir temporadas a minutos (1 temporada = 600 min)
    
    elif tipo == "Movie" and "Season" in duracion:
        return 141  # Asignar promedio de 141 minutos a las Movies con "Season"
    
    elif tipo == "Movie" and "min" in duracion:
        return int(duracion.replace(" min", ""))  # Extraer minutos normalmente
    
    elif "min" in duracion:  # Para otros casos con "min"
        return int(duracion.replace(" min", ""))
    
    return np.nan  # Mantener nulos si no coincide ninguna condición

# Aplicar la función a la columna "Duration" usando .apply con axis=1 para filas completas
netflix_copy['Duration'] = netflix_copy.apply(convertir_duracion, axis=1)

# Guardar la copia modificada
output_path = r"C:\Users\migue\Documents\GitHub\ONLINE_DS_THEBRIDGE_Miguel_repo_test\EDA_Netflix_Entrega\src\data\Netflix_Movies_and_TV_Shows_cleaned.csv"
netflix_copy.to_csv(output_path, index=False)

# Verificar resultados
print("Primeras filas después de la conversión:")
print(netflix_copy.head())

print("\nResumen estadístico de la columna 'Duration':")
print(netflix_copy['Duration'].describe())

Primeras filas después de la conversión:
     Title     Type     Genre  Release Year Rating  Duration        Country
0  Title 1  TV Show    Comedy          1955     PG      1800          Japan
1  Title 2  TV Show    Horror          2020      G      1800          India
2  Title 3  TV Show    Action          1966  TV-PG       140  United States
3  Title 4    Movie  Thriller          2011  PG-13       141         Canada
4  Title 5  TV Show   Romance          1959  TV-14       172          India

Resumen estadístico de la columna 'Duration':
count    3000.000000
mean      388.305333
std       520.405214
min        60.000000
25%       118.000000
50%       141.000000
75%       179.000000
max      1800.000000
Name: Duration, dtype: float64


In [57]:
print(netflix_copy.head(30))

       Title     Type        Genre  Release Year Rating  Duration  \
0    Title 1  TV Show       Comedy          1955     PG      1800   
1    Title 2  TV Show       Horror          2020      G      1800   
2    Title 3  TV Show       Action          1966  TV-PG       140   
3    Title 4    Movie     Thriller          2011  PG-13       141   
4    Title 5  TV Show      Romance          1959  TV-14       172   
5    Title 6    Movie       Action          2007  PG-13       141   
6    Title 7    Movie      Romance          1977  TV-14        68   
7    Title 8    Movie       Comedy          1971  TV-PG       104   
8    Title 9    Movie        Drama          2000  PG-13       141   
9   Title 10    Movie     Thriller          1975  TV-MA       141   
10  Title 11  TV Show      Romance          2021  TV-14       139   
11  Title 12  TV Show       Action          1986  PG-13        85   
12  Title 13    Movie  Documentary          1997      R       129   
13  Title 14    Movie       Sci-Fi