<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Pandas (EDA y Unión de Datos)

## Los datos

Para este laboratorio, trabajarás con los siguientes conjuntos de datos:

- **`netflix_originals.csv`**: Contiene información sobre producciones originales de Netflix. Las columnas que nos encontraremos en este conjunto de datos son: 

   - `Title`: Contiene el nombre del título de la producción original de Netflix.

   - `Genre`: Especifica el género o combinación de géneros de la producción.

   - `Premiere`: Indica la fecha de estreno de la producción en Netflix.

   - `Runtime`: Contiene la duración de la producción en minutos.

   - `IMDB Score`: Representa la calificación promedio que la producción ha recibido en la plataforma IMDB.

   - `Language`: Especifica el idioma principal o los idiomas en los que se presenta la producción.

- **`netflix_titles.csv`**: Contiene información sobre una variedad de títulos disponibles en la plataforma Netflix, incluyendo tanto películas como series de televisión. Las columnas que nos encontraremos en este conjunto de datos son:

   - `show_id`: Identificador único para cada título en el dataset.

   - `type`: Especifica el tipo de contenido, ya sea "Movie" (película) o "TV Show" (serie de televisión).

   - `title`: Contiene el nombre del título de la producción.

   - `director`: Muestra el nombre del director del título. Puede estar vacío en algunos casos.

   - `cast`: Lista de actores y actrices que participaron en el título. También puede estar vacío en algunos casos.

   - `country`: País o países donde se produjo el título. Esta columna también puede tener valores faltantes.

   - `date_added`: Fecha en la que el título fue añadido al catálogo de Netflix.

   - `release_year`: Año en que el título fue lanzado o producido.

   - `rating`: Clasificación del contenido en términos de audiencia (por ejemplo, PG-13, TV-MA).

   - `duration`: Duración del título. Para películas, se expresa en minutos (e.g., "90 min") y para series en temporadas (e.g., "2 Seasons").

   - `listed_in`: Categorías o géneros bajo los cuales el título está clasificado (por ejemplo, "Documentaries", "TV Dramas").

   - `description`: Breve sinopsis o descripción del contenido del título.

A lo largo de los laboratorios de Pandas, trabajarás con estos conjuntos de datos (o con los derivados del Laboratorio), algunas de las actividades que realizaremos son:

- Exploración de datos y análisis exploratorio (EDA) para familiarizarse con los conjuntos de datos.

- Realización de uniones entre conjuntos de datos, aplicando diferentes técnicas de *merging* y analizando la relevancia de cada método.

- Uso de funciones de selección y filtrado (`loc`, `iloc`) para extraer información clave.

- Desarrollo de análisis descriptivos y visualización de patrones para comprender mejor las decisiones estratégicas de la plataforma.

----

## Objetivo General de la Serie de Laboratorios



1. **Unión de `netflix_titles.csv` con `netflix_originals.csv`:**

   - **Análisis de contenido original:**  Identificarás los títulos que son producciones originales de Netflix y los compararás con los títulos adquiridos. Este análisis te permitirá:

     - Comparar la diversidad de géneros entre los títulos originales y no originales.

     - Evaluar si ciertos géneros o tipos de contenido (como documentales o series) son más frecuentes en las producciones originales.

     - Investigar si la producción original se concentra en determinados países o idiomas.


   - **Evaluación de contenido:** En esta etapa, explorarás si las producciones originales de Netflix tienden a recibir mejores o peores evaluaciones en comparación con el contenido adquirido. Algunas preguntas que se buscarán responder incluyen:

     - ¿Los títulos originales tienen una calificación promedio superior en plataformas como IMDB?

     - ¿Son las producciones originales más consistentes en términos de calidad percibida?

     - ¿Existen diferencias en la popularidad de los títulos originales según su género o país de origen?


   - **Identificación de tendencias:**  Por último, este análisis te permitirá explorar cómo ha evolucionado la estrategia de contenido de Netflix a lo largo del tiempo. Algunos puntos clave a investigar serán:

     - ¿Cómo ha crecido la producción original en comparación con la adquisición de contenido?

     - ¿Qué géneros o tipos de contenido han recibido mayor inversión en los últimos años?
     
     - ¿Existen patrones en los países o idiomas de las producciones originales, especialmente en relación con la expansión global de Netflix?


----


## Ejercicio: Análisis y Enriquecimiento del Catálogo de Netflix

### Parte 1: Análisis Exploratorio de Datos (EDA)

1. **Carga de los datos:**

   - Deberás cargar los dos conjuntos de datos que te hemos proporcionado para realizar este Laboratorio:

     - `netflix_originals.csv`

     - `netflix_titles.csv`

   Deberás revisar la estructura de cada conjunto de datos utilizando los métodos aprendidos durante la lección.

2. **Análisis de columnas y consistencia:**

   - Deberás hacer un análisis exploratorio de cada uno de los conjuntos de datos. Será obligatorio que incluyas las conclusiones generales obtenidas de cada uno de los análisis exploratorios en el Jupyter Notebook de tus soluciones.

   - Explorar qué columnas contiene cada conjunto de datos y cuáles son sus tipos de datos. Identificar si hay valores nulos o duplicados.

   - Algunas preguntas que nos podemos plantear en esta fase son (recuerda que esto es solo un ejemplo, y que podemos explorar todo lo que queramos/necesitemos para entender lo mejor posible los conjuntos de datos):

      - ¿Cuáles son los tipos de datos de cada columna? Nos puede ayudar a detectar si algún tipo de dato está incorrectamente asignado, como fechas almacenadas como cadenas de texto.

      - ¿Existen valores nulos? ¿En qué columnas están? Este paso es crucial para decidir si deben ser eliminados, rellenados o ignorados.

      - ¿Cuántos títulos únicos hay en cada conjunto de datos? Nos puede permitir verificar si existen títulos duplicados que puedan distorsionar el análisis.

      - ¿Qué géneros tenemos en el conjunto de datos? Esto nos puede ayudar a identificar los géneros más populares o incluso a identificar una posible limpieza de dicha columna para poder extraer conclusiones más claras en nuestro análisis.

### Parte 2: Unión de Datos

1. **Realización de la unión:**

   - Deberás realizar la unión que consideres más apropiada entre `netflix_titles.csv` y `netflix_originals.csv`. Además, deberás justificar el tipo de unión que has realizado.

   - Esto nos ayudará a contestar preguntas más adelente del tipo:

     - ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

     - ¿Hay diferencias significativas en la puntuación de IMDB entre títulos originales y no originales?

### Parte 3: Uso de `loc` e `iloc`

Usando el DataFrame creado en la Parte 2: 

1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [1]:
import pandas as pd
import numpy as np
pd.set_option("display.max_columns", None)

**Abrir archivo Netflix Títulos**

***Detalles de los que me voy percatando en Netflix_titles.csv*** 
- Se conforma de 12 columnas y una de ellas corresponde a show_id que es un identificador único de show y 8807 filas.

*Tipo de datos:*

- cuenta con 11 columnas que contienen datos de tipo object y una única columna con datos de tipo int (Release_year).

*Warnings de tipo de dato:*

- RATING habría que preguntar qué significado tiene cada uno para poder sacar conclusiones y unificar el método de evaluación (porque aparece R luego 74 min luego NC-17 etc).Porque no es un rating de satisfacción sino una clasificación del típo de público al que va dirigido.

- DURATION habría que elegir si medir la duración en minutos/horas etc o en temporadas.

- 

*Datos de interés:*

- RELEASE_YEAR: nos muestra que la película más actual fue estrenada en 2021 y la más antigua data de 1925. además, debido a la diferencia entre la media (2014 aprox) y la mediana (2017) y a que ambas se concentran en el extremo derecho (asimetría negativa) se puede concluir que el número de estrenos aumentó significativamente con el tiempo.

- LISTED_IN: Nos muestra que la mayoría de títulos se concentran en los géneros Dramas, International Movies con 362 títulos, Documentaries con 359 títulos y Stand-Up Comedy con 334 títulos mientras que los que menos estrenos acumulan son las categorías Action & Adventure, Comedies, Music & Musicals/ Classic Movies, Horror Movies, Thrillers  /Children & Family Movies, Classic Movies, Dramas  y Cult Movies, Dramas, Thrillers todas ellas con un único título (Hay más géneros con un único estreno). 

- DATE_ADDED: Observamos que las fechas en las que se suelen añadir más títulos a la plataforma suelen ser a finales y principios de los años más reciente (Enero, Diciembre, Noviembre) mientras que los meses más intermedios suelen añadirse menos títulos a la plataforma.

- COUNTRY: Observamos que por diferencia EEUU cuenta con el mayor número de títulos


*Valores nulos y duplicados:*

- Encontramos que 6 columnas correspondientes a: director, cast, country, date_added, rating y duration cuentan con datos nulos
- De las columnas con valores nulos, las más preocupantes son duration con casi un 55% de valores nulos respecto al total de valores y director con casi un 30% de los valores respecto al total. También cuentan con valores nulos (rondando el 10%) cast y country. Y con un número ínfimo de nulos se encuentra date_added y rating con 0,11% y 0,05% de datos nulos respecto al total. 

- No hay filas duplicadas en este archivo

In [2]:
netflix_titulos= pd.read_csv("datos/netflix_titles.csv", index_col= 0)
netflix_titulos.head()

Unnamed: 0,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,s1,Movie,Dick Johnson Is Dead,Kirsten Johnson,,United States,"September 25, 2021",2020,PG-13,90 min,Documentaries,"As her father nears the end of his life, filmm..."
1,s2,TV Show,Blood & Water,,"Ama Qamata, Khosi Ngema, Gail Mabalane, Thaban...",South Africa,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, TV Dramas, TV Mysteries","After crossing paths at a party, a Cape Town t..."
2,s3,TV Show,Ganglands,Julien Leclercq,"Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabi...",,"September 24, 2021",2021,TV-MA,,"Crime TV Shows, International TV Shows, TV Act...",To protect his family from a powerful drug lor...
3,s4,TV Show,Jailbirds New Orleans,,,,"September 24, 2021",2021,TV-MA,,"Docuseries, Reality TV","Feuds, flirtations and toilet talk go down amo..."
4,s5,TV Show,Kota Factory,,"Mayur More, Jitendra Kumar, Ranjan Raj, Alam K...",India,"September 24, 2021",2021,TV-MA,2 Seasons,"International TV Shows, Romantic TV Shows, TV ...",In a city of coaching centers known to train I...


**EDA Títulos**

In [3]:
netflix_titulos.shape

(8807, 12)

In [4]:
netflix_titulos.info()

<class 'pandas.core.frame.DataFrame'>
Index: 8807 entries, 0 to 8806
Data columns (total 12 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   show_id       8807 non-null   object
 1   type          8807 non-null   object
 2   title         8807 non-null   object
 3   director      6173 non-null   object
 4   cast          7982 non-null   object
 5   country       7976 non-null   object
 6   date_added    8797 non-null   object
 7   release_year  8807 non-null   int64 
 8   rating        8803 non-null   object
 9   duration      3994 non-null   object
 10  listed_in     8807 non-null   object
 11  description   8807 non-null   object
dtypes: int64(1), object(11)
memory usage: 894.5+ KB


*Duplicados:*

In [5]:
netflix_titulos.duplicated().sum()

np.int64(0)

*Valores únicos datos object*

In [6]:
for columns in netflix_titulos.select_dtypes("O").columns:
    print(columns)
    print(netflix_titulos[columns].unique())                          #Los nulos en pandas aparecen como nan y habrá que limpiarlos
    print(f"----------------------------\n")  

show_id
['s1' 's2' 's3' ... 's8805' 's8806' 's8807']
----------------------------

type
['Movie' 'TV Show']
----------------------------

title
['Dick Johnson Is Dead' 'Blood & Water' 'Ganglands' ... 'Zombieland'
 'Zoom' 'Zubaan']
----------------------------

director
['Kirsten Johnson' nan 'Julien Leclercq' ... 'Majid Al Ansari'
 'Peter Hewitt' 'Mozez Singh']
----------------------------

cast
[nan
 'Ama Qamata, Khosi Ngema, Gail Mabalane, Thabang Molaba, Dillon Windvogel, Natasha Thahane, Arno Greeff, Xolile Tshabalala, Getmore Sithole, Cindy Mahlangu, Ryle De Morny, Greteli Fincham, Sello Maake Ka-Ncube, Odwa Gwanya, Mekaila Mathys, Sandi Schultz, Duane Williams, Shamilla Miller, Patrick Mofokeng'
 'Sami Bouajila, Tracy Gotoas, Samuel Jouy, Nabiha Akkari, Sofia Lesaffre, Salim Kechiouche, Noureddine Farihi, Geert Van Rampelberg, Bakary Diombera'
 ...
 'Jesse Eisenberg, Woody Harrelson, Emma Stone, Abigail Breslin, Amber Heard, Bill Murray, Derek Graf'
 'Tim Allen, Courteney Cox, Ch

*Valores únicos dato numérico*

In [7]:
for columns in netflix_titulos.select_dtypes(np.number).columns:
    print(columns)
    print(netflix_titulos[columns].unique())                          #Los nulos en pandas aparecen como nan y habrá que limpiarlos
    print(f"----------------------------\n")  

release_year
[2020 2021 1993 2018 1996 1998 1997 2010 2013 2017 1975 1978 1983 1987
 2012 2001 2014 2002 2003 2004 2011 2008 2009 2007 2005 2006 1994 2015
 2019 2016 1982 1989 1990 1991 1999 1986 1992 1984 1980 1961 2000 1995
 1985 1976 1959 1988 1981 1972 1964 1945 1954 1979 1958 1956 1963 1970
 1973 1925 1974 1960 1966 1971 1962 1969 1977 1967 1968 1965 1946 1942
 1955 1944 1947 1943]
----------------------------



In [8]:
netflix_titulos["rating"]

0       PG-13
1       TV-MA
2       TV-MA
3       TV-MA
4       TV-MA
        ...  
8802        R
8803    TV-Y7
8804        R
8805       PG
8806    TV-14
Name: rating, Length: 8807, dtype: object

In [9]:
netflix_titulos["duration"]

0          90 min
1       2 Seasons
2             NaN
3             NaN
4       2 Seasons
          ...    
8802      158 min
8803    2 Seasons
8804          NaN
8805          NaN
8806      111 min
Name: duration, Length: 8807, dtype: object

In [10]:
netflix_titulos.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
release_year,8807.0,2014.180198,8.819312,1925.0,2013.0,2017.0,2019.0,2021.0


In [11]:
for columns in netflix_titulos.select_dtypes("object").columns:       #Para seleccionar un tipo concreto de dato objects o O para objects, np.number para float e int
    print(columns)
    print(netflix_titulos[columns].value_counts())                          #No salen los nulos en value counts. Y nos da los values de cada tipo dentro de cada columna 
    print(f"----------------------------\n") 

show_id
show_id
s8807    1
s1       1
s2       1
s3       1
s4       1
        ..
s12      1
s11      1
s10      1
s9       1
s8       1
Name: count, Length: 8807, dtype: int64
----------------------------

type
type
Movie      6131
TV Show    2676
Name: count, dtype: int64
----------------------------

title
title
Zubaan                                 1
Dick Johnson Is Dead                   1
Blood & Water                          1
Ganglands                              1
Jailbirds New Orleans                  1
                                      ..
Bangkok Breaking                       1
Vendetta: Truth, Lies and The Mafia    1
The Starling                           1
The Great British Baking Show          1
Sankofa                                1
Name: count, Length: 8807, dtype: int64
----------------------------

director
director
Rajiv Chilaka              19
Raúl Campos, Jan Suter     18
Suhas Kadav                16
Marcus Raboy               16
Jay Karas               

*Valores nulos*


In [12]:
np.round(netflix_titulos.isnull().sum()  / netflix_titulos.shape[0]  *100, 2)  

show_id          0.00
type             0.00
title            0.00
director        29.91
cast             9.37
country          9.44
date_added       0.11
release_year     0.00
rating           0.05
duration        54.65
listed_in        0.00
description      0.00
dtype: float64

**Abrir archivo Netflix Originales**

***Detalles de los que me voy percatando en Netflix_originals.csv*** 
- Se conforma de un archivo con 6 columnas y 513 filas.

*Tipo de datos:*

- Cuenta con 4 columnas que contienen datos de tipo object una columna con datos tipo float (IMDB Score) y una columna con datos de tipo int (runtime).


*Datos de interés:*

- IMDB SCORE necesitaríamos que de nuevo nos explicaran lo que implica cada evaluación (aunque es más intuitiva que la del otro archivo). Ya que se observa que el valor de evaluación mínimo es de 2,5 mientras qu ele máximo en esa escala es 9 (lo que no quiere decir que el 9 sea bueno y el 2,5 malo por eso hay que preguntar) su media es de 6.21 y la mediana un 6,3 lo que implica que se distribuyen las valoraciones más o menos equitativamente (sin valores atípicos)

- RUNTIME cuenta con una media de 94,67 de lo que se interpreta que podrían ser minutos con un valor minimo y máximo de 4 y 209 respectivamente y debido a que su mediana es 97, se podría decir que se tiende muy levemente (si lo interpretamos como duración en minutos) a una mayor duración de los títulos.

- GENRE nos permite observar cómo entre los títulos originales de Netflix destacan tanto el género Documentary con 132 títulos como Drama con 73 títulos. Por otro lado, los géneros con menos producciones entre otros son: Animation / Science Fiction, Anthology/Dark comedy, y 
Animation/Christmas/Comedy/Adventure  con una única producción cada uno.

- LANGUAGE nos muestra que el lenguaje con un mayor número de títulos es el inglés con 352 títulos por una amplia diferencia con el segundo idioma con más títulos en ese idioma que es el Indio con 28 títulos. Por otro lado, las opciones de idioma incluidas en menos títulos son por lo general aquellas que incluyen más de un idioma lo que puede estar relacionado con los costes para Netflix ya que por un lado, tener que traducir los títulos es un sobrecoste a la vez que también es mucho más fácil encontarr traductores de los idiomas más hablados del mundo que casualmente son los que agrupan la mayor parte de títulos.



*Valores nulos y duplicados:*

- No hay valores nulos en este archivo

- No hay filas duplicadas en este archivo

In [13]:
netflix_originales= pd.read_csv(r"datos\netflix_originals.csv", index_col= 0)
netflix_originales.head()


Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi


In [14]:
netflix_originales.shape

(513, 6)

In [15]:
netflix_originales.info()

<class 'pandas.core.frame.DataFrame'>
Index: 513 entries, 0 to 583
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Title       513 non-null    object 
 1   Genre       513 non-null    object 
 2   Premiere    513 non-null    object 
 3   Runtime     513 non-null    int64  
 4   IMDB Score  513 non-null    float64
 5   Language    513 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 28.1+ KB


In [16]:
netflix_originales["IMDB Score"]

0      2.5
1      2.6
2      2.6
3      3.2
4      3.4
      ... 
576    8.3
577    8.3
580    8.4
581    8.5
583    9.0
Name: IMDB Score, Length: 513, dtype: float64

*Duplicados:*

In [17]:
netflix_originales.duplicated().sum()

np.int64(0)

*Valores únicos datos object*

In [18]:
for columns in netflix_originales.select_dtypes("O").columns:
    print(columns)
    print(netflix_originales[columns].unique())                          #Los nulos en pandas aparecen como nan y habrá que limpiarlos
    print(f"----------------------------\n")

Title
['Enter the Anime' 'Dark Forces' 'The App' 'The Open House' 'Kaali Khuhi'
 'Drive' 'Leyla Everlasting' 'The Last Days of American Crime' 'Paradox'
 'Sardar Ka Grandson' 'The Call' 'Whipped' 'All Because of You' 'Mercy'
 'After the Raid' 'Ghost Stories' 'The Last Thing He Wanted'
 'What Happened to Mr. Cha?' 'Death Note' 'Secret Obsession' 'Sextuplets'
 'The Girl on the Train' 'Thunder Force' 'Fatal Affair' 'Just Say Yes'
 'Seriously Single' 'The Misadventures of Hedi and Cokeman'
 '5 Star Christmas' 'After Maria'
 'I Am the Pretty Thing That Lives in the House' 'Paris Is Us'
 'Rattlesnake' 'The Players' 'We Are One' 'Finding Agnes' 'IO'
 'Sentinelle' 'Sol Levante' 'The Binding' 'We Can Be Heroes'
 'Christmas Crossfire' 'Coin Heist' 'Mrs. Serial Killer'
 'Nobody Sleeps in the Woods Tonight' 'Take the 10' 'The Main Event'
 'The Ridiculous 6' 'Earth and Blood' 'Fearless' 'Holiday Rush'
 'The Day of the Lord' 'Airplane Mode' 'How It Ends'
 'Love Like the Falling Rain' 'Rebirth' 'Squa

*Valores únicos dato numérico*

In [19]:
for columns in netflix_originales.select_dtypes(np.number).columns:
    print(columns)
    print(netflix_originales[columns].unique())                          #Los nulos en pandas aparecen como nan y habrá que limpiarlos
    print(f"----------------------------\n")  

Runtime
[ 58  81  79  94  90 147 112 149  73 139  97 101  25 144 115 102 100  99
 120 105  89 107  95  37  83  85  88  86  80   4  93 106 103 119  96 113
 104  10 117  70  98 131  87 116  92 121  78 114  56  21  63 126 142 108
 125  91  49 118  34 124  52 111  75 148  53 132 123 122 128  82  84  42
 151  72  30 129 134  16  28  74  60   9 155  55  40 136 130  32  19  76
  39   7  17 109  64  31  48  27  45  47 110  41 140  11  24  15  26  23
  71  12 209  51 153]
----------------------------

IMDB Score
[2.5 2.6 3.2 3.4 3.5 3.7 3.9 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.  5.1
 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9
 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.1 8.2 8.3 8.4 8.5 9. ]
----------------------------



In [20]:
netflix_originales.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0


In [21]:
len(netflix_originales['Genre'].unique())

106

In [22]:
for columns in netflix_originales.select_dtypes("object").columns:       #Para seleccionar un tipo concreto de dato objects o O para objects, np.number para float e int
    print(columns)
    print(netflix_originales[columns].value_counts())                          #No salen los nulos en value counts. Y nos da los values de cada tipo dentro de cada columna 
    print(f"----------------------------\n") 

Title
Title
David Attenborough: A Life on Our Planet    1
The Irishman                                1
If Anything Happens I Love You              1
Crip Camp: A Disability Revolution          1
Beasts of No Nation                         1
                                           ..
Drive                                       1
Kaali Khuhi                                 1
The Open House                              1
The App                                     1
Dark Forces                                 1
Name: count, Length: 513, dtype: int64
----------------------------

Genre
Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Antho

*Valores nulos*


In [23]:
np.round(netflix_originales.isnull().sum()  / netflix_originales.shape[0]  *100, 2)

Title         0.0
Genre         0.0
Premiere      0.0
Runtime       0.0
IMDB Score    0.0
Language      0.0
dtype: float64

***UNIÓN DE LOS 2 ARCHIVOS***

*Me he decantado finalmente por esta opción ya que así dispongo de un DtaFrame de los títulos originales pero ampliado con los datos que son coincidentes en ambos archivos con el fin de responder a las preguntas que se nos plantean*


***Detalles de los que me voy percatando en Netflix_concat*** 
- Se conforma de un archivo con 18 columnas y 513 filas.

*Tipo de datos:*

- Cuenta con 15 columnas que contienen datos de tipo object 1 columna con datos tipo float (IMDB Score) y 2 columna con datos de tipo int (runtime y release_year).


*Datos de interés:*


- RELEASE_YEAR  ahora el valor mínimo es el año 1959. Tiene sentido que ahora se trate de un año más avanzado.

- DURATION y RUNTIME ya que ambas reflejan la duración y que una tienen valores nulos y otra no (Usaremos RUNTIME ya que es la completa).

- LOS 2 TITLE es indifirente cual usar porque son iguales

- GENRE y LISTED_IN se coge Listed in porque dado q en ninguna hay nulos listed in cuenta con 165 categorías frente a las 106 de Genre


- RELEASE YEAR y PREMIER una es int y la otra object usaremos la que mejor nos venga

*Valores nulos y duplicados:*

- Como resultado del mergeo aumentaron los valores nulos principalmente en country que pasó de 9% a 31% respecto al total y en menor medida en director, cast, duration. 

- Por otro lado rating y date_added ahora ya no cuentan con valores nulos

- No hay filas duplicadas en este archivo

In [24]:
netflix_concat= netflix_originales.merge(netflix_titulos, right_on= "title", left_on= "Title", how = "inner" )
netflix_concat

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,s3624,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...
1,Dark Forces,Thriller,"August 21, 2020",81,2.6,Spanish,s2105,Movie,Dark Forces,Bernardo Arellano,"Tenoch Huerta, Eréndira Ibarra, Dale Carley, A...",Mexico,"August 21, 2020",2020,TV-MA,81 min,"Horror Movies, Independent Movies, Internation...","In search of his sister, a renegade criminal s..."
2,The App,Science fiction/Drama,"December 26, 2019",79,2.6,Italian,s3095,Movie,The App,Elisa Fuksas,"Vincenzo Crea, Jessica Cressy, Greta Scarano, ...",Italy,"December 26, 2019",2019,TV-MA,79 min,"Dramas, Independent Movies, International Movies","While in Rome to shoot his first movie, actor ..."
3,The Open House,Horror thriller,"January 19, 2018",94,3.2,English,s5074,Movie,The Open House,"Matt Angel, Suzanne Coote","Dylan Minnette, Piercey Dalton, Patricia Bethu...","Canada, United States","January 19, 2018",2018,TV-MA,,"Horror Movies, Thrillers","Following a tragedy, a mother and her teen son..."
4,Kaali Khuhi,Mystery,"October 30, 2020",90,3.4,Hindi,s1778,Movie,Kaali Khuhi,Terrie Samundra,"Shabana Azmi, Leela Samson, Sanjeeda Sheikh, S...",India,"October 30, 2020",2020,TV-14,,"Horror Movies, International Movies",When a restless spirit curses a village that h...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
508,Cuba and the Cameraman,Documentary,"November 24, 2017",114,8.3,English,s5153,Movie,Cuba and the Cameraman,Jon Alpert,,United States,"November 24, 2017",2017,TV-14,,Documentaries,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,Documentary,"October 23, 2019",51,8.3,English,s3387,Movie,Dancing with the Birds,Huw Cordey,Stephen Fry,United States,"October 23, 2019",2019,TV-PG,52 min,Documentaries,From ruffling their majestic feathers to naili...
510,Winter on Fire: Ukraine's Fight for Freedom,Documentary,"October 9, 2015",91,8.4,English/Ukranian/Russian,s5894,Movie,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky,,"United Kingdom, Ukraine, United States","October 9, 2015",2015,TV-MA,,"Documentaries, International Movies","Over 93 days in Ukraine, what started as peace..."
511,Springsteen on Broadway,One-man show,"December 16, 2018",153,8.5,English,s4294,Movie,Springsteen on Broadway,Thom Zimny,Bruce Springsteen,United States,"December 16, 2018",2018,TV-MA,153 min,Music & Musicals,Bruce Springsteen shares personal stories from...


In [25]:
netflix_concat.shape

(513, 18)

In [26]:
netflix_concat.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 513 entries, 0 to 512
Data columns (total 18 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Title         513 non-null    object 
 1   Genre         513 non-null    object 
 2   Premiere      513 non-null    object 
 3   Runtime       513 non-null    int64  
 4   IMDB Score    513 non-null    float64
 5   Language      513 non-null    object 
 6   show_id       513 non-null    object 
 7   type          513 non-null    object 
 8   title         513 non-null    object 
 9   director      491 non-null    object 
 10  cast          422 non-null    object 
 11  country       499 non-null    object 
 12  date_added    513 non-null    object 
 13  release_year  513 non-null    int64  
 14  rating        513 non-null    object 
 15  duration      276 non-null    object 
 16  listed_in     513 non-null    object 
 17  description   513 non-null    object 
dtypes: float64(1), int64(2), objec

*Duplicados:*

In [27]:
netflix_concat.duplicated().sum()

np.int64(0)

*Valores únicos datos object*

In [28]:
for columns in netflix_concat.select_dtypes("O").columns:
    print(columns)
    print(netflix_concat[columns].unique())                          #Los nulos en pandas aparecen como nan y habrá que limpiarlos
    print(f"----------------------------\n") 

Title
['Enter the Anime' 'Dark Forces' 'The App' 'The Open House' 'Kaali Khuhi'
 'Drive' 'Leyla Everlasting' 'The Last Days of American Crime' 'Paradox'
 'Sardar Ka Grandson' 'The Call' 'Whipped' 'All Because of You' 'Mercy'
 'After the Raid' 'Ghost Stories' 'The Last Thing He Wanted'
 'What Happened to Mr. Cha?' 'Death Note' 'Secret Obsession' 'Sextuplets'
 'The Girl on the Train' 'Thunder Force' 'Fatal Affair' 'Just Say Yes'
 'Seriously Single' 'The Misadventures of Hedi and Cokeman'
 '5 Star Christmas' 'After Maria'
 'I Am the Pretty Thing That Lives in the House' 'Paris Is Us'
 'Rattlesnake' 'The Players' 'We Are One' 'Finding Agnes' 'IO'
 'Sentinelle' 'Sol Levante' 'The Binding' 'We Can Be Heroes'
 'Christmas Crossfire' 'Coin Heist' 'Mrs. Serial Killer'
 'Nobody Sleeps in the Woods Tonight' 'Take the 10' 'The Main Event'
 'The Ridiculous 6' 'Earth and Blood' 'Fearless' 'Holiday Rush'
 'The Day of the Lord' 'Airplane Mode' 'How It Ends'
 'Love Like the Falling Rain' 'Rebirth' 'Squa

In [29]:
print(len(netflix_concat["Genre"].unique())) 
print(len(netflix_concat["listed_in"].unique())) 

106
103


In [30]:
for columns in netflix_concat.select_dtypes(np.number).columns:
    print(columns)
    print(netflix_concat[columns].unique())                          #Los nulos en pandas aparecen como nan y habrá que limpiarlos
    print(f"----------------------------\n")  

Runtime
[ 58  81  79  94  90 147 112 149  73 139  97 101  25 144 115 102 100  99
 120 105  89 107  95  37  83  85  88  86  80   4  93 106 103 119  96 113
 104  10 117  70  98 131  87 116  92 121  78 114  56  21  63 126 142 108
 125  91  49 118  34 124  52 111  75 148  53 132 123 122 128  82  84  42
 151  72  30 129 134  16  28  74  60   9 155  55  40 136 130  32  19  76
  39   7  17 109  64  31  48  27  45  47 110  41 140  11  24  15  26  23
  71  12 209  51 153]
----------------------------

IMDB Score
[2.5 2.6 3.2 3.4 3.5 3.7 3.9 4.1 4.2 4.3 4.4 4.5 4.6 4.7 4.8 4.9 5.  5.1
 5.2 5.3 5.4 5.5 5.6 5.7 5.8 5.9 6.  6.1 6.2 6.3 6.4 6.5 6.6 6.7 6.8 6.9
 7.  7.1 7.2 7.3 7.4 7.5 7.6 7.7 7.8 7.9 8.1 8.2 8.3 8.4 8.5 9. ]
----------------------------

release_year
[2019 2020 2018 2021 2016 2017 2015 2014]
----------------------------



In [31]:
netflix_concat.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Runtime,513.0,94.674464,26.648121,4.0,87.0,97.0,108.0,209.0
IMDB Score,513.0,6.210916,0.96885,2.5,5.6,6.3,6.9,9.0
release_year,513.0,2018.888889,1.510812,2014.0,2018.0,2019.0,2020.0,2021.0


In [32]:
for columns in netflix_concat.select_dtypes("object").columns:       #Para seleccionar un tipo concreto de dato objects o O para objects, np.number para float e int
    print(columns)
    print(netflix_concat[columns].value_counts())                          #No salen los nulos en value counts. Y nos da los values de cada tipo dentro de cada columna 
    print(f"----------------------------\n") 

Title
Title
David Attenborough: A Life on Our Planet    1
The Irishman                                1
If Anything Happens I Love You              1
Crip Camp: A Disability Revolution          1
Beasts of No Nation                         1
                                           ..
Drive                                       1
Kaali Khuhi                                 1
The Open House                              1
The App                                     1
Dark Forces                                 1
Name: count, Length: 513, dtype: int64
----------------------------

Genre
Genre
Documentary                             132
Drama                                    73
Comedy                                   42
Romantic comedy                          35
Thriller                                 33
                                       ... 
Action-adventure                          1
Concert Film                              1
Animation / Science Fiction               1
Antho

In [33]:
np.round(netflix_concat.isnull().sum()  / netflix_concat.shape[0]  *100, 2)  

Title            0.00
Genre            0.00
Premiere         0.00
Runtime          0.00
IMDB Score       0.00
Language         0.00
show_id          0.00
type             0.00
title            0.00
director         4.29
cast            17.74
country          2.73
date_added       0.00
release_year     0.00
rating           0.00
duration        46.20
listed_in        0.00
description      0.00
dtype: float64

- ¿Cuántos títulos en `netflix_titles.csv` son producciones originales de Netflix?

*La justificación es que debido a la elección de mergeo y que no había duplicados ni en las de origen ni en la mergeada, se ha comprobado que el número de títulos del archivo netflix_titles.csv  que son originales de Netflix (513) coincide con el número de títulos originales de netflix en el archivo netflix_originals.csv. Esto es lo que se ha comprobado dado el hecho de que no ha cambiado el número de filas en el archivo ya mergeado.*


1. **Filtrado de datos con `loc`:**

   - Selecciona todas las filas donde el tipo de contenido sea “Movie”.

   - Muestra solo los títulos (title) y la duración (duration) de todos los contenidos que sean de tipo “TV Show”.

   - Selecciona todas las filas donde el país sea “United States”.

   - Muestra todas las películas (type = “Movie”) y selecciona las columnas title y director.

   - Selecciona los títulos (title) y géneros (listed_in) de todas las producciones lanzadas en 2018.

   - Selecciona las filas donde la columna director esté vacía y muestra solo los títulos (title).

2. **Acceso a datos específicos con `iloc`:**

   - Selecciona las primeras 5 filas del conjunto de datos y muestra solo las columnas title, director y country.

   - Muestra las últimas 5 filas del conjunto de datos y selecciona las columnas title y description.

   - Selecciona las primeras 10 filas del dataset y muestra las columnas desde la segunda hasta la quinta (incluidas). 

   - Muestra las últimas 7 filas del dataset y selecciona las columnas title, director, y country usando índices posicionales.

   - Selecciona las filas desde la 15 hasta la 25 (incluidas) y muestra las primeras 4 columnas.

   - Muestra las filas 20 a 30 y solo las columnas title, release_year, y rating usando índices posicionales.


**NOTA IMPORTANTE**: Antes de terminar el lab, guarda el conjunto de datos creado en la fase de unión para trabajar con el en las siguientes lecciones. 

In [45]:
filtro= netflix_concat["type"] == "Movie"

In [46]:
netflix_concat.loc[filtro, "type"]  #Todas son movie porq son los originales

0      Movie
1      Movie
2      Movie
3      Movie
4      Movie
       ...  
508    Movie
509    Movie
510    Movie
511    Movie
512    Movie
Name: type, Length: 513, dtype: object

In [47]:
filtro= netflix_concat["type"] == "TV Show"

In [48]:
netflix_concat.loc[filtro, ["title", "duration"]] 

Unnamed: 0,title,duration


In [None]:
filtro= netflix_concat["country"] == "United States"

In [50]:
netflix_concat.loc[filtro, "country"] 

Series([], Name: country, dtype: object)

In [51]:
filtro= netflix_concat["type"] == "Movie"

In [52]:
netflix_concat.loc[filtro, ["title", "director"]] 

Unnamed: 0,title,director
0,Enter the Anime,Alex Burunova
1,Dark Forces,Bernardo Arellano
2,The App,Elisa Fuksas
3,The Open House,"Matt Angel, Suzanne Coote"
4,Kaali Khuhi,Terrie Samundra
...,...,...
508,Cuba and the Cameraman,Jon Alpert
509,Dancing with the Birds,Huw Cordey
510,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky
511,Springsteen on Broadway,Thom Zimny


In [55]:
filtro= netflix_concat["release_year"] == 2018

In [57]:
netflix_concat.loc[filtro, ["title", "listed_in", "release_year"]]

Unnamed: 0,title,listed_in,release_year
3,The Open House,"Horror Movies, Thrillers",2018
8,Paradox,"Dramas, Independent Movies, Music & Musicals",2018
27,5 Star Christmas,"Comedies, International Movies",2018
52,How It Ends,"Action & Adventure, Sci-Fi & Fantasy",2018
59,Dude,"Comedies, Dramas, Independent Movies",2018
...,...,...,...
478,City of Joy,Documentaries,2018
482,Reversing Roe,Documentaries,2018
486,Quincy,"Documentaries, Music & Musicals",2018
488,The Bleeding Edge,Documentaries,2018


In [59]:
filtro= netflix_concat["director"] == ""

In [61]:
netflix_concat.loc[filtro, "title"]

Series([], Name: title, dtype: object)

**iloc**

In [62]:
netflix_concat.head(1)

Unnamed: 0,Title,Genre,Premiere,Runtime,IMDB Score,Language,show_id,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
0,Enter the Anime,Documentary,"August 5, 2019",58,2.5,English/Japanese,s3624,Movie,Enter the Anime,Alex Burunova,"Kozo Morishita, Yoko Takahashi, Shinji Aramaki...","United States, Japan","August 5, 2019",2019,TV-MA,59 min,"Documentaries, International Movies",What is anime? Through deep-dives with notable...


In [80]:
netflix_concat.iloc[:6, [8,9,11]]

Unnamed: 0,title,director,country
0,Enter the Anime,Alex Burunova,"United States, Japan"
1,Dark Forces,Bernardo Arellano,Mexico
2,The App,Elisa Fuksas,Italy
3,The Open House,"Matt Angel, Suzanne Coote","Canada, United States"
4,Kaali Khuhi,Terrie Samundra,India
5,Drive,Tarun Mansukhani,India


In [83]:
netflix_concat.iloc[-5:, [8,17]]

Unnamed: 0,title,description
508,Cuba and the Cameraman,Emmy-winning filmmaker Jon Alpert chronicles t...
509,Dancing with the Birds,From ruffling their majestic feathers to naili...
510,Winter on Fire: Ukraine's Fight for Freedom,"Over 93 days in Ukraine, what started as peace..."
511,Springsteen on Broadway,Bruce Springsteen shares personal stories from...
512,David Attenborough: A Life on Our Planet,"A broadcaster recounts his life, and the evolu..."


In [85]:
netflix_concat.iloc[:10, 2:6]

Unnamed: 0,Premiere,Runtime,IMDB Score,Language
0,"August 5, 2019",58,2.5,English/Japanese
1,"August 21, 2020",81,2.6,Spanish
2,"December 26, 2019",79,2.6,Italian
3,"January 19, 2018",94,3.2,English
4,"October 30, 2020",90,3.4,Hindi
5,"November 1, 2019",147,3.5,Hindi
6,"December 4, 2020",112,3.7,Turkish
7,"June 5, 2020",149,3.7,English
8,"March 23, 2018",73,3.9,English
9,"May 18, 2021",139,4.1,Hindi


In [86]:
netflix_concat.iloc[-7:, [8,9,11]]

Unnamed: 0,title,director,country
506,Seaspiracy,Ali Tabrizi,United States
507,The Three Deaths of Marisela Escobedo,Carlos Pérez Osorio,Mexico
508,Cuba and the Cameraman,Jon Alpert,United States
509,Dancing with the Birds,Huw Cordey,United States
510,Winter on Fire: Ukraine's Fight for Freedom,Evgeny Afineevsky,"United Kingdom, Ukraine, United States"
511,Springsteen on Broadway,Thom Zimny,United States
512,David Attenborough: A Life on Our Planet,"Alastair Fothergill, Jonnie Hughes, Keith Scholey","United States, United Kingdom"


In [89]:
netflix_concat.iloc[15:26, :4]

Unnamed: 0,Title,Genre,Premiere,Runtime
15,Ghost Stories,Horror anthology,"January 1, 2020",144
16,The Last Thing He Wanted,Political thriller,"February 21, 2020",115
17,What Happened to Mr. Cha?,Comedy,"January 1, 2021",102
18,Death Note,Horror thriller,"August 25, 2017",100
19,Secret Obsession,Thriller,"July 18, 2019",97
20,Sextuplets,Comedy,"August 16, 2019",99
21,The Girl on the Train,Thriller,"February 26, 2021",120
22,Thunder Force,Superhero-Comedy,"April 9, 2021",105
23,Fatal Affair,Thriller,"July 16, 2020",89
24,Just Say Yes,Romantic comedy,"April 2, 2021",97


In [90]:
netflix_concat.iloc[20:30, [8,13,14]]

Unnamed: 0,title,release_year,rating
20,Sextuplets,2019,TV-14
21,The Girl on the Train,2021,TV-MA
22,Thunder Force,2021,PG-13
23,Fatal Affair,2020,TV-14
24,Just Say Yes,2021,TV-MA
25,Seriously Single,2020,TV-MA
26,The Misadventures of Hedi and Cokeman,2021,TV-MA
27,5 Star Christmas,2018,TV-14
28,After Maria,2019,TV-PG
29,I Am the Pretty Thing That Lives in the House,2016,TV-14


In [92]:
netflix_concat.to_csv("datos/netflix_concat.csv") 