<div style="text-align: center;">
  <img src="https://github.com/Hack-io-Data/Imagenes/blob/main/01-LogosHackio/logo_naranja@4x.png?raw=true" alt="esquema" />
</div>

# Laboratorio Agrupamiento de Datos

En este laboratorio usaremos el DataFrame creado en la lección anterior resultado de la unión de los conjuntos de datos compartidos contigo. 

**Instrucciones:**

1. Lee cuidadosamente el enunciado de cada ejercicio.

2. Implementa la solución en la celda de código proporcionada.

3. Devuelve los resultados siempre en formato de DataFrame

In [118]:
import pandas as pd
import numpy as np

pd.set_option('display.max_columns', None) # para poder visualizar todas las columnas de los DataFrames

In [119]:
# Carga el dataset de trabajo

df = pd.read_csv('combined_netflix.csv')
df.drop('Unnamed: 0', axis = 1, inplace = True)

In [120]:
df.sample()

Unnamed: 0,Genre,Runtime,IMDB Score,Language,type,title,director,cast,country,date_added,release_year,rating,duration,listed_in,description
1505,,,,,TV Show,Rhyme Time Town Singalongs,,"Luke Amis, Annabelle Westenholz-Smith, Maddie ...",United States,"December 22, 2020",2020,TV-Y,,Kids' TV,"Love snackable, snap-worthy songs? Sing along ..."


#### Ejercicio 1: ¿Cuántos títulos hay por cada tipo de contenido ('Movie' o 'TV Show')?

In [13]:
df.groupby('type').count().T.sum()

type
Movie      59629
TV Show    21376
dtype: int64

#### Ejercicio 2: ¿Cuál es el promedio de puntuación de las películas agrupadas por clasificación de audiencia ('rating')? Interpreta los resultados, ¿hay algo que te llame la atención? Explica por qué. 

In [19]:
df.groupby('rating')['IMDB Score'].mean()

rating
66 min           NaN
74 min           NaN
84 min           NaN
G           6.500000
NC-17            NaN
NR               NaN
PG          6.800000
PG-13       6.386957
R           6.495745
TV-14       6.177660
TV-G        6.156250
TV-MA       6.097638
TV-PG       6.308772
TV-Y        6.780000
TV-Y7       6.240000
TV-Y7-FV         NaN
UR               NaN
Name: IMDB Score, dtype: float64

Existen 'rating' que tienen formato de duración, por lo que no tienen sentido. Además, algunas de las categorías tienen un promedio de NaN, por lo que procedemos a limpiar los valores nulos.

In [123]:
filtro = (df['IMDB Score'].isna() == False)
df_scored = df[filtro]

In [124]:
df_scored.groupby('rating')['IMDB Score'].mean()

rating
G        6.500000
PG       6.800000
PG-13    6.386957
R        6.495745
TV-14    6.177660
TV-G     6.156250
TV-MA    6.097638
TV-PG    6.308772
TV-Y     6.780000
TV-Y7    6.240000
Name: IMDB Score, dtype: float64

Ahora vemos que las puntuaciones tienen sentido y son bastante homogéneas

#### Ejercicio 3: ¿Cuántos títulos hay por cada país? Ordena los resultados de mayor a menor

In [125]:
df.groupby('country')['title'].count().sort_values(ascending=False)

country
United States                                                                          2818
India                                                                                   972
United Kingdom                                                                          419
Japan                                                                                   245
South Korea                                                                             199
                                                                                       ... 
Ireland, Canada, Luxembourg, United States, United Kingdom, Philippines, India            1
Ireland, Canada, United Kingdom, United States                                            1
Ireland, Canada, United States, United Kingdom                                            1
Ireland, France, Iceland, United States, Mexico, Belgium, United Kingdom, Hong Kong       1
Zimbabwe                                                                

#### Ejercicio 4: ¿Cuál es la calificación promedio en IMDb de los títulos agrupados por tipo ('Movie' o 'TV Show')?

In [126]:
df.groupby('type')['IMDB Score'].mean()

type
Movie      6.210916
TV Show         NaN
Name: IMDB Score, dtype: float64

In [52]:
# Vamos a probar a limpiar los nulos
filtro_score = (df['IMDB Score'].isna() == False)
# Vemos que efectivamente no hay nulos
df[filtro_score].groupby('type')['IMDB Score'].mean()

type
Movie    6.210916
Name: IMDB Score, dtype: float64

El promedio de Movies es 6.210916

In [56]:
# Vemos que en TV Show solo hay nulos
df[df['type'] == 'TV Show']['IMDB Score'].info()

<class 'pandas.core.series.Series'>
Index: 2676 entries, 1 to 8803
Series name: IMDB Score
Non-Null Count  Dtype  
--------------  -----  
0 non-null      float64
dtypes: float64(1)
memory usage: 41.8 KB


#### Ejercicio 5: ¿Cuántos títulos se añadieron a Netflix cada año? Para resolver este ejercicio tendrás que convertir la columna `date_added` a formato fecha usando el método `pd.to_datetime`. [Aquí](https://pandas.pydata.org/docs/reference/api/pandas.to_datetime.html) tienes la documentación, leeala con detenimiento antes de usar el método. 

In [66]:
# Añadimos .strip() para eliminar espacios que dan problemas
df['date_added'] = pd.to_datetime(df['date_added'].str.strip(), format='%B %d, %Y')

In [73]:
df.groupby(df['date_added'].dt.year)['title'].count()

date_added
2008.0       2
2009.0       2
2010.0       1
2011.0      13
2012.0       3
2013.0      11
2014.0      24
2015.0      82
2016.0     429
2017.0    1188
2018.0    1649
2019.0    2016
2020.0    1879
2021.0    1498
Name: title, dtype: int64

#### Ejercicio 6: ¿Cuál es el país con más títulos lanzados en el año 2020? Para resolver este ejercicio después del gropuby os puede resultar interesante el método [`idxmax`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.idxmax.html)

In [84]:
# Filtramos los datos por solo 200 y contamos la cantidad de títulos agrupado por países
# Hacemos .idxmax() para obtener el país del máximo
df[df['release_year'] == 2020].groupby('country')['title'].count().idxmax()

'United States'

#### Ejercicio 7:¿Cuál es el promedio de puntuación en IMDb de los títulos agrupados por país?

In [96]:
# Voy a usar el dataframe con los datos filtrados por países
df_scored.groupby('country')['IMDB Score'].mean()

country
Argentina                                 6.420000
Australia, United States                  7.600000
Austria                                   6.850000
Belgium, Netherlands                      7.100000
Belgium, United Kingdom, United States    5.300000
                                            ...   
United States, Mexico                     5.666667
United States, United Kingdom             8.200000
United States, United Kingdom, Canada     6.700000
United States, United Kingdom, Germany    6.600000
United States, United Kingdom, India      7.800000
Name: IMDB Score, Length: 81, dtype: float64

#### Ejercicio 8: ¿Cuántos títulos fueron lanzados en cada año agrupados por tipo ('Movie' o 'TV Show')?

In [98]:
# Agrupamos primero por tipo y luego por año de lanzamiento, contamos los títulos
df.groupby(['type', 'release_year'])['title'].count()

type     release_year
Movie    1942              2
         1943              3
         1944              3
         1945              3
         1946              1
                        ... 
TV Show  2017            265
         2018            380
         2019            397
         2020            436
         2021            315
Name: title, Length: 119, dtype: int64

#### Ejercicio 9: ¿Cuál es el país con la mayor cantidad de títulos de clasificación 'TV-MA'?

In [100]:
# Filtramos los datos a TV-MA, agrupamos por país y contamos los títulos
# Hacemos .idxmax() para obtener el país del máximo
df[df['rating'] == 'TV-MA'].groupby('country')['title'].count().idxmax()

'United States'

#### Ejercicio 10. ¿Cuál es el promedio de duración de las películas agrupadas por país?

In [108]:
# Aprovechamos el dataframe con la puntuación filtrada
df_scored.groupby('country')['IMDB Score'].mean()

country
Argentina                                 6.420000
Australia, United States                  7.600000
Austria                                   6.850000
Belgium, Netherlands                      7.100000
Belgium, United Kingdom, United States    5.300000
                                            ...   
United States, Mexico                     5.666667
United States, United Kingdom             8.200000
United States, United Kingdom, Canada     6.700000
United States, United Kingdom, Germany    6.600000
United States, United Kingdom, India      7.800000
Name: IMDB Score, Length: 81, dtype: float64

#### Ejercicio 11: ¿Cuál es el número total de títulos por país y clasificación de audiencia ('rating')?

In [127]:
# Limpio todo el dataframe
# Quito los NaN y XX min de rating (los buenos son los únicos que contienen A-Z)
filtro_rating = df['rating'].str.contains(r'[A-Z]', na=False)
# Lo guardo aquí
df_clean = df[(filtro_rating)]

In [128]:
df_clean.groupby(['country', 'rating'])['title'].count()

country            rating
, France, Algeria  TV-14     1
, South Korea      TV-MA     1
Argentina          NR        2
                   R         1
                   TV-14     7
                            ..
Vietnam            TV-14     3
                   TV-G      1
                   TV-MA     3
West Germany       TV-MA     1
Zimbabwe           TV-G      1
Name: title, Length: 1172, dtype: int64

In [129]:
df_clean.groupby(['country', 'rating'][::-1])['title'].count()

rating    country                                                        
G         Canada                                                             1
          Canada, Japan, United States                                       1
          France, Switzerland, Spain, United States, United Arab Emirates    1
          Germany, United States                                             1
          Ireland, United Kingdom, United States                             1
                                                                            ..
TV-Y7-FV  United States                                                      1
          United States, Italy                                               1
UR        France                                                             1
          United Kingdom, France                                             1
          United States                                                      1
Name: title, Length: 1172, dtype: int64

#### Ejercicio 12: ¿Cuántos títulos fueron lanzados antes del año 2000 agrupados por país?

In [130]:
df[df['release_year'] < 2000].groupby('country')['title'].count()

country
Argentina                        3
Argentina, Spain                 1
Australia                        4
Australia, United Kingdom        1
Australia, United States         2
                                ..
United States, Japan             1
United States, Mexico            3
United States, New Zealand       1
United States, United Kingdom    6
West Germany                     1
Name: title, Length: 65, dtype: int64

#### Ejercicio 13: ¿Cuál es la puntuación promedio en IMDb de los títulos lanzados en 2021 agrupados por país?

In [131]:
# Vamos a limpiar los nulos
filtro_score = (df['IMDB Score'].isna() == False)
filtro_año = df['release_year'] == 2021

df[filtro_score & filtro_año].groupby('country')['IMDB Score'].mean()

country
Belgium, Netherlands             7.100000
Brazil                           5.900000
France                           4.866667
France, United States            6.500000
Hungary, United States           5.400000
India                            5.983333
India, United States             7.100000
Indonesia                        5.833333
Italy                            5.950000
Japan                            5.500000
Netherlands                      4.500000
Poland                           5.000000
South Africa                     5.800000
South Korea                      5.866667
Spain                            6.400000
Sweden                           5.500000
Thailand                         5.200000
Turkey                           6.400000
United Kingdom                   7.100000
United Kingdom, United States    6.300000
United States                    6.276471
Name: IMDB Score, dtype: float64

#### Ejercicio 14: ¿Cuántos títulos fueron dirigidos por cada director? Ordena los resultados de mayor a menor

In [133]:
df.groupby('director')['title'].count().sort_values(ascending=False)

director
Rajiv Chilaka                            19
Raúl Campos, Jan Suter                   18
Suhas Kadav                              16
Marcus Raboy                             16
Jay Karas                                14
                                         ..
Jos Humphrey                              1
Jose Gomez                                1
Jose Javier Reyes                         1
Joseduardo Giordano, Sergio Goyri Jr.     1
Khaled Youssef                            1
Name: title, Length: 4528, dtype: int64

#### Ejercicio 15: ¿Cuál es el lenguaje más frecuente en los títulos lanzados en los últimos 5 años agrupado por país?

In [145]:
df[df['release_year'] > 2018].groupby(['country', 'Language'])['title'].count().sort_values(ascending=False)

country                               Language 
United States                         English      142
India                                 Hindi         25
France                                French        11
Italy                                 Italian       11
Spain                                 Spanish        9
                                                  ... 
Norway                                Norwegian      1
Pakistan, United States               English        1
Austria                               German         1
Philippines, United States            Filipino       1
United States, United Kingdom, India  English        1
Name: title, Length: 72, dtype: int64