In [1]:
#importar librerias
import pandas as pd

## ¡Veamos los juegos de Lego!

Lego es un nombre familiar en todo el mundo, respaldado por una diversa línea de juguetes, películas exitosas y una serie de videojuegos exitosos. En este proyecto, vamos a explorar un desarrollo clave en la historia de Lego: la introducción de conjuntos con licencia como Star Wars, Super Heroes y Harry Potter.


Puede que no sea muy conocido, pero Lego ha tenido sus altibajos desde su creación a principios del siglo XX. Esto incluye un período particularmente difícil a finales de los 90. Como se describe en este artículo, Lego solo pudo sobrevivir gracias a una marca interna exitosa (Bionicle) y la introducción de su primera serie con licencia: Star Wars. En el panel de instrucciones se encuentran las dos preguntas que deberá responder para completar este proyecto.

Sin embargo, antes de sumergirnos en nuestro análisis, familiaricémonos con los dos conjuntos de datos que lo ayudarán con este proyecto:

dataset/lego_sets.csv

**set_num:** Un código que es único para cada conjunto en el conjunto de datos. __¡Esta columna es crítica y un valor faltante indica que el conjunto es un duplicado o no es válido!__

**set_name:** un nombre para cada conjunto en el conjunto de datos (tenga en cuenta que esto puede ser el mismo para diferentes conjuntos).

**year:** La fecha en que se lanzó el conjunto.

**num_parts:** El número de partes contenidas en el conjunto. __Esta columna no es fundamental para nuestros análisis, por lo que los valores faltantes son aceptables.__

**theme_name:** El nombre del subtema del conjunto.

**parent_theme:** el nombre del tema principal al que pertenece el conjunto. Coincide con la columna `name` del archivo csv `parent_themes`.

dataset/temas_principales.csv

**id:** Un código que es único para cada tema.

**name:** El nombre del tema principal.

**is_licensed:** una columna booleana que especifica si el tema es un tema con licencia.

In [2]:
data = pd.read_csv("./legos/lego_sets.csv")
theme = pd.read_csv('./legos/themes.csv')
parent = pd.read_csv('./legos/parent_themes.csv')

In [3]:
data.head(3)

Unnamed: 0,set_num,name,year,num_parts,theme_name,parent_theme
0,00-1,Weetabix Castle,1970,471.0,Castle,Legoland
1,0011-2,Town Mini-Figures,1978,,Supplemental,Town
2,0011-3,Castle 2 for 1 Bonus Offer,1987,,Lion Knights,Castle


In [4]:
parent.head(3)

Unnamed: 0,id,name,is_licensed
0,1,Technic,False
1,22,Creator,False
2,50,Town,False


task 1: what percentae of all licensed sets ever released were star wars themed?

__Tarea 1: ¿Qué porcentaje de todos los juegos con licencia lanzados alguna vez tenían el tema de Star Wars?__

In [5]:
merged = data.merge(parent, left_on='parent_theme', right_on='name')
merged.drop(columns = 'name_y', inplace=True)
merged.head(3)

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
0,00-1,Weetabix Castle,1970,471.0,Castle,Legoland,411,False
1,00-2,Weetabix Promotional House 1,1976,,Building,Legoland,411,False
2,00-3,Weetabix Promotional House 2,1976,,Building,Legoland,411,False


In [15]:
licencia = merged[merged['is_licensed'] == True]
licencia.head(3)

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
3493,10018-1,Darth Maul,2001,1868.0,Star Wars,Star Wars,158,True
3494,10019-1,Rebel Blockade Runner - UCS,2001,,Star Wars Episode 4/5/6,Star Wars,158,True
3495,10026-1,Naboo Starfighter - UCS,2002,,Star Wars Episode 1,Star Wars,158,True


In [16]:
merged[merged['set_num'].isnull()].shape
licencia = licencia.dropna(subset=['set_num'])
licencia.head(3)

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
3493,10018-1,Darth Maul,2001,1868.0,Star Wars,Star Wars,158,True
3494,10019-1,Rebel Blockade Runner - UCS,2001,,Star Wars Episode 4/5/6,Star Wars,158,True
3495,10026-1,Naboo Starfighter - UCS,2002,,Star Wars Episode 1,Star Wars,158,True


In [17]:
star_wars = licencia[licencia['parent_theme'] == 'Star Wars']
star_wars.head(3)

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
3493,10018-1,Darth Maul,2001,1868.0,Star Wars,Star Wars,158,True
3494,10019-1,Rebel Blockade Runner - UCS,2001,,Star Wars Episode 4/5/6,Star Wars,158,True
3495,10026-1,Naboo Starfighter - UCS,2002,,Star Wars Episode 1,Star Wars,158,True


In [18]:
the_force = int(star_wars.shape[0]/licencia.shape[0]*100)
the_force

51

task 2: in which year was star wars not the most popular licensed theme (in terms of number of sets released that years)?

__Tarea 2: ¿en qué año Star Wars no fue el tema con licencia más popular (en términos de número de sets lanzados ese año)?__

In [21]:
lic_sort = licencia.sort_values('year')
lic_sort.groupby(['year', 'parent_theme']).head(3)

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
3702,7161-1,Gungan Sub,1999,379.0,Star Wars Episode 1,Star Wars,158,True
3705,7171-1,Mos Espa Podrace,1999,,Star Wars Episode 1,Star Wars,158,True
3690,7140-1,X-wing Fighter,1999,271.0,Star Wars Episode 4/5/6,Star Wars,158,True
3688,7134-1,A-wing Fighter,2000,125.0,Star Wars Episode 4/5/6,Star Wars,158,True
3564,3341-1,Star Wars #2 - Luke/Han/Boba Minifig Pack,2000,25.0,Star Wars Episode 4/5/6,Star Wars,158,True
...,...,...,...,...,...,...,...,...
5609,30449-1,The Milano,2017,64.0,Marvel,Super Heroes,482,True
10262,21136-1,The Ocean Monument,2017,,Minecraft,Minecraft,577,True
8670,41143-1,Berry's Kitchen,2017,,Disney Princess,Disney Princess,579,True
8675,41148-1,Elsa's Magical Ice Palace,2017,,Disney Princess,Disney Princess,579,True


In [23]:
lic_sort['count'] = 1
sum_data = lic_sort.groupby(['year', 'parent_theme']).sum().reset_index()
sum_data

  sum_data = lic_sort.groupby(['year', 'parent_theme']).sum().reset_index()


Unnamed: 0,year,parent_theme,num_parts,id,is_licensed,count
0,1999,Star Wars,1384.0,2054,13,13
1,2000,Disney's Mickey Mouse,405.0,1940,5,5
2,2000,Star Wars,2580.0,4108,26,26
3,2001,Harry Potter,1284.0,2706,11,11
4,2001,Star Wars,2949.0,2212,14,14
...,...,...,...,...,...,...
78,2017,Disney Princess,347.0,3474,6,6
79,2017,Minecraft,5264.0,5193,9,9
80,2017,Pirates of the Caribbean,2286.0,263,1,1
81,2017,Star Wars,7583.0,8690,55,55


In [25]:
max_data = sum_data.sort_values('count', ascending=False).drop_duplicates(['year'])
max_data.sort_values('year', inplace=True)
max_data

Unnamed: 0,year,parent_theme,num_parts,id,is_licensed,count
0,1999,Star Wars,1384.0,2054,13,13
2,2000,Star Wars,2580.0,4108,26,26
4,2001,Star Wars,2949.0,2212,14,14
6,2002,Star Wars,4735.0,4424,28,28
9,2003,Star Wars,6660.0,5056,32,32
12,2004,Star Wars,1659.0,3160,20,20
16,2005,Star Wars,4730.0,4424,28,28
20,2006,Star Wars,2769.0,1738,11,11
24,2007,Star Wars,11361.0,2528,16,16
28,2008,Star Wars,6865.0,3634,23,23


In [34]:
new_era = max_data[max_data['parent_theme'] != 'Star Wars']
new_era

Unnamed: 0,year,parent_theme,num_parts,id,is_licensed,count
82,2017,Super Heroes,13123.0,34704,72,72


break down numberof sets by year

__desglosar el número de juegos por año__

In [42]:
clean_data = merged[~merged['set_num'].isnull()] #virgulilla es como un drop_na
clean_data.head()

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
0,00-1,Weetabix Castle,1970,471.0,Castle,Legoland,411,False
1,00-2,Weetabix Promotional House 1,1976,,Building,Legoland,411,False
2,00-3,Weetabix Promotional House 2,1976,,Building,Legoland,411,False
3,00-4,Weetabix Promotional Windmill,1976,126.0,Building,Legoland,411,False
4,00-7,Weetabix Promotional Lego Village,1976,,Building,Legoland,411,False


In [45]:
clean_data['count'] = 1
set_per_year = clean_data.groupby(['year']).sum().reset_index()[['year', 'count']]
set_per_year.head(3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  clean_data['count'] = 1
  set_per_year = clean_data.groupby(['year']).sum().reset_index()[['year', 'count']]


Unnamed: 0,year,count
0,1950,7
1,1953,4
2,1954,14


In [47]:
for i, row in set_per_year.iterrows():
    print(row['year'], row['count'])

1950 7
1953 4
1954 14
1955 28
1956 12
1957 21
1958 42
1959 4
1960 3
1961 17
1962 40
1963 18
1964 11
1965 10
1966 89
1967 21
1968 25
1969 69
1970 29
1971 45
1972 38
1973 68
1974 39
1975 31
1976 68
1977 92
1978 73
1979 82
1980 88
1981 79
1982 76
1983 57
1984 76
1985 139
1986 123
1987 209
1988 68
1989 114
1990 85
1991 106
1992 115
1993 111
1994 128
1995 128
1996 144
1997 194
1998 325
1999 300
2000 327
2001 339
2002 447
2003 415
2004 371
2005 330
2006 283
2007 319
2008 349
2009 403
2010 444
2011 502
2012 615
2013 593
2014 715
2015 670
2016 608
2017 438
