## # Introdução
<p><img src="https://assets.datacamp.com/production/project_981/img/lego_unsplash.jpg" alt="A picture of Lego characters!"></p>
<h3 id="letslookatlegosets">Vamos dar uma olhada nos conjuntos de Lego!</h3>
<p>Lego é um nome conhecido no mundo todo, apoiado por uma linha de brinquedos diversificada, filmes de sucesso e uma série de videogames de sucesso. Neste projeto, vamos explorar um desenvolvimento importante na história da Lego: a introdução de conjuntos licenciados como Star Wars, Super Heroes e Harry Potter.</p>
<p>Pode não ser amplamente conhecido, mas a Lego teve sua cota de altos e baixos desde seu início no início do século XX. Isso inclui um período particularmente difícil no final dos anos 90. Conforme descrito em <a href="https://www.businessinsider.com/how-lego-made-a-huge-turnaround-2014-2?r=US&IR=T">este artigo</a>, A Lego só conseguiu sobreviver devido a uma marca interna de sucesso (Bionicle) e à introdução de sua primeira série licenciada: Star Wars. No painel de instruções estão as duas perguntas que você precisará responder para concluir este projeto.</p>
<p>Antes de mergulhar em nossa análise, vamos nos familiarizar com os dois conjuntos de dados que ajudarão você neste projeto:<br><br></p>
<div style="background-color: #ebf4f7; color: #595959; text-align:left; vertical-align: middle; padding: 15px 25px 15px 25px; line-height: 1.6;">
    <div style="font-size:20px"><b>datasets/lego_sets.csv</b></div>
<ul>
    <li><b>set_num:</b> Um código exclusivo para cada conjunto no conjunto de dados. <b><i>Esta coluna é crítica e um valor ausente indica que o conjunto é duplicado ou inválido!</i></b></li>
    <li><b>set_name:</b> Um nome para cada conjunto no conjunto de dados (observe que ele pode ser o mesmo para conjuntos diferentes).</li>
    <li><b>year:</b> A data em que o conjunto foi lançado.</li>
    <li><b>num_parts:</b> O número de peças contidas no conjunto.<b><i> Esta coluna não é central para nossas análises, portanto valores ausentes são aceitáveis.</i></b></li>
        <li><b>theme_name:</b> O nome do subtema do conjunto.</li>
    <li><b>parent_theme:</b> O nome do tema pai ao qual o conjunto pertence. Corresponde à coluna `name` do `parent_themes` csv file.</li>
</ul>

<div style="font-size:20px"><b>datasets/parent_themes.csv</b></div>
<ul>
    <li><b>id:</b> A code that is unique to every theme.</li>
    <li><b>name:</b> The name of the parent theme.</li>
    <li><b>is_licensed:</b> A Boolean column specifying whether the theme is a licensed theme.</li>
</ul>
    </div>
<p>Daqui em diante, será sua tarefa explorar e manipular os dados existentes até que você consiga responder às duas perguntas descritas no painel de instruções. Sinta-se à vontade para adicionar quantas células forem necessárias. Por fim, lembre-se de que você só é testado em sua resposta, não nos métodos que usa para chegar à resposta!</p>
<p><em><strong>Note:</strong> Se você ainda não concluiu um projeto DataCamp, você deve verificar o <a href="https://projects.datacamp.com/projects/33">Introdução aos Projetos</a> primeiro a aprender sobre a interface. Neste projeto, você também precisa saber como se locomover <code>pandas</code> DataFrames e é recomendado que você dê uma olhada no curso <a href="https://www.datacamp.com/courses/data-manipulation-with-pandas">Data Manipulation with pandas</a>.</em></p>

In [1]:
#importar a biblioteca pandas
import pandas as pd


#ler o arquivo em csv
df = pd.read_csv('/Users/kaique/Documents/vscode_python/lego_sets/lego_sets.csv')

themes = pd.read_csv('../lego_sets/themes.csv')

parent_themes = pd.read_csv('../lego_sets/parent_themes.csv')

sets = pd.read_csv('../lego_sets/sets.csv')

In [2]:
sets.head()

Unnamed: 0,set_num,name,year,theme_id,num_parts
0,00-1,Weetabix Castle,1970,414,471
1,0011-2,Town Mini-Figures,1978,84,12
2,0011-3,Castle 2 for 1 Bonus Offer,1987,199,2
3,0012-1,Space Mini-Figures,1979,143,12
4,0013-1,Space Mini-Figures,1979,143,12


In [8]:
themes.head()

Unnamed: 0,id,name,parent_id
0,1,Technic,
1,2,Arctic Technic,1.0
2,3,Competition,1.0
3,4,Expert Builder,1.0
4,5,Model,1.0


In [9]:
#retorna apenas os temas licenciado
temas_licenciado = parent_themes[parent_themes['is_licensed'] == True]
temas_licenciado.head()

Unnamed: 0,id,name,is_licensed
7,158,Star Wars,True
12,246,Harry Potter,True
16,263,Pirates of the Caribbean,True
17,264,Indiana Jones,True
18,269,Cars,True


In [10]:
parent_themes.head()

Unnamed: 0,id,name,is_licensed
0,1,Technic,False
1,22,Creator,False
2,50,Town,False
3,112,Racers,False
4,126,Space,False


In [11]:
df.head()

Unnamed: 0,set_num,name,year,num_parts,theme_name,parent_theme
0,00-1,Weetabix Castle,1970,471.0,Castle,Legoland
1,0011-2,Town Mini-Figures,1978,,Supplemental,Town
2,0011-3,Castle 2 for 1 Bonus Offer,1987,,Lion Knights,Castle
3,0012-1,Space Mini-Figures,1979,12.0,Supplemental,Space
4,0013-1,Space Mini-Figures,1979,12.0,Supplemental,Space


In [15]:
merged = df.merge(parent_themes, left_on='parent_theme', right_on='name')
merged.drop(columns= 'name_y', inplace= True)
merged.head()



Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
0,00-1,Weetabix Castle,1970,471.0,Castle,Legoland,411,False
1,0011-2,Town Mini-Figures,1978,,Supplemental,Town,50,False
2,0011-3,Castle 2 for 1 Bonus Offer,1987,,Lion Knights,Castle,186,False
3,0012-1,Space Mini-Figures,1979,12.0,Supplemental,Space,126,False
4,0013-1,Space Mini-Figures,1979,12.0,Supplemental,Space,126,False


In [16]:
# retorna apenas as licensed = true
licensed = merged[merged['is_licensed']]
licensed = licensed.dropna(subset=['set_num'])
licensed.head()

# filtra o df licensed por star wars
stars_wars_a = licensed[licensed['parent_theme'] == 'Star Wars']

stars_wars_a.head()

Unnamed: 0,set_num,name_x,year,num_parts,theme_name,parent_theme,id,is_licensed
44,10018-1,Darth Maul,2001,1868.0,Star Wars,Star Wars,158,True
45,10019-1,Rebel Blockade Runner - UCS,2001,,Star Wars Episode 4/5/6,Star Wars,158,True
54,10026-1,Naboo Starfighter - UCS,2002,,Star Wars Episode 1,Star Wars,158,True
57,10030-1,Imperial Star Destroyer - UCS,2002,3115.0,Star Wars Episode 4/5/6,Star Wars,158,True
116,10123-1,Cloud City,2003,707.0,Star Wars Episode 4/5/6,Star Wars,158,True


## Tarefa 01 - Qual a porcentagem de todos os conjuntos licenciados já lançados que tinham como tema Star Wars?

In [17]:
Porc_Conjuntos_licenciados_star_wars = int(stars_wars_a.shape[0]/licensed.shape[0]*100)
print(Porc_Conjuntos_licenciados_star_wars)


51


## Tarefa 02 - Em que ano Star Wars não foi o tema licenciado mais popular (em termos de número de conjuntos lançados naquele ano)?

In [18]:
licensed_sorted = licensed.sort_values('year')
licensed_sorted['count'] = 1
licensed_sorted.head()

summed_df = licensed_sorted.groupby(['year','parent_theme']).sum().reset_index()

max_df = summed_df.sort_values('count',ascending = False).drop_duplicates(['year'])

max_df.sort_values('year', inplace=True)
max_df

Unnamed: 0,year,parent_theme,set_num,name_x,num_parts,theme_name,id,is_licensed,count
0,1999,Star Wars,7140-17141-17150-17151-17110-17101-17121-17130...,X-wing FighterNaboo FighterTIE Fighter & Y-win...,1384.0,Star Wars Episode 4/5/6Star Wars Episode 1Star...,2054,13,13
2,2000,Star Wars,8000-18002-17115-13342-13341-17144-17124-17134...,Pit Droid™ / Star Wars Pit DroidDestroyer Droi...,2580.0,Star WarsStar WarsStar Wars Episode 1Star Wars...,4108,26,26
4,2001,Star Wars,8008-17146-17126-17127-17106-165034-165030-165...,Stormtrooper™TIE FighterBattle Droid CarrierIm...,2949.0,Star WarsStar Wars Episode 4/5/6Star Wars Epis...,2212,14,14
6,2002,Star Wars,4195641-165153-165106-17103-17203-17204-17133-...,Star Wars Co-Pack of 7142 and 7152Jango Fett's...,4735.0,Star Wars Episode 4/5/6Star Wars Episode 2Star...,4424,28,28
9,2003,Star Wars,4501-14482-14481-14480-14500-1K4479-1K4487-144...,"Mos Eisley Cantina, Blue boxAT-TEHailfire Droi...",6660.0,Star Wars Episode 4/5/6Star Wars Episode 2Star...,5056,32,32
12,2004,Star Wars,10131-110134-16964-26963-17262-16964-16963-269...,TIE Fighter CollectionY-wing Attack Starfighte...,1659.0,Star Wars Episode 4/5/6Star Wars Episode 4/5/6...,3160,20,20
16,2005,Star Wars,7250-17258-17257-17256-17252-17255-16966-16965...,Clone Scout WalkerWookiee AttackUltimate Light...,4730.0,Star Wars Episode 3Star Wars Episode 3Star War...,4424,28,28
20,2006,Star Wars,6205-16210-16206-16207-110175-17261-26212-1621...,V-wing FighterJabba's Sail BargeTIE Intercepto...,2769.0,Star Wars Episode 3Star Wars Episode 4/5/6Star...,1738,11,11
24,2007,Star Wars,7660-17661-17657-110179-17665-17666-17662-1766...,Naboo N-1 Starfighter and Vulture DroidJedi St...,11361.0,Star Wars Episode 1Star Wars Episode 3Star War...,2528,16,16
28,2008,Star Wars,10188-110186-17680-17679-17678-17676-17681-176...,Death StarGeneral GrievousThe Twilight - Limit...,6865.0,Star Wars Episode 4/5/6Star Wars Episode 3Star...,3634,23,23


In [19]:
indice_maximo = max_df['count'].idxmax()

ano_maximo = max_df.loc[indice_maximo, 'year']
print(ano_maximo)


2017
