# Módulo 1 - Desafio

* Esse notebook se refere ao primeiro módulo do bootcamp ciência de dados e tem como objetivo responder as questões do **primeiro desafio proposto**;

* Os gráficos da análise exploratória originalmente foram criados no PowerBI e por conveniência plotados nesse notebook, respondendo as questões específicas do desafio;

* Foi utilizado o poderoso pacote [**Plotly**](https://plotly.com/python/);

## 1.1 Análise exploratória de dados

* A análise exploratória foi feita no Dataset [**"Stack Overflow Annual Developer Survey - 2020"**](https://drive.google.com/file/d/1dfGerWeWkcyQ9GX9x20rdSGj7WtEpzBB/view?usp=sharing)

* Apenas algumas colunas foram utilizadas: Age, Age1stCode, ConvertedComp, Country, EdLevel, JobSat, OpSys e YearsCode.

In [1]:
# Importando as Bibliotecas
import plotly.graph_objects as go
import plotly.express as px
from textwrap import wrap
import pandas as pd 
import numpy as np

In [2]:
# Importando o dataset
df = pd.read_csv('survey_results_public.csv',encoding='UTF-8',sep=',',
usecols=["Age", "Age1stCode", "ConvertedComp", "Country", "EdLevel", "JobSat", "OpSys", "YearsCode"]) 
df.head()

Unnamed: 0,Age,Age1stCode,ConvertedComp,Country,EdLevel,JobSat,OpSys,YearsCode
0,,13,,Germany,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",Slightly satisfied,Windows,36
1,,19,,United Kingdom,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",Very dissatisfied,MacOS,7
2,,15,,Russian Federation,,,Linux-based,4
3,25.0,18,,Albania,"Master’s degree (M.A., M.S., M.Eng., MBA, etc.)",Slightly dissatisfied,Linux-based,7
4,31.0,16,,United States,"Bachelor’s degree (B.A., B.S., B.Eng., etc.)",,Windows,15


### 1.1.1 Questões

<p>
  P1. Qual o sistema operacional mais utilizado na França?<br />
  R.: Sistemas baseados em Linux aparecem como o preferido, seguindo de perto pelos Windows
</p>

In [3]:
France_SO = df.query('Country == "France"').groupby(['OpSys'])['Country'].count().reset_index().sort_values('Country')

In [4]:
colors = ['rgb(69,99,122)',] * 3
colors[2] = 'crimson'
fig = go.Figure(go.Bar(
    x=France_SO['OpSys'], 
    y=France_SO['Country'], 
    text=France_SO['Country']))
fig.update_traces(
    texttemplate='%{text:.2s}', 
    textposition='inside', 
    marker_color=colors
    )
fig.update_layout(
    width=750, 
    height=400,
    title={
        'text': 'S.O. Mais Utilizado na França', 
        'y':0.9,
        'x':0.5,
        'xanchor': 'center', 
        'yanchor': 'top'},
    xaxis=dict(
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=14,
            color='rgb(82, 82, 82)',
        ),
    ),
    yaxis=dict(
        showticklabels=False,
    ),
    margin=dict(
        autoexpand=False,
        l=20,
        r=20,
        t=70,
    ),
    showlegend=False,
    plot_bgcolor='white'
)
fig.show()

<p>
  P2. Qual a média salarial por nível de formação na França?<br />
  R.: "Secondary School" apresenta uma média salarial próxima ao dobro dos que possuem doutorado.
</p>

In [5]:
France = df.query('Country == "France"').groupby(['EdLevel'])['ConvertedComp'].agg(np.mean).reset_index().sort_values('ConvertedComp')
#Utilizado uma combinação wrap e replace para quebrar em linhas os nomes das categorias dentro do EdLevel 
France['EdLevel'] = France['EdLevel'].str.wrap(15).apply(lambda x: x.replace('\n', '<br>'))

In [6]:
colors = ['rgb(69,99,122)'] * 9
colors[8] = 'crimson'
fig = go.Figure(go.Bar(
    x=France['EdLevel'], 
    y=France['ConvertedComp'], 
    text=France['ConvertedComp']))
fig.update_traces(
    texttemplate='%{text:.2s}', 
    textposition='inside', 
    marker_color=colors
    )
fig.update_layout(
    width=750, 
    height=400,
    title={
        'text': 'Salário Médio Anual na França ($) por Formação', 
        'y':0.9,
        'x':0.5,
        'xanchor': 'center', 
        'yanchor': 'top'},
    xaxis=dict(
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=8,
            color='rgb(82, 82, 82)',
        ),
    ),
    yaxis=dict(
        showticklabels=False,
    ),
    margin=dict(
        autoexpand=False,
        l=20,
        r=20,
        t=70,
    ),
    showlegend=False,
    plot_bgcolor='white'
)
fig.show()

<p>
  P3. Qual a média salarial por nível de satisfação no Chile<br />
  R.: Para os não satisfeitos com sua remuneração, a média salarial é basicamente a mesma nas duas categorias, e para os neutros.
</p>

In [7]:
Chile = df.query('Country == "Chile"').groupby(['JobSat'])['ConvertedComp'].agg(np.mean).reset_index().sort_values('ConvertedComp')

In [8]:
fig = go.Figure(go.Bar(
    x=Chile['JobSat'], 
    y=Chile['ConvertedComp'], 
    text=Chile['ConvertedComp']))
fig.update_traces(
    texttemplate='%{text:.2s}', 
    textposition='inside', 
    marker_color='rgb(69,99,122)'
    )
fig.update_layout(
    width=750, 
    height=400,
    title={
        'text': 'Salário Médio Anual no Chile ($) por Nível de Satisfação', 
        'y':0.9,
        'x':0.5,
        'xanchor': 'center', 
        'yanchor': 'top'},
    xaxis=dict(
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=10,
            color='rgb(82, 82, 82)',
        ),
    ),
    yaxis=dict(
        showticklabels=False,
    ),
    margin=dict(
        autoexpand=False,
        l=20,
        r=20,
        t=70,
    ),
    showlegend=False,
    plot_bgcolor='white'
)
fig.show()

<p>
  P4. Qual a tendência do salário conforme a idade aumenta na Albânia?<br />
  R.: Diminui, conforme a análise com a média salarial e observado também pela linha de tendência.
</p>

In [9]:
#Tendia no media salario por idade para a Albanina
Albania = df.query('Country == "Albania" and ConvertedComp > 0').groupby(['Age'])['ConvertedComp'].agg(np.mean).reset_index().sort_values('ConvertedComp')

In [10]:
fig = px.scatter(Albania, x="Age", y="ConvertedComp", trendline="ols", trendline_color_override="red")
fig.update_traces(
    texttemplate='%{text:.2s}', 
    marker_color='rgb(69,99,122)',
    line_width=1)
fig.update_layout(
    width=750, 
    height=400,
    title={
        'text': 'Tendência Salarial na Albânia', 
        'y':0.9,
        'x':0.5,
        'xanchor': 'center', 
        'yanchor': 'top'},
    xaxis_title="Idade",
    yaxis_title="Salário ($)",
    xaxis=dict(
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=10,
            color='rgb(82, 82, 82)',
        ),
    ),
    yaxis=dict(
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=10,
            color='rgb(82, 82, 82)',
        ),
    ),
    margin=dict(
        autoexpand=False,
        l=50,
        r=20,
        t=70,
    ),
    showlegend=False,
    plot_bgcolor='white'
)
fig.show()

<p>
  P5. Qual o país com maior número de desenvolvedores que nunca tiveram uma educação formal (exceto os EUA)?<br />  R.: A Índia lidera o rank com maior número de desenvolvedores sem educação formal, seguido de perto por Israel.
</p>

In [11]:
Devs = df.query('Country != "United States" and EdLevel == "I never completed any formal education"').groupby('Country')['Country'].count().sort_values()

In [12]:
fig = px.treemap(Devs, 
            path=[Devs.index], 
            values=Devs.values, 
            color=Devs.values, 
            color_continuous_scale='Blues',
            color_continuous_midpoint=np.average(Devs.values, weights=Devs.values)
            )
fig.update_layout(
    width=750, 
    height=400,
    title={
        'text': 'Maior nº de desenvolvedores sem educação formal (exceto EUA)', 
        'y':0.9,
        'x':0.5,
        'xanchor': 'center', 
        'yanchor': 'top'},
    margin=dict(
        autoexpand=False,
        l=20,
        r=20,
        t=60,
        b=25
    ),
    showlegend=False,
    plot_bgcolor='white'
)
fig.show()

<p>
  P6. Com que idade a maioria das pessoas começam a programar no Brasil?<br />  R.: Jovens que começam a programar aos 17 anos estão entre a maioria das pessoas.
</p>

In [13]:
#Com que idade a maioria das pessoas começa a programar no Brasil?
Brasil = df.query('Country == "Brazil" and Age1stCode != "Younger than 5 years"').groupby(['Age1stCode'])['Country'].count().reset_index().apply(pd.to_numeric)

In [14]:
fig = px.histogram(
    Brasil, 
    x="Age1stCode", 
    y="Country", 
    marginal="box", 
    nbins=80,
    color_discrete_sequence=['rgb(69,99,122)'])
fig.update_layout(
    width=750, 
    height=400,
    title={
        'text': 'Iniciando na Programação - Brasil', 
        'y':0.9,
        'x':0.5,
        'xanchor': 'center', 
        'yanchor': 'top'},
    xaxis_title="Idade",
    yaxis_title="",
    xaxis=dict(
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=10,
            color='rgb(82, 82, 82)',
        ),
    ),
    yaxis=dict(
        showgrid=False,
        showticklabels=True,
        linecolor='rgb(204, 204, 204)',
        ticks='outside',
        tickfont=dict(
            family='Arial',
            size=10,
            color='rgb(82, 82, 82)',
        ),
    ),
    margin=dict(
        autoexpand=False,
        l=50,
        r=20,
        t=70,
    ),
    plot_bgcolor='white'
)
fig.show()