#  Hands-on Python

## Exercício I (numpy, pandas, matplotlib)

Você deverá resolver o seguinte notebook: [numpy-pandas-training](https://colab.research.google.com/drive/1Nrf4IXESsW6fx2L3W6tZfe51WeAYCx8u). Nesse notebook, abaixo de cada célula de código está o resultado esperado.




## Exercício Extra 1 (implementação) - Obrigatório para a célula de otimização

Implementar o Algoritmo do Gradiente (referência: http://www.mat.ufmg.br/~taka/Download/OTEV-Vol2.pdf, página 63) na otimização do seguinte problema:

$$\min_\bar{x} f(x_1,x_2) = (x_1-1)^2 + 2x_2^2\\
-10 \leq x_1, x_2 \leq 10$$

Onde o ótimo é $x^* = [1, 0]^T$.

Requisitos da implementação:

- Inicialmente, plotar as curvas de nível da função objetivo;

- Plotar o valor de $f(\bar{x})$ ao longo das iterações;

- Ao final, marcar o ponto $\bar{x}^*$ no gráfico inicial;

- Ter uma função que retorne o valor de $f(\bar{x})$ e de $\nabla f(\bar{x})$ para um dado $\bar{x}$;

- Número máximo de iterações: 100;

- Precisão $\epsilon = 10^{-2}$;

- Critérios de parada:
  - Número máximo de iterações
  - $ ||\nabla f(\bar{x})|| \leq \epsilon$
  
- Ponto inicial: $\bar{x}_0 = [10, 10]^T$

Dicas:

- $ \nabla f(\bar{x}_k) = \begin{bmatrix} 
\frac{\partial f(x)}{\partial x_1} \\
\frac{\partial f(x)}{\partial x_2} \\
\end{bmatrix}$;

- $\bar{d}_k = -\frac{\nabla f(\bar{x}_k)}{||\nabla f(\bar{x}_k)||}$;

- $\alpha_k = \frac{d_1 - x_1d_1 - 2x_2d_2}{d_1^2+2d_2^2}$.






## Exercício Extra 2 (implementação) - Obrigatório para a célula de Dados

>The sinking of the RMS Titanic is one of the most infamous shipwrecks in history.  On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew.  This sensational tragedy shocked the international community and led to better safety regulations for ships.

>One of the reasons that the shipwreck led to such loss of life was that there were not enough lifeboats for the passengers and crew.  Although there was some element of luck involved in surviving the sinking, some groups of people were more likely to survive than others, such as women, children, and the upper-class.

>In this contest, we ask you to complete the analysis of what sorts of people were likely to survive.

Os dados estão disponíveis [aqui](http://homepages.dcc.ufmg.br/~lucasmdo/train.csv).


### Objetivos:
Agregar todo o conhecimento básico adiquirido anteriormente e utilizá-lo em um exemplo "real".

#### Passos: 
*   Importar dados com Pandas
*   Limpeza dos dados
*   Exploração dos dados com visualização através do Matplotlib

#### Requisitos do exercício
*   Ler os dados com o Pandas e exibir os primeiros $k$ exemplos ($k$ arbitrário).
*   Exibir informações básicas do DataFrame
*   Exibir um DataFrame com algumas estatísticas dos dados
*   Limpeza dos dados
 *   Remover todas as linhas/colunas que você achar pertinente
*   Plotar os seguintes gráficos:
 *   **Plot 1:** Plot com 5 imagens contendo os seguintes gráficos:
     *   Gráfico de barras com a distribuição de sobreviventes e falecidos
     *   Boxplot da idade dos passageiros, agrupado pelo status de sobrevivência ($Survived$)
     *   Gráfico de torta com a distribuição das classes ($Pclass$)
     *   Distribuição da densidade da idade, agrupado por classe ($Pclass$)
     *   Gráfico de barras de passageiros por porto de emarque ($Embarked$)
 *   **Plot 2:** Plot com 1 imagem contendo:
      *   Distribuição de densidade da idade pelo status de sobrevivência ($Survived$)
 *   **Plot 3:** Plot com 4 imagens contendo:
      *   Gráfico de barras com a distribuição de sobreviventes e falecidos, agrupados por sexo ($Sex$)
      *   Gráfico de barras com a distribuição de sobreviventes e falecidos, agrupados por classe ($Pclass$)
      *   Gráfico de barras com a distribuição de mulheres sobreviventes e falecidas, agrupadas por classe ($Pclass$)
      *   Gráfico de barras com a distribuição de homens sobreviventes e falecidos, agrupadas por classe ($Pclass$)
      
[Aqui](https://colab.research.google.com/drive/1e5Wywc0F7L8trBKBkapn4DhakqcmP0XQ) estão apresentados os resultados esperados para cada exercício (é necessário estár logado com uma conta da Google). Tente fazer o máximo que conseguir, 80% do trabalho de Data Science é análise exploratória dos dados **=D**

#### Dicas
*   $df.describe()$ e $df.info()$
*   $df.dropna()$
*   $kind='kde'$

## Referências

- **Numpy**
  - [User guide](https://docs.scipy.org/doc/numpy/user/index.html)
  - [Cheat-sheet](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Numpy_Python_Cheat_Sheet.pdf)
  - [Numpy notebook](https://colab.research.google.com/drive/1qwJFeJBOQNHctsmWE0uNpkjhEvXYSqnd)

- **Matplotlib**
  - [User guide](https://matplotlib.org/users/index.html)
  - [Cheat-sheet](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Matplotlib_Cheat_Sheet.pdf)
  
- **Pandas**
  - [Tutorials and references](https://pandas.pydata.org/pandas-docs/version/0.22.0/tutorials.html)
  - [Cheat-sheet](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/PandasPythonForDataScience.pdf)
  - [Pandas notebook](https://colab.research.google.com/drive/1SR2lz4pC5uZeQzg_RNYNaTVa6L0-esha)