####**Primeiros passos com o Pandas**

---



A primeira coisa que você precisa fazer quando vê uma nova base de dados é explorá-la e ver o que ela contém.

Bons métodos para isso: 
`.head()`
`.info()`
`.shape`
`.describe()`

```
# This is formatted as code
```



In [0]:
import pandas as pd
udemy = pd.read_csv("udemy_courses.csv")

#### **Métodos básicos de exploração**

---


head, info, shape, describe, values e index

In [0]:
udemy.head() #Exibe os 5 primeiros resultados do dataset

In [0]:
udemy.info() # Exibe todas as colunas e o tipo de dados

In [0]:
udemy.shape # Exibe a quantidade de linhas e colunas

In [0]:
udemy.describe() # Exibe dados estatísticos básicos, como média, desvio padrão, mínimo e máximo

In [0]:
udemy.values # Exibe o dataframe como um array 2d numpy

In [0]:
udemy.columns # Mostra as colunas do dataframe

In [0]:
udemy.index # Não entendi muito bem

####**Ordenando colunas**






---

Ordenando por price: A ordenação é ascendente.

In [0]:
sort = udemy.sort_values("price")
sort.head()

Também é possível ordenar usando várias colunas como parâmetro. Para isso, é preciso informar um array com as colunas, como pode ver abaixo:

O curso gratuito com menos inscritos é um curso de baterias indianas.

In [0]:
sort = udemy.sort_values(["price", "num_subscribers"]) 
sort.head()

E é claro, também podemos fazer o contrário e usar a ordem descendente para ver os grande números, informando à função o parâmetro `ascending`, que deve ser `True` ou `False`.

Quando feito com múltiplas colunas, esse parâmetro também deverá ser uma lista.

Nesse caso, percebemos que o curso mais vendido é o de Web Bootcamp. E o curso gratuito com mais inscritos é o de HTML5, com uma quantidade gigante de gente.

In [0]:
sort = udemy.sort_values(["price", "num_subscribers"], ascending = [True, False])
sort.head()

In [0]:
sort = udemy.sort_values(["content_duration", "num_subscribers"], ascending = [False, False])
sort.head()

####**Selecionando colunas**

---



Para selecionar uma coluna, podemos usar os colchetes.

In [0]:
col_select = udemy["course_title"]
col_select.head()

Para múltiplas colunas, precisamos mantê-las em um array:

In [0]:
col_select = udemy[["course_title", "is_paid"]]
col_select.head()

####**Filtrando e selecionando linhas**

---


É possível filtrar usando o nome do dataframe e a coluna que quer filtrar, e em seguida, o filtro. 

In [0]:
row_filter = udemy[udemy["is_paid"] == False]
row_filter.head()

Uma coisa muito legal é que é possível também filtrar e selecionar as colunas ao mesmo tempo, sem ter que salvar as informações em outras variáveis, dessa forma:

In [0]:
row_filter = udemy[udemy["price"] > 150][["price", "course_title"]]
row_filter.head()

Conseguimos, por fim, considerar vários filtros diferentes, usando &.

In [0]:
row_filter = udemy[(udemy["price"] > 150) & (udemy["num_subscribers"] > 5000)]
row_filter.head()

Misturando tudo, fica uma bagunça! Mas é legal:

In [0]:
row_filter = udemy[(udemy["price"] > 150) & (udemy["num_subscribers"] > 5000)][
  ["course_title", "price","num_subscribers"]].sort_values(["num_subscribers",
    "price"], ascending = [False, False])
row_filter.head()

Porém, conseguimos simplificar um pouco esse código para deixar mais legível:

In [0]:
price_filter = udemy["price"] > 150
sub_filter = udemy["num_subscribers"] > 5000

row_filter = udemy[price_filter & sub_filter][["course_title", "price",
"num_subscribers"]].sort_values(["num_subscribers", "price"], ascending = 
[False, False])

row_filter.head()

####**Filtrando por categorias, o famoso isin**

---




In [0]:
subject_list = ["Business Finance", "Web Development"]
subject_filter = udemy["subject"].isin(subject_list)
result = udemy[subject_filter]

result.head()

####**Adicionando novas colunas**


---



In [25]:
udemy["review_per_sub"] = udemy["num_reviews"]/udemy["num_subscribers"]
udemy.head()

Unnamed: 0,course_id,course_title,url,is_paid,price,num_subscribers,num_reviews,num_lectures,level,content_duration,published_timestamp,subject,review_per_sub
0,1070968,Ultimate Investment Banking Course,https://www.udemy.com/ultimate-investment-bank...,True,200,2147,23,51,All Levels,1.5,2017-01-18T20:58:58Z,Business Finance,0.010713
1,1113822,Complete GST Course & Certification - Grow You...,https://www.udemy.com/goods-and-services-tax/,True,75,2792,923,274,All Levels,39.0,2017-03-09T16:34:20Z,Business Finance,0.330587
2,1006314,Financial Modeling for Business Analysts and C...,https://www.udemy.com/financial-modeling-for-b...,True,45,2174,74,51,Intermediate Level,2.5,2016-12-19T19:26:30Z,Business Finance,0.034039
3,1210588,Beginner to Pro - Financial Analysis in Excel ...,https://www.udemy.com/complete-excel-finance-c...,True,95,2451,11,36,All Levels,3.0,2017-05-30T20:07:24Z,Business Finance,0.004488
4,1011058,How To Maximize Your Profits Trading Options,https://www.udemy.com/how-to-maximize-your-pro...,True,200,1276,45,26,Intermediate Level,2.0,2016-12-13T14:57:18Z,Business Finance,0.035266
