## Por: victordhn
#### Seguindo tutorial do @CoreyMSchafer

In [1]:
import pandas as pd

### Vamos usar dados da pesquisa do Stack Overflow
- https://insights.stackoverflow.com/survey
- para seguir o tutorial mais precisamente, vou usar os dados de 2019

### Importante:
#### Todos comandos com output na tela estão com ";" no final para esconder o output (ou estão comentados com # quando o ; não for possível). Essa é só uma forma de deixar o notebook mais fácil de ler depois que eu já analisei todo o output

## Part 1
### Loading data and first analyses

In [2]:
df = pd.read_csv('data/survey_results_public.csv')

In [15]:
# O método .head() tem como padrão 5 linhas, mas pode ser alterado passando um valor, por exemplo, df.head(10)
# Atenção, quando chamamos o dataframe, o Jupyter só mostra 20 colunas. Esse survey tem 85 colunas
df.head();

In [4]:
# linhas e colunas
df.shape

(88883, 85)

In [16]:
# usar método .info() para mais informações
# df.info()

In [11]:
# mudar setting para mostrar todas colunas
pd.set_option('display.max_columns',85)
df.head(10);

In [10]:
schema_df = pd.read_csv("data/survey_results_schema.csv")
schema_df;

In [9]:
# mudar setting para mostrar todas linhas
pd.set_option('display.max_rows',85)
schema_df;

## Part 2
### Selecting Rows and Columns

In [17]:
df = pd.read_csv('data/survey_results_public.csv')
schema_df = pd.read_csv("data/survey_results_schema.csv")

In [18]:
pd.set_option('display.max_columns',85)
pd.set_option('display.max_rows',85)

#### converter dictionary em DataFrame e manipular colunas e linhas

In [19]:
people = {
    'first':['Corey','Jane','John'],
    'last':['Schafer','Doe','Doe'],
    'email':['CoreyMSchafer@gmail.com','JaneDoe@email.com','JohnDoe@email.com'] 
}

In [38]:
new_df = pd.DataFrame(people)

In [61]:
new_df;

In [62]:
new_df['email'];
#também poderia usar new_df.email

In [32]:
# cada coluna do dataframe é uma series.
# dataframes são objetos que comportam diversas series
type(new_df['email'])

pandas.core.series.Series

In [63]:
new_df[['last','email']];
# retorna um novo dataframe (series = coluna)

In [41]:
new_df.columns

Index(['first', 'last', 'email'], dtype='object')

- Para manipular linhas (rows) vamos usar loc e iloc

In [64]:
#iloc = integer location
new_df.iloc[0];
# retorna uma series (coluna) com valores da linha 0 do dataframe
## os indexes agora são o nome das colunas

In [65]:
new_df.iloc[[0,1]];

In [66]:
new_df.iloc[[0,1],2];

In [67]:
#loc procura pelas labels (indexes)
## por enquanto, para as linhas não vai mudar pois não demos nomes para os indexes das linhas (continuam 0,1,2...)
new_df;

In [68]:
new_df.loc[0];

In [69]:
new_df.loc[[0,1],['last','email']];

- Voltando para o df original

In [91]:
df.columns;

In [92]:
# só a coluna Hobbyist
df['Hobbyist'];

In [79]:
df['Hobbyist'].value_counts()

Yes    71257
No     17626
Name: Hobbyist, dtype: int64

In [93]:
#só primeira linha
df.loc[0];

In [83]:
#primeira linha, coluna Hobbyist
df.loc[0,'Hobbyist']

'Yes'

In [94]:
#se quiser primeiras 3 linhas (0,1,2) pode usar slice mas... 
## A ÚLTIMA LINHA E COLUNA É INCLUÍDA (diferente da maioria dos slicing no python)
df.loc[0:2,'Hobbyist':'Employment'];

## Part 3
### Indexes

In [106]:
new_df['email'];

In [107]:
#definir uma das colunas para ser o index de cada linha
new_df.set_index('email');

In [108]:
new_df.set_index('email',inplace=True)
new_df;

In [103]:
new_df.index

Index(['CoreyMSchafer@gmail.com', 'JaneDoe@email.com', 'JohnDoe@email.com'], dtype='object', name='email')

In [109]:
new_df.loc['CoreyMSchafer@gmail.com'];

In [110]:
#para remover a coluna dos index (voltar para 0,1,2...)
new_df.reset_index(inplace=True)
new_df;

- Voltando para o df original

In [113]:
df;

In [114]:
#ao invez de usar df.set_index('Respondent') vamos usar direto quando chamamos o arquivo
df = pd.read_csv('data/survey_results_public.csv', index_col='Respondent')
df;

In [120]:
schema_df = pd.read_csv("data/survey_results_schema.csv", index_col='Column')
schema_df;

In [116]:
schema_df.loc['MgrIdiot']

QuestionText    How confident are you that your manager knows ...
Name: MgrIdiot, dtype: object

In [117]:
schema_df.loc['MgrIdiot','QuestionText']

'How confident are you that your manager knows what they’re doing?'

In [121]:
# ordenar do menor para maior
schema_df.sort_index();

In [122]:
# ordenar do maior para menor
schema_df.sort_index(ascending=False);

## Part 4
### Filtering

In [147]:
people = {
    'first':['Corey','Jane','John'],
    'last':['Schafer','Doe','Doe'],
    'email':['CoreyMSchafer@gmail.com','JaneDoe@email.com','JohnDoe@email.com'] 
}
new_df = pd.DataFrame(people)
new_df;

In [148]:
#filter mask
filt = new_df['last']=='Doe'
filt;

In [149]:
#usando o filter mask
new_df[filt];

In [150]:
#usando diretamente (lê-se: new_df such that new_df['last'] é igual a 'Doe')
new_df[new_df['last']=='Doe'];

In [151]:
#outro jeito é usar o .loc, que permite que a gente filtre colunas também
#funciona pois o .loc[linhas,colunas] vai consider True = quero essa linha, e False = não quero essa linha
new_df.loc[filt,'email'];

In [152]:
#and = &, or = |
filt2 = (new_df['last']=='Doe') & (new_df['first']=='John')
new_df.loc[filt2,'email'];

In [153]:
# ~ é o símbolo de negação, e irá retornar o oposto do filtro
new_df.loc[~filt2,'email'];

- Voltando para o df original

In [154]:
#salários estão na coluna ConvertedComp

In [173]:
#usamos um novo método do Pandas (.isin(list))
countries = ['United States','India','United Kingdom','Germany','Canada']
high_salaries = (df['ConvertedComp']>70000) & (df['Country'].isin(countries))
high_salaries_br = (df['ConvertedComp']>70000) & (df['Country']=='Brazil')

In [174]:
df.loc[high_salaries,['Country','LanguageWorkedWith','ConvertedComp']];

In [175]:
df.loc[high_salaries_br,['Country','LanguageWorkedWith','ConvertedComp']];

In [176]:
#usamos um novo string method do Pandas (.str.contains(word))
filt_python = df['LanguageWorkedWith'].str.contains('Python',na=False)
df.loc[filt_python,['Country','LanguageWorkedWith','ConvertedComp']];

## Part 5
### Updating Rows and Columns