## Por: victordhn
#### Seguindo tutorial do @CoreyMSchafer

In [1]:
import pandas as pd

### Vamos usar dados da pesquisa do Stack Overflow
- https://insights.stackoverflow.com/survey
- para seguir o tutorial mais precisamente, vou usar os dados de 2019

> Atenção, ao longo do tutorial vamos usar um mini DataFrame (chamado df_new) para treino, e depois aplicaremos os conceitos ao DataFrame do Stack Overflow (chamado df)

### Importante:
- Todos comandos com output na tela estão com ";" no final para esconder o output (ou estão comentados com # quando o ; não for possível). Essa é só uma forma de deixar o notebook mais fácil de ler depois que eu já analisei todo o output

## Part 1
### Loading data and first analyses

In [2]:
df = pd.read_csv('data/survey_results_public.csv')

In [3]:
# O método .head() tem como padrão 5 linhas, mas pode ser alterado passando um valor, por exemplo, df.head(10)
# Atenção, quando chamamos o dataframe, o Jupyter só mostra 20 colunas. Esse survey tem 85 colunas
df.head();

In [4]:
# linhas e colunas
df.shape

(88883, 85)

In [5]:
# usar método .info() para mais informações
# df.info()

In [6]:
# mudar setting para mostrar todas colunas
pd.set_option('display.max_columns',85)
df.head(10);

In [7]:
schema_df = pd.read_csv("data/survey_results_schema.csv")
schema_df;

In [8]:
# mudar setting para mostrar todas linhas
pd.set_option('display.max_rows',85)
schema_df;

## Part 2
### Selecting Rows and Columns

In [9]:
df = pd.read_csv('data/survey_results_public.csv')
schema_df = pd.read_csv("data/survey_results_schema.csv")

In [10]:
pd.set_option('display.max_columns',85)
pd.set_option('display.max_rows',85)

#### converter dictionary em DataFrame e manipular colunas e linhas

In [11]:
people = {
    'first':['Corey','Jane','John'],
    'last':['Schafer','Doe','Doe'],
    'email':['CoreyMSchafer@gmail.com','JaneDoe@email.com','JohnDoe@email.com'] 
}

In [12]:
new_df = pd.DataFrame(people)

In [13]:
new_df;

In [14]:
new_df['email'];
#também poderia usar new_df.email

In [15]:
# cada coluna do dataframe é uma series.
# dataframes são objetos que comportam diversas series
type(new_df['email'])

pandas.core.series.Series

In [16]:
new_df[['last','email']];
# retorna um novo dataframe (series = coluna)

In [17]:
new_df.columns

Index(['first', 'last', 'email'], dtype='object')

- Para manipular linhas (rows) vamos usar loc e iloc

In [18]:
#iloc = integer location
new_df.iloc[0];
# retorna uma series (coluna) com valores da linha 0 do dataframe
## os indexes agora são o nome das colunas

In [19]:
new_df.iloc[[0,1]];

In [20]:
new_df.iloc[[0,1],2];

In [21]:
#loc procura pelas labels (indexes)
## por enquanto, para as linhas não vai mudar pois não demos nomes para os indexes das linhas (continuam 0,1,2...)
new_df;

In [22]:
new_df.loc[0];

In [23]:
new_df.loc[[0,1],['last','email']];

- Voltando para o df original

In [24]:
df.columns;

In [25]:
# só a coluna Hobbyist
df['Hobbyist'];

In [26]:
df['Hobbyist'].value_counts()

Yes    71257
No     17626
Name: Hobbyist, dtype: int64

In [27]:
#só primeira linha
df.loc[0];

In [28]:
#primeira linha, coluna Hobbyist
df.loc[0,'Hobbyist']

'Yes'

In [29]:
#se quiser primeiras 3 linhas (0,1,2) pode usar slice mas... 
## A ÚLTIMA LINHA E COLUNA É INCLUÍDA (diferente da maioria dos slicing no python)
df.loc[0:2,'Hobbyist':'Employment'];

## Part 3
### Indexes

In [30]:
new_df['email'];

In [31]:
#definir uma das colunas para ser o index de cada linha
new_df.set_index('email');

In [32]:
new_df.set_index('email',inplace=True)
new_df;

In [33]:
new_df.index

Index(['CoreyMSchafer@gmail.com', 'JaneDoe@email.com', 'JohnDoe@email.com'], dtype='object', name='email')

In [34]:
new_df.loc['CoreyMSchafer@gmail.com'];

In [35]:
#para remover a coluna dos index (voltar para 0,1,2...)
new_df.reset_index(inplace=True)
new_df;

- Voltando para o df original

In [36]:
df;

In [37]:
#ao invez de usar df.set_index('Respondent') vamos usar direto quando chamamos o arquivo
df = pd.read_csv('data/survey_results_public.csv', index_col='Respondent')
df;

In [38]:
schema_df = pd.read_csv("data/survey_results_schema.csv", index_col='Column')
schema_df;

In [39]:
schema_df.loc['MgrIdiot']

QuestionText    How confident are you that your manager knows ...
Name: MgrIdiot, dtype: object

In [40]:
schema_df.loc['MgrIdiot','QuestionText']

'How confident are you that your manager knows what they’re doing?'

In [41]:
# ordenar do menor para maior
schema_df.sort_index();

In [42]:
# ordenar do maior para menor
schema_df.sort_index(ascending=False);

## Part 4
### Filtering

In [43]:
people = {
    'first':['Corey','Jane','John'],
    'last':['Schafer','Doe','Doe'],
    'email':['CoreyMSchafer@gmail.com','JaneDoe@email.com','JohnDoe@email.com'] 
}
new_df = pd.DataFrame(people)
new_df;

In [44]:
#filter mask
filt = new_df['last']=='Doe'
filt;

In [45]:
#usando o filter mask
new_df[filt];

In [46]:
#usando diretamente (lê-se: new_df such that new_df['last'] é igual a 'Doe')
new_df[new_df['last']=='Doe'];

In [47]:
#outro jeito é usar o .loc, que permite que a gente filtre colunas também
#funciona pois o .loc[linhas,colunas] vai consider True = quero essa linha, e False = não quero essa linha
new_df.loc[filt,'email'];

In [48]:
#and = &, or = |
filt2 = (new_df['last']=='Doe') & (new_df['first']=='John')
new_df.loc[filt2,'email'];

In [49]:
# ~ é o símbolo de negação, e irá retornar o oposto do filtro
new_df.loc[~filt2,'email'];

- Voltando para o df original

In [50]:
#salários estão na coluna ConvertedComp

In [51]:
#usamos um novo método do Pandas (.isin(list))
countries = ['United States','India','United Kingdom','Germany','Canada']
high_salaries = (df['ConvertedComp']>70000) & (df['Country'].isin(countries))
high_salaries_br = (df['ConvertedComp']>70000) & (df['Country']=='Brazil')

In [52]:
df.loc[high_salaries,['Country','LanguageWorkedWith','ConvertedComp']];

In [53]:
df.loc[high_salaries_br,['Country','LanguageWorkedWith','ConvertedComp']];

In [54]:
#usamos um novo string method do Pandas (.str.contains(word))
filt_python = df['LanguageWorkedWith'].str.contains('Python',na=False)
df.loc[filt_python,['Country','LanguageWorkedWith','ConvertedComp']];

## Part 5
### Updating Rows and Columns

In [55]:
new_df.columns

Index(['first', 'last', 'email'], dtype='object')

In [56]:
#mudar nome de todas colunas
new_df.columns=['first_name','second_name','email']
new_df;

In [57]:
#vamos usar list comprehension
new_df.columns = [x.upper() for x in new_df.columns]
new_df;

In [58]:
#substituir caracteres nas colunas
new_df.columns = new_df.columns.str.replace('_','*')
new_df;

In [59]:
new_df.columns = new_df.columns.str.replace('*','_')
new_df.columns = [x.lower() for x in new_df.columns]
new_df;

  new_df.columns = new_df.columns.str.replace('*','_')


In [60]:
#editando apenas algumas colunas
new_df.rename(columns={'first_name':'first','second_name':'last'},inplace=True)
new_df;

#### Editando linhas (importante)

In [61]:
new_df;

In [62]:
new_df.loc[2];

In [63]:
new_df.loc[2] = ['João','Damião','JoãoDamião@email.com']
new_df;

In [64]:
new_df.loc[2,['last','email']] = ['Damasceno','JoãoDamasceno@email.com']
new_df;

In [65]:
# usando filter
filt = (new_df['email']=='JoãoDamasceno@email.com')
new_df.loc[filt,'first'] = 'Tião'
new_df;

In [66]:
# mudar varias rows ao mesmo tempo
new_df['email'] = new_df['email'].str.lower()
new_df;

- Métodos que vamos aprender: apply, map, applymap, replace

In [67]:
#apply - aplica uma function para cada valor numa série ou dataframe
new_df['email'].apply(len);

In [68]:
def update_email(email):
    return email.upper()

In [69]:
new_df['email'] = new_df['email'].apply(update_email)
new_df;

In [70]:
#aplicando uma lambda function dentro do método apply
new_df['email'] = new_df['email'].apply(lambda x: x.lower())
new_df;

In [71]:
#aplicando o método apply no DataFrame
#aplicou len para cada coluna
new_df.apply(len);

In [72]:
#aplicou len para cada row
#como sempre, axis são um pouco contraintuitivos
new_df.apply(len,axis='columns');

In [73]:
new_df.apply(pd.Series.min);

In [74]:
new_df.apply(lambda x: x.min());

In [75]:
#o método applymap funciona apenas com DataFrames
new_df.applymap(len);

In [76]:
new_df.applymap(str.lower);

In [77]:
#o método map só funciona com Series
new_df['first'].map({'Corey':'Chris','Jane':'Mary'});

In [78]:
new_df['first']=new_df['first'].replace({'Corey':'Chris','Jane':'Mary'})
new_df;

- Voltando para o df original

In [79]:
df.rename(columns={'ConvertedComp':'SalaryUSD'},inplace=True)
df;

In [80]:
df['SalaryUSD'];

In [81]:
df['Hobbyist'] = df['Hobbyist'].map({'Yes':True,'No':False})
df;

## Part 6
### Add and Remove Rows and Columns

In [82]:
people = {
    'first':['Corey','Jane','John'],
    'last':['Schafer','Doe','Doe'],
    'email':['CoreyMSchafer@gmail.com','JaneDoe@email.com','JohnDoe@email.com'] 
}
new_df = pd.DataFrame(people)
new_df;

In [83]:
new_df;

In [84]:
new_df['first']+' '+new_df['last'];

In [85]:
#add column
new_df['full_name']=new_df['first']+' '+new_df['last']
new_df;

In [86]:
#remove column
new_df.drop(columns=['first','last'], inplace=True)
new_df;

In [87]:
new_df['full_name'].str.split(' ',expand=True);

In [88]:
new_df[['first','last']]=new_df['full_name'].str.split(' ',expand=True)

In [89]:
new_df;

In [90]:
#add or remove rows
new_df.append({'first':'Tony'}, ignore_index=True);

  new_df.append({'first':'Tony'}, ignore_index=True);


In [91]:
people = {
    'first':['Tony','Steve'],
    'last':['Stark','Rogers'],
    'email':['IronMan@avenge.com','Cap@avenge.com'] 
}
new_df2 = pd.DataFrame(people)
new_df2;

In [92]:
new_df = new_df.append(new_df2, ignore_index=True)
new_df;

  new_df = new_df.append(new_df2, ignore_index=True)


In [93]:
#remove rows
new_df.drop(index=4)

Unnamed: 0,email,full_name,first,last
0,CoreyMSchafer@gmail.com,Corey Schafer,Corey,Schafer
1,JaneDoe@email.com,Jane Doe,Jane,Doe
2,JohnDoe@email.com,John Doe,John,Doe
3,IronMan@avenge.com,,Tony,Stark


In [94]:
filt = new_df['last']=='Doe'

In [95]:
new_df.drop(index=new_df[filt].index);

## Part 7
### Sorting Data

In [96]:
people = {
    'first':['Corey','Jane','John','Adam'],
    'last':['Schafer','Doe','Doe','Doe'],
    'email':['CoreyMSchafer@gmail.com','JaneDoe@email.com','JohnDoe@email.com','AdamDoe@email.com'] 
}
new_df = pd.DataFrame(people)
new_df;

In [97]:
new_df.sort_values(by='last');

In [98]:
new_df.sort_values(by='last',ascending=False);

In [99]:
new_df.sort_values(by=['last','first'],ascending=False);

In [100]:
new_df.sort_values(by=['last','first'],ascending=[False,True],inplace=True);
new_df;

In [101]:
new_df.sort_index();

In [102]:
#sorting a series only
new_df['last'].sort_values();

In [103]:
df.head();

In [104]:
df.sort_values(by=['Country','SalaryUSD'],ascending=[True,False],inplace=True);

In [105]:
df[['Country','SalaryUSD']].head(50);

In [106]:
df['SalaryUSD'].nlargest(10);

In [107]:
df.nlargest(10,'SalaryUSD');