In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv('http://bit.ly/kaggletrain')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


# Map()

* A função map() é bem limitada, podendo ser aplicada apenas a uma série.

* Como funciona a função?
     * Como argumentos o map() pode receber tanto uma series pandas ou um dicionário. Quando a função é aplicada em uma series ela pega cada elemento da série, aplica a função e retorna a série transformada com os argumentos utilizados.

* Aplicando **map()** em uma Series.
* Digamos que você queira traduzir dos dados de uma coluna, podemos usar a map() para fazer esse processo.

In [3]:
# criando uma variavel com traduções
traducao = {'male': 'masculino',
            'female': 'feminino'}

"""aplicando a função map(), 
que ira percorrer cada elemento da coluna 'sex' e ira fazer a troca de acordo com a variavel traducao"""

df['Sex'] = df['Sex'].map(traducao)

In [4]:
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",masculino,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",feminino,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",feminino,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",feminino,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",masculino,35.0,0,0,373450,8.05,,S


* A função **SE** do excel no python usando **map()**

> Podemos criar uma nova coluna com dados onde, masculino será 1 e feminino 0

In [5]:
# criando uma nova coluna onde, coluna 'Sex' for  masculino será 1 e feminino 0
df['Sex_num'] = df.Sex.map({'masculino': 1,
                            'feminino':  0 })

In [6]:
df.loc[0:4, ['Sex', 'Sex_num']]

Unnamed: 0,Sex,Sex_num
0,masculino,1
1,feminino,0
2,feminino,0
3,feminino,0
4,masculino,1


# Apply()

* A função apply() pode ser usado para Data Frames e series pandas, onde seu argumento sempre será uma função.
* **Como funciona a função?**
    * Quando você usa o apply() em uma série ou em um data frame, a função pega cada elemento na série e aplica o argumento em cada elemento, e seu retorno pode ser tanto uma series pandas ou um data frame.

* Aplicando **apply** em uma Series.
* Contatando os números de caracteres usando **apply()**

In [7]:
# aplicando o método
df['Name_length'] = df.Name.apply(len)

In [8]:
df[['Name', 'Name_length']].head()

Unnamed: 0,Name,Name_length
0,"Braund, Mr. Owen Harris",23
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",51
2,"Heikkinen, Miss. Laina",22
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",44
4,"Allen, Mr. William Henry",24


* Então vamos ao mais uma exemplo de aplicação, é bem comum usarmos a função apply() seguida de uma função Numpy.
    * Digamos que eu queira arredondar para cima os números de uma determinada coluna.

In [9]:
# aplicando o método apply usando com argumento uma função numpy que irá percorrer cada item da coluna e arredondar para cima
df['Fare_ceil'] = df['Fare'].apply(np.ceil)

In [10]:
df[['Fare_ceil', 'Fare_ceil']].head()

Unnamed: 0,Fare_ceil,Fare_ceil.1
0,8.0,8.0
1,72.0,72.0
2,8.0,8.0
3,54.0,54.0
4,9.0,9.0


* Mais uma exemplo de aplicação com **apply()**
* E se eu precisasse extrair o primeiro nome de cada pessoa?
     * Podemos usar ele para fazer isso. mas antes temos que separar as parte com **(,)** usando uma outra função do Python chamada **split()**

In [11]:
df.Name.str.split(",")

0                             [Braund,  Mr. Owen Harris]
1      [Cumings,  Mrs. John Bradley (Florence Briggs ...
2                              [Heikkinen,  Miss. Laina]
3        [Futrelle,  Mrs. Jacques Heath (Lily May Peel)]
4                            [Allen,  Mr. William Henry]
                             ...                        
886                             [Montvila,  Rev. Juozas]
887                      [Graham,  Miss. Margaret Edith]
888          [Johnston,  Miss. Catherine Helen "Carrie"]
889                             [Behr,  Mr. Karl Howell]
890                               [Dooley,  Mr. Patrick]
Name: Name, Length: 891, dtype: object

In [12]:
# aplicando a função e atribuindo a uma nova coluna
df['first_name'] = df.Name.str.split(',').apply(lambda item: item[0])

In [13]:
df[['Name', 'first_name']].head()

Unnamed: 0,Name,first_name
0,"Braund, Mr. Owen Harris",Braund
1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",Cumings
2,"Heikkinen, Miss. Laina",Heikkinen
3,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",Futrelle
4,"Allen, Mr. William Henry",Allen
