# Natural Language Processing (NLP) with Twitter User Gender Data

1. [Import Twitter Data](#1)
2. [Cleaning Data (Regular expression)](#2)
3. [StopWords](#3)
4. [Lemmatization](#4)

In [None]:
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt

<a id="1"></a> <br>
## 1. Import Twitter Data

In [None]:
data = pd.read_csv(r'../input/twitter-user-gender-classification/gender-classifier-DFE-791531.csv', encoding='latin1')
# baştaki r harfi (read) özel karakterleri (\n gibi) yok sayar. encoding='latin1' dememizin sebebi, data'nın içinde latin harflerinin olmasıdır. Öyle yapmazsak hata verir.

data.columns

In [None]:
data = pd.concat([data.gender, data.description], axis=1)
data.head()

In [None]:
print(data.isnull().sum())
print('shape: ', data.shape)

In [None]:
data.dropna(axis=0, inplace=True) # null olan değerleri satır olarak (axis=0) sil dedik. dropna == null değerleri siler

print(data.isnull().sum())
print('shape: ', data.shape)

In [None]:
data.gender = [1 if each=='female' else 0 for each in data.gender]
data.head()

<a id="2"></a> <br>
## 2. Cleaning Data

In [None]:
import re  # Regular Expression

desc = data.description[4]
desc

* re.sub() fonksiyonu ile a'dan z'ye ve A'dan Z'ye olmayan karakterleri " " (boşluğa) dönüştür dedik. ^ işareti olmayan demek.

In [None]:
new_desc = re.sub("[^a-zA-Z]", " ", desc)

new_desc = new_desc.lower() # bütün harfleri küçük yaptık
new_desc

<a id="3"></a> <br>
## 3. StopWords (irrelavent words)

* Gereksiz kelimeler

In [None]:
import nltk  # natural language tool kit

# nltk.download('stopwords')  # corpus diye bir klasöre internetten indiriyor.

from nltk.corpus import stopwords  # sonra corpus klasöründen import ediyoruz

<br>
### Difference between split() and nltk.word_tokenize() methods

In [None]:
demo = "You shouldn't go there"

split_method = demo.split()
tokenize_method = nltk.word_tokenize(demo)

print(split_method)
print(tokenize_method)

Tokenize metodunu kullanmalıyız. Çünkü 'not' kelimesini split metodu algılamıyor.

In [None]:
new_desc = nltk.word_tokenize(new_desc)
print(new_desc)

In [None]:
print(stopwords.words('english'))

In [None]:
new_desc = [word for word in new_desc if not word in stopwords.words('english')]
# the kelimesi gitti

<a id="4"></a> <br>
## 4. Lemmatization

* Kök Bulma

In [None]:
lemma = nltk.WordNetLemmatizer()

new_desc = [lemma.lemmatize(word) for word in new_desc]  # memories --> memory oldu

new_desc = " ".join(new_desc) # kelimeleri birleştiriyouz

new_desc