# Introdução ao python

In [None]:
print("Olá mundo!")

In [None]:
help(print)

### Carregando biblioteca pandas

In [None]:
import pandas as pd

* Documentação para [pandas](https://pandas.pydata.org/)

In [None]:
arquivo = 'prostate.csv'
dados = pd.read_csv(arquivo)

In [None]:
dados.head(10)

In [None]:
dados.info()

In [None]:
dados.shape

In [None]:
dados.values

In [None]:
dados.columns

In [None]:
dados.index

In [None]:
dados.set_index("age")

In [None]:
dados.reset_index()

In [None]:
dados.reset_index(drop=True)

In [None]:
dados.iloc[1:7,:4]

In [None]:
dados.sort_values("age", ascending=False) # use o argumento ascending=False para ordem decrescente

In [None]:
dados.sort_values(["age","gleason"], ascending=[True,False])

In [None]:
dados["age"]

In [None]:
dados[["age","svi"]]

In [None]:
dados["age"]>50

In [None]:
dados[dados["age"]>50]

In [None]:
dados[(dados["age"]>50) & (dados["svi"]==1)]

In [None]:
dados["mod_lbph"]=abs(dados["lbph"])
dados.head()

### Algumas estatísticas

In [None]:
dados.describe()

In [None]:
dados.mean() # média das variáveis

In [None]:
dados["age"].mean()

### Outras funções disponíveis
.median(), .mode(), .min(), .max(), .var(), .std(), .sum(), .quantile()

In [None]:
dados["age"].mode()

### Método .agg()

In [None]:
def quantil_30(column):
    return column.quantile(0.3)

dados["age"].agg(quantil_30)

In [None]:
dados[["age","lcavol"]].agg(quantil_30)

In [None]:
def mediana(column):
    return column.quantile(0.5)

In [None]:
dados[["age","lcavol"]].agg([quantil_30,mediana])

### Valores duplicados

In [None]:
dados.drop_duplicates(subset="train") # deleta valores duplicados

In [None]:
dados

In [None]:
dados.drop(['lpsa'], axis = 1)

In [None]:
dados.head()

In [None]:
dados["train"].value_counts()

In [None]:
dados["train"].value_counts(normalize=True)*100

### Resumo por grupos

In [None]:
dados.groupby("train")["age"].mean()

In [None]:
dados.groupby("train")["age"].agg([min, max, sum, quantil_30])

In [None]:
dados.groupby(["train","svi"])["age"].agg([min, max, sum, quantil_30])

In [None]:
dados.groupby(["train","svi"])[["age","lweight"]].agg([min, max, sum, quantil_30])

### Agrupando em tabelas pivote (pivot table)

In [None]:
import numpy as np

dados.pivot_table(values="age", index="train", aggfunc=np.median)

In [None]:
dados.pivot_table(values=["age","lweight"], index="train", aggfunc=[np.median, np.mean])

### Visualizando os dados

In [None]:
import matplotlib.pyplot as plt 

* Documentação biblioteca [matplotlib](https://matplotlib.org/)

In [None]:
dados['age'].hist()
plt.show()

In [None]:
dados['age'].hist(bins=20)
plt.show()

In [None]:
dados[dados["train"]=="T"]["age"].hist(alpha=0.7)
dados[dados["train"]=="F"]["age"].hist(alpha=0.7)
plt.legend(["T", "F"])
plt.show()

In [None]:
media_idades = dados.groupby("train")["age"].mean()
print(media_idades)

In [None]:
media_idades.plot(kind="bar",rot=360)
plt.show()

In [None]:
dados.plot(x="age", y="lweight", kind="scatter")
plt.title('Idade vs log peso')
plt.xlabel('Idade')
plt.ylabel('log peso')
plt.show()

In [None]:
import seaborn as sns

sns.boxplot(x=dados["age"])
plt.show()

In [None]:
sns.regplot(x=dados["age"], y=dados["lweight"])
plt.show()

In [None]:
sns.pairplot(dados, kind="reg")
plt.show()

In [None]:
dados.isna()

In [None]:
from sklearn.linear_model import LinearRegression

In [None]:
X = dados["age"].values.reshape(-1, 1)  # values converts it into a numpy array
Y = dados["lweight"].values.reshape(-1, 1)  # -1 means that calculate the dimension of rows, but have 1 column
linear_regressor.fit(X, Y)  # perform linear regression
Y_pred = linear_regressor.predict(X)  # make predictions
plt.scatter(X, Y)
plt.plot(X, Y_pred, color='red')
plt.show()