## `__main__` : Ambiente de código principal

`__main__` é o nome do ambiente principal no qual o código é executado. 

**Ambiente de código principal** é o primeiro módulo Python definido pelo usuário que começa a ser executado. 

Esse ambiente é considerado principal porque ele importa todos os outros módulos que o programa precisa. 

Em Python, o código é executado sequencialmente de cima para baixo.
Costuma se definir uma função main() para melhor organizar o código. 

Para que a função main() seja executada, você precisa chamá-la no final do seu script. 
Normalmente, isso é feito com a seguinte estrutura:

In [None]:
def carro():
    print("executando carro")

def bike():
    print("executando bike")

def moto():
    print("executando moto")

In [None]:
if __name__ == "__main__":
    bike()
    carro()
    carro()
    moto()
    bike()

In [None]:
bike()
carro()
carro()
moto()
bike()

In [None]:
def fatorial(n):
    if n==0 or n==1:
        return 1
    else:
        fat = n * fatorial(n-1)
    
    return fat

In [None]:
def main():
    ''' testes da função fatorial '''
    print("0! =", fatorial(0))
    print("1! =", fatorial(1))
    print("5! =", fatorial(5))
    print("17! =", fatorial(17))

In [None]:
if __name__ == '__main__': # chamada da funcao principal
    main() # chamada da função main

In [None]:
# O número de combinações possíveis de m elementos em grupos de n elementos (n<=m) é dada pela fórmula de combinação m!/((m-n)!n!)!
def combinacao(m, n):
    combi = (fatorial(m))/(fatorial(m-n)*fatorial(n))

    return combi


In [None]:
def main():
    ''' Testes da função combincao '''
    print("Combinacao(4,2) =", combinacao(4,2))
    print("Combinacao(5,2) =", combinacao(5,2))
    print("Combinacao(10,4) =", combinacao(10,4))


if __name__ == '__main__': # chamada da funcao principal
    main()

## Importando datasets do kaggle

[https://ravi-chan.medium.com/how-to-download-any-data-set-from-kaggle-7e2adc152d7f]

Python possui o módulo `os` com métodos para interar como o sistema operacional, como  
- criar arquivos e diretórios, 
- gerenciar arquivos e diretórios, 
- gerenciar entrada, saída, ambiente de variáveis, processos, etc.


opendatasets é uma biblioteca Python para downloading de datasets da internet como Kaggle e Google Drive usando um simples comando Python.
[https://pypi.org/project/opendatasets/]

In [None]:
import os
import opendatasets as od
import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)

In [None]:
# Assign the Kaggle data set URL into variable
#dataset = 'https://www.kaggle.com/ryanholbrook/dl-course-data'
dataset = 'https://www.kaggle.com/datasets/steve1215rogg/student-lifestyle-dataset'
# Using opendatasets let's download the data sets
od.download(dataset)

In [None]:
# Load the dataset from the file path
data = pd.read_csv('student-lifestyle-dataset/student_lifestyle_dataset.csv')

In [None]:
# Display the first few rows to check the data
data.head()

In [None]:
# Get general information about the dataset
print(data.info())

In [None]:
# Get a statistical summary of the dataset
print(data.describe())

In [None]:
# Check for any missing values
print(data.isnull().sum())

In [None]:
# Display the column names to see if there are any discrepancies
print(data.columns)

In [None]:
import matplotlib.pyplot as plt

# Example: Study Hours vs GPA
plt.scatter(data['Study_Hours_Per_Day'], data['GPA'], color='blue')
plt.title('Study Hours vs GPA')
plt.xlabel('Study Hours')
plt.ylabel('GPA')
plt.show()

In [None]:
import kagglehub # instal with pip

# Download latest version
path = kagglehub.dataset_download("steve1215rogg/e-commerce-dataset")

print("Path to dataset files:", path)

In [None]:
data = pd.read_csv(f'{path}/ecommerce_dataset_updated.csv')

In [None]:
data

## Função lambda do dataframe

- O método **apply**
- A função **lambda**

Considere a tabela

x  | y
---| ---
2  | 3
-1 | 3
5  | 2

Suponha que se deseja criar uma nova coluna z que seja a coluna x adicionada a 1.

Implemente um programa que faça isso usando **apply** e **lambda**.

In [None]:
df = pd.DataFrame([[2,3],[-1,3],[5,2]], columns=['x','y'])
df

In [None]:
df['z'] = df['x'].apply(lambda x:x+1)
df

Suponha que se queira criar uma modifica toda a tabela, aplicando a função lambda a todas as colunas.

In [None]:
df = df.apply(lambda x:x+1)
df

Considere a seguinte tabela

x   | y
----| ---
20  | -3
-10 | 23
15  | 22

Suponha que se queira normalizar os dados da tabela usando-se a normalização

$$
z = \frac{x - média}{desvio \ padrão}
$$

In [None]:
df = pd.DataFrame([[20,-3],[-10,23],[15,22]], columns=['x','y'])
df

In [None]:
znormal = lambda x:(x-x.mean())/x.std()
type(znormal)

In [None]:
print(znormal)

In [None]:
df = df.apply(znormal)
df