In [None]:
import numpy as np
import pandas as pd
import plotly.express as px

In [None]:
#data frame
df_conta = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv")

df_conta

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


In [None]:
#Final do df - calda - padrão 5
df_conta.tail()

In [None]:
# groupby == > Agrupamento do DataFrame  | agg

df_conta_agrupamento_dia = df_conta.groupby('day', sort = False).agg({'total_bill': np.sum}).reset_index()
df_conta_agrupamento_dia

In [None]:
px.bar(df_conta_agrupamento_dia, x='day', y='total_bill')

In [None]:
#Faça o agrupamento pelo o dia e  sexo
#1° DataFrame
df_conta_agrupamento_dia_sexo = df_conta.groupby(['day', 'sex'], sort=False).agg({'total_bill': np.sum}).reset_index()
df_conta_agrupamento_dia_sexo

In [None]:
#Faça o agrupamento pelo o dia e  sexo
#2° Gráfico
px.bar(df_conta_agrupamento_dia_sexo, x='day', y='total_bill', color = 'sex')

In [None]:
px.bar(df_conta_agrupamento_dia_sexo, x='day', y='total_bill', color = 'sex', barmode='group')

In [None]:
#Faça o agrupamento pelo o dia e  sexo - barra deitada

px.bar(df_conta_agrupamento_dia_sexo, x='total_bill', y='day', color = 'sex', barmode='group')

In [None]:
# Faça um gráfico de dispersão
px.scatter(df_conta, x='total_bill', y='tip', color='day', hover_name='time')


In [None]:
quantidade_pedidos_dia = df_conta['day'].value_counts() #contar os valores
quantidade_pedidos_dia

In [None]:
#contar os valores
quantidade_pedidos_dia = df_conta['day'].value_counts()
quantidade_pedidos_dia

In [None]:
quantidade_pedidos_dia.index

In [None]:
px.pie(names=quantidade_pedidos_dia.index, values=quantidade_pedidos_dia.values)

# PARTE 02 - Principais métodos

## Os mais comuns

A biblioteca __Pandas__ possui muitas funções e métodos implementados que nos ajudam, e muito, em nosso dia-a-dia na análise exploratória de dados.

Nesta aula, vamos aprender a utilizar os mais comuns conforme estão listados abaixo:

* `rename` : renomeia os 'rótulos' dos eixos (índices ou colunas)

* `apply` : aplica uma determinada função ao longo de um eixo quando for chamado diretamente pelo _DataFrame_ ou aplica uma função numa _Series_ em questão

* `map` : "mapeia" uma _Series_ aplicando determinada função a cada elemento desta

* `agg` : agrega uma ou mais operações à uma _Series_

* `min` : retorna o valor mínimo de uma _Series_

* `max` : retorna o valor máximo de uma _Series_

* `sum` : retorna a soma dos valores de uma _Series_

* `mean` : retorna a média dos valores de uma _Series_

* `count` : conta as células não vazias de cada linha ou coluna

* `value_counts` : retorna uma _Series_ contendo a contagem de linhas exclusivas no _DataFrame_

* `sort_values` : classifica / ordena os valores ao longo de qualquer eixo

* `insert` : insire uma nova coluna no _DataFrame_ no local especificado

* `drop` : remova linhas ou colunas especificando diretamente seus nomes

In [None]:
# Importação da biblioteca pandas
import pandas as pd

# Configuração para que os números fiquem com 2 casas decimais
pd.options.display.float_format = '{:,.2f}'.format

In [None]:
df = pd.DataFrame(
    {
        'Linguagem': ['Python', 'R', 'SQL', 'C', 'Java', 'Javascript', 'Elixir'],
        'Popularidade': ['Alta', 'Baixa', 'Altíssima', 'Média', 'Altíssima', 'Altíssima', 'Baixa'],
        'Versão': [3.10, 4.2, None, None, 11, 16, 1.12],
        'Desenvolvedores': [7_000_000, 500_000, 20_000_000, 3_500_000, 16_000_000, 25_000_000, 200_000],
        'Data de Lançamento': ['1991-02-20', '1993-08-03', '1986-01-01', '1972-01-01', '1995-05-23', '1995-12-04', '2012-01-01']
    }
)

df

Unnamed: 0,Linguagem,Popularidade,Versão,Desenvolvedores,Data de Lançamento
0,Python,Alta,3.1,7000000,1991-02-20
1,R,Baixa,4.2,500000,1993-08-03
2,SQL,Altíssima,0.0,20000000,1986-01-01
3,C,Média,,3500000,1972-01-01
4,Java,Altíssima,11.0,16000000,1995-05-23
5,Javascript,Altíssima,16.0,25000000,1995-12-04
6,Elixir,Baixa,1.12,200000,2012-01-01


Construção de novo DataFrame, mas desta vez, passando os parâmetros nomeadas - data, columns e index. Repare que o parâmetro nomeado data está vazio, logo os valores serão apresentados como NaN

In [None]:
dfs = pd.DataFrame(
    data=[],
    columns=['Lógica de Programação', 'Python', 'Data Science', 'HTML & CSS', 'JavaScript', 'React Native'],
    index=['Amanda', 'Camila', 'Cinthia', 'Gisele', 'Helen', 'Carol', 'Clara', 'Paula']
)

dfs

Importaremos a biblioteca numpy - Numeric Python - para nos auxiliar a "popular" nosso DataFrame com as notas dentro do intervalo de 5 à 10 ao longo das colunas

In [None]:
import numpy as np

dfs = dfs.apply(lambda nota: np.random.uniform(low=5.0, high=10.0, size=8), axis='index')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,5.99,9.68,5.06,7.79,7.86,5.97,5.89,6.62
Camila,9.97,5.23,6.02,8.65,6.95,5.68,6.11,7.89
Cinthia,5.46,9.82,6.85,8.82,5.81,8.77,8.36,9.37
Gisele,5.98,8.32,7.52,9.89,6.82,7.07,8.69,5.01
Helen,7.61,8.68,7.02,7.32,5.71,9.21,6.05,7.05
Carol,8.5,8.0,7.14,5.12,6.08,9.91,7.32,5.03
Clara,8.66,5.88,6.34,7.64,7.47,8.52,5.33,6.59
Paula,6.56,9.8,8.84,5.19,8.97,9.98,8.83,5.22


In [None]:
#Inserir uma coluna para calcular a média das notas
# Método mean
dfs['Média'] = dfs.mean(axis='columns')
dfs

Unnamed: 0,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,5.99,9.68,5.06,7.79,7.86,5.97,6.86,6.62
Camila,9.97,5.23,6.02,8.65,6.95,5.68,7.06,7.89
Cinthia,5.46,9.82,6.85,8.82,5.81,8.77,7.91,9.37
Gisele,5.98,8.32,7.52,9.89,6.82,7.07,7.41,5.01
Helen,7.61,8.68,7.02,7.32,5.71,9.21,7.33,7.05
Carol,8.5,8.0,7.14,5.12,6.08,9.91,7.14,5.03
Clara,8.66,5.88,6.34,7.64,7.47,8.52,7.05,6.59
Paula,6.56,9.8,8.84,5.19,8.97,9.98,7.92,5.22


__LEMBRE-SE__ : se precisar de ajuda para ver a _assinatura_ da função _mean_, basta colocar o ponto de interrogação após o método

**dfs.mean?**


Com a coluna _média_ criada e devidamente calculada, desejamos criar uma nova coluna para termos a situação de cada aluna com base na média da mesma.

Assim, criaremos uma coluna chamada _situação_ que receberá AP se a média for maior que 7 e RP se for menor que 7.

Usaremos o método _map_ e a expressão _lambda_ que vimos na aula passada.

In [None]:
dfs['Situação'] = dfs['Média'].map(lambda media: 'APROVADO' if media > 7 else 'REPROVADO')
dfs

In [None]:
situacao = dfs['Média'].map(lambda media: 'APROVADO' if media > 7 else 'REPROVADO')
dfs.insert(0, 'Status', situacao)
dfs

Unnamed: 0,Status,Lógica de Programação,Python,Data Science,HTML & CSS,JavaScript,React Native,Média,Situação
Amanda,REPROVADO,5.99,9.68,5.06,7.79,7.86,5.97,6.86,REPROVADO
Camila,APROVADO,9.97,5.23,6.02,8.65,6.95,5.68,7.06,APROVADO
Cinthia,APROVADO,5.46,9.82,6.85,8.82,5.81,8.77,7.91,APROVADO
Gisele,APROVADO,5.98,8.32,7.52,9.89,6.82,7.07,7.41,APROVADO
Helen,APROVADO,7.61,8.68,7.02,7.32,5.71,9.21,7.33,APROVADO
Carol,APROVADO,8.5,8.0,7.14,5.12,6.08,9.91,7.14,APROVADO
Clara,APROVADO,8.66,5.88,6.34,7.64,7.47,8.52,7.05,APROVADO
Paula,APROVADO,6.56,9.8,8.84,5.19,8.97,9.98,7.92,APROVADO
