-
Notifications
You must be signed in to change notification settings - Fork 0
/
notes
102 lines (74 loc) · 5.79 KB
/
notes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
Links:
- pandas.dataframe: https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.html
- pandas.series: https://pandas.pydata.org/docs/reference/api/pandas.Series.html
- documentação matplotlib: https://matplotlib.org/stable/users/index.html
---------------------------------------------------------------------------------------------------------------------------------------------
>>>>>>Aula 01:<<<<<<<
Aprendizados:
- Importar pandas (biblioteca de análise de dados)
- Ler dados CSV;
- Fazer upload de arquivo para o Google Colab;
- Renomear colunas;
- Contar dados; e
- Melhorar a visualização das informações.
---------------------------------------------------------------------------------------------------------------------------------------------
>>>>>>Aula 02:<<<<<<<
Eu acho que é nome_do_arquivo.head pq é uma lista encadeada, num sei ?
QUERIES -> se referem a consultas específicas usadas para extrair, filtrar e manipular dados de diversas fontes.
São como perguntas diretas feitas aos dados.
HISTOGRAMA -> Um histograma é um tipo de gráfico de barras que representa a frequência de dados em intervalos específicos.
É composto por colunas, e cada coluna representa a frequência (quantidade) de dados dentro de um determinado intervalo.
Quanto maior a coluna, mais dados caem naquele intervalo.
Geralmente o seaborn gera gráficos boxplot e o pandas é capaz de fazer histogramas, então:
- seaborn -> gráficos boxplot.
- pandas -> histogramas.
OBS: O Pandas também é capaz de gerar gráficos boxplot, assim como o Seaborn também é capaz de fazer histogramas.
Nesse caso, o histograma do Seaborn é chamado de "gráfico de distribuição", ou distplot().
Atenção: a função distplot() está depreciada e podemos utilizar a função histplot():
o histograma é gerado com base em um número de separações (as barras), no seaborn eu tenho mais separações do que no Pandas,
uso o arguemento bins para poder definir o número de separações. -> sns.histplot(mean_movie_rating, kde=True, bins=10)
O interessante a ser apreendido nesse caso é que devemos tomar cuidado na escolha desse parâmetro,
já que ela pode influenciar na análise dos nossos dados!
Na prática, o Seaborn utiliza algumas fórmulas pré-determinadas para definir uma quantidade de bins interessante
para o conjunto de dados que lhe foi alimentado.
A curva que o Seaborn exibe consiste em uma aproximação visual da distribuição dos dados (calculada matematicamente, é claro).
Para gerar esses gráficos, tanto o Seaborn quanto o Pandas utilizam uma biblioteca de baixo nível, chamada Matplotlib.
>>>>>>Pergunta Aula 02:<<<<<<<
"Ele gostaria de tirar a média das notas dos filmes que estão no IMDB, só que este processo é todo manual.
Como ele pode automatizar esse processo, de acordo com o que vimos?"
R:Utilizando o medias_por_filme = notas.groupby("filmeId").mean().nota
Aqui pegamos a coluna da nota e alinhamos os filmes em ordem numérica, tiramos as médias e selecionamos a coluna notas,
para que o Pandas não tire a média de todas as colunas, só da que selecionamos.
O histograma também é conhecido como "distribuição de frequências", e é representado em um gráfico de colunas ou de barras
a partir de um conjunto de dados previamente tabulado e dividido em classes (uniformes ou não uniformes).
Já o boxplot, também conhecido como "diagrama de caixa", é um método alternativo para o histograma.
Uma de suas particularidades é mostrar a faixa em que está concentrada a mediana dos valores.
Aprendizados:
- Trabalhar com query;
- Identificar os bins; e
- Filtrar apenas uma coluna.
---------------------------------------------------------------------------------------------------------------------------------------------
>>>>>>Aula 03:<<<<<<<
a language -> variavel categorica nominal
1 grau < 2 grau < 3 grau -> variavel categorica ordinal
budget => orcamento -> variavel quantitativa continuo
qtde de votos => 1, 2, 3, 4, nao tem 2.5 votos -> variavel quantitativa intervalar
notas do movielens => 0.5, 1, 1.5,..., 5 nao tem 2.7 -> variavel quantitativa intervalar
>>>>>>Pergunta Aula 03:<<<<<<<
"Amanda quer saber todas as línguas faladas pela empresa. Desse modo, como Amanda pode fazer para ver os valores únicos de línguas?"
R: Utilizando a função professores.original_language.unique() para deixar os valores únicos
Com o unique nós pegamos todos os valores que estão no CSV e fazemos eles virarem únicos, por exemplo temos 10 professores que falam
inglês e dois professores que falam russo, que vai gerar um array de categoria nominal. Utilizando o unique, podemos pegar todos os
valores presentes no CSV e transformá-los em únicos. Por exemplo, se temos dez professores de língua russa e dois de inglês, o unique
vai gerar um array de categoria nominal para russo e inglês.
===variáveis categóricas nominais e ordinais===
As __variáveis categóricas__ são aquelas que __não possuem valores quantitativos__, mas, ao contrário, são definidas por várias categorias,
ou seja, representam uma classificação dos indivíduos. Podem ser nominais ou ordinais.
Quando estamos trabalhando com categorias ordinais, existe uma ordenação entre as categorias. Por exemplo: escolaridade (primeiro,
segundo e terceiro graus), estágios de uma doença (inicial, intermediário, terminal), mês de observação (janeiro, fevereiro, ...,
dezembro), etc.
Aprendizados:
- Importar um CSV;;
- Identificar o tipo de uma variável observando seu conteúdo;
- Reconhecer o que é categórica ordinal;
- Interpretar o que é quantitativa.