# Limpeza de dados e análise usando `pandas`.

O que é importante para uma análise?

- Encontrar inconsistências e problemas.

- Sumarizar o 'comportamento' de alguns atributos. 

- Compreender a estrutura dos dados.

- Saber reconhecer variáveis importantes e extrair informações visuais. 

- Checar pressupostos utilizando teste de hipótese (requer conhecimento em estatística)

Já temos as ferramentas necessárias para realizar a maioria das análises. Resta saber como faremos essas análises visuais. 

Na **prática**, usaremos módulos em Python que são responsáveis pela construção de gráficos e análise gráfica, como `matplotlib`, `seaborn` ou `plotly`. Esses tópicos serão abordados em um outro módulo. Neste caso, iremos mostrar os plots usando `pandas`.

In [None]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/mdrs-thiago/uerj-topicos-a/main/datasets/occupancy_detection/class_occupancy_detection.csv')

In [None]:
df.head()

In [None]:
df.plot(kind='scatter',x='Temperature',y='CO2')

In [None]:
df.plot(kind='scatter',x='Light',y='CO2')

In [None]:
df

In [None]:
def remove_hour(row):
    row['date'] = row['date'].split()[0]
    return row

new_df = df.apply(remove_hour,axis='columns')

In [None]:
new_df.groupby(['date','Occupancy']).size()

In [None]:
new_df.groupby(['date','Occupancy']).size().unstack()

In [None]:
new_df.groupby(['date','Occupancy']).size().unstack().plot(kind='bar')

In [None]:
new_df.groupby(['date','Occupancy']).size().unstack().plot(kind='bar', stacked=True)

In [None]:
new_df.groupby(['date','Occupancy']).agg({'Light':'mean'}).unstack().plot(kind='bar')

## Lidando com dados faltantes

Nem todas as bases de dados estão completamente preenchidas, e precisamos saber como lidamos com essas inconsistências. 

Geralmente precisamos avaliar dados incoerentes ou faltantes. E como avaliamos isso? 

Usamos geralmente funções e análises que já vimos anteriormente...

In [None]:
#Exemplo 1 - Vendo dados faltantes 
df.isna()

In [None]:
#Exemplo 2 - E se quisermos ver dados inconsistentes? 
#Podemos usar o describe, ver valores únicos, etc.
df.describe()

In [None]:
#Para os valores faltantes que queremos preencher, usaremos o fillna.

In [None]:
#Enquanto que, para os dados inconsistentes, usaremos o replace.
#Ou podemos usar alguma forma que já vimos...

## Exercícios

1. Considere a base de dados sobre o desempenho de estudantes em uma prova. Essa base de dados contém dados socio-econômicos e as notas em três disciplinas (Redação, Literatura e Matemática). Faça uma análise de dados para extrair informações que possam ser relevantes ao problema. 

Tente montar os resultados para, no mínimo, os seguintes questionamentos:

- Quantidade de alunos em função do grau de escolaridade dos pais.

- Notas de Matemática dos alunos em função do grau de escolaridade dos pais. 

- Relação entre a nota de Literatura e Redação.

- Relação entre a nota de Redação e Matemática. 

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/mdrs-thiago/uerj-topicos-a/main/datasets/StudentsPerformance.csv')

In [None]:
df

2. Considere agora a base de dados **Netflix**, que contém informações de todo o catálogo da rede de streaming. Esta base de dados contém dados que podem ser importantes para os diferentes títulos adicionados. Explore a base de dados e extraia informações que podem ser úteis para esse tipo de problema. Lembre-se que este problema é de escopo aberto, então busque informações e relações que podem ser importantes. 

In [None]:
df = pd.read_csv('https://raw.githubusercontent.com/mdrs-thiago/uerj-topicos-a/main/datasets/netflix_titles.csv')

In [None]:
df