# Dicas diversas sobre Pandas



## Leitura de CSVs fora do padrão


In [None]:
# Importação de Bibliotecas
import pandas as pd
from io import StringIO

# lê CSV de uma string (poderia ser lido do disco como usual)
# este CSV tem vários problemas: linhas desnecessarias no começo, 
# separador diferente, datas no formato brasileiro.

CSV_string = StringIO("""Exemplo de CSV de casos de Covid-19
--------------------------
data;cidade;sintomas;idade
21-04-2021;Curitiba;tosse,febre,dor de garganta;79
22-04-2021;Curitiba;tosse,dor de garganta;39
22-04-2021;Curitiba;tosse;56
23-04-2021;Curitiba;;66
23-04-2021;Curitiba;febre;33
23-04-2021;Curitiba;febre,dor de garganta;77
21-04-2021;Pinhais;coriza,febre,dor de garganta;19
22-04-2021;Pinhais;tosse,dor de garganta;81
22-04-2021;Pinhais;febre,tosse;60
23-04-2021;Pinhais;febre;51
23-04-2021;Pinhais;dor de garganta;17
""")

# Para ler corretamente o CSV especificamos o separador, 
# o número da linha que servirá de cabeçalho, a coluna com datas e seu formato começando pelo dia
df = pd.read_csv(CSV_string, sep=";", header=2, parse_dates=['data'], dayfirst=True)

df.head()

In [None]:
# podemos verificar que os dados foram lidos corretamente
df.dtypes

## Separação de valores de uma coluna com múltiplos itens

A coluna sintomas possui diversos valores separados por vírgula. Se queremos, por exemplo, analisar a proporção de incidência de sintomas, precisamos separar estes valores um por linha.

In [None]:
# O método str.split() resolveria este problema se o que esperamos é 
# separar os valores em linhas. Neste caso, o número e a ordem dos 
# valores varia, portanto não seria adequado
df['sintomas'].str.split(',', expand=True)

In [None]:
# porém, podemos combinar o split com o método explode
# para distribuir os itens em linhas
df['sintomas'].str.split(",").explode()

In [None]:
# transformando os sintomas em listas
df['sintoma'] = df['sintomas'].str.split(",")

# usando o explode para repetir os sintomas
# individuais nas linhas
df = df.explode('sintoma')

df

In [None]:
# Agora, com os sintomas separados, podemos
# calcular a frequência
df['sintoma'].value_counts().plot.pie()

## Criando grupos de faixas etárias

In [None]:
faixas= [0,12,20,65,110]
labels = ['Criança','Adolescente','Adulto','Idoso']
df['Faixa Etária'] = pd.cut(df['idade'], bins=faixas, labels=labels, right=False)

df