# Introdução a análise estatística com Pandas

## Problema utilizado

Para essa análise selecionamos a base de dados sobre o Covid-19 disponível no Kaggle. Para acessá-la vá ao endereço https://www.kaggle.com/sudalairajkumar/novel-corona-virus-2019-dataset

## Sobre o Pandas

É uma ferramenta Open Source que permite realizar análise de dados e manipula-los utilizando a linguagem de programação Python. Para realizar análises estatísticas e preparar os dados para diversos algoritmos de inteligência artificial, essa é sem dúvidas uma das ferramentas que você deve manter em seu canivete suíço. (https://pandas.pydata.org/)


### Importando o Pandas para o Projeto

In [47]:
import pandas as pd

### Carregando o nosso dataset

Guardei o arquivo na pasta datasets junto ao arquivo do notebook. Iremos utilizar o comando read_csv do pandas para carrega-lo em memória. A variável criada é chamada de dataframe.

In [48]:
df = pd.read_csv('datasets/COVID19_line_list_data.csv')

### Verificando os registros no inicio da lista

O primeiro passo é identificar os dados que estão no topo do arquivo e ver quais serão as colunas que iremos trabalhar. Para essa análise iremos adotar a coluna da idade.

Vamos ver os cinco primeiros registros com a função head do dataframe.

In [50]:
df.head()

Unnamed: 0,id,case_in_country,reporting date,Unnamed: 3,summary,location,country,gender,age,symptom_onset,...,recovered,symptom,source,link,Unnamed: 21,Unnamed: 22,Unnamed: 23,Unnamed: 24,Unnamed: 25,Unnamed: 26
0,1,,1/20/2020,,First confirmed imported COVID-19 pneumonia pa...,"Shenzhen, Guangdong",China,male,66.0,01/03/20,...,0,,Shenzhen Municipal Health Commission,http://wjw.sz.gov.cn/wzx/202001/t20200120_1898...,,,,,,
1,2,,1/20/2020,,First confirmed imported COVID-19 pneumonia pa...,Shanghai,China,female,56.0,1/15/2020,...,0,,Official Weibo of Shanghai Municipal Health Co...,https://www.weibo.com/2372649470/IqogQhgfa?fro...,,,,,,
2,3,,1/21/2020,,First confirmed imported cases in Zhejiang: pa...,Zhejiang,China,male,46.0,01/04/20,...,0,,Health Commission of Zhejiang Province,http://www.zjwjw.gov.cn/art/2020/1/21/art_1202...,,,,,,
3,4,,1/21/2020,,new confirmed imported COVID-19 pneumonia in T...,Tianjin,China,female,60.0,,...,0,,人民日报官方微博,https://m.weibo.cn/status/4463235401268457?,,,,,,
4,5,,1/21/2020,,new confirmed imported COVID-19 pneumonia in T...,Tianjin,China,male,58.0,,...,0,,人民日报官方微博,https://m.weibo.cn/status/4463235401268457?,,,,,,


### Selecionando as colunas desejadas

In [51]:
ages = df['age']

In [52]:
ages

0       66.0
1       56.0
2       46.0
3       60.0
4       58.0
5       44.0
6       34.0
7       37.0
8       39.0
9       56.0
10      18.0
11      32.0
12      37.0
13      51.0
14      57.0
15      56.0
16      50.0
17      52.0
18      33.0
19      40.0
20      70.0
21      51.0
22       NaN
23      28.0
24      37.0
25      19.0
26      29.0
27      66.0
28      46.0
29      32.0
        ... 
1055     NaN
1056     NaN
1057     NaN
1058     NaN
1059     NaN
1060     NaN
1061     NaN
1062     NaN
1063     NaN
1064     NaN
1065     NaN
1066     NaN
1067     NaN
1068     NaN
1069     NaN
1070     NaN
1071     NaN
1072     NaN
1073     NaN
1074     NaN
1075     NaN
1076     NaN
1077     NaN
1078     NaN
1079    24.0
1080    24.0
1081    35.0
1082     NaN
1083     NaN
1084    70.0
Name: age, Length: 1085, dtype: float64

### Removendo os valores nulos da lista de idade

Detalhes:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.dropna.html

In [53]:
ages = ages.dropna()

In [54]:
ages

0       66.0
1       56.0
2       46.0
3       60.0
4       58.0
5       44.0
6       34.0
7       37.0
8       39.0
9       56.0
10      18.0
11      32.0
12      37.0
13      51.0
14      57.0
15      56.0
16      50.0
17      52.0
18      33.0
19      40.0
20      70.0
21      51.0
23      28.0
24      37.0
25      19.0
26      29.0
27      66.0
28      46.0
29      32.0
30      28.0
        ... 
993     38.0
994     60.0
995     32.0
998     69.0
1000    36.0
1001    24.0
1002    31.0
1006    22.0
1007    62.0
1009    44.0
1010    77.0
1011    50.0
1012    22.0
1013    30.0
1014    18.0
1021    28.0
1022    42.0
1023    53.0
1024    81.0
1025    55.0
1026    25.0
1027    58.0
1028    66.0
1029    27.0
1030    25.0
1052    45.0
1079    24.0
1080    24.0
1081    35.0
1084    70.0
Name: age, Length: 843, dtype: float64

### Média e Desvio Padrão

Detalhes
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.std.html
- https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.mean.html

In [55]:
ages.mean()

49.483689205219456

In [56]:
ages.std()

18.25533430734393