# Estatística com Python
<p style="text-align:justify">
A estatística é uma área da matemática frequentemente vista como complexa e até controversa, mas é essencial no mundo moderno. Afinal, quem hoje em dia não ouviu falar do ChatGPT ou de inteligência artificial? Esses novos modelos de linguagem computacional são construídos com base em modelos estatísticos amplamente estudados e testados. Além disso, empresas utilizam a estatística para tomar decisões, como em pesquisas de mercado ou análises de vendas de determinados produtos. Outros exemplo são as pesquisas eleitorais, realizadas antes de cada eleição, e o Censo, conduzido nos países para entender o comportamento de sua população. Todos esses exemplos destacam a importância da estatística no cenário atual.
</p>

## Então, por onde começar?

<p style="text-align:justify">
A primeira coisa a se entender na estatística é que existe uma ordem a se seguida para uma estudo estatístico, o primeiro passo é fazer o planejamento do estudo, isso requer escolher as perguntas certas a serem feitas ao publico alvo do estudo. Como o objetivo aqui é entender os conceitos das análises estatística, vamos usar um estudo estatístico já pronto, no livro o de "Practical Data Analysis: Case Studies in Business Statistics" de Bryant, P. G. e Smith, M (1995), eles apresentam conjunto de dados muito conhecido pelos cientistas de dados, um estudo feito por um garçom muito dedicado, no qual passou a anotar todas as gorjetas recebida por ele durante um período, sendo assim iremos trabalhar com o conjunto estatístico, "tips" ou "gorjetas", em português.
</p>

<p style="text-align:justify">
Os dados podem ser encontrados no site do <a href="https://www.kaggle.com/datasets/jsphyg/tipping">Kaggle - A Waiter's Tips</a>, aqui podemos encontra o DataFrame em que iremos trabalhar. DataFrame é uma formula tabular de representação dos dados coletados, veremos mais a seguir como é uma DataFrame.
</p>

<p style="text-align:justify">
Além disso vale lembrar que iremos usar a linguagem de programação, Python. Esta incrível linguagem, através de suas enumeras bibliotecas, nos ajudam não somente em uma análise estatística como em muitas tarefas de nosso dia a dia. Porém para este estudo nos usaremos biblioteca duas bibliotecas essenciais para quem eq estuda estatística, a biblioteca <a href="https://numpy.org/">Numpy</a>, que vai nos ajudar com todas as contas estatísticas, e a biblioteca <a href="https://pandas.pydata.org/">Pandas</a> que vai nos ajudara com as contas estatísticas mas também com as visualização dos dados que foram baixados.  pode nos ajudar em muitas tarefas de nosso dia a dia, com automatização de serviços, ou para nosso caso em uma analise estatística. Você precisa já ter instalado o Python em seu PC pois aqui iremos usar uma de suas enumeras bibliotecas o .
</p>

## Visualizando os dados

<p style="text-align:justify">
Logo após baixar os dados é possível ver que estes dados estão em um arquivo <code>.zip</code> e quando extraído vemos um arquivo com uma nova extensão <code>.csv</code>. 
</p>
<br>

<div align="center">
    <img width="1050px" src="image\pasta_dados.png">
</div>

<br>

<p style="text-align:justify">
Esta extensão que é chamade de <i>Comma-separated values</i>, que significa que seus valores são armazenados de tal forma que eles ficam separados por virgula. Como mencionado anteriormente vamos usar a biblioteca do Python chamada <code>Pandas</code>.
</p>

<p style="text-align:justify">
Para instalar esta biblioteca basta digitar no seu ambiente virtual:
</p>

>```python
>pip install pandas
>```

<p style="text-align:justify">
    Agora com a biblioteca instalada podemos finalmente dá nossa primeira olhada nos dados, mas para isso é primeiro preciso importar esta biblioteca, e para isso basta digitar o seguinte comando: 
</p>

In [1]:
import pandas as pd

<p style="text-align:justify">
    Pronto agora já temos a biblioteca instalada, sendo assim podemos atribuir a uma variável os dados que baixamos com a extensão <code>.csv</code>
</p>

In [2]:
gorjetas = pd.read_csv('dados/tips.csv')
gorjetas

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size
0,16.99,1.01,Female,No,Sun,Dinner,2
1,10.34,1.66,Male,No,Sun,Dinner,3
2,21.01,3.50,Male,No,Sun,Dinner,3
3,23.68,3.31,Male,No,Sun,Dinner,2
4,24.59,3.61,Female,No,Sun,Dinner,4
...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3
240,27.18,2.00,Female,Yes,Sat,Dinner,2
241,22.67,2.00,Male,Yes,Sat,Dinner,2
242,17.82,1.75,Male,No,Sat,Dinner,2


<p style="text-align: justify">
    Neste primeiro contato com os dados é possível ver como os dados estão dispostos em um tabela, por isso a disposição tabular, ou seja, o DataFrame.
</p>
<p style="text-align: justify">
    Podemos ver que cada linha representa um registro feito pela garçom, quanto que cada coluna representa uma informações sobre estes registos. Estas colunas são chamadas de variáveis estatísticas e pode ser classificada de duas maneiras diferentes, como podemos ver a seguir.
</p>

### Variáveis estatísticas

<p style="text-align:justify">
As variáveis estatísticas são classificadas pela natureza que ela representa, sendo assim as variáveis pode ser <b>Quantitativas</b> ou <b>Qualitativa</b>.
</p>

#### Variáveis Quantitativas

<p style="text-align:justify">
    As variáveis quantitativas são todas as variáveis que a gente pode mensurar, ou seja, que se pode contar, porém existem dois tipos de variáveis quantitativas:
    <ul style="list-style-type:disc">
        <li><b>Discretas</b>: são variáveis que assumem apenas valores inteiros, que são limitadas ou finitas, por exemplo:
            <ul style="list-style-type:circle">
                <li>Quantidade de pessoas em uma sala</li>
                <li>Quantidade de filhos</li>
                <li>Quantidade de acertos em uma prova</li>
                <li>Número de votos</li>
            </ul>
        </li>
        <li><b>Continuas</b>: são variáveis que pode assumir um número infinito de valores dentro de um intervalo, por exemplo:
            <ul style="list-style-type:circle">
                <li>A altura de uma pessoa</li>
                <li>O peso de uma pessoa</li>
                <li>A temperatura de um ambiente</li>
                <li>O volume de um recipiente</li>
            </ul>
        </li>
</p>

#### Variáveis Qualitativas

<p style="text-align:justify">
    As variáveis qualitativas são variáveis que trazem uma qualidade do indivíduo, sendo assim são as variáveis que não conseguimos contar. E também possuem dois tipos:
    <ul style="list-style-type:disc">
        <li><b>Ordinal</b>: quando á variável pode ser disposta usando uma ordem, por exemplo:
            <ul style="list-style-type:circle">
                <li>Classe social</li>
                <li>Grau de instrução</li>
                <li>Conceitos como ótimo, bom, regular ou ruim</li>
            </ul>
        </li>
        <li><b>Nominais</b>: quando se não pode colocar uma ordem na variável, por exemplo:
            <ul style="list-style-type:circle">
                <li>Gênero de uma pessoa </li>
                <li>Cor dos olhos</li>
                <li>Local de nascimento</li>
            </ul>
        </li>
</p>

### Analisando as variáveis dos nossos dados

Com este comando podemos ver todas as colunas/variáveis do nosso DataFrame

In [3]:
gorjetas.columns

Index(['total_bill', 'tip', 'sex', 'smoker', 'day', 'time', 'size'], dtype='object')

Vamos começar observando a primeira coluna a coluna `total_bill` e em seguida analisar uma por uma das colunas/variáveis

In [4]:
gorjetas['total_bill']

0      16.99
1      10.34
2      21.01
3      23.68
4      24.59
       ...  
239    29.03
240    27.18
241    22.67
242    17.82
243    18.78
Name: total_bill, Length: 244, dtype: float64

Esta variável trás o total da conta gasto pode cada cliente, e como podemos ver ela se trata de uma variável **quantitativa e contínua**.

In [5]:
gorjetas['tip']

0      1.01
1      1.66
2      3.50
3      3.31
4      3.61
       ... 
239    5.92
240    2.00
241    2.00
242    1.75
243    3.00
Name: tip, Length: 244, dtype: float64

Está variável tem extrema importância para um estudo de previsão, então podemos dizer que esta variável é a **variável alvo** do estudo, pois ela fornece o valor das gorjetas recebida pelo garçom. Ela também é uma variável **quantitativa e contínua**.

In [6]:
gorjetas['sex']

0      Female
1        Male
2        Male
3        Male
4      Female
        ...  
239      Male
240    Female
241      Male
242      Male
243    Female
Name: sex, Length: 244, dtype: object

Já nesta variável podemos ver que ela nao é mensurável, pois ela se trata do gênero da pessoa que consumiu no estabelecimento onde o garçom trabalha, e como o gênero não possui uma hierarquia ou uma ordem esta variável é **qualitativa nominal**

In [7]:
gorjetas['smoker']

0       No
1       No
2       No
3       No
4       No
      ... 
239     No
240    Yes
241    Yes
242     No
243     No
Name: smoker, Length: 244, dtype: object

A variável `smoker` é referente se havia fumantes sentando a mesa, está é outra variável que é **qualitativa nominal**, pois a resposta para ela é sim ou não sem haver uma ordem.

In [8]:
gorjetas['day']

0       Sun
1       Sun
2       Sun
3       Sun
4       Sun
       ... 
239     Sat
240     Sat
241     Sat
242     Sat
243    Thur
Name: day, Length: 244, dtype: object

Na variável `day`, temos os dias da semana, e neste caso existe uma ordem para isso, ou seja, segunda vem antes da terça, que vem antes da quarta e assim sucessivamente, sendo assim está variável e **qualitativa ordinal**.

In [9]:
gorjetas['time']

0      Dinner
1      Dinner
2      Dinner
3      Dinner
4      Dinner
        ...  
239    Dinner
240    Dinner
241    Dinner
242    Dinner
243    Dinner
Name: time, Length: 244, dtype: object

Na variável `time` se tem o tipo de refeição que foi feita, esta variável também não possui uma hierarquia, afinal nenhuma refeição é mais importante que a outra, todas são importantes para se manter bem alimentando, sendo assim, está variável é **qualitativa nominal**.

In [13]:
gorjetas['size']

0      2
1      3
2      3
3      2
4      4
      ..
239    3
240    2
241    2
242    2
243    2
Name: size, Length: 244, dtype: int64

A variável `size` representa a quantidade de pessoas que estavam presentes em cada mesa que o garçom atendeu, como este valor é finito e possível contar está variável e **qualitativa discreta**.

In [16]:
gorjetas["porcentagem"] = (gorjetas['tip']/gorjetas['total_bill']).round(4) * 100


In [17]:
gorjetas

Unnamed: 0,total_bill,tip,sex,smoker,day,time,size,porcentagem
0,16.99,1.01,Female,No,Sun,Dinner,2,5.94
1,10.34,1.66,Male,No,Sun,Dinner,3,16.05
2,21.01,3.50,Male,No,Sun,Dinner,3,16.66
3,23.68,3.31,Male,No,Sun,Dinner,2,13.98
4,24.59,3.61,Female,No,Sun,Dinner,4,14.68
...,...,...,...,...,...,...,...,...
239,29.03,5.92,Male,No,Sat,Dinner,3,20.39
240,27.18,2.00,Female,Yes,Sat,Dinner,2,7.36
241,22.67,2.00,Male,Yes,Sat,Dinner,2,8.82
242,17.82,1.75,Male,No,Sat,Dinner,2,9.82
