### Analisando Dados

Analisar dados é um processo essencial que envolve examinar informações para descobrir padrões, tendências e insights ocultos nos dados, além de compreender o que os dados estão dizendo e responder a perguntas específicas sobre o problema em questão. Este processo abrange várias etapas:

Primeiro, os dados relevantes são coletados de várias fontes, como bancos de dados, arquivos, sensores, páginas da web, etc. Os dados coletados geralmente estão sujeitos a erros, inconsistências ou incompletude, tornando necessário limpá-los e prepará-los para análise, o que inclui remover dados duplicados, lidar com valores ausentes e transformá-los em um formato adequado.

Em seguida, os dados são explorados para entender sua estrutura, distribuição e relacionamentos entre as variáveis, utilizando gráficos, tabelas de resumo e cálculo de estatísticas descritivas. Após a exploração inicial, técnicas estatísticas são aplicadas para identificar padrões, relações ou anomalias nos dados, como análise de correlação, regressão e teste de hipóteses.

A visualização de dados desempenha um papel crucial na representação visual dos padrões e insights encontrados nos dados, utilizando gráficos, mapas, diagramas e dashboards. Por fim, os resultados da análise são interpretados e comunicados de forma clara e eficaz para diferentes públicos, como tomadores de decisão, colegas de equipe ou o público em geral, através de uma narrativa coesa e visualizações claras.

A análise de dados é fundamental para a tomada de decisões informadas em diversas áreas, desde negócios e finanças até ciência e saúde. Com uma análise cuidadosa dos dados, é possível identificar oportunidades, resolver problemas, validar hipóteses e direcionar ações futuras, agregando valor por meio da informação.

In [1]:
import pandas as pd

In [2]:
taxis = pd.read_csv('taxis.csv')

In [3]:
taxis.head()

Unnamed: 0,pickup,dropoff,passengers,distance,fare,tip,tolls,total,color,payment,pickup_zone,dropoff_zone,pickup_borough,dropoff_borough
0,2019-03-23 20:21:09,2019-03-23 20:27:24,1,1.6,7.0,2.15,0.0,12.95,yellow,credit card,Lenox Hill West,UN/Turtle Bay South,Manhattan,Manhattan
1,2019-03-04 16:11:55,2019-03-04 16:19:00,1,0.79,5.0,0.0,0.0,9.3,yellow,cash,Upper West Side South,Upper West Side South,Manhattan,Manhattan
2,2019-03-27 17:53:01,2019-03-27 18:00:25,1,1.37,7.5,2.36,0.0,14.16,yellow,credit card,Alphabet City,West Village,Manhattan,Manhattan
3,2019-03-10 01:23:59,2019-03-10 01:49:51,1,7.7,27.0,6.15,0.0,36.95,yellow,credit card,Hudson Sq,Yorkville West,Manhattan,Manhattan
4,2019-03-30 13:27:42,2019-03-30 13:37:14,3,2.16,9.0,1.1,0.0,13.4,yellow,credit card,Midtown East,Yorkville West,Manhattan,Manhattan


In [4]:
taxis['dropoff_borough'].value_counts()

dropoff_borough
Manhattan        5206
Queens            542
Brooklyn          501
Bronx             137
Staten Island       2
Name: count, dtype: int64

#### Vizinhanças em que as casas costumam ser mais caras, oferecem melhores gorjetas?

In [5]:
taxis.groupby(['dropoff_borough'])['tip'].agg(['mean', 'median', 'min', 'max'])

Unnamed: 0_level_0,mean,median,min,max
dropoff_borough,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Bronx,0.530803,0.0,0.0,10.26
Brooklyn,1.906248,0.0,0.0,23.19
Manhattan,1.954606,1.86,0.0,16.59
Queens,2.386273,0.0,0.0,20.8
Staten Island,14.165,14.165,12.06,16.27
