# <center>Curso de Modelagem de Dados para IA - PARTE 3</center>

<img src="img/image.jpg" alt="Drawing" style="width: 300px;"/>


## Datasets
Ao longo deste tutorial, serão manipulados alguns conjuntos de dados do mundo real a fim de ilustrar vários conceitos, métodos e ferramentas suportados pelo ecossistema Python. O objetivo é fornecer uma visão geral de algumas dessas ferramentas, com links para informações mais detalhadas em outros sites, juntamente com alguns exemplos concretos de como elas podem ser usadas em vários aplicativos de ciência de dados. Portanto, as ferramentas e métodos serão apresentados especificamente no contexto desses conjuntos de dados, na expectativa de que as abordagens sejam amplamente aplicáveis.

Os datasets serão descritos com mais detalhes nos notebooks da sequência, observando aqui que um deles envolve estatísticas de beisebol, outro envolve tweets e retuítes no Twitter e o último envolve dados históricos sobre incêndios florestais na Califórnia. Qualquer dataset específico será revisitado várias vezes ao longo deste tutorial para introduzir novos tipos de funcionalidade ou destacar o uso de ferramentas específicas.

Para fazer o download individualmente dos datasets, você pode acessá-los em seu navegador através dos links abaixo.

**Beisebol**
- <a href="https://github.com/chadwickbureau/baseballdatabank">Baseball Dataset</a>

**Twitter**
- <a href="">Twitter extracting data notebook</a>
- <a href="">Twitter tweet timelines notebook</a>

**Incêncios florestais**
- <a href="https://github.com/abarbour/FireHistory/tree/master/data">California wildfires (data/wildfires/Fires_100.xlsx)</a>

### Dataset sobre Beisebol
O primeiro conjunto de exemplos práticos usará o Dataset sobre Baisebol, uma compilação de dados históricos da Major League Baseball (MLB) mantidos pelo Chadwick Baseball Bureau, com base em trabalhos anteriores.

Depois de baixar os dados de beisebol, pode-se descobrir que o mesmo contém duas pastas, 'core' e 'upstream'. A pasta 'core' contém o próprio banco de dados e 'upstream' contém os arquivos usados para construir o banco de dados. A pasta 'core' contém uma longa lista de arquivos de dados em um formato de valores separados por vírgula (CSV), uma maneira comum de armazenar dados tabulares em um "arquivo simples" textual. Listamos os arquivos abaixo:

- AllstarFull.csv
- Appearances.csv
- AwardsManagers.csv
- AwardsPlayers.csv
- AwardsShareManagers.csv
- AwardsSharePlayers.csv
- Batting.csv
- BattingPost.csv
- CollegePlaying.csv
- Fielding.csv
- FieldingOF.csv
- FieldingOFsplit.csv
- FieldingPost.csv
- HallOfFame.csv
- HomeGames.csv
- Managers.csv
- ManagersHalf.csv
- Parks.csv
- People.csv
- Pitching.csv
- PitchingPost.csv
- Salaries.csv
- Schools.csv
- SeriesPost.csv
- Teams.csv
- TeamsFranchises.csv
- TeamsHalf.csv

O arquivo Batting.csv, por exemplo, contém registros de rebatidas para todos os jogadores da MLB ao longo da história (mesmo para aqueles jogadores, como "Moonlight" Graham, que nunca vieram a rebater). As primeiras linhas do arquivo revelam a estrutura dos dados, mostrando as estatísticas de rebatidas agregadas de cada jogador em cada temporada que jogou:

<div style="border:thin">
<span style="font-family:Courier">
playerID,yearID,stint,teamID,lgID,G,AB,R,H,2B,3B,HR,RBI,SB,CS,BB,SO,IBB,HBP,SH,SF,GIDP<br>
abercda01,1871,1,TRO,NA,1,4,0,0,0,0,0,0,0,0,0,0,,,,,0<br>
addybo01,1871,1,RC1,NA,25,118,30,32,6,0,0,13,8,1,4,0,,,,,0<br>
allisar01,1871,1,CL1,NA,29,137,28,40,4,5,0,19,3,1,2,5,,,,,1<br>
allisdo01,1871,1,WS3,NA,27,133,28,44,10,2,2,27,1,1,0,2,,,,,0<br>
ansonca01,1871,1,RC1,NA,25,120,29,39,11,3,0,16,6,2,2,1,,,,,0<br>
armstbo01,1871,1,FW1,NA,12,49,9,11,2,1,0,5,0,1,0,1,,,,,0<br>
barkeal01,1871,1,RC1,NA,1,4,0,1,0,0,0,2,0,0,1,0,,,,,0<br>
barnero01,1871,1,BS1,NA,31,157,66,63,10,9,0,34,11,6,13,1,,,,,1<br>
barrebi01,1871,1,FW1,NA,1,5,1,1,1,0,0,1,0,0,0,0,,,,,0<br>
</span>
</div>

A primeira coluna, contendo o playerID, indica um jogador; o playerID se repete em outros arquivos csv para identificar esses jogadores, com informações biográficas sobre cada jogador no arquivo People.csv. A maioria do resto das colunas descreve diferentes estatísticas de rebatidas associadas a esse jogador durante esse ano.

Esses dados serão acessados mais tarde, usando vários pacotes Python para análise dos dados.

### Dataset com dados do Twitter
O Twitter é uma rede social bem conhecida e popular no mundo inteiro. É uma rede construída em um sistema de mensagens que permite que as pessoas enviem e recebam mensagens com até 280 caracteres (e imagens anexadas) e outros tipos limitados de metadados. Ele tem sido usado efetivamente como uma ferramenta de comunicação quase em tempo real em vários eventos sociais globais. O Twitter também fornece uma API que permite que qualquer pessoa colete grandes quantidades de dados e realize uma ampla gama de análises para entender melhor essas redes. Esse poder também pode se tornar uma fragilidade, introduzindo vulnerabilidades em 'bots' ou contas 'apoiadas pelo estado' que são usadas para espalhar desinformação de maneiras críticas.

Nas próximas partes deste material será abordado como usar a API de streaming do Twitter para coletar tweets usando a biblioteca tweepy do Python. Inicialmente, realizaremos algumas análises básicas e visualização dos dados dos tweets. Em seguida, será realizada a análise de grafos usando o *networkx* para obter informações sobre os principais influenciadores da rede e aprenderemos a exportar para outros aplicativos de análise e visualização de redes em grafos, como *Gephi*, *Neo4j* ou *GraphX*.

#### Sobre o conjunto de dados do Twitter
O conjunto de dados do Twitter que será utilizado aqui foi criado usando a API de streaming do Twitter e a hashtag '#climatechange'. Este é um conjunto de dados particularmente interessante, pois foi coletado de 20 de novembro a 5 de dezembro de 2018, período em que o governo dos EUA divulgou suas últimas descobertas sobre mudanças climáticas. Aprenderemos mais sobre o conjunto de dados nas outras partes deste tutorial.

Usando a API de streaming do Twitter, vamos coletar os dados conforme será detalhado mais tarde na seção ***Acessando dados via API: Twitter***. Por enquanto, para ter uma ideia de quantos dados há em um único tweet, apresentamos um exemplo de um tweet no formato JSON:

<div style="border:thin"><br>
<span style="font-family:Courier"><br>
{'contributors': None,<br>
 'coordinates': None,<br>
 'created_at': 'Sat Jul 14 17:02:02 +0000 2018',<br>
 'entities': {'hashtags': [{'indices': [77, 88], 'text': 'motoz3play'},<br>
                           {'indices': [112, 124], 'text': 'electronics'},<br>
                           {'indices': [125, 133], 'text': 'glasses'},<br>
                           {'indices': [134, 139], 'text': 'geek'}],<br>
              'symbols': [],<br>
              'urls': [],<br>
              'user_mentions': [{'id': 824881,<br>
                                 'id_str': '824881',<br>
                                 'indices': [3, 11],<br>
                                 'name': "Luisito '#ImBack' GyG ðŸ‡²ðŸ‡½âš½",<br>
                                 'screen_name': 'LuisGyG'},<br>
                                {'id': 4883803745,<br>
                                 'id_str': '4883803745',<br>
                                 'indices': [64, 76],<br>
                                 'name': 'Motorola de MÃ©xico',<br>
                                 'screen_name': 'Motorola_MX'}]},<br>
 'favorite_count': 0,<br>
 'favorited': False,<br>
 'geo': None,<br>
 'id': 1018178822087192581,<br>
 'id_str': '1018178822087192581',<br>
 'in_reply_to_screen_name': None,<br>
 'in_reply_to_status_id': None,<br>
 'in_reply_to_status_id_str': None,<br>
 'in_reply_to_user_id': None,<br>
 'in_reply_to_user_id_str': None,<br>
 'is_quote_status': False,<br>
 'lang': 'es',<br>
 'metadata': {'iso_language_code': 'es', 'result_type': 'recent'},<br>
 'place': None,<br>
 'retweet_count': 1,<br>
 'retweeted': False,<br>
 'retweeted_status': {'contributors': None,<br>
                      'coordinates': None,<br>
                      'created_at': 'Sat Jul 14 16:40:41 +0000 2018',<br>
                      'entities': {'hashtags': [{'indices': [64, 75],<br>
                                                 'text': 'motoz3play'},<br>
                                                {'indices': [99, 111],<br>
                                                 'text': 'electronics'}],<br>
                                   'symbols': [],<br>
                                   'urls': [{'display_url': 'twitter.com/i/web/status/1â€¦',<br>
                                             'expanded_url': 'https://twitter.com/i/web/status/1018173447581720576',<br>
                                             'indices': [113, 136],<br>
                                             'url': 'https://t.co/8jqvWUPc5c'}],<br>
                                   'user_mentions': [{'id': 4883803745,<br>
                                                      'id_str': '4883803745',<br>
                                                      'indices': [51, 63],<br>
                                                      'name': 'Motorola de '<br>
                                                              'MÃ©xico',<br>
                                                      'screen_name': 'Motorola_MX'}]},<br>
                      'favorite_count': 5,<br>
                      'favorited': False,<br>
                      'geo': None,<br>
                      'id': 1018173447581720576,<br>
                      'id_str': '1018173447581720576',<br>
                      'in_reply_to_screen_name': None,<br>
                      'in_reply_to_status_id': None,<br>
                      'in_reply_to_status_id_str': None,<br>
                      'in_reply_to_user_id': None,<br>
                      'in_reply_to_user_id_str': None,<br>
                      'is_quote_status': False,<br>
                      'lang': 'es',<br>
                      'metadata': {'iso_language_code': 'es',<br>
                                   'result_type': 'recent'},<br>
                      'place': None,<br>
                      'possibly_sensitive': False,<br>
                      'retweet_count': 1,<br>
                      'retweeted': False,<br>
                      'source': 'IFTTT',<br>
                      'text': 'Hoy toca switch de telÃ©fono y me estarÃ© mudando '<br>
                              'al @motorola_mx #motoz3play Les cuento. â€¢ â€¢ â€¢ â€¢ '<br>
                              'â€¢ \n'<br>
                              '#electronicsâ€¦ https://t.co/8jqvWUPc5c',<br>
                      'truncated': True,<br>
                      'user': {'contributors_enabled': False,<br>
                               'created_at': 'Fri Mar 09 05:40:17 +0000 2007',<br>
                               'default_profile': False,<br>
                               'default_profile_image': False,<br>
                               'description': 'El FanÃ¡tico de los Gadgets. '<br>
                                              'ðŸ“ºðŸ“±ðŸ“·ðŸ”ŠðŸŽ®\n'<br>
                                              'Conferencista sobre '<br>
                                              'tendencias.\n'<br>
                                              'Blogger. \n'<br>
                                              'Contrataciones y contacto: '<br>
                                              'contacto@luisgyg.com.',<br>
                               'entities': {'description': {'urls': []},<br>
                                            'url': {'urls': [{'display_url': 'luisgyg.com',
                                                              'expanded_url': 'http://www.luisgyg.com',<br>
                                                              'indices': [0,
                                                                          23],<br>
                                                              'url': 'https://t.co/ZgFJDzRhkD'}]}},<br>
                               'favourites_count': 3989,<br>
                               'follow_request_sent': False,<br>
                               'followers_count': 64080,<br>
                               'following': False,<br>
                               'friends_count': 1107,<br>
                               'geo_enabled': True,<br>
                               'has_extended_profile': True,<br>
                               'id': 824881,<br>
                               'id_str': '824881',<br>
                               'is_translation_enabled': False,<br>
                               'is_translator': False,<br>
                               'lang': 'es',<br>
                               'listed_count': 1515,<br>
                               'location': 'MÃ©xico',<br>
                               'name': "Luisito '#ImBack' GyG ðŸ‡²ðŸ‡½âš½",<br>
                               'notifications': False,<br>
                               'profile_background_color': '131516',<br>
                               'profile_background_image_url': 'http://abs.twimg.com/images/themes/theme14/bg.gif',<br>
                               'profile_background_image_url_https': 'https://abs.twimg.com/images/themes/theme14/bg.gif',<br>
                               'profile_background_tile': True,<br>
                               'profile_banner_url': 'https://pbs.twimg.com/profile_banners/824881/1530210899',<br>
                               'profile_image_url': 'http://pbs.twimg.com/profile_images/1012403930997780481/foIo_8sD_normal.jpg',<br>
                               'profile_image_url_https': 'https://pbs.twimg.com/profile_images/1012403930997780481/foIo_8sD_normal.jpg',<br>
                               'profile_link_color': 'FF0000',<br>
                               'profile_sidebar_border_color': 'FFFFFF',<br>
                               'profile_sidebar_fill_color': 'EFEFEF',<br>
                               'profile_text_color': '333333',<br>
                               'profile_use_background_image': True,<br>
                               'protected': False,<br>
                               'screen_name': 'LuisGyG',<br>
                               'statuses_count': 92668,<br>
                               'time_zone': None,<br>
                               'translator_type': 'regular',<br>
                               'url': 'https://t.co/ZgFJDzRhkD',<br>
                               'utc_offset': None,<br>
                               'verified': True}},<br>
 'source': 'Twitter for Android',<br>
 'text': 'RT @LuisGyG: Hoy toca switch de telÃ©fono y me estarÃ© mudando al '<br>
         '@motorola_mx #motoz3play Les cuento. â€¢ â€¢ â€¢ â€¢ â€¢ \n'<br>
         '#electronics #glasses #geekâ€¦',<br>
 'truncated': False,<br>
 'user': {'contributors_enabled': False,<br>
          'created_at': 'Mon Jan 02 22:18:36 +0000 2012',<br>
          'default_profile': True,<br>
          'default_profile_image': False,<br>
          'description': 'Simpre corriendo con el corazÃ³n x delante,  el '<br>
                         'coraje empujando, llegando a la meta hasta el ultimo '<br>
                         'aliento, la satisfacciÃ³n de llegar. Preparandome '<br>
                         'ultra trail',<br>
          'entities': {'description': {'urls': []}},<br>
          'favourites_count': 1034,<br>
          'follow_request_sent': False,<br>
          'followers_count': 48,<br>
          'following': False,<br>
          'friends_count': 229,<br>
          'geo_enabled': False,<br>
          'has_extended_profile': True,<br>
          'id': 453415076,<br>
          'id_str': '453415076',<br>
          'is_translation_enabled': False,<br>
          'is_translator': False,<br>
          'lang': 'es',<br>
          'listed_count': 0,<br>
          'location': 'NicolÃ¡s Romero, MÃ©xico',<br>
          'name': 'Hunter Sephiroth',<br>
          'notifications': False,<br>
          'profile_background_color': 'C0DEED',<br>
          'profile_background_image_url': 'http://abs.twimg.com/images/themes/theme1/bg.png',<br>
          'profile_background_image_url_https': 'https://abs.twimg.com/images/themes/theme1/bg.png',<br>
          'profile_background_tile': False,<br>
          'profile_banner_url': 'https://pbs.twimg.com/profile_banners/453415076/1505333131',<br>
          'profile_image_url': 'http://pbs.twimg.com/profile_images/983326797113823232/e57SjsdS_normal.jpg',<br>
          'profile_image_url_https': 'https://pbs.twimg.com/profile_images/983326797113823232/e57SjsdS_normal.jpg',<br>
          'profile_link_color': '1DA1F2',<br>
          'profile_sidebar_border_color': 'C0DEED',<br>
          'profile_sidebar_fill_color': 'DDEEF6',<br>
          'profile_text_color': '333333',<br>
          'profile_use_background_image': True,<br>
          'protected': False,<br>
          'screen_name': 'Huntersephiroth',<br>
          'statuses_count': 819,<br>
          'time_zone': None,<br>
          'translator_type': 'none',<br>
          'url': None,<br>
          'utc_offset': None,<br>
          'verified': False}}<br>
</span>
</div>

Todos os tweets têm esse tipo de conteúdo em geral, mas os detalhes podem variar dependendo de coisas como se é um tweet original ou um retuíte. Retweets incluem um parâmetro 'retweeted_status' que contém todas as informações sobre o tweet original que foi retweetado. Outras diferenças podem ser se o tweet está geolocalizado com latitude e longitude da localização do usuário e assim por diante.

#### API de busca no Twitter
Os dados do Twitter utilizados neste tutorial já estão disponíveis e, por isso, não usaremos a API de pesquisa do Twitter. Contudo, é importante estar ciente de sua finalidade. A principal diferença entre usar a API de pesquisa e a API de streaming é que a API de pesquisa é normalmente para coletar dados de tweets anteriores, enquanto a API de streaming é para dados de tweets atuais quase em tempo real.

O Twitter limita a API de pesquisa a aproximadamente 100 tweets por período de 15 minutos. Se você incluir um parâmetro para maximizar a contagem de tweets durante uma época de 15 minutos e esse parâmetro exceder o número de tweets durante esse período de 15 minutos, os tweets duplicados de uma época anterior de 15 minutos serão incluídos e deverão ser filtrados antes da análise.

A API de pesquisa é frequentemente usada para coletar tweets na última semana ou duas e pode ser útil para preencher lacunas da atividade recente de tweets. No entanto, o Twitter limita o tempo em que você pode pesquisar usando uma consulta de pesquisa de hashtag para o perído de aproximadamente 1 a 2 semanas.

Você pode pesquisar a linha do tempo de um usuário do Twitter e coletar até os 3.200 tweets mais recentes, independentemente de quanto tempo eles ocorreram. Para saber mais sobre a API de pesquisa do Twitter, clique aqui.

### Dados históricos de incêndios florestais na Califórnia
O Departamento de Florestas e Proteção contra Incêndios da Califórnia (CAL FIRE) mantém dados históricos sobre incêndios florestais na Califórnia, disponíveis para download. Atualmente, isso inclui arquivos GIS (Sistema de Informações Geográficas) detalhados que descrevem a geografia de incêndios individuais, embora o site do CAL FIRE hospedasse anteriormente uma planilha Excel com estatísticas resumidas de muitos incêndios. Será exatamente esta planilha que iremos utilizar. Para fazer o download da mesma, clique <a href="https://github.com/abarbour/FireHistory/tree/master/data">aqui</a>.

A planilha contém informações sobre incêndios na Califórnia desde 1878, fornecendo as seguintes informações resumidas para cada incêndio identificado (com alguns campos de dados ausentes para alguns incêndios):

- YEAR
- STATE
- AGENCY
- UNIT_ID
- FIRE_NAME
- INC_NUM (incident number)
- ALARM_DATE
- CONT_DATE (containment date)
- CAUSE
- COMMENTS
- REPORT_AC (reported number of acres burned)
- GIS_ACRES (number of acres burned as determined by analysis of GIS data)
- C_METHOD
- OBJECTIVE

Nas análises a seguir, os campos de dados que serão de maior interesse para nós são YEAR, AGENCY, ALARM_DATE, CONT_DATE e GIS_ACRES.

## Entrada e acesso aos Dados
Na maioria dos casos, os dados a serem analisados não estarão todos em memória, disponíveis diretamente aos programa e, por isso, será necessário efetuar a leitura dos mesmos. Esperamos que os dados estejam em algum formato padronizado para que não seja necessário escrever um analisador personalizado para lê-los, ou suficientemente estruturado para que tal analisador não seja tão grande quanto o conjunto de dados que se destina a ler. Mecanismos de E/S do Python de nível inferior não serão tratados aqui (por exemplo, leituras/gravações de arquivos), mas nos concentraremos em alguns cenários comuns que podem ser encontrados ao acessar e importar dados:

- Leitura de dados estruturados (por exemplo, matrizes e tabelas) de arquivos e planilhas
- Leitura de tabelas de dados de bancos de dados SQL
- Acesso a dados por meio de uma API

A <a href="Modelagem de Dados para IA_Parte 2.ipynb">Parte 2</a> deste tutorial, que aborda Arrays, Dataframes e Series, fornece algumas informações básicas sobre essas principais estruturas de dados, pois elas formam a base de muita manipulação de dados e são usadas por muitos outros pacotes no ecossistema de ciência de dados Python.