# Twitter Data Scraping with Tweepy

This notebook demonstrates how to scrape recent tweets using the Tweepy API, process them, and save the results into a CSV file. The steps include:
1. **Setup and Authentication**: Configuring Tweepy with secure API keys.
2. **Defining a Function to Retrieve Tweets**: Using the Tweepy client to fetch tweets containing a specific hashtag.
3. **Storing and Saving the Data**: Converting the fetched tweets into a DataFrame and saving them to a CSV file.

> **Note**: API keys and tokens are handled securely using environment variables.

In [1]:
# Import the packages and modules
from dotenv import load_dotenv
import pandas as pd
import tweepy as tp
import os 

In [2]:

# Load API keys from .env file
load_dotenv()

api_key = os.getenv("API_KEY")
api_secret = os.getenv("API_SECRET")
bearer_token = os.getenv("BEARER_TOKEN")
access_token = os.getenv("ACCESS_TOKEN")
access_token_secret = os.getenv("ACCESS_TOKEN_SECRET")

# Initialize Tweepy client
client = tp.Client(bearer_token=bearer_token)

### Secure Authentication

API keys and tokens are loaded securely from a `.env` file. This approach ensures sensitive data is not exposed in the code.


### Function to Retrieve Tweets by Hashtag
The following function uses Tweepy to fetch recent tweets containing a specific hashtag.
- **Query Format**: Only tweets with the given hashtag are fetched, excluding retweets.
- **Fields Included**: Tweet text, author information, location, and public metrics like retweets and likes.


In [None]:
def get_tweets_by_hashtag(hashtag, max_results=60):
    """
    Retrieve tweets containing a specific hashtag.

    Parameters:
    - hashtag (str): The hashtag to search for (without the # symbol).
    - max_results (int): Maximum number of tweets to retrieve.

    Returns:
    - list: A list of dictionaries containing tweet data.
    """
    tweets_data = []
    query = f"#{hashtag} -is:retweet"  # Exclude retweets
    
    try:
        tweets = client.search_recent_tweets(
            query=query,
            max_results=min(max_results, 100),
            tweet_fields=["created_at", "text", "author_id", "lang", "public_metrics"],
            user_fields=["username", "name", "location"],
            expansions=["author_id"],
        )
        
        if tweets.data:
            users = {user["id"]: user for user in tweets.includes["users"]}  # Map user data
            for tweet in tweets.data:
                user = users.get(tweet.author_id, {})
                tweets_data.append({
                    "username": user.get("username"),
                    "name": user.get("name"),
                    "location": user.get("location"),
                    "tweet_text": tweet.text,
                    "created_at": tweet.created_at,
                    "retweets": tweet.public_metrics.get("retweet_count"),
                    "likes": tweet.public_metrics.get("like_count"),
                    "language": tweet.lang,
                })
    except tp.TweepyException as e:
        print(f"Error: {e}")
    
    return tweets_data

### Usage (Call the above function according to the hashtag of your choice)

In [4]:
# Example usage
hashtag = "The_hashtag_without_#_sign"
tweets = get_tweets_by_hashtag(hashtag, max_results=100)

Error: 429 Too Many Requests
Usage cap exceeded: Monthly product cap


### Save Tweets to CSV

The fetched tweet data is stored in a Pandas DataFrame and saved as a CSV file for further analysis.


In [None]:
# Convert the tweet data to a DataFrame
df = pd.DataFrame(tweets)

# Save the DataFrame to a CSV file
output_file = "file_name.csv"
df.to_csv(output_file, index=False, encoding="utf-8")

# Display a summary of the data
print(f"Data saved to {output_file}")
print(f"Number of tweets fetched: {len(df)}")
print(df.head(10))

In [3]:
# I just want to show the head of any of the raw file, 

import pandas as pd
the_raw_data = pd.read_csv("/Users/hashimkhan/Documents/greenbootcamps/sentiment_analysis_X/raw_data/Bollertwo_data.csv")
print(the_raw_data.head())

       username                 name                location  \
0      bzberlin       BZ Berlin B.Z.                  Berlin   
1    Saltytrees  Beate S. 🐦🏳️‍🌈🌻🇪🇺🇺🇦                   Mölln   
2     GoscheUff            GoscheUff                     NaN   
3     Weber_AfD         Marvin Weber  Paderborn, Deutschland   
4  oedpmuenchen          ÖDP München                 München   

                                          tweet_text  \
0  Jetzt doch! Berliner SPD fordert #Böller-Verbo...   
1  @dennoch_berlin @kaiwegner @NancyFaeser @Bunde...   
2  Ich würd ja so nen #Böller #Bagaluten mal 1 Ta...   
3  Die meisten Silvesterjihadisten in Berlin hatt...   
4  #Böller sind gefährlich, umweltschädlich und e...   

                  created_at  retweets  likes language  
0  2025-01-09 15:58:38+00:00         0      4       de  
1  2025-01-09 13:18:56+00:00         0      1       de  
2  2025-01-09 12:18:18+00:00         0      1       de  
3  2025-01-09 08:10:21+00:00         0      0     

In [11]:
from tabulate import tabulate
# Convert the dataframe to a pretty table
print(tabulate(the_raw_data.tail(), headers='keys', tablefmt='fancy_grid')) # tablefmt='fancy_grid'

╒════╤═════════════════╤═════════════════════════╤═══════════════════════╤═══════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╤═══════════════════════════╤════════════╤═════════╤════════════╕
│    │ username        │ name                    │ location              │ tweet_text                                                                                                                                                                                                            │ created_at                │   retweets │   likes │ language   │
╞════╪═════════════════╪═════════════════════════╪═══════════════════════╪═══════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════════╪

In [11]:
from IPython.display import display, HTML
# Display only the 'tweet_text' column
display(HTML(the_raw_data['tweet_text'].to_frame().to_html()))

Unnamed: 0,tweet_text
0,Jetzt doch! Berliner SPD fordert #Böller-Verbot\n\nhttps://t.co/rvm4H4gtfz
1,@dennoch_berlin @kaiwegner @NancyFaeser @Bundeskanzler Läuft! Jetzt gibt es kein Wegducken mehr. Schluss mit dem alljährlichen Silvesterterror! #Boeller https://t.co/yhcCHNmjje
2,"Ich würd ja so nen #Böller #Bagaluten mal 1 Tag bei den Rettungskräften mitfahren lassen,dass die Idioten mal sehen was hier für Arbeit geleistet wird. https://t.co/8RfBCmyDm4"
3,"Die meisten Silvesterjihadisten in Berlin hatten einen arabischen Vornamen. Wie kommt das bloß? Ich dachte, alle Menschen seien gleich, Deutsche machten das doch auch und nur ein Böllerverbot könnte uns helfen.🤡\n\n#Silvester #Böller #Berlin"
4,"#Böller sind gefährlich, umweltschädlich und einfach nervig. Darum wollen wir das #Feuerwerksverbot in #München ausweiten.\nhttps://t.co/eTC4QY5um2"
5,Die Geschehnisse in Berlin zu Silvester noch mal in ein Video!\n#Silvesternacht #Berlin #chaos #Feuerwerk #Deutschlandzuerst #böller https://t.co/0MlTKOwRcL
6,Sie lügen wie gedruckt \n#Silvesternacht #Böller \nDoppelte Staatsbürgerschaft wird nie beachtet . #muhameds https://t.co/NSHr7PbOKd
7,#Debatte um #Böller-#Verbot: Zentrale #Feuerwerke auf #Steuerzahler-#Kosten? \n\nhttps://t.co/a5YGEx0L46
8,"Seit 31 Jahren zum ersten Mal bei diesem #Silvester gesehen, dass es Raketen auch ohne den Plastikstöpsel gibt\n\nWarum war das nicht schon früher so? Das spart Plastik und ist auch einfacher!\n\n#Böller #Feuerwerk #Raketen"
9,"Früher war das lauteste an #Silvester der Knall der #Böller. Heute sind es die Sirenen der #Feuerwehr. Vielleicht sollten wir mal drüber nachdenken, was hier schief läuft."
