In [None]:
import pandas as pd

# CARGA DE DATOS
df = pd.read_csv("./dataset.csv") # Por defecto detecta las columnas por el encabezado del archivo
# Puedo especificar algunos parametros adicionales como por ejemplo una columna como indice
# pd.read_csv("./dataset.csv", index_col = "id")


# DESCUBRIENDO LOS DATOS
df.tail(5)
df.describe()
df.columns
df.head(5)

In [None]:
# LIMPIEZA DE DATOS

df_filtrado = df.dropna()
df_filtrado.head(5)

df_llenado = df.fillna(0)
df = df.fillna({"retweets": 0, "mentions": -1})
df_llenado.head()
df.head()

In [None]:
# SELECCION Y FILTRADO

# Seleccionando columnas, a traves de su nombre
df["favorites"] # Me devuelve una sola columna como una Serie
df["full_text"] # Me devuelve una sola columna como una Serie
df[["favorites", "full_text"]] # Me devuelve un dataframe solamente con dos columnas

# Seleccionando filas, a traves de los indices
df.loc[0]
df.loc[0:2]
df.loc[[0, 1, 2]] 

# Seleccionando filas y columnas al mismo tiempo
df.loc[[0, 1, 2], ["favorites"]]
# Seleccionando todas las filas, y un grupo de columnas
df.loc[:, ["favorites", "full_text"]]
# Seleccionando un rango de filas y un grupo de columnas
df.loc[1:3, ["favorites", "full_text", "mentions"]]

# Seleccionando por condicion
# Todas las filas que tengan un valor de favoritos mas altos de 100
df[df["favorites"] > 400]
df[(df["favorites"] > 400) & (df["mentions"] > 20)]
df[df["full_text"].str.contains("Programming")]

In [None]:
# TRANSFORMACION DE DATOS
import random

# Agregando una columna de ganancias, calculada en base a los retweets
def calcularGanancias(retweets):
    return retweets * random.randint(3, 5)
df["ganancias"] = df["retweets"].apply(calcularGanancias)
df.head(10)

# Agregando una columna de popularidad, calculada en base a mi numero de seguidores y numero de pesonas que sigo
def popularidad(fila):
    return fila["followees"]/fila["followers"]

df["popularidad"] = df.apply(popularidad, axis=1)
df.head(10)

In [None]:
df.groupby("country").mean(numeric_only=True)


In [None]:
# AGRUPANDO Y AGREGANDO DATOS
df.groupby("country").mean(numeric_only=True) # Agrupando por pais y sacando la media de cada columna

# Agrupando por pais y aplicando diferentes funciones de agregacion a cada columna
df.groupby("country").agg({
    "followers": 'sum',
    "mentions": 'mean',
    "retweets": 'max'
})

grouped = df.groupby("country").agg({
    "followers": 'sum',
    "mentions": 'mean',
    "retweets": 'max'
})
grouped[grouped["followers"] > 5000]

In [None]:
# GRAFICANDO DATOS
import matplotlib.pyplot as plt
grouped["followers"].plot() # Lineas
plt.show()

In [None]:
# Barras 
grouped[["followers"]].plot(kind="bar")
plt.show()

In [None]:
# Scatter plot (x vs y)
df.plot(kind="scatter", x ="favorites", y ="retweets")
plt.show()

In [None]:
# ALMACENAMIENTO
grouped.to_csv("./salida.csv")

In [None]:
# CREACION DESDE CERO
datos = [
    {
        "columna1": 1,
        "columna2": 93
    },
    {
        "columna1": 3,
        "columna2": 94
    }
]

df2 = pd.DataFrame(datos)
df2