In [1]:
import pandas as pd

# Extracción de datos con pandas

Pandas ofrece funciones familiares para leer distintos formatos (csv, excel, json, parquet). La idea general es llamar a la función de lectura adecuada y ajustar parámetros para controlar el parsing, tipos y selección de columnas.

Parámetros comunes y su propósito:
- filepath_or_buffer: ruta o URL del archivo.
- sep / delimiter: separador (por defecto ',') para CSV.
- header: fila que contiene los nombres de columna (None si no hay).
- names: lista de nombres cuando no hay header.
- index_col: columna(s) a usar como índice.
- usecols: lista o patrón de columnas a cargar (útil para archivos grandes).
- dtype: forzar tipos de datos por columna.
- parse_dates: columnas a convertir a datetime.
- infer_datetime_format: acelera el parseo de fechas si es posible.
- na_values / keep_default_na: valores a tratar como NA.
- encoding: codificación del archivo (ej. 'utf-8', 'latin1').
- skiprows: filas a omitir al inicio.
- nrows: número de filas a leer (muestreo rápido).
- chunksize / iterator: leer por trozos para archivos muy grandes.
- compression: tipo de compresión ('gzip', 'zip', ...).
- engine: motor de parseo ('python' o 'c') en casos especiales.

Ejemplo de uso típico:
```python
data = pd.read_csv(
    "ruta/datos_ejemplo.csv",
    sep=";",
    index_col="id_col",
    usecols=["id_col", "fecha", "valor"],
    parse_dates=["fecha"],
    dtype={"valor": float},
    na_values=["", "NA"],
    encoding="utf-8",
    nrows=1000
)
```

Consejos prácticos:
- Usar usecols y dtype reduce memoria y acelera la carga.
- Para archivos muy grandes, leer por chunksize y procesar en streaming.
- Probar con nrows pequeño para validar parámetros antes de cargar todo.

In [None]:
"""
Forma de leer un archivo con pandas
Si se tiene una columna con identificador ya implementado pues se puede utilizar el siguiente código
o al igual se puede dejar solo df = pd.read_csv('./data/dataset.csv')
"""
df = pd.read_csv('./data/dataset.csv', index_col='id')

## DF
Un dataframe se puede ver como una variable pero es la misma tabla de datos y se puede visualizar de esta manera

In [7]:
df

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183727,80's & friends! ✈️,158.0,40.0,22.0,ECUADOR,leonardokuffo,389.0,258
183728,Thank you guess how did I feel somewhat offend...,,50.0,10.0,MEXICO,pedrojuarez,12.0,129
183729,OnePlus 8 international giveaway classifies,198.0,82.0,26.0,MEXICO,pedrojuarez,12.0,129
183730,Here it is.. Retweet this desperate,272.0,92.0,29.0,BRASIL,mateusmartins,982.0,1822


## print(df)
Para tener una mejor visualizacion de los datos se puede usar print para ver los datos de manera mas ordenada con las columnas prioritarias

In [8]:
print(df)

                                                full_text  favorites  \
id                                                                     
183721  Flying home to run down from the power to comi...       23.0   
183722                Today we commemorate and MNML Case.      500.0   
183723       Today we have reached US$6.55 Billion TT$44…      190.0   
183724  Faking It by Joel Atwell. Written by Other cou...      131.0   
183725                                    Welcome back! 🙌      113.0   
183726  Contest: Win a fan of his ass. #thatisall Thanks!      492.0   
183727                                 80's & friends! ✈️      158.0   
183728  Thank you guess how did I feel somewhat offend...        NaN   
183729        OnePlus 8 international giveaway classifies      198.0   
183730                Here it is.. Retweet this desperate      272.0   
183731  Great to advertise during the year I tweeted a...       43.0   
183732  Its been in love with the game with the origin...      3

## df.head()
Muestra la cabeza de los datos, dentro del parentesis se puede indicar cuantos datos quieres ver.

In [14]:
df.head(2)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822


## df.tail()
Igual que head pero es para la cola o sea los ultimos valores de la tabla.

In [10]:
df.tail(2)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183746,BORED AF,488.0,28.0,27.0,MEXICO,gabrielcarvajal,21.0,2721
183747,I do not know if i like programming or other t...,318.0,58.0,20.0,BRASIL,isabelladasilva,928.0,9918


## describe()
Describe con valores matematicos los datos de la tabla

In [11]:
df.describe()

Unnamed: 0,favorites,retweets,mentions,followers,followees
count,26.0,26.0,26.0,26.0,27.0
mean,280.538462,80.0,15.423077,352.807692,1190.185185
std,153.377242,40.303846,9.596554,375.319493,1965.735995
min,23.0,21.0,1.0,12.0,129.0
25%,139.25,45.5,8.25,21.0,258.0
50%,305.5,79.0,16.0,332.0,351.0
75%,422.5,110.75,23.5,389.0,1822.0
max,500.0,146.0,29.0,982.0,9918.0


## Info
Describe como son los valores de la tabla

In [12]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 27 entries, 183721 to 183747
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   full_text  27 non-null     object 
 1   favorites  26 non-null     float64
 2   retweets   26 non-null     float64
 3   mentions   26 non-null     float64
 4   country    27 non-null     object 
 5   user       27 non-null     object 
 6   followers  26 non-null     float64
 7   followees  27 non-null     int64  
dtypes: float64(4), int64(1), object(3)
memory usage: 1.9+ KB


# Limpiar datos

* df.isnull().sum()
* df_clean = df.dropna()
* df_filled = df.fillna({"favorites": 0, "retweets": 0, "mentions": -1})
* df_ffill = df.fillna(method='ffill')
* df = df.drop_duplicates()
* df['followees'] = df['followees'].astype(int)

## dropna
La función dropna de pandas elimina entradas con valores faltantes (NaN/NA) de un DataFrame o Serie. Por defecto devuelve una nueva copia sin modificar el original (salvo que uses inplace=True).

Parámetros comunes:
- axis: 0 (filas) o 1 (columnas). Por defecto axis=0.
- how: 'any' (elimina si hay al menos un NA) o 'all' (elimina solo si todas las entradas son NA). Por defecto 'any'.
- thresh: exige un número mínimo de valores no nulos para conservar la fila/columna.
- subset: lista de columnas a considerar al eliminar filas.
- inplace: True para modificar el objeto original en lugar de devolver uno nuevo.
- subset y thresh pueden combinarse para control más fino.

Ejemplos:
```python
# elimina filas con cualquier NA
df.dropna()

# elimina columnas que tengan al menos un NA
df.dropna(axis=1)

# elimina filas que tienen NA en columnas específicas
df.dropna(subset=['favorites', 'retweets'])

# conserva filas que tengan al menos 6 valores no nulos
df.dropna(thresh=6)

# elimina solo si todos los valores de la fila son NA
df.dropna(how='all')

# modificar el DataFrame original
df.dropna(inplace=True)
```

Notas prácticas:
- dropna devuelve un DataFrame nuevo salvo que uses inplace=True.
- Para rellenar valores en lugar de eliminar, usa fillna.
- En este notebook ya se creó df_filtrado = df.dropna(), que contiene las filas sin valores nulos.

In [15]:
df_filtrado = df.dropna()
df_filtrado.head(5)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183727,80's & friends! ✈️,158.0,40.0,22.0,ECUADOR,leonardokuffo,389.0,258


## fill

La operación más habitual para rellenar valores faltantes en pandas es `fillna()`. Sirve para sustituir NaN por un valor fijo o mediante un método basado en valores vecinos.

Principales parámetros:
- value: valor escalar, diccionario o Series con los valores de reemplazo por columna.
- method: 'ffill' (propagar hacia adelante) o 'bfill' (hacia atrás).
- axis: 0 para filas (por defecto), 1 para columnas.
- inplace: True para modificar el DataFrame original.
- limit: número máximo de celdas a rellenar por fila/columna en la dirección del método.
- downcast: intentar convertir tipos después del relleno.

Ejemplos:
```python
# Rellenar todos los NaN con 0
df_filled = df.fillna(0)

# Rellenar columnas específicas con distintos valores
df.fillna({"retweets": 0, "mentions": -1})

# Propagar el último valor válido hacia adelante
df.fillna(method="ffill")

# Rellenar hasta 1 posición hacia atrás como máximo
df.fillna(method="bfill", limit=1)

# Rellenar usando la media de cada columna numérica
df.fillna(df.mean(numeric_only=True))
```

Notas prácticas:
- `fillna()` devuelve una copia por defecto; usar `inplace=True` si quieres cambiar `df` directamente.
- Preferir diccionarios en `value` para control por columna.
- Para grandes conjuntos, calcular primero estadísticas (media/mediana) y luego aplicar `fillna` para evitar recalcular.

In [16]:
df_fill = df.fillna(0)
df_fill.head(5)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,0.0,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,0.0,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129


# Seleccion y Filtrado

Breve resumen de técnicas y buenas prácticas para seleccionar y filtrar datos con pandas.

- Selección de columnas
    - Acceder a una columna devuelve una Serie; seleccionar múltiples columnas devuelve un DataFrame.
    - Usar nombres de columna (o una lista de nombres) para obtener las columnas deseadas.

- Selección de filas
    - Por etiqueta/index: usar la indexación por etiquetas para filas.
    - Por posición: usar indexación posicional para rangos basados en índices enteros.

- Filtrado booleano
    - Construir máscaras booleanas con comparaciones y combinarlas con operadores bit a bit (AND, OR, NOT) y paréntesis para agrupar condiciones.
    - Filtrar por pertenencia en una lista de valores usando la operación adecuada.
    - Buscar texto en columnas de strings con operaciones de cadena que soportan expresiones regulares o coincidencias parciales.

- Selección mixta (filas y columnas)
    - Seleccionar subconjuntos de filas y columnas a la vez mediante la indexación apropiada (por etiquetas o posiciones).

- Consultas declarativas
    - Usar la función que permite escribir condiciones en formato de cadena para expresiones más legibles en filtros complejos.

- Evitar problemas al asignar
    - Para evitar advertencias de copia/segmento, usar la forma de asignación que selecciona explícitamente (por ejemplo, selección por etiquetas) o crear una copia antes de modificar el subconjunto.

- Operaciones útiles de filtrado/ordenación
    - Seleccionar top-N, rangos numéricos, filas sin nulos o con nulos, y combinación con agregaciones después del filtrado.

- Rendimiento y buenas prácticas
    - Filtrar lo antes posible para reducir el tamaño de los datos a procesar.
    - Preferir operaciones vectorizadas y métodos built-in frente a aplicar funciones fila‑a‑fila.
    - Si hay muchas repeticiones de valores, convertir la columna a tipo categórico puede acelerar y reducir memoria.
    - Usar parámetros de lectura (por ejemplo, seleccionar columnas al cargar) para evitar cargar datos innecesarios.

- Ejemplo de flujo típico
    - Cargar solo las columnas necesarias → limpiar nulos o rellenarlos → filtrar por condiciones relevantes → seleccionar columnas finales → agregar/ordenar y exportar.

Mantener las transformaciones claras y documentadas ayuda a reproducir y depurar los filtros cuando el conjunto crece o cambia.


## Extraer columnas

Extraer columnas en un DataFrame es una operación básica y frecuente. Puntos clave:

- Una sola columna vuelve una Serie; varias columnas devuelven un DataFrame.
- Usar corchetes con el nombre de la columna es la forma más explícita y robusta.
- La notación punto (df.col) es cómoda pero solo funciona para nombres válidos y no siempre es segura.
- Para filas y columnas a la vez o para asignaciones seguras, usar .loc (por etiquetas) o .iloc (por posición).
- Para leer solo columnas desde disco, pasar usecols al leer (reduce memoria).
- Seleccionar por tipo de dato con select_dtypes facilita operaciones en subconjuntos numéricos o de texto.
- Métodos útiles: .filter (por etiquetas/regex), .drop (para eliminar columnas), .pop (extrae y elimina), .reindex (reordenar).

Ejemplos (genéricos):

```python
# extraer una columna (Serie)
data["col1"]

# extraer varias columnas (DataFrame)
data[["col1", "col2"]]

# seleccionar por etiquetas (filas y columnas)
data.loc["row_label", ["col1", "col2"]]

# seleccionar por posiciones
data.iloc[0:5, 1:3]

# leer solo columnas necesarias desde CSV
pd.read_csv("archivo.csv", usecols=["col1", "col3"])

# seleccionar por tipo (solo numéricas)
data.select_dtypes(include=["number"])

# filtrar columnas por patrón en el nombre
data.filter(regex="^prefix_")
```

Consejo: al modificar subconjuntos, preferir .loc para evitar advertencias de copia/segmento (SettingWithCopyWarning) y trabajar con copias explícitas si se necesita preservar el original.


In [19]:
df['favorites'].head(5)


id
183721     23.0
183722    500.0
183723    190.0
183724    131.0
183725    113.0
Name: favorites, dtype: float64

In [20]:
df[["favorites", "full_text"]].head(5)

Unnamed: 0_level_0,favorites,full_text
id,Unnamed: 1_level_1,Unnamed: 2_level_1
183721,23.0,Flying home to run down from the power to comi...
183722,500.0,Today we commemorate and MNML Case.
183723,190.0,Today we have reached US$6.55 Billion TT$44…
183724,131.0,Faking It by Joel Atwell. Written by Other cou...
183725,113.0,Welcome back! 🙌


## Extraer Filas

Extraer filas es una operación fundamental para explorar y transformar datos en pandas. A continuación se describen las técnicas más habituales y buenas prácticas:

- Selección por etiqueta (index)  
    - Usar .loc para seleccionar por etiquetas y combinar filas y columnas:  
        ```python
        df.loc[etiqueta]             # una fila por etiqueta
        df.loc[fil_inicio:fil_fin]   # rango por etiqueta (incluye fin)
        df.loc[[et1, et2]]           # lista de etiquetas
        ```

- Selección por posición  
    - Usar .iloc cuando se necesite indexación posicional:  
        ```python
        df.iloc[0]       # primera fila
        df.iloc[0:3]     # filas por posición (no incluye fin)
        df.iloc[[0, 2]]
        ```

- Selección de filas y columnas a la vez  
    - .loc y .iloc aceptan filas y columnas:  
        ```python
        df.loc[mask, ['favorites', 'full_text']]
        df.iloc[0:5, 1:4]
        ```

- Filtrado booleano (más común)  
    - Crear máscaras y aplicarlas:  
        ```python
        df[df['favorites'] > 100]
        df[(df['favorites'] > 100) & (df['mentions'] > 5)]
        ```

- Métodos declarativos y útiles  
    - query: expresiones tipo SQL-like (más legible en filtros complejos):  
        ```python
        df.query("favorites > 100 and country == 'MEXICO'")
        ```
    - isin para pertenencia:  
        ```python
        df[df['country'].isin(['MEXICO', 'BRASIL'])]
        ```
    - str.contains para texto (usar na=False para evitar errores con NaN):  
        ```python
        df[df['full_text'].str.contains('Programming', na=False)]
        ```
    - between para rangos cerrados:  
        ```python
        df[df['favorites'].between(50, 200)]
        ```

- Selección rápida de top/bottom y muestreo  
    ```python
    df.nlargest(5, 'favorites')    # 5 filas con más favorites
    df.nsmallest(5, 'retweets')
    df.sample(10, random_state=1)  # muestra aleatoria reproducible
    ```

- Extraer filas únicas o por posición específica  
    - obtener fila por índice y convertir a dict/serie:  
        ```python
        fila = df.loc[183723]   # si existe esa etiqueta en el índice
        ```

- Evitar SettingWithCopyWarning al asignar  
    - Para modificar subconjuntos usar .loc:  
        ```python
        mask = df['favorites'] < 0
        df.loc[mask, 'favorites'] = 0
        ```
    - Si necesitas trabajar en copia explícita: `sub = df[cond].copy()`

- Rendimiento y buenas prácticas  
    - Filtrar temprano para reducir datos procesados.  
    - Preferir operaciones vectorizadas sobre iteraciones fila‑a‑fila.  
    - Convertir columnas con pocas categorías a tipo 'category' para ahorrar memoria y acelerar comparaciones.  
    - Para datasets muy grandes, usar chunksize al leer y procesar en streaming.

Estos patrones cubren la mayoría de las necesidades al extraer filas; combina .loc/.iloc con máscaras y métodos auxiliares para obtener subconjuntos claros, reproducibles y eficientes.


In [22]:
df.iloc[0] # Selecciona la primera fila
df.iloc[0:2] # Selecciona las dos primeras filas

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822


In [23]:
df.iloc[[0,5,10]] # Selecciona las filas 0, 5 y 10

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183731,Great to advertise during the year I tweeted a...,43.0,111.0,8.0,BRASIL,mateusmartins,982.0,1822


In [28]:
df.loc[[183721,183726]] # Selecciona la fila con indice 183721

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822


In [31]:
df.loc[[183721, 183726], ['favorites','full_text']] # Selecciona el valor en la fila con indice 183721 y la columna 'favorites'

Unnamed: 0_level_0,favorites,full_text
id,Unnamed: 1_level_1,Unnamed: 2_level_1
183721,23.0,Flying home to run down from the power to comi...
183726,492.0,Contest: Win a fan of his ass. #thatisall Thanks!


### Condiciones de filas y columnas

In [32]:
df[df['favorites'] > 400] # Selecciona las filas donde la columna 'favorites' es mayor a 10000

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183733,Programming is the best!,467.0,69.0,10.0,ECUADOR,leonardokuffo,389.0,258
183735,Buy this product NOW!!,418.0,24.0,2.0,MEXICO,gabrielcarvajal,21.0,2721
183743,Amazing video by Leonardo!,432.0,95.0,18.0,BRASIL,lucasperes,82.0,351
183744,Thanks man!,430.0,143.0,28.0,BRASIL,lucasperes,,351
183745,There is nothing better than programming!,424.0,110.0,29.0,BRASIL,lucasperes,82.0,351
183746,BORED AF,488.0,28.0,27.0,MEXICO,gabrielcarvajal,21.0,2721


In [33]:
df[(df['favorites'] > 400) & (df['retweets'] > 100)] # Selecciona las filas donde la columna 'favorites' es mayor a 400 y la columna 'retweets' es mayor a 100

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183744,Thanks man!,430.0,143.0,28.0,BRASIL,lucasperes,,351
183745,There is nothing better than programming!,424.0,110.0,29.0,BRASIL,lucasperes,82.0,351


In [34]:
df[df['full_text'].str.contains('Programming')] # Selecciona las filas donde la columna 'full_text' contiene la palabra 'Programming'

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183733,Programming is the best!,467.0,69.0,10.0,ECUADOR,leonardokuffo,389.0,258
183740,Programming is a hot topic!,133.0,145.0,15.0,BRASIL,lucasperes,82.0,351
183741,Programming? i love it!,92.0,146.0,1.0,ECUADOR,galocastillo,332.0,378


# Transformacion de Datos

La transformación de datos en pandas es el conjunto de pasos necesarios para convertir datos crudos en un formato listo para análisis o modelado. Incluye limpieza, normalización, ingeniería de variables y agregaciones. A continuación, un resumen práctico:

- Objetivo principal  
    Preparar un DataFrame limpio, consistente y eficiente para análisis/visualización/modelado.

- Limpieza básica  
    - Detectar y tratar valores faltantes (`dropna`, `fillna`).  
    - Eliminar duplicados (`drop_duplicates`).  
    - Corregir tipos de datos (`astype`) y parsear fechas (`pd.to_datetime`).

- Transformaciones de columnas  
    - Crear variables derivadas con `assign` o `apply` (preferir operaciones vectorizadas).  
    - Normalizar/escala numérica (min-max, z-score) si va a usarse en modelos.  
    - Codificar categóricas (`pd.get_dummies`, `Categorical` o `sklearn.preprocessing`).

- Limpieza y procesamiento de texto  
    - Normalizar mayúsculas/minúsculas, eliminar stopwords, tokenizar y usar `str` accessors (`.str.contains`, `.str.replace`).  
    - Considerar columnas de longitud, conteo de palabras o presencia de hashtags/URLs como features.

- Fechas y tiempos  
    - Extraer año/mes/día/hora, calcular diferencias, agrupar por periodos (resample/`groupby` con `Grouper`).

- Agrupaciones y agregaciones  
    - `groupby` + `agg` para obtener estadísticas por grupo.  
    - `pivot_table` para tablas de resumen y `melt`/`stack` para desnormalizar/normalizar.

- Joins y concatenación  
    - Unir fuentes con `merge` (inner/left/right/outer) y concatenar con `concat`.  
    - Verificar claves únicas y manejar sufijos para columnas con nombres duplicados.

- Pipeline y reproducibilidad  
    - Encadenar transformaciones con métodos o usar `.pipe` para mantener flujo legible.  
    - Documentar y versionar pasos; guardar resultados intermedios (CSV/Parquet).  
    - Usar funciones reutilizables para pasos repetidos y fijar semillas para operaciones aleatorias.

- Performance y memoria  
    - Leer solo columnas necesarias (`usecols`) y fijar tipos (`dtype`) al cargar.  
    - Convertir columnas a `category` si tienen pocas categorías.  
    - Procesar por `chunksize` para archivos grandes y preferir operaciones vectorizadas sobre `apply` fila‑a‑fila.

- Buenas prácticas al asignar  
    - Evitar problemas de copia usando `.loc` para asignar en subconjuntos o trabajar con `.copy()` cuando corresponda.  
    - Validar cada paso (usa `head`, `info`, `describe`, conteos de nulos) y mantener transformaciones idempotentes cuando sea posible.

- Integración con ML/ETL  
    - Para pipelines de ML, usar `sklearn` transformers o `sklearn.pipeline.Pipeline`.  
    - Para procesos ETL reproducibles, escribir scripts/notebooks con pasos claros y pruebas unitarias mínimas sobre transformaciones.

Aplicando estas pautas se consigue un flujo robusto: cargar datos eficientemente → limpiar y tipar → transformar/crear features → agregar/unir → exportar para análisis o modelado.


In [35]:
import random

In [36]:
def CalcularGanancias(retweets):
    return retweets * random.uniform(3,5)

df['ganancias'] = df['retweets'].apply(CalcularGanancias) # Crea una nueva columna 'ganancias' aplicando la función CalcularGanancias a la columna 'retweets'
df.head(5)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees,ganancias
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258,
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822,103.323589
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129,380.179087
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378,331.331358
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129,496.397071


In [37]:
def Popularidad(fila):
    return fila['followees'] / fila['followers'] # funcion con filas o columnas enteras

df['popularidad'] = df.apply(Popularidad, axis=1) # Crea una nueva columna 'popularidad' aplicando la función Popularidad a cada fila
df.head(5)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees,ganancias,popularidad
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258,,0.663239
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822,103.323589,1.855397
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129,380.179087,10.75
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378,331.331358,1.138554
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129,496.397071,10.75


# Agrupado y Agregando Datos

## Groupby
Agrupa filas por una o varias claves y aplica agregaciones, transformaciones o filtros sobre cada grupo.

- Concepto: `df.groupby(keys)` devuelve un objeto GroupBy sobre el que se pueden llamar métodos como `agg`, `transform`, `filter`, `apply`, `size`, `count`.
- Agregaciones comunes: usar `agg` con una función, lista de funciones o un diccionario por columna; por ejemplo: `df.groupby('category')['value'].agg(['sum','mean'])`.
- Diferencia entre `agg`, `transform` y `apply`:
    - `agg` produce una tabla resumida por grupo (una fila por grupo).
    - `transform` devuelve una serie del mismo tamaño que el DataFrame original (útil para crear columnas basadas en la estadística del grupo).
    - `apply` permite operaciones personalizadas pero suele ser más lento.
- Atributos útiles: `group.size()` (tamaño de cada grupo) y `group.count()` (conteo por columna).
- Mantener el índice: usar `groupby(..., as_index=False)` para que la(s) clave(s) queden como columnas en vez de índice, y `reset_index()` si ya tienes un resultado agrupado.
- Filtrado de grupos: `df.groupby('key').filter(lambda g: g['value'].sum() > threshold)` para conservar solo grupos que cumplan una condición.
- Agrupación por tiempo: usar `pd.Grouper(key='date_col', freq='M')` para agrupar por periodos (día/mes/año).
- Buenas prácticas y rendimiento:
    - Seleccionar solo las columnas necesarias antes de agrupar (reduce memoria).
    - Evitar `apply` cuando `agg` o `transform` cubran la operación.
    - Convertir claves con baja cardinalidad a tipo `category` para acelerar comparaciones.
    - Para grandes volúmenes, probar con una muestra o usar `chunksize` al leer.
- Ejemplo de flujo típico: seleccionar columnas → agrupar por clave(s) → agregar con `agg` → ordenar y resetear índice para exportar.

In [44]:
df.groupby('country').mean({
    'followers': 'sum',
    'mentions': 'mean',
    'retweets': 'max'
})

Unnamed: 0_level_0,favorites,retweets,mentions,followers,followees,ganancias,popularidad
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BRASIL,339.909091,91.272727,19.6,616.6,1889.363636,381.692778,3.708644
ECUADOR,186.375,64.857143,11.875,360.5,318.0,258.467505,0.900897
MEXICO,294.857143,77.75,13.75,15.375,1101.0,289.452677,55.308036


In [42]:
df.groupby('country').mean({
    'followers': 'sum',
    'mentions': 'mean',
    'retweets': 'max'
})

Unnamed: 0_level_0,favorites,retweets,mentions,followers,followees,ganancias,popularidad
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BRASIL,339.909091,91.272727,19.6,616.6,1889.363636,381.692778,3.708644
ECUADOR,186.375,64.857143,11.875,360.5,318.0,258.467505,0.900897
MEXICO,294.857143,77.75,13.75,15.375,1101.0,289.452677,55.308036


In [48]:
grouped = df.groupby('country').mean({
    'followers': 'sum',
    'mentions': 'mean',
    'retweets': 'max'
})

grouped[grouped['followers'] > 500]

Unnamed: 0_level_0,favorites,retweets,mentions,followers,followees,ganancias,popularidad
country,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
BRASIL,339.909091,91.272727,19.6,616.6,1889.363636,381.692778,3.708644


# Almacenar
- Guardar en CSV (texto tabular)
```python
df.to_csv("output.csv", index=False, encoding="utf-8", sep=",", compression=None)
# Para archivos grandes: df.to_csv("output.csv.gz", compression="gzip")
```

- Guardar en Excel
```python
df.to_excel("output.xlsx", index=False, engine="openpyxl")
```

- Guardar en JSON
```python
df.to_json("output.json", orient="records", lines=True, force_ascii=False)
```

- Guardar en Parquet (columna‑orientado, eficiente)
```python
df.to_parquet("output.parquet", engine="pyarrow", index=False)
```

- Serializar con pickle (rápido, solo para Python)
```python
df.to_pickle("output.pkl")
```

- Guardar en una base de datos SQL
```python
from sqlalchemy import create_engine
engine = create_engine("sqlite:///mi_base.db")
df.to_sql("mi_tabla", engine, if_exists="replace", index=False)
```

Consejos rápidos:
- Usar index=False si no quieres guardar el índice como columna.
- Ajustar encoding y sep según destino/idioma.
- Para archivos muy grandes, usar chunksize en la escritura/lectura o compresión.

In [14]:
# ALMACENAMIENTO
grouped.to_csv("./salida.csv")

In [None]:
df = pd.DataFrame({
    'A': [1, 2, 3],
    'B': [4, 5, 6],
})