## Threads data analysis with python

#### Instalamos las bibliotecas
* [Pandas](https://pandas.pydata.org): 
  * En VSCode: ```%pip install pandas```
  * En Colab: ```!pip install pandas```
  * Versiones distintas de python: ```pip3 install pandas```

#### Importamos las bibliotecas

* [Pandas](https://pandas.pydata.org): Pandas es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar, construida sobre el lenguaje de programación Python.

#### Procedimiento

##### Exploración

Comenzaremos por explorar un poco el archivo csv ```data``` generado por la clase ```getData.py```.

###### Pasos a realizar:

* Importar las bibliotecas
* Importar el archivo csv
* Almacenar el contenido del csv en un dataframe
* Estructurar el dataframe con las columnas de interés ```Text``` y ```Likes```

In [1]:
# Importamos la biblioteca pandas
import pandas as pd

In [2]:
# Leemos la data generada desde un csv y la almacenamos en el dataframe df
df = pd.read_csv('./data/data.csv')

In [3]:
# Estructuramos el dataframe con las columnas de interés: Text y Likes
df.columns = ['Text', 'Likes']

In [4]:
# Mostramos las primeras 4 filas del dataframe
df.head(4)

Unnamed: 0,Text,Likes
0,"Que sea un gran Martes, hoy reviso los perfile...",15
1,Amanecimos con buenas noticias 💪🏽Ya podemos es...,14
2,"Listo, ya solo documento algunos ejemplos con ...",33
3,Ya les ando preparando el repo para que puedan...,11


Como podemos observar nuestra columna ```Text``` del dataframe, aún con el procesamiento de limpieza de datos en la implementación de ```getData.py``` presenta algunos detalles como:

* Valores nulos
* Saltos de línea | Retornos de carro 
* Comillas simples o dobles

Recordando que las necesidades pueden variar según el tipo de texto que se procesa. 

Procedemos entonces al siguiente paso.

#### Ciencia de Datos
Realizaremos un pequeño ajuste en los datos, este proceso puede variar según el tipo de texto que vamos a procesar. Puedes considerar urls, emojis, caracteres especiales. Si bien el script ```getData.py``` y este notebook consideran algunos casos, puede variar el proceso en función del tipo de caracteres incluidos en el texto a procesar.

##### Pasos a realizar
Varia en función del tipo de contenido a procesar, aquí algunos casos:

* Eliminamos los valores nulos del dataframe
* Comprobamos
* Verificamos que la columna Text sea de tipo string
* Eliminamos caracteres especiales que pudieran haber resultado
  * \n
  * "
  * '
  * \U0001fae0 y \U0001faf6 <- Correspondiente a emojis no compatibles
* Por último exportamos a csv (si así lo desean) el nuevo archivo con la data lista para procesarla con AI

In [5]:
# Eliminamos los valores nulos del dataframe
df = df.dropna()

In [6]:
# Mostramos el contenido del dataframe después del dropna
df.head(4)

Unnamed: 0,Text,Likes
0,"Que sea un gran Martes, hoy reviso los perfile...",15
1,Amanecimos con buenas noticias 💪🏽Ya podemos es...,14
2,"Listo, ya solo documento algunos ejemplos con ...",33
3,Ya les ando preparando el repo para que puedan...,11


In [7]:
# Eliminamos la cadena \n
df['Text'] = df['Text'].replace('\\\\n', '', regex=True)

In [8]:
# Eliminamos comillas dobles y simples
df['Text'] = df['Text'].str.replace('\"', '')
df['Text'] = df['Text'].str.replace('\'', '')

In [9]:
# Mostramos sólo la columna Text del dataframe
df['Text'].head(3)

0    Que sea un gran Martes, hoy reviso los perfile...
1    Amanecimos con buenas noticias 💪🏽Ya podemos es...
2    Listo, ya solo documento algunos ejemplos con ...
Name: Text, dtype: object

In [10]:
# Eliminamos la cadena \\U0001fae0 con regex
df['Text'] = df['Text'].str.replace('\\\\U0001fae0', '', regex=True)

In [11]:
# Eliminamos la cadena \\U0001fae1 con regex
df['Text'] = df['Text'].str.replace('\\\\U0001faf6', '', regex=True)


In [12]:
# Comprobamos el dataframe
df.head(3)

Unnamed: 0,Text,Likes
0,"Que sea un gran Martes, hoy reviso los perfile...",15
1,Amanecimos con buenas noticias 💪🏽Ya podemos es...,14
2,"Listo, ya solo documento algunos ejemplos con ...",33


In [13]:
# Exportamos a un csv el dataframe
df.to_csv('./data/cleanData.csv', index=False,header=False)

Threads API: Data Science Process

Material desarrollado por: Fernanda Ochoa.

Contacto:
* GitHub: [FernandaOchoa](https://github.com/FernandaOchoa)
* Twitter: [@imonsh](https://twitter.com/imonsh)
* Instagram: [fherz8a](https://instagram.com/fherz8a)
* Linkedin: [Fernanda Ochoa](https://www.linkedin.com/in/fernandaochoa8/)