## Data Frame ## 

Es una "tabla", por lo que está formado por filas y columnas.

Cada **columna** representa una **variable diferente** (por ejemplo edad).

Cada **fila** representa una **observación diferente** (por ejemplo una persona).

Los elementos de cada columna deben ser del **mismo tipo**. Por ejemplo, todos los elementos de la columna A deben ser numéricos y todos los elementos de la columna B deben ser strings.

Las columnas deben tener el **mismo número de elementos**. Por ejemplo, la columna A debe teer 6 elementos, y la columna B también debe tener 6 elementos.

Los datos de un Data Frame pueden ser modificados.

Para definir un Data Frame utilizaremos el móduo *pandas*.

In [1]:
#importar pandas
import pandas as pd

In [2]:
# 1) Creamos un data frame a partir de un diccionario, primero definimos el diccionario

In [5]:
datos = {"a": [0,1,2,3,5],"b":["a","v","s","f","w"],"c":[10,20,30,40,50] }
datos

{'a': [0, 1, 2, 3, 5],
 'b': ['a', 'v', 's', 'f', 'w'],
 'c': [10, 20, 30, 40, 50]}

In [7]:
#Creamos el data frame a partir de ese diccionario (casi siempre se lo denomina df)
df = pd.DataFrame(data = datos)
df

Unnamed: 0,a,b,c
0,0,a,10
1,1,v,20
2,2,s,30
3,3,f,40
4,5,w,50


También podemos crear un data frame a partir de varias listas.

# Cada lista será una fila del data frame

l1 = [1,2,3]
l2 = [4,5,6]


In [13]:
# Creamos el data frame, debemos asignar un nombre a las columnas 
df = pd.DataFrame(data = [l1,l2], columns = ["c1","c2","c3"])
df

Unnamed: 0,c1,c2,c3
0,1,2,3
1,4,5,6


# Data Frame y Pandas #
## Ejemplo de aplicación ##

A continuación realizaremos varios ejemplos para conocer las funcionalidades de *pandas* con un archivo **.cvs** el cual contiene filas y columnas. Se podría realizar con archivos .xls, .json, .sql y cualquier otro formato que posea una estructura de filas y columnas.

*Pandas* maneja todos sus datos mediante *data frames*. Para leer un archivo de este estilo utilizamos la función *pd.read_csv("nombre_archivo.cvs")*, este archivo debe estar en la misma carpeta en la que estamos trabajando, de otra forma deberíamos pegar el path.


In [16]:
import pandas as pd

df = pd.read_csv("dataset.csv")

df

Unnamed: 0,id,full_text,favorites,retweets,mentions,country,user,followers,followees
0,183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
1,183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
2,183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
3,183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
4,183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129
5,183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
6,183727,80's & friends! ✈️,158.0,40.0,22.0,ECUADOR,leonardokuffo,389.0,258
7,183728,Thank you guess how did I feel somewhat offend...,,50.0,10.0,MEXICO,pedrojuarez,12.0,129
8,183729,OnePlus 8 international giveaway classifies,198.0,82.0,26.0,MEXICO,pedrojuarez,12.0,129
9,183730,Here it is.. Retweet this desperate,272.0,92.0,29.0,BRASIL,mateusmartins,982.0,1822


Este ejemplo se extrajo de datos de twitter. 

Las filas por defecto se expresan de manera secuencial con valores entre 0 y n. Sin embargo, es posible que querramos identificar a las filas mediante otro parámetro, por ejemplo "id" en este caso.

In [17]:
df = pd.read_csv("dataset.csv", index_col="id")
df

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183727,80's & friends! ✈️,158.0,40.0,22.0,ECUADOR,leonardokuffo,389.0,258
183728,Thank you guess how did I feel somewhat offend...,,50.0,10.0,MEXICO,pedrojuarez,12.0,129
183729,OnePlus 8 international giveaway classifies,198.0,82.0,26.0,MEXICO,pedrojuarez,12.0,129
183730,Here it is.. Retweet this desperate,272.0,92.0,29.0,BRASIL,mateusmartins,982.0,1822


Para no ver todas los datos al mismo teimpo podemos visualizar el comienzo de la tabla con *df.head(n)*, o el final con *df.tail(n)*, siendo "n" la cantidad de elementos que queremos visualizar, por defecto n=5.

In [18]:
df.head(3)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129


In [19]:
df.tail(3)

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183745,There is nothing better than programming!,424.0,110.0,29.0,BRASIL,lucasperes,82.0,351
183746,BORED AF,488.0,28.0,27.0,MEXICO,gabrielcarvajal,21.0,2721
183747,I do not know if i like programming or other t...,318.0,58.0,20.0,BRASIL,isabelladasilva,928.0,9918


Algo muy interesante es poder obtener datos estadísticos muy facilmente de este data frame mediante la función *df.describe()*.


In [20]:
df.describe()

Unnamed: 0,favorites,retweets,mentions,followers,followees
count,26.0,26.0,26.0,26.0,27.0
mean,280.538462,80.0,15.423077,352.807692,1190.185185
std,153.377242,40.303846,9.596554,375.319493,1965.735995
min,23.0,21.0,1.0,12.0,129.0
25%,139.25,45.5,8.25,21.0,258.0
50%,305.5,79.0,16.0,332.0,351.0
75%,422.5,110.75,23.5,389.0,1822.0
max,500.0,146.0,29.0,982.0,9918.0


Existen datos que aparecen como NaN, estos están vacíos, y a la hora de querer realizar una operación con estos datos podría surgir un error. Por lo tanto es importante poder rellenar estas casillas con algun valor en particular ya sea numérico, string, boolean, etc.

## Filtrado ##

Por un lado podemos filtrar y quitar estas filas que contienen datos NaN mediante el comando *df.dopna()*.

In [24]:
df_filtrado = df.dropna()
df_filtrado.head()

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183727,80's & friends! ✈️,158.0,40.0,22.0,ECUADOR,leonardokuffo,389.0,258


Otra alternativa es llenar esos espacios con un valor establecido mediante el comando *df.fillna(0)*.

In [26]:
df_filtrado=df.fillna(0)
df_filtrado.head()

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,0.0,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,0.0,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129


También puedo llenar datos dependiendo de la columna, esto se realiza mediante un diccionario en el argumento de *df.fillna()*.

In [27]:
df_filtrado = df.fillna({"retweets":0,"mentions":-1})
df_filtrado.head()

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,0.0,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,-1.0,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183724,Faking It by Joel Atwell. Written by Other cou...,131.0,76.0,3.0,ECUADOR,galocastillo,332.0,378
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129


Para poder visualizar solamente los datos de una columna dada podemos realizarlo de la siguiente manera:


In [29]:
df["full_text"]

id
183721    Flying home to run down from the power to comi...
183722                  Today we commemorate and MNML Case.
183723         Today we have reached US$6.55 Billion TT$44…
183724    Faking It by Joel Atwell. Written by Other cou...
183725                                      Welcome back! 🙌
183726    Contest: Win a fan of his ass. #thatisall Thanks!
183727                                   80's & friends! ✈️
183728    Thank you guess how did I feel somewhat offend...
183729          OnePlus 8 international giveaway classifies
183730                  Here it is.. Retweet this desperate
183731    Great to advertise during the year I tweeted a...
183732    Its been in love with the game with the origin...
183733                             Programming is the best!
183734                               I cannot believe this!
183735                               Buy this product NOW!!
183736    I have one is best color gradients: Just relea...
183737                               

Para visualizar varias columnas a la vez deberemos ingresar al argumento de df[] una lista con todas las columnas deseadas.

In [30]:
df[["favorites","full_text"]]

Unnamed: 0_level_0,favorites,full_text
id,Unnamed: 1_level_1,Unnamed: 2_level_1
183721,23.0,Flying home to run down from the power to comi...
183722,500.0,Today we commemorate and MNML Case.
183723,190.0,Today we have reached US$6.55 Billion TT$44…
183724,131.0,Faking It by Joel Atwell. Written by Other cou...
183725,113.0,Welcome back! 🙌
183726,492.0,Contest: Win a fan of his ass. #thatisall Thanks!
183727,158.0,80's & friends! ✈️
183728,,Thank you guess how did I feel somewhat offend...
183729,198.0,OnePlus 8 international giveaway classifies
183730,272.0,Here it is.. Retweet this desperate


Para discriminar entre filas podemos hacerlo entre los índices (0,1,2,...), entre el identificador (id), o mediante condiciones.

Para obtener la fila mediante su índice, utilizamos la función *df_iloc[ ]*, puede ser una sola fila indicandole un solo valor en el argumento, o pueden ser varias indicandolas mediante a:b, también pueden ser filas de índices aislados utilizando una lista con sus índices.

In [34]:
df.iloc[0]

full_text    Flying home to run down from the power to comi...
favorites                                                 23.0
retweets                                                   NaN
mentions                                                  10.0
country                                                ECUADOR
user                                             leonardokuffo
followers                                                389.0
followees                                                  258
Name: 183721, dtype: object

In [35]:
df.iloc[0:3]

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129


In [36]:
df.iloc[[0,2,4]]

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183721,Flying home to run down from the power to comi...,23.0,,10.0,ECUADOR,leonardokuffo,389.0,258
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183725,Welcome back! 🙌,113.0,130.0,9.0,MEXICO,pedrojuarez,12.0,129


Para poder filtrar por otro parámetro, por ejemplo "id", utilizamos la función *df.loc[ ]*

In [37]:
df.loc[[183723,183737]]

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183723,Today we have reached US$6.55 Billion TT$44…,190.0,123.0,6.0,MEXICO,pedrojuarez,12.0,129
183737,PIC!!,346.0,115.0,24.0,BRASIL,lucasperes,82.0,351


Mediante la función *df.loc[ ]* también puedo filtrar por filas y columnas a la vez, en el argumento ponemos una lista que me represente las filas que quiero, y otra lista que me represente las columnas.

In [38]:
df.loc[[183721,183722], ["favorites", "full_text"]]

Unnamed: 0_level_0,favorites,full_text
id,Unnamed: 1_level_1,Unnamed: 2_level_1
183721,23.0,Flying home to run down from the power to comi...
183722,500.0,Today we commemorate and MNML Case.


Uno de los filtrados más importante es el por condiciones, en donde quiero filtrar filas en donde en alguna de sus columnas se cumpla una o unas condiciones específicas.

Supongamos que queremos filtrar para obtener todas las filas cuyos favoritos superen los 400. Esto se realiza con la siguiente sintaxis *df[df["columna"]**condición** ]*.

In [39]:
df[df["favorites"]>400]

Unnamed: 0_level_0,full_text,favorites,retweets,mentions,country,user,followers,followees
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
183722,Today we commemorate and MNML Case.,500.0,21.0,,BRASIL,mateusmartins,982.0,1822
183726,Contest: Win a fan of his ass. #thatisall Thanks!,492.0,70.0,6.0,BRASIL,mateusmartins,982.0,1822
183733,Programming is the best!,467.0,69.0,10.0,ECUADOR,leonardokuffo,389.0,258
183735,Buy this product NOW!!,418.0,24.0,2.0,MEXICO,gabrielcarvajal,21.0,2721
183743,Amazing video by Leonardo!,432.0,95.0,18.0,BRASIL,lucasperes,82.0,351
183744,Thanks man!,430.0,143.0,28.0,BRASIL,lucasperes,,351
183745,There is nothing better than programming!,424.0,110.0,29.0,BRASIL,lucasperes,82.0,351
183746,BORED AF,488.0,28.0,27.0,MEXICO,gabrielcarvajal,21.0,2721
