# Series y DataFrames: las dos estructuras de datos en Pandas

En esta lección vamos a ver qué son y las principales características de las dos estructuras de datos que tenemos disponibles en Pandas: las Series y los *DataFrames*.

## *DataFrames*

Recordemos que Pandas nos permite manipular datos estructurados (es decir en formato tabular).

Así que, de manera simple, **un *DataFrame* es simplemente una tabla de datos, es decir un arreglo bidimensional**, con un cierto número de filas y de columnas.

Veamos en detalle un *DataFrame* leyendo un archivo CSV (*comma separated values*) que es una de las formas más simples de almacenamiento de datos en formato tabular:

In [None]:
# Comencemos importando la librería
import pandas as pd

In [None]:
# Y usemos "read_csv" para leer el set de datos "peliculas.csv"
df = pd.read_csv('/peliculas.csv')

In [None]:
# E imprimamos en pantalla el resultado obtenido
df

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.00,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660


In [None]:
# Imprimamos en pantalla el tipo de dato para la variable "df"
type(df)

Y veamos los principales elementos de este *DataFrame*:

![](anatomia_dataframe.png)

- El ***index*** junto con las ***columns*** nos permitirá extraer datos del *DataFrame* como veremos más adelante.
- Cada elemento del *index* tiene una etiqueta: el ***index label***
- Y cada elemento de *columns* también tiene una etiqueta: el ***column label***
- Y cada celda es un dato del *DataFrame*. En Inglés se usa el término ***value***

Además, vale la pena resaltar otros aspectos importantes de los *DataFrames*:

- Como vemos en la imagen anterior, en un *DataFrame* es posible almacenar diferentes tipos de datos (numéricos enteros, numéricos punto flotante, *strings*, etc.)
- El índice y las columnas se conocen como *axes*: el índice es el *axes 0* y las columnas son el *axes 1*. Esta nomenclatura la usaremos más adelante cuando realicemos operaciones sobre el *DataFrame*
- Cuando el set de datos original tiene una celda vacía, al momento de la lectura Pandas asigna el tipo de dato *NaN* (*not a number*)

## Series

Una serie es simplemente un **arreglo unidimensional de datos**. Al compararlo con un *DataFrame* es como tomar tan sólo una columna o tan sólo una fila del *DataFrame*.

Tomemos por ejemplo la columna `director_name` del *DataFrame* anterior:

In [None]:
# Tomar la columna "director_name" e imprimirla en pantalla
serie1 = df['director_name']
serie1

Unnamed: 0,director_name
0,James Cameron
1,Gore Verbinski
2,Sam Mendes
3,Christopher Nolan
4,Doug Walker
...,...
4911,Scott Smith
4912,
4913,Benjamin Roberds
4914,Daniel Hsia


In [None]:
# E imprimamos en pantalla el tipo de dato
#type(serie1)
serie1.shape

(4916,)

Y ahora tomemos una fila del *DataFrame* leído inicialmente. Por ejemplo extraigamos la fila con el índice 4:

In [None]:
# Usamos el método "loc" para seleccionar una fila con base en el "index label"
serie2 = df.loc[4]
serie2

Unnamed: 0,4
color,
director_name,Doug Walker
num_critic_for_reviews,
duration,
director_facebook_likes,131.0
actor_3_facebook_likes,
actor_2_name,Rob Walker
actor_1_facebook_likes,131.0
gross,
genres,Documentary


In [None]:
# E imprimamos en pantalla el tipo de dato
#type(serie2)
serie2.shape

(28,)

Y veamos los principales elementos de un dato tipo *Series*:

![](anatomia_serie.png)

- Al igual que en los *DataFrames* en una Serie tendremos un *index*, *index labels* y los datos (o *values*)
- Sin embargo, a diferencia de un *DataFrame*, en una serie **NO** tendremos columnas
- Y al igual que en un *DataFrame* una Serie puede contener diferentes tipos de datos