# Tipos de datos que podemos almacenar en un DataFrame

En la lección anterior vimos cómo leer un archivo CSV como un *DataFrame* en Pandas y vimos además sus principales atributos.

En esta lección veremos en detalle los principales tipos de datos que podemos tener dentro de un *DataFrame*.

Comencemos leyendo el mismo set de datos que hemos venido usando en las últimas lecciones (*peliculas.csv*):

In [1]:
# Comencemos importando la librería
import pandas as pd

# Y usemos "read_csv" para leer el set de datos "peliculas.csv"
df = pd.read_csv('peliculas.csv')

# E imprimamos en pantalla el resultado obtenido
df

Unnamed: 0,color,director_name,num_critic_for_reviews,duration,director_facebook_likes,actor_3_facebook_likes,actor_2_name,actor_1_facebook_likes,gross,genres,...,num_user_for_reviews,language,country,content_rating,budget,title_year,actor_2_facebook_likes,imdb_score,aspect_ratio,movie_facebook_likes
0,Color,James Cameron,723.0,178.0,0.0,855.0,Joel David Moore,1000.0,760505847.0,Action|Adventure|Fantasy|Sci-Fi,...,3054.0,English,USA,PG-13,237000000.0,2009.0,936.0,7.9,1.78,33000
1,Color,Gore Verbinski,302.0,169.0,563.0,1000.0,Orlando Bloom,40000.0,309404152.0,Action|Adventure|Fantasy,...,1238.0,English,USA,PG-13,300000000.0,2007.0,5000.0,7.1,2.35,0
2,Color,Sam Mendes,602.0,148.0,0.0,161.0,Rory Kinnear,11000.0,200074175.0,Action|Adventure|Thriller,...,994.0,English,UK,PG-13,245000000.0,2015.0,393.0,6.8,2.35,85000
3,Color,Christopher Nolan,813.0,164.0,22000.0,23000.0,Christian Bale,27000.0,448130642.0,Action|Thriller,...,2701.0,English,USA,PG-13,250000000.0,2012.0,23000.0,8.5,2.35,164000
4,,Doug Walker,,,131.0,,Rob Walker,131.0,,Documentary,...,,,,,,,12.0,7.1,,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4911,Color,Scott Smith,1.0,87.0,2.0,318.0,Daphne Zuniga,637.0,,Comedy|Drama,...,6.0,English,Canada,,,2013.0,470.0,7.7,,84
4912,Color,,43.0,43.0,,319.0,Valorie Curry,841.0,,Crime|Drama|Mystery|Thriller,...,359.0,English,USA,TV-14,,,593.0,7.5,16.00,32000
4913,Color,Benjamin Roberds,13.0,76.0,0.0,0.0,Maxwell Moody,0.0,,Drama|Horror|Thriller,...,3.0,English,USA,,1400.0,2013.0,0.0,6.3,,16
4914,Color,Daniel Hsia,14.0,100.0,0.0,489.0,Daniel Henney,946.0,10443.0,Comedy|Drama|Romance,...,9.0,English,USA,PG-13,,2012.0,719.0,6.3,2.35,660


Vemos que por ejemplo la columna *director_name* contiene variables con el nombre de diferentes directores de cine. Mientras que las columnas *gross* o *duration* contienen variables numéricas correspondientes a los ingresos generados por cada película o a la duración de la misma.

En general, en Ciencia de Datos y Machine Learning podemos tener dos tipos de datos:

- **Numéricos**: son datos que representan algún tipo de medición (altura, salario, duración, etc.) y siempre son almacenados como números (enteros o punto flotante)
- **Categóricos**: representan valores discretos de una variable (color de un vehículo, marca de un cereal, nombre de un director). A su vez estos datos categóricos pueden ser de tres tipos:
  - *Nominales*: correspondientes a nombres (como en la columna "director_name"). Usualmente el tipo de dato en estos casos es *string*
  - *Ordinales*: cuando el atributo representa algún tipo de orden (ejemplo: 1 estrella, 2 estrellas, ... 5 estrellas). En estos casos el tipo de dato puede ser *string* o *int*
  - *Binarios*: cuando el atributo representa uno de dos posibles estados (ejemplo: Verdadero, Falso; Suscrito, No Suscrito). En estos casos el tipo de dato puede ser *string*, *int* o *boolean*

Cuando leemos un set de datos en Pandas podemos tener en cada columna y en las mismas celdas diferentes tipos de datos y resulta **importantísimo determinar el tipo de dato que tenemos en cada columna, pues esto determinará el tipo de operaciones que podremos realizar sobre la misma**.

## 1. Determinando el tipo de dato de cada columna

Veamos por ejemplo los tipos de datos del *DataFrame* que leímos anteriormente.

Una forma de lograr esto es a través del atributo `dtypes` que nos muestra el tipo de dato usado para almacenar cada columna:

In [2]:
df.dtypes

color                         object
director_name                 object
num_critic_for_reviews       float64
duration                     float64
director_facebook_likes      float64
actor_3_facebook_likes       float64
actor_2_name                  object
actor_1_facebook_likes       float64
gross                        float64
genres                        object
actor_1_name                  object
movie_title                   object
num_voted_users                int64
cast_total_facebook_likes      int64
actor_3_name                  object
facenumber_in_poster         float64
plot_keywords                 object
movie_imdb_link               object
num_user_for_reviews         float64
language                      object
country                       object
content_rating                object
budget                       float64
title_year                   float64
actor_2_facebook_likes       float64
imdb_score                   float64
aspect_ratio                 float64
m

En este caso particular vemos 3 tipos de datos:

- `object`: para almacenar *strings* o datos mixtos (por ejemplo columnas que contengan *strings* o *NaNs* - *Not a Number* o *strings* y datos numéricos). Muy probablemente estos datos serán de tipo categórico.
- `float`: datos numéricos en formato de punto flotante (el 64 se refiere a 64 bits)
- `int`: datos numéricos en formato entero (el 64 se refiere a 64 bits).

También podemos **encadenar** a la línea de código anterior, el método `count_values()` para realizar un conteo de los diferentes tipos de dato presentes cada columna del *DataFrame*:

In [3]:
df.dtypes.value_counts()

float64    13
object     12
int64       3
dtype: int64

Lo anterior quiere decir que:

- 13 columnas serán de tipo `float64`
- 12 columnas serán de tipo `object`
- 3 columnas serán de tipo `int64`

Además, podemos usar el método `info()` para que nos muestre un conteo detallado por columnas:

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4916 entries, 0 to 4915
Data columns (total 28 columns):
 #   Column                     Non-Null Count  Dtype  
---  ------                     --------------  -----  
 0   color                      4897 non-null   object 
 1   director_name              4814 non-null   object 
 2   num_critic_for_reviews     4867 non-null   float64
 3   duration                   4901 non-null   float64
 4   director_facebook_likes    4814 non-null   float64
 5   actor_3_facebook_likes     4893 non-null   float64
 6   actor_2_name               4903 non-null   object 
 7   actor_1_facebook_likes     4909 non-null   float64
 8   gross                      4054 non-null   float64
 9   genres                     4916 non-null   object 
 10  actor_1_name               4909 non-null   object 
 11  movie_title                4916 non-null   object 
 12  num_voted_users            4916 non-null   int64  
 13  cast_total_facebook_likes  4916 non-null   int64

Como resultado la función nos arroja inicialmente la cantidad de entradas (*RangeIndex*) calculada con base en el índice del *DataFrame*. Este valor es clave pues nos permitirá luego analizar las columnas y verificar si hay datos faltantes. En este ejemplo tendremos un total de 4.916 registros (el mismo número de filas del dataset).

Además, la función `info()` nos muestra la siguiente información del *DataFrame* (organizada por columnas):

- *#*: número de la columna
- *Column*: nombre de la columna
- *Non-Null count*: cantidad de datos "no nulos" (es decir que no son *NaN*)
- *Dtype*: tipo de dato usado para almacenar la información en la columna

Por ejemplo, en la columna 19 (*language*) tendremos 4904 datos "no nulos" en formato `object`. Esto quiere decir que esta columna contendrá 4.916 - 4.904 = 12 datos *NaN*.

## 2. Otros tipos de datos en Pandas

Adicional a los tipos de datos que encontramos en el ejemplo anterior (`object`, `float` e `int`), vale la pena resaltar estos otros tipos de datos disponibles en la librería:

- `datetime`: para almacenar datos en formato de fecha + hora + zona horaria (muy usado al procesar Series de Tiempo)
- `category`: datos categóricos (usado cuando creamos un DataFrame, pero no al momento de leerlo)
- `bool`: datos binarios (`True` o `False`)

El listado completo de tipos de datos disponibles se encuentra en la [documentación de "dtypes"](https://pandas.pydata.org/docs/user_guide/basics.html#dtypes)