# **Tipos de datos y formatos**

El formato de columnas y filas individuales afectará el análisis realizado en
un dataset leído en Python. Por ejemplo, no se pueden realizar cálculos
matemáticos sobre una secuencia de caracteres (datos con formato de texto).
Esto puede parecer obvio, sin embargo, a veces en Python los valores numéricos
son leídos como secuencias de caracteres. En esta situación, cuando intentas
realizar cálculos con datos numéricos sobre datos formateados como secuencias
de caracteres, obtienes un error.

En esta lección repasaremos maneras de explorar y comprender mejor la
estructura y formato de nuestros datos.

# Tipos de Datos

La forma en que se almacena la información en un
**DataFrame** u objeto Python afecta a lo que podemos hacer con él y también a
los resultados de los cálculos. Hay dos tipos principales de datos
que estaremos explorando en esta lección: tipos de datos numéricos y de texto.

## Tipos de Datos Numéricos

Los tipos de datos numéricos incluyen enteros (**integer**) y números de punto flotante (**float**). Un número de
punto flotante tiene puntos decimales incluso si
el valor del punto decimal es 0. Por ejemplo: 1.13, 2.0, 1234.345. Si tenemos
una columna que contiene tanto enteros como números de punto flotante, Pandas asignará el tipo
de dato `float` a toda la columna, de modo tal que los puntos decimales no se
pierdan.

Un **integer** nunca tendrá un punto decimal. Así que, si quisiéramos almacenar
1.13 como un entero de tipo **integer** se almacenará como 1. Del mismo modo, 1234.345 se
almacenará como 1234. A menudo, en Python verás el tipo de dato `Int64`
que representa un entero de 64 bits. El 64 simplemente se refiere a la
memoria asignada para almacenar datos en cada celda; eso se refiere
a la cantidad de dígitos que puede efectivamente almacenar cada "celda".
Asignar espacio antes de tiempo permite a las computadoras optimizar
el almacenamiento y hacer más eficiente el procesamiento.

## Tipo de Datos de Texto

En Python, el tipo de datos de texto se conoce como secuencia de caracteres (**string**).
En Pandas se los conoce como objetos (**object**). Las secuencias de caracteres pueden
contener números y / o caracteres. Por ejemplo, una secuencia de caracteres
puede ser una palabra, una oración, o varias oraciones. Un objeto Pandas
también podría ser un nombre de gráfico como 'plot1'. Una secuencia de
caracteres también puede contener o consistir en números. Por ejemplo, '1234'
podría ser almacenado como una secuencia de caracteres. También '10.23'
podría ser almacenado como secuencia de caracteres. Sin embargo, ¡**las
las secuencias de caracteres que contienen números no se pueden utilizar en
operaciones matemáticas**!


Pandas y Python básico utilizan nombres ligeramente diferentes para los tipos
de datos. Más sobre esto en la tabla de abajo:

| Tipo en Pandas | Tipo en Python Nativo | Descripción |
|----------------|-----------------------|-------------|
| object | string | El **dtype** más general. Será asignado a tu columna si la columna contiene tipos mixtos (números y secuencias de caracteres). |
| int64  | int | Caracteres numéricos. 64 se refiere a la memoria asignada para almacenar el caracter. |
| float64 | float | Caracteres numéricos con decimales. Si una columna contiene números y NaNs (ver más abajo), Pandas usará float64 por defecto, en caso de que los datos faltantes contengan decimales. |
| datetime64, timedelta[ns] | N/D (ver el módulo [datetime] en la biblioteca estandar de Python) | Valores destinados a contener datos de tiempo. Mira en estos para experimentos con series de tiempo. |

[datetime]: http://doc.python.org/2/library/datetime.html


## Comprobando el formato de nuestros datos

Ahora que tenemos una comprensión básica de los tipos de datos numéricos
y de texto, exploremos el formato de los datos de nuestra encuesta. Estaremos trabajando
con el mismo **dataset**  `survey.csv` que hemos usado en lecciones anteriores.

In [4]:
import pandas as pd
# Ten en cuenta que se usa `pd.read_csv` porque importamos pandas con el alias `pd`
survey_df = pd.read_csv('../03-clase/pandas_data/pandas_data/surveys.csv')

Recuerda que podemos comprobar el tipo de un objeto de la siguiente manera:

In [2]:
type(survey_df)

pandas.core.frame.DataFrame

A continuación, veamos la estructura de datos de nuestras encuestas. En pandas,
podemos comprobar el tipo de datos de una columna en un **DataFrame** usando la sintaxis
`dataFrameName[column_name].dtype`:

In [3]:
survey_df

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0


In [4]:
survey_df['sex'].dtype

dtype('O')

Un tipo ‘O’ solo significa “objeto” que en el mundo de Pandas es una secuencia de caracteres (texto).

In [5]:
survey_df['record_id'].dtype

dtype('int64')

El tipo `int64` nos dice que Python está almacenando cada valor dentro de esta columna
como un entero de 64 bits. Podemos usar el comando `dat.dtypes` para ver el tipo de datos
de cada columna de un **DataFrame** (todos a la vez).

In [6]:
survey_df.dtypes

record_id            int64
month                int64
day                  int64
year                 int64
plot_id              int64
species_id          object
sex                 object
hindfoot_length    float64
weight             float64
dtype: object

Ten en cuenta que la mayoría de las columnas en nuestros datos de encuesta son
del tipo `int64`. Esto significa que son enteros de 64 bits. Pero la columna de
peso (weight) es un valor de punto flotante o `float`, lo que significa que contiene
decimales. Las columnas `species_id` y `sex` son objetos, lo cual significa que
contienen secuencias de caracteres `string`.

# Trabajando con los datos de nuestra encuesta

Volviendo a nuestros datos, si lo deseamos, podemos modificar el formato de los
valores dentro de nuestros datos. Por ejemplo, podríamos convertir el campo
 `record_id` a **float**

In [7]:
# Convertir el campo record_id de integer a float
survey_df['record_id'] = survey_df['record_id'].astype('int64')

In [8]:
survey_df['record_id'].dtype

dtype('int64')

In [9]:
survey_df['record_id']

0            1
1            2
2            3
3            4
4            5
         ...  
35544    35545
35545    35546
35546    35547
35547    35548
35548    35549
Name: record_id, Length: 35549, dtype: int64

## Valores de datos faltantes o nulos - NaN

Si observamos la columna `weight`
(peso) de los datos de las encuestas, notamos que hay valores NaN (**N**ot **a**
**N**umber) (no es número). Los valores **NaN ** son valores que no están definidos
y que no se pueden representar matemáticamente. Pandas, por ejemplo, leerá
como NaN aquellas celdas vacías de una hoja CSV o Excel. Los valores NaN tienen
algunas propiedades deseables: si tuviéramos que promediar la columna `weight`
(peso) sin reemplazar los valores NaN, Python sabría saltarse las celdas vacías.

In [10]:
survey_df['weight']

0         NaN
1         NaN
2         NaN
3         NaN
4         NaN
         ... 
35544     NaN
35545     NaN
35546    14.0
35547    51.0
35548     NaN
Name: weight, Length: 35549, dtype: float64

In [11]:
survey_df['weight'].mean()

42.672428212991356

Tratar con valores de datos faltantes siempre es un desafío. A veces es dificil
saber por qué faltan valores. ¿Fue debido a un error de entrada de datos? ¿O
son datos que alguien no pudo recoger? ¿Debe considerarse el valor como 0?
Para tomar buenas decisiones, necesitamos saber qué representan los valores
faltantes del **dataset**. Si tenemos suerte, tendremos algunos metadatos que
nos dirán más acerca de cómo fueron manejados los valores nulos.

Por ejemplo, en algunas disciplinas, como el sensado remoto, los valores de
datos faltantes suelen definirse como -9999. Tener un montón de valores -9999 en
tus datos podría realmente alterar los cálculos numéricos. A menudo, en las
hojas de cálculo, las celdas se dejan vacías cuando no hay datos disponibles.
Por defecto, Pandas reemplazará esos valores nulos con **NaN**.
Sin embargo, es una buena práctica adquirir el hábito de marcar intencionalmente
aquellas celdas que no tienen datos con un valor que represente "sin datos"!
De esa manera, en el futuro, no habrá preguntas cuando tu (o alguna otra persona)
explore los datos.

### ¿Dónde están los **NaN's**?

Exploremos un poco más los valores **NaN** en nuestros datos. Usando las herramientas
que hemos aprendido, podemos averiguar cuántas filas contienen
valores **NaN** en la columna weight (peso). También, partiendo de nuestros datos, podemos
crear un nuevo subconjunto que contenga solamente aquellas filas con peso mayor
a cero (es decir, seleccionar valores significativos de peso):

In [12]:
survey_df[pd.isnull(survey_df.weight)]

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,
1,2,7,16,1977,3,NL,M,33.0,
2,3,7,16,1977,2,DM,F,37.0,
3,4,7,16,1977,7,DM,M,36.0,
4,5,7,16,1977,3,DM,M,35.0,
...,...,...,...,...,...,...,...,...,...
35530,35531,12,31,2002,13,PB,F,27.0,
35543,35544,12,31,2002,15,US,,,
35544,35545,12,31,2002,15,AH,,,
35545,35546,12,31,2002,15,AH,,,


In [13]:
len(survey_df[pd.isnull(survey_df.weight)])

3266

In [14]:
survey_df.weight> 0

0        False
1        False
2        False
3        False
4        False
         ...  
35544    False
35545    False
35546     True
35547     True
35548    False
Name: weight, Length: 35549, dtype: bool

In [16]:
# How many rows have weight values?
len(survey_df[survey_df.weight> 0])

32283

Usando el método `.fillna ()` podemos reemplazar todos los valores **NaN** por
ceros (después de hacer una copia de los datos de modo tal de no perder
nuestro trabajo):

In [17]:
df1 = survey_df.copy()

In [18]:
# Completar todos los valores NaN con ceros
df1['weight'] = df1['weight'].fillna(0)

In [18]:
df1

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
0,1,7,16,1977,2,NL,M,32.0,0.0
1,2,7,16,1977,3,NL,M,33.0,0.0
2,3,7,16,1977,2,DM,F,37.0,0.0
3,4,7,16,1977,7,DM,M,36.0,0.0
4,5,7,16,1977,3,DM,M,35.0,0.0
...,...,...,...,...,...,...,...,...,...
35544,35545,12,31,2002,15,AH,,,0.0
35545,35546,12,31,2002,15,AH,,,0.0
35546,35547,12,31,2002,10,RM,F,15.0,14.0
35547,35548,12,31,2002,7,DO,M,36.0,51.0


Sin embargo, **NaN** y cero arrojan diferentes resultados en el análisis. El valor
promedio resulta diferente cuando los valores **NaN** se reemplazan con
cero, comparando cuando los valores de **NaN** son descartados o ignorados.

In [19]:
df1['weight'].mean()

38.751976145601844

Podemos completar los valores **NaN** con cualquier valor que elijamos. El
código de abajo completa todos los Valores **NaN** con un promedio de los pesos.

In [20]:
 df1['weight'] = survey_df['weight'].fillna(survey_df['weight'].mean())


También podríamos elegir crear un subconjunto de datos, manteniendo solamente
aquellas filas que no contienen valores **NaN**.

La clave es tomar decisiones conscientes acerca de cómo administrar los datos
faltantes. Aquí es donde pensamos cómo se utilizarán nuestros datos y cómo estos
valores afectarán las conclusiones científicas que se obtengan de los datos.

Python nos brinda todas las herramientas que necesitamos para dar cuenta de estos
problemas. Solo debemos ser cautelosos acerca de cómo nuestras decisiones impactan
en los resultados científicos.

## Escribiendo datos a CSV

Hemos aprendido a manipular datos para obtener los resultados deseados.
Pero también hemos discutido acerca de mantener los datos que han sido manipulados
separados de los datos sin procesar. Algo que podríamos estar interesados en
hacer es trabajar solo con las columnas que tienen datos completos. Primero,
recarguemos los datos para no mezclar todas nuestras manipulaciones anteriores.

In [21]:
import pandas as pd

In [22]:
survey_df = pd.read_csv('../03-clase/pandas_data/pandas_data/surveys.csv')

A continuación, vamos a eliminar todas las filas que contienen valores nulos.
Usaremos el comando `dropna`.
De forma predeterminada, `dropna` elimina las filas que contienen valores nulos
incluso para una sola columna.

In [23]:
df_na = survey_df.dropna()

In [24]:
df_na

Unnamed: 0,record_id,month,day,year,plot_id,species_id,sex,hindfoot_length,weight
62,63,8,19,1977,3,DM,M,35.0,40.0
63,64,8,19,1977,7,DM,M,37.0,48.0
64,65,8,19,1977,4,DM,F,34.0,29.0
65,66,8,19,1977,4,DM,F,35.0,46.0
66,67,8,19,1977,7,DM,M,35.0,36.0
...,...,...,...,...,...,...,...,...,...
35540,35541,12,31,2002,15,PB,F,24.0,31.0
35541,35542,12,31,2002,15,PB,F,26.0,29.0
35542,35543,12,31,2002,15,PB,F,27.0,34.0
35546,35547,12,31,2002,10,RM,F,15.0,14.0


Si ahora escribes `df_na`, deberías observar que el **DataFrame** resultante
tiene 30676 filas y 9 columnas, mucho menos que las 35549 filas originales.

Ahora podemos usar el comando `to_csv` para exportar un **DataFrame** a formato
CSV. Ten en cuenta que el código que se muestra a continuación por defector
guardará los datos en el directorio de trabajo en el que estamos parados.
Podemos guardarlo en otra carpeta agregando el nombre de la carpeta y una barra
inclinada antes del nombre del archivo: `df.to_csv('foldername/out.csv')`.
Usamos `index = False` para que Pandas no incluya el número de índice para cada
fila.

In [1]:
# Escribir DataFrame a CSV
df_na.to_csv('output/data/surveys_complete.csv', index=False)

NameError: name 'df_na' is not defined

Usaremos este archivo de datos más adelante. Revisa tu directorio de trabajo para asegurarte de que el CSV se haya guardado correctamente y que puedas abrirlo. Si lo deseas, intenta recuperarlo con Python para asegurarte de que se importa correctamente.

In [2]:
users = [[1, 'Josy', 'Clarae', 'Female'],
        [2, 'Vaughn', 'Halegarth', 'Male'],
        [3, 'Neale', 'Georgievski', 'Male'],
        [4, 'Teirtza', 'Teirtza', 'Female']]

In [6]:
df = pd.DataFrame(users)
df

Unnamed: 0,0,1,2,3
0,1,Josy,Clarae,Female
1,2,Vaughn,Halegarth,Male
2,3,Neale,Georgievski,Male
3,4,Teirtza,Teirtza,Female


In [7]:
df = pd.DataFrame(users,
                  columns=['id','first_name', 'last_name', 'gender'],
                  index=['a','b','c','d'])
df

Unnamed: 0,id,first_name,last_name,gender
a,1,Josy,Clarae,Female
b,2,Vaughn,Halegarth,Male
c,3,Neale,Georgievski,Male
d,4,Teirtza,Teirtza,Female
