# Tema 1: Introducción a *pandas*

## 1. Cargar un dataset

Cuando queremos importar un dataset en Python para realizar transformaciones sobre él, siempre lo cargamos en un dataframe de Pandas. Dependiendo del formato en el que esté el fichero, utilizaremos una función u otra. Las más comunes son:

```
x = pd.read_csv('path/filename.csv')
x = pd.read_excel('path/filename.xlsx')
```


Si el fichero está en el mismo directorio que el notebook, no es necesario especificar el path completo (solo el nombre del fichero). 

Estas funciones tienen unos parámetros adicionales que no es obligatorio especificar:

- header: por defecto utiliza la primera fila del fichero como nombres de columnas (*header=0*). Si no queremos utilizar ninguna fila como cabecera, ponemos *header=None* y especificamos a mano el nombre de las columnas pasando una lista al parámetro *name*.
- sep: por defecto utiliza ','. Si el archivo no está separado por comas, se puede especificar el separador (ejemplo: *sep=';'*).

Recuerda que antes deberás importar la librería pandas:

```import pandas as pd```

In [None]:
#EJERCICIO: Importa el fichero titanic.csv, guardándolo en un dataframe llamado 'datos'



## 2. Exploración básica del dataset

### 2.1. Funciones para obtener un resumen rápido de los datos

Cuando importamos un dataset en Python, para ver si se ha cargado correctamente y echar un primer vistazo a su contenido podemos utilizar la función *head()*:

In [None]:
datos.head() #mostramos las primeras filas

Otra función para hacerse una idea de la estructura de nuestros datos es *info()*. Esta función te dice el número de filas y una pequeña descripción de cada columna (tipo de dato y si contiene nulos)

In [None]:
datos.info()

**NOTAS**: 

- El tipo *object* se corresponde con el tipo *str* de las estructuras de datos simples. 
- En Python se consideran nulos aquellos registros que están vacíos en el fichero (aparecen como *NaN* o *None*)

Si queremos ver solamente el tipo de datos de cada columna, utilizamos *dtypes*:

In [None]:
datos.dtypes

Si queremos ver solamente el número de valores nulos por columna, utilizamos *isna().sum()*:

In [None]:
datos.isna().sum()

Si solamente queremos ver qué columnas contienen nulos, utilizamos *isna().any()*:

In [None]:
datos.isna().any()

La función *describe()* te muestra los estadísticos básicos de las columnas numéricas:

In [None]:
datos.describe()

### 2.2. Filas y columnas del dataset

- **Obtener nombres de las columnas**

Si queremos obtener el nombre de las columnas del dataset, utilizamos el método *columns*:

In [None]:
datos.columns

Para guardar los nombres de las columnas en una lista de Python, podemos transformar el objeto anterior a lista:

In [None]:
nombres_columnas=list(datos.columns)

In [None]:
nombres_columnas

- **Número de filas y columnas**

El método *shape* devuelve una tupla con las dimensiones del dataset (filas, columnas):

In [None]:
datos.shape

Si queremos quedarnos solo con el número de filas, accedemos al primer elemento de la tupla anterior, recordando que las posiciones empiezan en 0:

In [None]:
datos.shape[0]

También podemos obtener el número de filas con la función len:

In [None]:
len(datos)

Si queremos quedarnos solo con el número de columnas, accedemos al segundo elemento de la tupla:

In [None]:
datos.shape[1]

Otra forma de ver el número de columnas de un dataset en Python es calculando la longitud de la lista *datos.columns*:

In [None]:
len(datos.columns)

- **Selección de filas/columnas del dataset**

Si queremos seleccionar una columna por su nombre, utilizamos:

```
dataframe['nombre_columna']
```

In [None]:
nombres = datos["Name"] #nos quedamos con la columna 'Name'

In [None]:
nombres.head()

Para seleccionar varias columnas, debemos utilizar doble corchete [[...]] (lista de columnas):

In [None]:
# EJERCICIO: Selecciona las columnas "Name" y "Survived", guardándolas en un dataframe llamado "df"



Para seleccionar filas y columnas por posición, utilizamos *iloc*:

```
datos.iloc(filas, columnas)
```

In [None]:
datos.iloc[:,1] #seleccionamos la columna 1. Si queremos todas las filas, ponemos ':'

In [None]:
datos.iloc[:5,[1,2]] #seleccionamos la columna 1 y 2 de las 5 primeras filas

## 3. Exploración de las columnas en profundidad

### 3.1. Obtener valores únicos de una variable

Para obtener todos los valores distintos que toma una variable, utilizamos *unique()*, que devuelve un array con todos los valores diferentes que toma dicha columna:

In [None]:
datos['Survived'].unique() #la columna 'Survived' contiene los valores 0 y 1

Si queremos ver cuántos valores diferentes toma una variable, calculamos la longitud del array anterior:

In [None]:
len(datos['Survived'].unique()) #la columna 'Survived' contiene dos categorías

### 3.2. Obtener tabla de frecuencias

Para obtener la tabla de frecuencias de una columna utilizamos la función *value_counts()*:

In [None]:
datos['Survived'].value_counts() #tenemos 342 observaciones de pasajeros que sobrevivieron (Survived=1)

Para ver estas frecuencias en porcentajes, dividimos la tabla de frecuencias entre el número total de observaciones:

In [None]:
datos['Survived'].value_counts()/len(datos)*100 

## 4. Escritura de datos en un fichero

Al igual que leer, desde Python también podemos escribir los datos de un _dataframe_ en un fichero:

```
dataframe.to_csv("filename.csv")
```

In [None]:
#EJERCICIO: Guarda un fichero que contenga solamente las columnas 'Name' y 'Survived' del dataframe "datos"
# El fichero debe tener el nombre datos2.csv
