# Tema 1: Introducción a *pandas*

## 1. Cargar un dataset

Cuando queremos importar un dataset en Python para realizar transformaciones sobre él, siempre lo cargamos en un dataframe de Pandas. Dependiendo del formato en el que esté el fichero, utilizaremos una función u otra. Las más comunes son:

```
x = pd.read_csv('path/filename.csv')
x = pd.read_excel('path/filename.xlsx')
```


Si el fichero está en el mismo directorio que el notebook, no es necesario especificar el path completo (solo el nombre del fichero). 

Estas funciones tienen unos parámetros adicionales que no es obligatorio especificar:

- header: por defecto utiliza la primera fila del fichero como nombres de columnas (*header=0*). Si no queremos utilizar ninguna fila como cabecera, ponemos *header=None* y especificamos a mano el nombre de las columnas pasando una lista al parámetro *name*.
- sep: por defecto utiliza ','. Si el archivo no está separado por comas, se puede especificar el separador (ejemplo: *sep=';'*).

Recuerda que antes deberás importar la librería pandas:

```import pandas as pd```

In [2]:
#EJERCICIO: Importa el fichero titanic.csv, guardándolo en un dataframe llamado 'datos'



## 2. Exploración básica del dataset

### 2.1. Funciones para obtener un resumen rápido de los datos

Cuando importamos un dataset en Python, para ver si se ha cargado correctamente y echar un primer vistazo a su contenido podemos utilizar la función *head()*:

In [4]:
datos.head() #mostramos las primeras filas

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Otra función para hacerse una idea de la estructura de nuestros datos es *info()*. Esta función te dice el número de filas y una pequeña descripción de cada columna (tipo de dato y si contiene nulos)

In [5]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


**NOTAS**: 

- El tipo *object* se corresponde con el tipo *str* de las estructuras de datos simples. 
- En Python se consideran nulos aquellos registros que están vacíos en el fichero (aparecen como *NaN* o *None*)

Si queremos ver solamente el tipo de datos de cada columna, utilizamos *dtypes*:

In [6]:
datos.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

Si queremos ver solamente el número de valores nulos por columna, utilizamos *isna().sum()*:

In [7]:
datos.isna().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age            177
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

Si solamente queremos ver qué columnas contienen nulos, utilizamos *isna().any()*:

In [8]:
datos.isna().any()

PassengerId    False
Survived       False
Pclass         False
Name           False
Sex            False
Age             True
SibSp          False
Parch          False
Ticket         False
Fare           False
Cabin           True
Embarked        True
dtype: bool

La función *describe()* te muestra los estadísticos básicos de las columnas numéricas:

In [9]:
datos.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


### 2.2. Filas y columnas del dataset

- **Obtener nombres de las columnas**

Si queremos obtener el nombre de las columnas del dataset, utilizamos el método *columns*:

In [10]:
datos.columns

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')

Para guardar los nombres de las columnas en una lista de Python, podemos transformar el objeto anterior a lista:

In [11]:
nombres_columnas=list(datos.columns)

In [12]:
nombres_columnas

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked']

- **Número de filas y columnas**

El método *shape* devuelve una tupla con las dimensiones del dataset (filas, columnas):

In [13]:
datos.shape

(891, 12)

Si queremos quedarnos solo con el número de filas, accedemos al primer elemento de la tupla anterior, recordando que las posiciones empiezan en 0:

In [14]:
datos.shape[0]

891

También podemos obtener el número de filas con la función len:

In [15]:
len(datos)

891

Si queremos quedarnos solo con el número de columnas, accedemos al segundo elemento de la tupla:

In [44]:
datos.shape[1]

12

Otra forma de ver el número de columnas de un dataset en Python es calculando la longitud de la lista *datos.columns*:

In [45]:
len(datos.columns)

12

- **Selección de filas/columnas del dataset**

Si queremos seleccionar una columna por su nombre, utilizamos:

```
dataframe['nombre_columna']
```

In [17]:
nombres = datos["Name"] #nos quedamos con la columna 'Name'

In [18]:
nombres.head()

0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
Name: Name, dtype: object

Para seleccionar varias columnas, debemos utilizar doble corchete [[...]] (lista de columnas):

In [None]:
# EJERCICIO: Selecciona las columnas "Name" y "Survived", guardándolas en un dataframe llamado "df"



Para seleccionar filas y columnas por posición, utilizamos *iloc*:

```
datos.iloc(filas, columnas)
```

In [61]:
datos.iloc[:,1] #seleccionamos la columna 1. Si queremos todas las filas, ponemos ':'

0      0
1      1
2      1
3      1
4      0
      ..
886    0
887    1
888    0
889    1
890    0
Name: Survived, Length: 891, dtype: int64

In [19]:
datos.iloc[:5,[1,2]] #seleccionamos la columna 1 y 2 de las 5 primeras filas

Unnamed: 0,Survived,Pclass
0,0,3
1,1,1
2,1,3
3,1,1
4,0,3


## 3. Exploración de las columnas en profundidad

### 3.1. Obtener valores únicos de una variable

Para obtener todos los valores distintos que toma una variable, utilizamos *unique()*, que devuelve un array con todos los valores diferentes que toma dicha columna:

In [5]:
datos['Survived'].unique() #la columna 'Survived' contiene los valores 0 y 1

array([0, 1])

Si queremos ver cuántos valores diferentes toma una variable, calculamos la longitud del array anterior:

In [65]:
len(datos['Survived'].unique()) #la columna 'Survived' contiene dos categorías

2

### 3.2. Obtener tabla de frecuencias

Para obtener la tabla de frecuencias de una columna utilizamos la función *value_counts()*:

In [3]:
datos['Survived'].value_counts() #tenemos 342 observaciones de pasajeros que sobrevivieron (Survived=1)

0    549
1    342
Name: Survived, dtype: int64

Para ver estas frecuencias en porcentajes, dividimos la tabla de frecuencias entre el número total de observaciones:

In [68]:
datos['Survived'].value_counts()/len(datos)*100 

0    61.616162
1    38.383838
Name: Survived, dtype: float64

## 4. Escritura de datos en un fichero

Al igual que leer, desde Python también podemos escribir los datos de un _dataframe_ en un fichero:

```
dataframe.to_csv("filename.csv")
```

In [69]:
#EJERCICIO: Guarda un fichero que contenga solamente las columnas 'Name' y 'Survived' del dataframe "datos"
# con el nombre datos2.csv
