# Tema 5.1: Procesamiento de datos simple

In [None]:
#EJERCICIO: Importa el dataset BostonHousing.csv (en un dataframe de pandas llamado datos) y muestra las primeras filas



## 1. Añadir o eliminar columnas de un dataframe

- **Crear nuevas columnas**

Para añadir una nueva columna, directamente hacemos:

```dataframe['nombre_columna'] = ...```

Esta nueva columna se añadirá al final del dataframe.

In [None]:
#EJEMPLO: Creamos una nueva columna en datos2 que sea la columna 'age'- 2

datos['age_modified']= datos['age'] - 2
datos.head()

Si quisiéramos realizar la transformación sobre la columna original (no crear una nueva):

```datos['age'] = datos['age'] - 2```

- **Eliminar columnas**

Para eliminar columnas en Python, utilizamos la función *drop*:

```dataframe = dataframe.drop('nombre_columna', axis=1)```

El axis = 1 se especifica para indicar que estamos eliminando una columna: ponemos axis = 0 si queremos eliminar una fila.

Dentro de la función drop se pueden indicar tantas columnas como se quieran eliminar, en forma de lista: 

```dataframe = dataframe.drop(['columna1', 'columna2'], axis=1)```


In [None]:
#EJERCICIO: Crea un nuevo dataframe, datos2, que sea igual que datos pero eliminando las columnas 'chas' y 'zn'



## 2. Ordenar registros de un dataframe

Si queremos ordenar las filas de un dataframe en base a una columna, utilizamos la función *sort_values*:

```dataframe = dataframe.sort_values(by = 'nombre_columna', ascending=False)```

De esta forma, los registros se ordenarían de mayor a menor. Si queremos que se ordenen de menor a mayor, no es necesario especificar el parámetro *ascending* (por defecto, toma el valor True).

In [None]:
#EJERCICIO: Ordena el último dataframe creado (datos2) en base a la columna 'crim', de mayor a menor


## 3. Renombrar columnas de un dataframe

Para renombrar columnas utilizamos la función *rename*:

```dataframe.rename(columns={'nombre_col1':'nombre_nuevo_col1', 'nombre_col2':'nombre_nuevo_col2',...}, inplace=True)```

In [None]:
#EJERCICIO: Renombra las columnas del dataframe datos2
    # crim -> criminalidad
    # medv -> precio

datos2.rename(columns={'crim':'criminalidad', 'medv':'precio'},inplace=True) 
datos2.head()

## 4. Eliminar duplicados

- **Comprobar valores duplicados**

Para comprobar si un dataframe contiene filas duplicadas, podemos usar la función *duplicated*:

```dataframe.duplicated().sum()```


Si queremos ver si se repiten valores en una columna determinada, rellenamos el argumento *subset*:

```dataframe = dataframe.duplicated(subset=['nombre_columna']).sum()```

- **Eliminar filas con duplicados**

Para eliminar filas con valores duplicados (en una o varias columnas), utilizamos la función *drop_duplicates*:

```dataframe.drop_duplicates(subset=['nombre_columna'])```

In [None]:
#EJERCICIO: Comprueba si hay valores repetidos en la columna 'age' del dataframe datos2. 
#En caso de que los haya, elimina dichos registros del dataframe.
#Comprueba que en el nuevo dataframe ya no hay duplicados

datos2.duplicated(subset=['age']).sum() 

In [None]:
datos2=datos2.drop_duplicates(subset=['age'])

In [None]:
datos2.duplicated(subset=['age']).sum() 

## 5. Modificar tipos de datos

Para ver los tipos de datos que tienen las columnas de un dataframe, ya vimos la función *dtypes*:

In [None]:
datos2.dtypes

En Python, podemos quedarnos las columnas de un tipo determinado con la función *select_dtypes*. Por ejemplo:

```dataframe_numeric = dataframe.select_dtypes(include=["float", "integer"])```

In [None]:
#Ejemplo: seleccionamos las columnas de tipo integer de datos5 y las guardamos en un nuevo dataframe (datos_int)

datos_int=datos5.select_dtypes(include=["int"]) 
datos_int.columns #comprobamos qué columnas tiene este nuevo dataframe: solo las de tipo integer

Si queremos transformar una columna a otro tipo, podemos utilizar la función *astype*. Por ejemplo:

```dataframe['nombre_columna']= dataframe['nombre_columna'].astype(int)``` 

In [None]:
#EJERCICIO: Transforma las columnas de tipo integer del dataframe datos2 a tipo float
#Comprueba que se han transformado correctamente

#Forma 1: transformamos de una en una

datos2['rad'] = datos2['rad'].astype(float)
datos2['tax'] = datos2['tax'].astype(float)

In [None]:
datos2.dtypes

In [None]:
#Forma 2: transformamos todas las columnas integer automáticamente:

columnas_int=list(datos2.select_dtypes(include=["int"]).columns)

In [None]:
for col in columnas_int: #recorre las columnas que hemos seleccionado y las transforma a float

    datos2[col]=datos2[col].astype(float)

In [None]:
datos2.dtypes

## 6. Filtros

Los filtros consisten en quedarnos solamente con aquellas filas que cumplan una determinada condición en alguna/s de sus columnas. Por ejemplo, queremos quedarnos con las filas en las cuales la columna 1 toma un valor determinado:

```dataframe_filtered = dataframe[dataframe['columna1'] == valor]```


Si queremos aplicar filtros sobre varias columnas, utilizamos '&' (si queremos que se cumplan todas las condiciones) o '|' (si queremos que se cumpla alguna de las condiciones). Por ejemplo:


```dataframe_filtered = dataframe[(dataframe['columna1'] == valor1) & (dataframe['columna2'] == valor2)]```

In [None]:
#EJERCICIO: Quédate con aquellos registros del dataframe original (datos) cuyo valor en 'crim' sea superior a 70 
#¿Cuántos registros lo cumplen?

data_filtered1=datos[datos['crim']>=70]
data_filtered1.shape[0]

In [None]:
data_filtered1

In [None]:
#EJERCICIO: Quédate con aquellos registros del dataframe original (datos) que cumplan las siguientes condiciones:

# Columna 'age' superior o igual a 50
# Columna 'indus' inferior a 2
# Columna 'rad' superior a 1

data_filtered2=datos[(datos['age']>=50)&(datos['indus']<2)&(datos['rad']>1)]
data_filtered2.shape[0]

In [None]:
#EJERCICIO: Quédate con aquellos registros del dataframe original (datos) cuyo valor 
# en la columna age sea inferior a 40 ó superior a 70

data_filtered3=datos[(datos['age']<40) | (datos['age']>70)] 
data_filtered3.shape[0]

## 7. Cálculo de agregados

- **Agregados de una columna**

```dataframe['nombre_columna'].function()```

In [None]:
datos["age"].quantile(0.25)

In [None]:
datos["age"].quantile(0.75)

In [None]:
datos["age"].max()

In [None]:
datos["age"].mean()

In [None]:
datos["age"].min()

- **Agregados de varias columnas a la vez**

```dataframe[['columna1', 'columna2', ...]].function()```

In [None]:
datos[["age", "crim", 'nox']].max() 

- **Agregados con agrupaciones: *groupby***

Si queremos hacer cálculos agrupando por los valores que toma una columna (o varias), usamos *groupby* y *agg*:

```dataframe.groupby('columna1').agg({'columna2':'mean', 'columna3 : 'max', ...}```

In [None]:
datos.groupby('rad').agg({'age':'mean'}) #agrupamos por 'rad' y sacamos la media de 'age' para cada grupo de'rad'

In [None]:
datos.groupby('rad').agg({'age':'max', 'ptratio': 'mean'}) #se pueden hacer agregados por varias columnas a la vez (max de Fare y media de Age agrupando por sexo)