# PANDAS

Importamos la librería pandas para poder trabajar con DataFrames en Python, en caso de que no venga instalada por defecto podemos realizar lo siguiente:
* <code>pip install pandas</code>
* <code>conda install pandas</code>
* <code>conda install -c anaconda pandas </code>

In [1]:
# Importamos pandas, utilizaremos el alias para denominar a cada función de pandas 'pd'
import pandas as pd

## Series

Se trata de una colección indexada que funciona de un modo similar a un diccionario de datos, es la unidad mínima con la que podemos trabajar en Pandas, de hecho, un Dataframe no es más que una sucesión de series.

Debemos tener en cuenta que las series funcionan de forma similar a un diccionario de datos donde tenemos los archivos formados por {clave_1: 'valor uno', clave_2. 'valor dos', ....., clave_n: 'valor m'}. Las series pueden formarse a través de un numpy array o una lista y unos valores que actuarán como índices (si no se introducen se tomarán por defecto de 0 a la longitud del conjunto de elementos).

Para crear una serie, simplemente utilizaremos la función <code>**Series**</code>

In [2]:
criptos = pd.Series(
    [15613.77, 496.29, 0.52, 0.83, 242.03], 
    index= ['Bitcoin', 'Ethereum', 'XRP', 'Tether', 'BTC Cash']
)

criptos

Bitcoin     15613.77
Ethereum      496.29
XRP             0.52
Tether          0.83
BTC Cash      242.03
dtype: float64

Las seires tienen su propio tipo

In [3]:
type(criptos) # Clase Series

pandas.core.series.Series

In [4]:
criptos[0: 2]

Bitcoin     15613.77
Ethereum      496.29
dtype: float64

In [None]:
criptos['Bitcoin']

### Pregunta.

Un objeto `pandas.Series` al ser similar a un diccionario de datos, ¿posee funciones similares a un diccionario de datos como `.keys()`o, `.values()`?

## Dataframes

La función principal que nos permite pasar prácticamente cualquier tipo de variable (lista, array, diccionario de datos...) es:
* <code>__pandas.DataFrame()__</code>

Veremos cómo crear DataFrames desde diferentes estructuras de datos.

* A través de **Series**

In [None]:
# Creamos un Dataframe a través del objeto Series
df_criptos = pd.DataFrame(criptos)

# Vemos que por defecto, se genera una columna con nombre 0, 
# ya que no se lo hemos especificado.
df_criptos

* A través de **Numpy Array**

In [None]:
# Ejemplo 2 a través numpy array
import numpy as np

# Creamos un array de 5 número aleatorios
array_uno = np.random.rand(5)

pd.DataFrame(array_uno)

Importante destacar en el ejemplo anterior, que al no utilizar ningún parámetro como índice, automáticamente ha tomado valores de 0 a n

* A través de **Listas**

In [None]:
# Ejemplo 3 listas

# Creamos una lista
lista = ['hola mundo', 1, 3.14, 'adios']

# Pasamos la lista a un DataFrame
df_list = pd.DataFrame(lista)

df_list

* A través de un **diccionario de datos**

In [None]:
# Ejemplo 4 Diccionario de datos

# Creamos un Diccionario de datos
dict_cli = {'ID001': 'Cliente uno',
            'ID002': 'Cliente dos',
            'ID003': 'Cliente tres',
            'ID004': 'Cliente cuatro',
            'ID005': 'Cliente cinco'}

dict_cli

In [None]:
# Pasamos el dict a un DataFrame

df_dict = pd.DataFrame.from_dict(dict_cli, orient='index')

df_dict

Nótese que cuando se trata de un diccionario de datos, tenemos que utilizar el parámetro **orient** para que reconozca correctamente el campo clave como índice. De lo contrario, podemos utilizar el parámetro **index**

In [None]:
print(type(df_dict))

### Ejercicio 1

Tomando la siguiente lista como referencia:

In [None]:
calificaciones = [
    ('Alberto', 4),
    ('Noelia', 7.25),
    ('Marcos', 9),
    ('Guillermo', 5.25)
]

Crea un dataframe a través de la lista.

#### Solución

In [None]:
# En clase

### Cargando archivos a través de un CSV

Una de las grandes ventajas que supone trabajar con DataFrames es que podemos cargar archivos muy fácilmente y poder procesar sus filas y columnas. Hay varios tipos de datos que podemos cargar a pandas:

* CSV
* JSON
* HTML
* EXCEL
* HDF5
* TXT
* ORC
* STATA
* ...

Todos los tipos de datos que podemos cargar se encuentran en el siguiente link: https://pandas.pydata.org/docs/user_guide/io.html#io

A lo largo del contenido mostraremos las principales funcionalidades de los dataframes desde csv como dataframe.

Para cargar un csv como un Dataframe disponemos de la función </code>**read_csv**</code>

In [5]:
houses = pd.read_csv('housing_California.csv')

In [6]:
houses

Unnamed: 0,longitude,latitude,housing_median_age,total_rooms,total_bedrooms,population,households,median_income,median_house_value,ocean_proximity
0,-122.23,37.88,41.0,880.0,129.0,322.0,126.0,8.3252,452600.0,NEAR BAY
1,-122.22,37.86,21.0,7099.0,1106.0,2401.0,1138.0,8.3014,358500.0,NEAR BAY
2,-122.24,37.85,52.0,1467.0,190.0,496.0,177.0,7.2574,352100.0,NEAR BAY
3,-122.25,37.85,52.0,1274.0,235.0,558.0,219.0,5.6431,341300.0,NEAR BAY
4,-122.25,37.85,52.0,1627.0,280.0,565.0,259.0,3.8462,342200.0,NEAR BAY
...,...,...,...,...,...,...,...,...,...,...
20635,-121.09,39.48,25.0,1665.0,374.0,845.0,330.0,1.5603,78100.0,INLAND
20636,-121.21,39.49,18.0,697.0,150.0,356.0,114.0,2.5568,77100.0,INLAND
20637,-121.22,39.43,17.0,2254.0,485.0,1007.0,433.0,1.7000,92300.0,INLAND
20638,-121.32,39.43,18.0,1860.0,409.0,741.0,349.0,1.8672,84700.0,INLAND


### Ejercicio 2

Lee el archivo 'compras_uno.csv' como dataframe

#### Solución

In [None]:
# En clase

### Ejercicio 3

Lee el archivo 'compras_dos.csv' como dataframe

#### Solución

In [None]:
# En clase

### Ejercicio 4

Lee el archivo 'compras_tres.csv' como dataframe

#### Solución

In [None]:
# En clase

### Ejercicio 5

Lee de nuevo el archivo 'housing_California.csv' como dataframe, utiliza el parámetro `header=None`

#### Solución

In [None]:
# En clase

### Ejercicio 6

Lee de nuevo el archivo 'housing_California.csv' como dataframe, utiliza el parámetro `header=[0,1,2]`

#### Solución

In [None]:
# En clase

### Ejercicio 7


Carga el dataset 'housing_California.csv', cargando solamente las columnas housing_median_age y population

#### Solución

In [7]:
ej_7 = pd.read_csv('housing_California.csv', usecols=['housing_median_age', 'population'])

ej_7 # Con usecols podemos definir las columnas que necesitemos cargar en el momento de lectura

Unnamed: 0,housing_median_age,population
0,41.0,322.0
1,21.0,2401.0
2,52.0,496.0
3,52.0,558.0
4,52.0,565.0
...,...,...
20635,25.0,845.0
20636,18.0,356.0
20637,17.0,1007.0
20638,18.0,741.0


### Obtención de Series y Columnas de un dataframe.

Tal y como hemos visto antes un dataframe es una sucesión o colección de series, es decir, que cada columna actúa como una serie ya que todas las columnas comparten el mismo índice. 

Para acceder a una columna tenemos que escribir entre corchetes el nombre de la misma.

In [8]:
houses['housing_median_age']

0        41.0
1        21.0
2        52.0
3        52.0
4        52.0
         ... 
20635    25.0
20636    18.0
20637    17.0
20638    18.0
20639    16.0
Name: housing_median_age, Length: 20640, dtype: float64

Si atendemos al tipo de clase que tiene una columna veremos que es Series

In [9]:
type(houses['housing_median_age'])

pandas.core.series.Series

Otra forma de acceder a las columnas de un dataframe es:

* nombre_df.__nombre_columna__ (sin las comillas de string)

In [10]:
houses.housing_median_age

0        41.0
1        21.0
2        52.0
3        52.0
4        52.0
         ... 
20635    25.0
20636    18.0
20637    17.0
20638    18.0
20639    16.0
Name: housing_median_age, Length: 20640, dtype: float64

### Selección de múltiples columnas

Ahora que ya hemos visto como un DataFrame se compone de Series, podemos ver cómo seleccionar varias columnas. Para ello, simplemente tenemos que encerrar entre corchetes los nombres de las columnas que queremos seleccionar como:

__nombre_df[['columna_uno', 'columna_dos', 'columna_tres']]__

Análogamente, podremos pasar una lista con nombres de las columnas.

Para realizar lo mismo mediante indexación, es decir, obtener un subconjunto de columnas del dataframe por la posición que ocupan las columnas podemos hacer:
* __nombre_dataframe[nombre_dataframe.columns[[col_n, col_m]]]__
* __nombre_dataframe.iloc[:, [col_n, col_m]]__

Mediante nombres de columnas.

In [None]:
houses[['housing_median_age', 'total_bedrooms']]

In [None]:
target = ['housing_median_age', 'total_bedrooms', 'population']
houses[target]

Mediante índices 

In [None]:
houses.columns[1]

In [None]:
houses.columns[0: 4]

In [None]:
houses[houses.columns[2:6]]

Para seleccionar varias columnas con iloc, tenemos que tener en cuenta que un dataframe se distribuye de la siguiente manera.

* __dataframe[filas, columnas]__: En donde tanto filas como columnas son indexables

In [None]:
houses.iloc[:,[1,3]]

In [None]:
# houses.iloc[:,['latitude', 'total_rooms']] # Solo funciona con números

### Selección de múltiples filas de un dataframe

Por lo general, podemos utilizar las mismas propiedades que las de las listas, salvo seleccionar una única fila que es diferente:
* Para seleccionar desde la primera fila hasta un límite realizamos: <code>__dataframe[0:n]__</code>, análogamente podemos omitir el cero y realizar simplemente: <code>__dataframe[ :n]__</code>
* Para seleccionar desde una fila hasta el final realizamos: <code>__dataframe[n:]__</code>
* Para seleccionar un rango definido de filas realizamos: <code>__dataframe[n:m]__</code>

In [None]:
# Seleccionamos de la fila 0 a la 2
houses[0:2]

In [None]:
# Vemos que es lo mismo si quitamos el cero.
houses[:2]

In [None]:
# Seleccionamos de fila n al final
houses[20635:]

In [None]:
# Rango personalizado, escogemos de fila 150 a 200
houses[150:200]

Para seleccionar una sola fila no podemos hacer la misma operación que en las listas, indexar una única posición <code>lista[n]</code>, ya que esto no nos devuelve nada, para ello, tenemos que seleccionar como un rango personalizado la fila que queremos mostrar más una posición <code>dataframe[n:n+1]</code>

In [None]:
houses[1000:1000]

In [None]:
houses[1000:1001]

### Resumen función iloc

Con la función __.iloc__ podemos seleccionar varias filas de una forma muy sencilla que puede resumirse como:
* <code>dataframe.iloc[0]</code> - Primera fila de un dataframe.
* <code>dataframe.iloc[1]</code> - Segunda fila de un dataframe.
* <code>dataframe.iloc[-1]</code> - (Indexación negativa) Última fila de un dataframe
* <code>dataframe.iloc[[n]]</code> - Fila _n_ del dataframe.
* <code>dataframe.iloc[n:m]</code> - Rango personalizado de las filas _n_ a _m_

En columnas el resumen de la función __.iloc__ pasaría a ser:
* <code>dataframe.iloc[:, 0]</code> - Primera columna de un dataframe.
* <code>dataframe.iloc[:, 1]</code> - Segunda columna de un dataframe.
* <code>dataframe.iloc[-1]</code> - (Indexación negativa) Última columna de un dataframe
* <code>dataframe.iloc[:,[n,m]]</code> - Exactamente, las columnas _n_ y _m_ de un dataframe.
* <code>dataframe.iloc[:, n:m]</code> - Rango personalizado de las columnas _n_ a _m_ de un dataframe.

Podemos también realizar una selección múltiple de columnas filas con __.iloc__ con los siguientes ejemplos:
* <code>dataframe.iloc[[0,5,7,9], [1,4]]</code> - Selección de las filas 0,5,7,9 de las columnas 1 y 4
* <code>dataframe.iloc[0:10, 0:2]</code> - Selección basada en rangos de las filas 0 a 10 de las columnas 0 a 2

In [None]:
houses.iloc[[20,5680,19875], [3, 5]]

In [None]:
houses.iloc[0:10, 0:3]

### Índices de un DataFrame

Se tratan de las posiciones que ocupa cada fila dentro de un dataframe, a no ser que se especifique un tipo de índice concreto basado en etiquetas, los índices serán de 0 a la longitud total del dataframe

In [None]:
# Creamos un dataframe
ventas = {
   'region': ["EUROPA", "EUROPA", "EUROPA", 
              "USA", "USA", "USA", "LATAM", "LATAM"],
   'ventas':[153752, 168742, 162587, 256198, 285743, 290371, 145638, 151678],
   'anio':[2018, 2019, 2020, 2018, 2019, 2020, 2018, 2019]
}
df = pd.DataFrame(ventas)
df

Para observar el índice de un dataframe podemos hacer uso de su atributo <code>**index**</code>

In [None]:
df.index

Dependiendo de cómo estén formados nuestros datos, vamos a poder crear multi índices basados en columnas propias de nuestro dataframe, si nos fijamos la columna region y anio tienen elementos repetidos. Esto nos permitirá hacer multi-índices donde tengamos un continente por año de ventas.

Con la función <code> set_index()</code> vamos a poder establecer un nuevo índice

In [None]:
region_year = df.set_index(["region", "anio"])
region_year

En vista del nuevo dataframe, podemos ver que ahora las columnas region y anio actúan como índice, por lo que si consultamos la primera fila...

In [None]:
region_year.iloc[0]

Obtenemos el dato que pertenece al volumen de ventas, siendo region (Europe) y el año (2018) sus índices

Del mismo modo, podemos pasar una lista como índice a un dataframe. Obviamente, esta lista debe ser de la misma longitud que el dataframe.

In [None]:
indice = ['REGISTRO_1', 'REGISTRO_2', 'REGISTRO_3', 'REGISTRO_4', 
          'REGISTRO_5', 'REGISTRO_6', 'REGISTRO_7', 'REGISTRO_8']

df.index = indice

df

Con la función <code>.loc</code> podemos buscar elementos en el índice

In [None]:
df.loc['REGISTRO_6']

### Ejercicio 8

Crea un nuevo dataframe que contenga la siguiente información.

* Se van a introducir datos de las asignatura de Matemáticas un alumno.
* Para la asignatura se solicitará al usuario la calificación obtenida
* Se preguntará al usuario desde que año a que año se va a consultar la información
* Se tomarán como índice los años de dichas calificaciones

#### Solución

In [None]:
# Solicitamos los años

año_inicio = int(input('Introduce el primer año para consultar datos --> '))
año_fin = int(input('Introduce el último año para consultar datos --> '))

while not año_fin > año_inicio:
    print('El último año debe ser mayor que el de inicio')
    año_inicio = int(input('Introduce el primer año para consultar datos --> '))
    año_fin = int(input('Introduce el último año para consultar datos --> '))

In [None]:
print('Años seleccionados desde: {}, hasta: {}'.format(año_inicio, año_fin))

In [None]:
# Solicitamos las calificaciones

anios = range(año_inicio, año_fin+1)

calificaciones_matematicas = []

# Recorremos los años
for anio in anios:
    nota_mates = float(input('Introduce la nota en matemáticas para el año ' + str(anio) + ': ' ))
    calificaciones_matematicas.append(nota_mates)
        


In [None]:
print('Las calificaciones son ', calificaciones_matematicas)

In [None]:
# Construimos el dataframe

calificaciones = {
   'anio': anios,
   'calificaciones': calificaciones_matematicas
}

In [None]:
calificaciones = pd.DataFrame(calificaciones)

In [None]:
calificaciones

In [None]:
calificaciones.index = calificaciones.anio

In [None]:
calificaciones

### Algunas funciones básicas de un dataframe

A continuación, vamos a ver un listado de algunas de las principales funciones que podemos aplicar en un dataframe para operar en sus columnas:

* Obtener las primeras filas de un dataframe con __<code>.head</code>__
* Obtener las últimas filas de un dataframe con __<code>.tail</code>__
* Obtener los elmentos únicos de una columna de un dataframe con __<code>.unique</code>__
* Obtener la frecuencia de los valores únicos de una columna de un dataframe __<code>.value_counts</code>__
* Obtener un resumen estadístico del dataset con __<code>.describe</code>__
* Obtener la media de una columna con __<code>.mean</code>__
* Obtener una copia de un dataframe con __<code>.copy</code>__
* Ver los nombres de las columnas de un dataframe con __<code>.columns</code>__
* Obtener la correlación entre todas las variables numéricas con __<code>.corr</code>__
* Borrar duplicados de un dataframe con __<code>.drop_duplicates</code>__
* Especialmente para Big Data sets podemos ver el consumo en memoria RAM de nuestro dataset con __<code>.memory_usage</code>__
* Ver un resumen resumen gráfico (basado en densidad, scatter plots y gráficas de correlaciones) de todas las variables del dataframe con __<code>.scatter_matrix</code>__
* Obtener un histograma de cada variable numérica del dataset con __<code>.hist</code>__

### Primeras filas de un Dataframe

In [None]:
# Primeras filas del dataframe
houses.head()

Si en .head() no especificamos nada, por defecto, se muestran 5, podemos especificar el número de filas a mostrar.

In [None]:
houses.head(9)

### Últimas filas de un Dataframe

Lo mismo pasa con el comando __tail__, si no le pasamos como parámetro el número de filas a visualizar, tomará las últimas 5

In [None]:
houses.tail()

In [None]:
houses.tail(2)

### Valores únicos por columna

In [None]:
# Observamos los valores únicos de la columna 
houses['ocean_proximity'].unique()

In [None]:
houses['latitude'].unique()

In [None]:
houses['ocean_proximity'].value_counts()

Como podemos comprobar esta es una función que tiene un mayor impacto en variables categóricas, ya por lo general, las variables numéricas tienen demasiados valores diferentes.

### Resumen estadístico

In [None]:
# Resumen estadístico.
houses.describe()

Es interesante observar que el resumen estadístico descarta automáticamente cualquier variable que no sea numérica.

### Media de una columna

In [None]:
print('Media de la variable total rooms', round(houses['total_rooms'].mean(), 3))
print('Media de la variable total bedrooms', round(houses['total_bedrooms'].mean(), 3))

### Copia de un dataframe

Al igual que en listas y arrays los dataframes comparten memoria. Es fácil equivocarnos y asignar a una nueva variable un dataframe completo, posteriormente, en esta nueva variable realizar modificaciones, pensando que sólamente las estamos realizando en la copia del dataframe, pero no es así, estamos realizando modificaciones en ambos dataframes ya que al estar almacenados en memoria, comparten las mismas posiciones, veamos un ejemplo de como NO copiar un dataframe.

In [None]:
bad_copy = houses

# Modificamos la primera fila por ceros
bad_copy.iloc[[0]] = np.zeros(len(houses.columns))

bad_copy.head(3)

Observamos que los cambios se reflejan en el dataframe original

In [None]:
houses.head(2)

Por lo tanto, hemos modificado ambos dataframes, para únicamente realizar modificaciones sobre la copia, hemos de hacer uso del comando <code>.copy</code>

In [None]:
houses = pd.read_csv('housing_California.csv')

# Copiamos correctamente el dataframe
df_copia = houses.copy()

df_copia.iloc[[0]] = np.zeros(len(houses.columns))

df_copia.head(2)

In [None]:
houses.head(2)

### Correlaciones de las variables numéricas

In [None]:
houses.corr()

Nótese que automáticamente toma todas las variables numéricas.

### Nombres de las columnas de un dataframe

In [None]:
houses.columns

In [None]:
houses.columns[3]

Las columnas de un dataframe pueden trabajarse como listas

### Borrar duplicados de un dataframe

In [None]:
# Para verlo más claro, vamos a realizar una copia de las diez primeras posiciones del data frame
ten_rows = houses.head(10).copy()

In [None]:
# Duplicamos la fila 9 varias veces
ten_rows = ten_rows.append(ten_rows.iloc[[9]])
ten_rows = ten_rows.append(ten_rows.iloc[[9]])
ten_rows = ten_rows.append(ten_rows.iloc[[9]])
ten_rows = ten_rows.append(ten_rows.iloc[[9]])
ten_rows = ten_rows.append(ten_rows.iloc[[9]])

In [None]:
ten_rows

In [None]:
ten_rows = ten_rows.drop_duplicates(inplace = False, keep = 'first')
ten_rows

### Uso de RAM para un dataframe

In [None]:
# Consumo RAM del dataframe en BYTES
houses.memory_usage()

### Análisis gráfico con scatter matrix

In [None]:
# Configuración para mostrar gráficas en notebook
%pylab
%matplotlib inline
%config InlineBackend.figure_format = 'retina'

# Importamos scatter_matrix
from pandas.plotting import scatter_matrix

# Es necesario que configuremos el tamaño de las gráficas que será el mismo que el número de columnas
scatter_matrix(houses, figsize = (len(houses.columns), 
                                  len(houses.columns)), 
               diagonal = 'kde');

### Histogramas de las variables numéricas 

In [None]:
# Histogramas de cada variable continua del dataframe.
houses.hist(figsize = (len(houses.columns), len(houses.columns)))

### Cambiando el tipo de las variables.

Con la función `info` podemos obtener la información del tipo de variables.

In [None]:
houses.info()

Como podemos comprobar, todas las variables son de tipo float, excepto ocean_proximity que es de tipo object, cuando la realidad es que esto, no es así, algunas de las transformaciones más importantes que podemos realizar en un dataframe sobre sus variables es cambiarles el tipo, es decir que pasen a ser categóricas o tipo fecha, vamos a ver cómo cambiar a tipo categórica las variables de un dataframe.

Una de las posibles formas de cambiar el tipo de una variable es a través de `pd.Categorical`

In [None]:
houses["ocean_proximity"] = pd.Categorical(houses["ocean_proximity"])

Mostramos la información del dataframe de nuevo

In [None]:
houses.info()

Ahora, podemos mostrar un resumen estadístico solamente de las variables categóricas

In [None]:
houses.describe(include='category')

### AGRUPACIÓN DE DATAFRAMES - GROUP BY

Al igual que en SQL, desde Python también podemos realizar agrupaciones de nuestros datos con la función __<code>groupby</code>__

In [None]:
# Agrupamos por la media de los valores numéricos para la columna ocean_proximity
houses.groupby(['ocean_proximity']).mean()

In [None]:
# Observamos cuántos tipos el total de dormitorios en función de
# su frecuencia.
houses.groupby(['total_bedrooms']).count()

In [None]:
houses.groupby(['total_bedrooms']).count()['ocean_proximity']

In [None]:
# Obtener el porcentaje de valores para una variable categórica
print((pd.crosstab(index=houses["ocean_proximity"], columns="count"))/len(houses) * 100)

### MERGE DE DATAFRAMES

En algunas ocasiones, vamos a necesitar unir dos o más datasets para ello, en primer lugar, al igual que con listas, podemos hacer uso de la función __<code>.append</code>__

Debido a la dimensión de filas y columnas del dataframe, vamos a crear dos dataframes más reducidos para poder ejemplificar correctamente la función append.

In [None]:
# Creamos datasets reducidos
first_positions = houses[['housing_median_age', 
                             'total_rooms', 
                             'total_bedrooms']].head(5).copy()


last_positions = houses[['housing_median_age', 
                             'total_rooms', 
                             'total_bedrooms']].tail(4).copy()

print(first_positions.shape)
print(last_positions.shape)

In [None]:
# Unimos ambos datasets con append
first_positions = first_positions.append(last_positions)

print(first_positions.shape)

In [None]:
first_positions

Es importante que tengamos en cuenta con la presencia de nuevas columnas que aparezcan solamente en uno de los dataframes que vayamos a concatenar. Para ejemplificarlo, vamos a obtener de nuevo los datasets, dando una columna a más al dataset con las últimas posiciones.

In [None]:
# Creamos datasets reducidos
first_positions = houses[['housing_median_age', 
                             'total_rooms', 
                             'total_bedrooms']].head(5).copy()


last_positions = houses[['housing_median_age', 
                             'total_rooms', 
                             'total_bedrooms',
                             'households']].tail(4).copy()

print(first_positions.shape)
print(last_positions.shape)

In [None]:
# Unimos ambos datasets con append
first_positions = first_positions.append(last_positions)

first_positions

En segundo lugar, podemos hacer uso de la función __<code>.concat</code>__. Es muy importante saber los tipos de unión ( _join_ ) que podemos realizar al concatenar datasets
* __inner__: Se realiza la unión por los elementos comunes de ambos datasets.
* __outer__: La unión se realiza por todos los elementos entre los datasets
    
Se recomienda echar un vistazo a la documentación para ver los diferentes tipos de join que podemos realizar. https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html

In [None]:
first_positions = houses[['housing_median_age', 
                             'total_rooms', 
                             'total_bedrooms',
                             'ocean_proximity']].head(5).copy()


last_positions = houses[['housing_median_age', 
                             'total_rooms', 
                             'total_bedrooms',
                             'households',
                             'ocean_proximity']].tail(4).copy()

union_outer = pd.concat([first_positions, last_positions], 
                        ignore_index=True, join='outer')

union_outer

In [None]:
union_inner = pd.concat([first_positions, last_positions], 
                        ignore_index=True, join='inner')

union_inner

Compo podemos ver en el merge por tipo _inner_ la columna _households_ del nuevo dataset no aparece ya que no es un elemento común entre ambos datasets. No obstante hemos de tener en cuenta que si un dataset no tiene filas pertenecientes a una columna de otro dataset como es el caso de la columna _households_ que únicamente aparece en el nuevo dataset. Sus valores, pasarán a ser nulos.

### NUEVAS COLUMNAS

En muchas ocasiones, vamos a necesitar añadir nuevas columnas a un dataframe o realizar modificaciones entre las columnas de un dataframe para obtener una nueva. Es importante saber que las operaciones se realizan de forma columnar, es decir, si dos columnas tienen una misma longitud podemos realizar una operación entre ambas si necesidad de iterara sobre sus filas.

Para agregar una nueva columna simplemente podemos crear una nueva variable con el nombre del dataframe y el nombre de la columna que vamos a crear.

In [None]:
np.random.randint(65, 120, 10)

In [None]:
union_inner['area'] = np.random.randint(65, 120, len(union_inner))

print(union_inner.columns)

In [None]:
union_inner.head()

In [None]:
# Podemos crear una nueva columna que sea la media de camas por habitaciones totales

union_inner['mean_bedrooms'] = round(union_inner['total_rooms'] / union_inner['total_bedrooms'],2)

In [None]:
union_inner

### BORRADO DE FILAS Y COLUMNAS

En algunas ocasiones, cuando realicemos limpieza de datos o, porque no sean objeto de nuestro análisis vamos a necesitar borrar filas o columnas de un dataframe, para ambos casos la función es la misma __<code>.drop</code>__, si el borrado queremos realizarlo para filas usaremos en el parámetro __axis__ el valor 0 y para las columnas el valor 1.

In [None]:
union_inner = union_inner.drop(['housing_median_age', 'mean_bedrooms'], axis = 1)

union_inner

In [None]:
# Borrado por filas
print('TODAS LAS FILAS')
print(union_inner, "\n")

union_inner = union_inner.drop(3, axis=0)

print('BORRADO DE FILA 3')
print(union_inner.head(5))

### GESTIÓN DE NULOS

Finalmente, como es habitual cuando trabajamos con dataframes pueden aparecer los _missing values_ o simplemente, valores nulos, en Python representados por el string __NaN__, mediante la función __<code>.isnull</code>__ podremos saber si un elemento de un dataframe es nulo o no, una práctica muy habitual es obtener el número de valores nulos por columna en un dataframe y su porcentaje.

In [None]:
print("*CANTIDAD de datos nulos por columna en el dataframe")
print(union_outer.isnull().sum())
print("----------------------------------")
print("*PORCENTAJE de datos nulos por columna en el dataframe")
print(union_outer.isnull().sum()/len(union_outer)*100)

Si lo que queremos es reemplazar los valores nulos y no borrarlos haremos uso de la función __<code>.fillna</code>__

In [None]:
union_outer['households'] = union_outer['households'].fillna(5)

In [None]:
union_outer

In [None]:
print("*CANTIDAD de datos nulos por columna en el data frame")
print(union_outer.isnull().sum())

Por el contrario, si lo que queremos es borrar los valores nulos de un dataframe podemos hacer uso de la función __<code>.dropna</code>__

In [None]:
union_outer = pd.concat([first_positions, last_positions], 
                        ignore_index=True, join='outer', sort=False)

union_outer = union_outer.dropna()

print("*CANTIDAD de datos nulos por columna en el data frame")
print(union_outer.isnull().sum())

print(union_outer.shape)

In [None]:
union_outer

### Escribiendo dataframe como csv

Al igual que podemos cargar datos de diferentes fuentes de datos y procesarlos como un dataframe, también podemos posteriormente escribir un dataframe en una de las múltiples fuentes que acepta pandas para exportar archivos, en esta ocasión, volcaremos la información de un dataframe como un .csv, para ello, disponemos de la función <code>**to_csv**</code>. Como parámetros utilizaremos, el nombre del archivo, el argumento __sep__ para utilizar un tipo de separador u otro y, si no queremos que se muestre el índice del dataframe, utilizaremos el argumento __index__ con valor _none_

In [None]:
union_outer.to_csv('RESULTADOS.csv', sep=',', index=None)

# Ejercicio 8

Se utilizará una base de datos (en .csv) procedente de la web https://openflights.org/data.html , el dataset contiene la siguiente información:
* **AirportID**: Identificador de cada vuelo para un aeropuerto.
* **Name**: Nombre del aeropuerto.
* **City**: Ciudad en la que se encuentra el aeropuerto.
* **Country**: País o territorio en el que se encuentra el aeropuerto.
* **IATA**: Código de asociación internacional de transporte aéreo, código del aeorpuerto.
* **ICAO**: Código de organización civil internacional, código de aeoropuertto.
* **Latitude**: Coordenada del aeropuerto (latitud).
* **Longitude**: Coordenada del aeropuerto (longitud).
* **Altitude**: Altitud del aeropuerto (en pies).
* **Timezone**: Zona horaria.
* **DST**: Código referente al continente (Daylight savings time). Europe (E), A (US/CANADA), S (South America), O (Australia), Z (New Zeeland), N (None), U (Unknown).
* **Tz**: Zona horaria del aeropuerto. Por ejemplo: (America/Los_Angeles).
* **Type**: Tipo de aeropuerto: airport, station, port, unknown.
* **Source**: Fuente de datos.

Con la información del dataset realizar lo siguiente: 
* 1 Carga del dataset como dataframe.
* 2 Muestra las primeras 10 filas del dataframe.
* 3 Obtén un resumen estadístico.
* 4 Para este análisis no vamos a emplear las columnas 'AirportID', 'Latitude', 'Longitude' y 'Altitude', elimínalas del dataframe.
* 5 Vuelve a obtener un resumen estadístico, ¿de qué forma han cambiado los datos?.
* 6 Sobre el resumen estadístico anterior parece que en la columna TZ hay un valor raro \N, revisa la proporción de los mismos con value_counts.
* 7 Vuelve a cargar el dataset de modo que se interpreten correctamente los valores nulos (repite el apartado 4, borra las columnas).
* 8 Revisa los valores nulos de todo el dataframe.
* 9 Sobrescribe los valores nulos de las columnas IATA e ICAO por el valor 'DESCONOCIDO'
* 10 Cambia el tipo de las variables DST y TZ como categórico.
* 11 Obtén un resumen estadístico de las variables categóricas.
* 12 Agrupa el dataframe por el tipo de aeropuerto, mostrando el conteo de los tipos.
* 13 Selecciona el nombre de las ciudades cuyo tipo de aeropuerto sea "port"
* 14 Muestra todas las filas de los campos nombre del aeropuerto, nombre del país y, nombre de la ciudad, cuyo país sea Spain.
* 15 Muestra el nombre del país y del aeropuerto que sean pertenecientes de la ciudad de Madrid y Barcelona. ¿Todos los registros son de España?
* 16 Guarda los resultados anteriores en un csv llamado Madrid_Barcelona.csv

In [None]:
# EN CLASE