# Pandas

**Pandas** es la librería por excelencia para el análisis de datos del lenguaje `Python`. Su nombre proviene de “panel data” (término econométrico). Inspirada en las funcionalidades de `R`, pero con el potencial de este lenguaje de propósito general.

**Pandas** incluye todas las funcionalidades necesarias para el proceso de análisis de datos: carga, filtrado, tratamiento, síntesis, agrupamiento, almacenamiento y visualización. Además, se integra con el resto de librerías de cálculo numérico como `Numpy`, `Matplotlib`, `scikit-learn`, …  y de despliegue: `HPC`, `Cloud`, etc.

En resumen, **es como una hoja de cálculo -por ejemplo excel- pero con más mucho más potencial!!!**

[Características principales](https://github.com/pandas-dev/pandas#main-features)


## Introducción a Pandas

Todo el trabajo que realizaremos es sobre la estructura de datos básica: el `dataFrame`.

Un `dataFrame` es un objeto de dos dimensiones que contiene información. También puede verse como una **hoja de cálculo**, como una tabla de un modelo entidad-relación, o como una colección de una base de datos no relacional.

[Documentación](http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.html)

Importación de la libreria
```Python
import pandas as pd
import pandas
from pandas import *
```

Por convención se hace de la siguiente manera, todas las funciones de la libreria se tienen que llamar con el prefijo pd.*:

In [1]:
import pandas as pd

# Primeros pasos con Pandas
Vamos a aprender Pandas a través de una serie de proyectos y ejemplos. En esta primera fase, vamos a cargar datos de un fichero _CSV_, recordad que son ficheros donde los atributos/valores de una observación están separados por una coma y las observaciones se separan mediante un salto de línea.

Podemos descargar los datos con los que trabajaremos del siguiente enlace [WHO dataset](http://www.exploredata.net/Downloads/WHO-Data-Set)



Empezamos viendo como se carga un dataframe a partir de un fichero en formato CSV.

In [2]:
df = pd.read_csv("data/WHO.csv")

A continuación se muestra la estructura interna del DataFrame. Se puede ver que és muy parecido a una tabla bidimensional:

In [3]:
df

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.50,,,,257.00,231.9,257.00,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4.790000e+09,78.14,-2.040000e+09,18.47,15.5,18.47,1431793.9,2.21,45.4
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0,1.5,...,137535.56,6.970000e+10,351.36,4.700000e+09,40.00,31.2,40.00,20800000.0,2.61,63.3
3,Andorra,4,2,,,,83.0,83.0,74.0,1.0,...,,,,,,,,,,
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,1.490000e+10,27.13,9.140000e+09,164.10,242.5,164.10,8578749.0,4.14,53.3
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
197,Vietnam,198,6,25.0,90.3,2310.0,91.0,96.0,86206.0,1.4,...,101826.23,4.480000e+10,47.11,-1.940000e+09,20.20,23.4,20.20,21900000.0,2.90,26.4
198,West Bank and Gaza,199,1,,,,,,,,...,655.86,3.780000e+09,,,28.00,25.8,28.00,2596216.0,3.33,71.6
199,Yemen,200,1,83.0,54.1,2090.0,65.0,85.0,21732.0,3.0,...,20148.34,1.150000e+10,114.52,8.310000e+08,82.40,87.9,82.40,5759120.5,4.37,27.3
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0,1.9,...,2366.94,4.090000e+09,10.41,-4.470000e+08,175.30,163.8,175.30,4017411.0,1.95,35.0


### Atributos de un DataFrame

Un dataframe dispone de diferentes atributos con los que podemos obtener su información o metainformación. Los siguientes ejemplos muestran cómo se pueden consultar sus dimensiones o un listado del nombre de sus columnas:

In [4]:
df.shape # Ver las dimensiones **

(202, 358)

In [5]:
df.columns #**

Index(['Country', 'CountryID', 'Continent', 'Adolescent fertility rate (%)',
       'Adult literacy rate (%)',
       'Gross national income per capita (PPP international $)',
       'Net primary school enrolment ratio female (%)',
       'Net primary school enrolment ratio male (%)',
       'Population (in thousands) total', 'Population annual growth rate (%)',
       ...
       'Total_CO2_emissions', 'Total_income', 'Total_reserves',
       'Trade_balance_goods_and_services', 'Under_five_mortality_from_CME',
       'Under_five_mortality_from_IHME', 'Under_five_mortality_rate',
       'Urban_population', 'Urban_population_growth',
       'Urban_population_pct_of_total'],
      dtype='object', length=358)

Podemos aplicar sobre el listado de columnas todas las operaciones sobre listas que hemos visto en la introducción del curso. A continuación tenemos dos ejemplos de indexación:

In [6]:
df.columns[0]

'Country'

In [7]:
df.columns[:2]

Index(['Country', 'CountryID'], dtype='object')

**¿Cómo consultariais el nombre de la columna 10? ¿y los de las columnas de la 200 a la 225?**

In [8]:
df.columns[200:226]

df.columns[len(df.columns)-3:len(df.columns)]

Index(['Urban_population', 'Urban_population_growth',
       'Urban_population_pct_of_total'],
      dtype='object')

## Funciones descriptivas de un dataframe

`Pandas` ofrece una colección de funciones que permiten realizar una inspección general de la tabla de datos:

- **describe**: muestra estadísticas descriptivas básicas para todas las columnas numéricas.
- **info**: muestra todas las columnas y sus tipos de datos.
- **head** i **tail**: muestra las $n$ primeras/últimas filas. El valor de $n$ es un parámetro de este método.


In [9]:
df.describe()

Unnamed: 0,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),Population in urban areas (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
count,202.0,202.0,177.0,131.0,178.0,179.0,179.0,193.0,193.0,193.0,...,186.0,178.0,128.0,171.0,181.0,170.0,181.0,188.0,188.0,188.0
mean,101.5,3.579208,59.457627,78.871756,11250.11236,84.03352,85.698324,34098.05,1.297927,54.911917,...,148359.6,201556700000.0,57.253516,342401200.0,56.677624,54.356471,56.677624,16657630.0,2.165851,55.195213
std,58.456537,1.808263,49.105286,20.41576,12586.753417,17.788047,15.451212,130495.7,1.163864,23.554182,...,613309.1,940068900000.0,138.669298,59430430000.0,60.060929,61.160556,60.060929,50948670.0,1.596628,23.742122
min,1.0,1.0,0.0,23.6,260.0,6.0,11.0,2.0,-2.5,10.0,...,25.65,51900000.0,0.99,-714000000000.0,2.9,3.0,2.9,15456.0,-1.16,10.0
25%,51.25,2.0,19.0,68.4,2112.5,79.0,79.5,1340.0,0.5,36.0,...,1672.615,3317500000.0,16.2925,-1210000000.0,12.4,8.475,12.4,917162.3,1.105,35.65
50%,101.5,3.0,46.0,86.5,6175.0,90.0,90.0,6762.0,1.3,57.0,...,10211.57,11450000000.0,28.515,-224000000.0,29.98,27.6,29.98,3427661.0,1.945,57.3
75%,151.75,5.0,91.0,95.3,14502.5,96.0,96.0,21732.0,2.1,73.0,...,65492.17,86800000000.0,55.31,1024000000.0,88.7,82.9,88.7,9837113.0,3.2525,72.75
max,202.0,7.0,199.0,99.8,60870.0,100.0,100.0,1328474.0,4.3,100.0,...,5776432.0,11000000000000.0,1334.86,139000000000.0,267.0,253.7,267.0,527000000.0,7.85,100.0


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 202 entries, 0 to 201
Columns: 358 entries, Country to Urban_population_pct_of_total
dtypes: float64(355), int64(2), object(1)
memory usage: 565.1+ KB


In [11]:
df.head(5)

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
0,Afghanistan,1,1,151.0,28.0,,,,26088.0,4.0,...,692.5,,,,257.0,231.9,257.0,5740436.0,5.44,22.9
1,Albania,2,2,27.0,98.7,6000.0,93.0,94.0,3172.0,0.6,...,3499.12,4790000000.0,78.14,-2040000000.0,18.47,15.5,18.47,1431793.9,2.21,45.4
2,Algeria,3,3,6.0,69.9,5940.0,94.0,96.0,33351.0,1.5,...,137535.56,69700000000.0,351.36,4700000000.0,40.0,31.2,40.0,20800000.0,2.61,63.3
3,Andorra,4,2,,,,83.0,83.0,74.0,1.0,...,,,,,,,,,,
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,14900000000.0,27.13,9140000000.0,164.1,242.5,164.1,8578749.0,4.14,53.3


In [12]:
df.tail()

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
197,Vietnam,198,6,25.0,90.3,2310.0,91.0,96.0,86206.0,1.4,...,101826.23,44800000000.0,47.11,-1940000000.0,20.2,23.4,20.2,21900000.0,2.9,26.4
198,West Bank and Gaza,199,1,,,,,,,,...,655.86,3780000000.0,,,28.0,25.8,28.0,2596216.0,3.33,71.6
199,Yemen,200,1,83.0,54.1,2090.0,65.0,85.0,21732.0,3.0,...,20148.34,11500000000.0,114.52,831000000.0,82.4,87.9,82.4,5759120.5,4.37,27.3
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0,1.9,...,2366.94,4090000000.0,10.41,-447000000.0,175.3,163.8,175.3,4017411.0,1.95,35.0
201,Zimbabwe,202,3,101.0,89.5,,88.0,87.0,13228.0,0.8,...,11457.33,5620000000.0,3.39,-171000000.0,106.5,67.0,106.5,4709965.0,1.9,35.9


In [13]:
df.tail(2)


Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
200,Zambia,201,3,161.0,68.0,1140.0,94.0,90.0,11696.0,1.9,...,2366.94,4090000000.0,10.41,-447000000.0,175.3,163.8,175.3,4017411.0,1.95,35.0
201,Zimbabwe,202,3,101.0,89.5,,88.0,87.0,13228.0,0.8,...,11457.33,5620000000.0,3.39,-171000000.0,106.5,67.0,106.5,4709965.0,1.9,35.9


## Selección de información: columnas o filas

Como ya imaginamos, **un dataframe no es una lista**, no podemos acceder de manera directa a su información mediante el uso del operador `[]`.

La siguiente sentencia dará un error de ejecución:

In [14]:
df[0] 

KeyError: 0

Si inspeccionamos y comparamos los tipos del dataframe y de las columnas...

In [15]:
type(df)

pandas.core.frame.DataFrame

In [16]:
type(df.columns)

pandas.core.indexes.base.Index

### Columnas

Podemos utilizar el nombre de una columna para obtener los datos de dicha columna, tal como lo hacíamos con un diccionario `python`. Veremos dos maneras diferentes de hacerlo:

In [17]:
paises = df["Country"]
print(paises[0:10])

0            Afghanistan
1                Albania
2                Algeria
3                Andorra
4                 Angola
5    Antigua and Barbuda
6              Argentina
7                Armenia
8              Australia
9                Austria
Name: Country, dtype: object


In [18]:
df.Country

descripcion = df.describe()
descripcion.columns
resumen = descripcion["Total_CO2_emissions"]
print(resumen[0])

186.0


**¿Qué tipo de datos es una columna?**

In [19]:
type(df.Country)

pandas.core.series.Series

Las `Series` són la otra estructura básica de Pandas. Las filas y las columnas se estructuran en `Series`, se pueden ver cómo un tipo de lista que solamente puede contener un único tipo de datos, acepta operaciones vectoriales y se puede indexar de manera similar a un diccionario.

### Filas

Así como seleccionamos columnas, podemos seleccionar información con para obtener filas. Para realizar la consulta de una fila concreta usaremos el atributo `loc` de los dataframes.

In [20]:
print(df.loc[0])

Country                           Afghanistan
CountryID                                   1
Continent                                   1
Adolescent fertility rate (%)           151.0
Adult literacy rate (%)                  28.0
                                     ...     
Under_five_mortality_from_IHME          231.9
Under_five_mortality_rate               257.0
Urban_population                    5740436.0
Urban_population_growth                  5.44
Urban_population_pct_of_total            22.9
Name: 0, Length: 358, dtype: object


Si lo que necesitamos es obtener son los valores, necesitaremos el atributo `values`:

In [21]:
df.loc[0].values

array(['Afghanistan', 1, 1, 151.0, 28.0, nan, nan, nan, 26088.0, 4.0,
       23.0, nan, 16.0, 4.0, 47.0, 6.0, 7.2, nan, nan, nan, 14.0, nan,
       nan, nan, nan, nan, nan, 10.3, 73.0, 70.0, 83.0, 83.0, nan, 66.0,
       90.0, nan, nan, nan, nan, nan, 20.1, 27.5, 4.4, 4.0, nan, nan,
       900.0, nan, nan, 14930.0, nan, 900.0, 5970.0, 5.0, nan, 97.2, 8.0,
       6.0, 29.0, 23.0, nan, 2.0, 72.5, 0.0, nan, 2.5, 0.0, 5.4, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan, nan,
       nan, nan, nan, nan, nan, nan, nan, nan, 473.0, 443.0, 500.0, 153.0,
       706.0, 134.0, 1269.0, 18.9, 0.3, 1.1, 1.0, 5.9, 26.0, 22.1, 24.8,
       10.0, 32.0, 0.0, 36.0, 36.0, 35.0, 161.0, 165.0, 154.0, 176.0,
       42.0, 43.0, 42.0, 1800.0, 60.0, 16.0, 100.0, 231.0, 257.0, 254.0,
       260.0, 76.0, 6.0, 18.0, 4.6, 59.3, 32.9, nan, 0.01, nan, nan, 17.0,
       22.0, 37.0, 25.0, 30.0, 45.0, nan, nan, nan, nan, 

#### Selección de filas con slicing

Utilizando el atributo `loc` del dataframe podemos seleccionar y filtrar las filas utilizando los _slicing_ típicos de `Python`.

Recordemos el _slicing_:
```{python}
sublista = lista[start:stop:step]
```

Dónde:
* **start**: Posición de la lista original dónde empieza la sublista. Si no se indica és 0.
* **stop**:  Posición de la lista original hasta donde seleccionar. Se selecciona hasta la posición stop - 1.
* **step**:  Incremento entre cada índice de la selección, por defecto 1.

Si entendemos el concepto para un array...

In [22]:
array =[1,2,3,4,5,6,7,9,0]
print(array[0:2]) #**
print(array[3:]) #**
print(array[:3]) #**

[1, 2]
[4, 5, 6, 7, 9, 0]
[1, 2, 3]


... podemos hacer las mismas operaciones con las filas de un _dataFrame_.

In [23]:
df.loc[4:10:2]

Unnamed: 0,Country,CountryID,Continent,Adolescent fertility rate (%),Adult literacy rate (%),Gross national income per capita (PPP international $),Net primary school enrolment ratio female (%),Net primary school enrolment ratio male (%),Population (in thousands) total,Population annual growth rate (%),...,Total_CO2_emissions,Total_income,Total_reserves,Trade_balance_goods_and_services,Under_five_mortality_from_CME,Under_five_mortality_from_IHME,Under_five_mortality_rate,Urban_population,Urban_population_growth,Urban_population_pct_of_total
4,Angola,5,3,146.0,67.4,3890.0,49.0,51.0,16557.0,2.8,...,8991.46,14900000000.0,27.13,9140000000.0,164.1,242.5,164.1,8578749.0,4.14,53.3
6,Argentina,7,5,62.0,97.2,11670.0,98.0,99.0,39134.0,1.0,...,152711.86,314000000000.0,21.11,11900000000.0,18.1,16.7,18.1,34900000.0,1.17,90.1
8,Australia,9,6,16.0,,33940.0,97.0,96.0,20530.0,1.1,...,368858.53,468000000000.0,,-12800000000.0,5.9,5.1,5.9,18000000.0,1.54,88.2
10,Azerbaijan,11,2,31.0,98.8,5430.0,83.0,86.0,8406.0,0.6,...,36629.01,9930000000.0,64.89,1330000000.0,50.0,63.7,50.0,4321803.0,1.26,51.5


In [None]:
df.loc[200:]

### Selección de filas y columnas

Si seguimos con la misma lógica, usando el atributo `loc` de los _dataFrames_.

In [None]:
df.loc[0:1]

Las columnas se deben seleccionar con una **lista** que debe contener el nombre de las columnas deseadas.

In [None]:
df.loc[0:1,["Continent"]]

In [None]:
df.loc[0:3,["Continent","Total_CO2_emissions"]]

Alternativamente, con el atributo _iloc_ podemos seleccionar las columnas con su índice numérico: su posicion en la lista de columnas.

In [None]:
df.iloc[0]

In [None]:
df.iloc[0:4, 3:7] # ídem a una matriz

In [None]:
df.iloc[0][0]

In [None]:
df.iloc[0][0:4]

In [None]:
df.iloc[0][0:4].values

In [None]:
df.iloc[0][0:4].values[0]

### Selección lógica

Además de la selección con base a índices, lo interesante es realizar selecciones mediante condiciones lógicas que permiten filtrar las filas del dataset. Si queremos obtener el país con el valor de emisiones de CO2 más alto:


In [None]:
co2 = df["Total_CO2_emissions"]
row = df[co2 == co2.max()]  # Esto es una condición dentro de la selección
type(row)

La variable `row` contiene la fila con el valor máximo en la columna  `Total_CO2_emissions`. Ahora podemos seleccionar diferentes columnas/valores de esta fila:

In [None]:
print(row["Total_CO2_emissions"])
print(row["Country"])

In [None]:
#Los valores del objeto son una lista
row["Country"]

In [None]:
row["Country"].values

In [None]:
print("El pais mas contaminante es: " + row["Country"].values[0])

### Síntesis de información

Con una sola línea de código podemos generar la siguiente información:

In [None]:
print("Valor medio de %s = %f " %(df.columns[3], df[df.columns[3]].mean()))
print("Valor medio de " +  df.columns[3] + " = " + str(df[df.columns[3]].mean())) #(df.columns[3], df[df.columns[3]].mean()))

In [None]:
print(df.columns[3]) # nombre columna

In [None]:
print(df[df.columns[3]]) # Serie de los datos de la columna

###### ¿Cómo consultarias la serie de la columna "Total_reserves"?

In [None]:
reservas = df.Total_reserves


Sobre las series se puede sintetizar información


In [None]:
fertilidad = df[df.columns[3]]
print("Minimo %f " %fertilidad.min())
print("Max %f " %fertilidad.max())
print("Mean %f " %fertilidad.mean())
print("Descripción de la serie:\n%s " %fertilidad.describe())

## Tabla con las funciones descriptivas
<img src="https://i.imgur.com/OYnOFwL.png">

## Ejercicios

**1) ¿Cuál és la media de la población urbana ("Urban_population") de todos los países? ¿Su desviación típica (std)?**

**2) Consulta la fila del país: “Spain”**

**3a) ¿Qué país tiene una mayor población urbana?**

**3b) ¿Qué paises tienen una población urbana menor a 50000 ?**

**4) ¿El continente donde está situado Spain es el mismo que el de `United States of America?**

Utiliza una condición para obtener un resultado Booleano (*True* o *False*)

**5) ¿Cuáles son los cinco paises más contaminantes ("Total_CO2_emissions")?**

Esta es mi pista para una solución elegante: http://pandas.pydata.org/pandas-docs/version/0.19.2/generated/pandas.DataFrame.sort_values.html

**6) Observando algunas muestras del fichero puedes establecer la relación entre el identificador del continente y su nombre?**

Es decir, sabemos que Spain está en el continente Europeo y el código del continente es el 2. 

Existen los códigos de continentes: 1, 2, 3, 4, 5, 6, 7

**Nota:** Hay dos códigos asociados a Asia.

Haz las consultas pertinentes al dataframe para construir un diccionario con la siguiente estructura:

In [None]:
codigoContinentes = {1:"Asia",2:"Europa"} #Al menos hay 7!
print(codigoContinentes[2])

In [None]:
codigoContinentes[3] = ""
codigoContinentes[4] = ""
codigoContinentes[5] = ""
codigoContinentes[6] = ""
codigoContinentes[7] = ""

**7) Una vez identificado el nombre de los continentes, ¿puedes cambiar la columna de identificadores de continentes por sus respectivos nombres?**

Esta es es mi pista para una solución elegante: http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.map.html

**8) Puedes crear un nuevo dataframe con aquellos paises que sean de Europa?**


In [None]:
df2 = df #Con una simple asignación ya creas una dataframe 
type(df2)

**9) ¿Cuáles son los paises más contaminantes de Europa?**

Propuesta A: usa el dataframe inicial

Propuesta B: usa el dataframe de la actividad 8

## Modificación del _dataframe_

Además de realizar selecciones, en algunos momentos necesitaremos incorporar nueva información a nuestras tablas de datos.

Vamos a crear un pequeño conjunto para practicar:


In [None]:
df2 = pd.DataFrame([('Foreign Cinema', 'Restaurant', 289.0),
                   ('Liho Liho', 'Restaurant', 224.0),
                   ('500 Club', 'bar', 80.5),
                   ('The Square', 'bar', 25.30)],
           columns=('name', 'type', 'AvgBill')
                 )
df2

#### Añadir columnas

Tenemos diversas maneras de añadir columnas a un _dataFrame_:

- Mediante el nombre de la columna que queremos añadir, tal como añadimos una nueva clave a un diccionario.
- `insert`: es un método que necesita 3 parámetros. La posición en la que queremos añadir la columna (`loc`), su nombre (´column´) y la lista de valores (`value`).
- `assign`: muy similar a la anterior, pero permite añadir múltiples columnas.
- `concat`: no se suele usar para concatenar columnas, en el caso que queramos usarlo para este caso, deberemos poner el parámetro `axis=1`.

Veamos algunos ejemplos:

In [None]:
df2['Day'] = "Monday" # Como un diccionario
df2

In [None]:
df2['Day'] = ['Monday', 'Tuesday', 'Wednesday', 'Thursday']
df2

In [None]:
#Vamos a usar el método insert
df2.insert(loc=1, column="Stars", value=[2,2,3,4])
df2

In [None]:
df3 = df2.assign(AvgHalfBill=df2.AvgBill / 2, Michelin_Star=3)
df3


#### Añadir filas

Para añadir filas a un _dataframe_ tenemos dos métodos que realizan la tarea y devuelven un nuevo _dataFrame_:

- append: añade una fila a un _dataFrame_. La fila puede ser un diccionario, una `Serie` o otro `Dataframe`. El parámetro `ignore_index = True` significa que se ignorará el índice de la serie o el _dataFrame_ de origen. En su lugar, se utilizará el índice disponible en el _dataFrame_ de destino. El valor `False` significa lo contrario.
- concat: concatena dos o más _dataFrames_ separados por comas.

#### Eliminar filas y columnas


Tenemos el método `drop` que nos proporciona un nuevo _dataFrame_ sin la(s) fila(s) o la(s) columna(s) que seleccionemos. 
Si queremos eliminar columnas podemos hacerlo especificando la lista de columnas en el parámetro `columns` de la siguiente manera:

In [None]:
df_no_michelin = df3.drop(columns=["Michelin_Star"]) # Eliminamos la última columna que hemos creado
df_no_michelin

Para poder eliminar filas, usamos la misma función, esta vez sin el parámetro que hemos usado anteriormente, simplemente indicamos los índices a eliminar:

In [None]:
df_less_rows = df_no_michelin.drop([1,3])
df_less_rows

In [40]:
df_less_rows = df_no_michelin.drop([1,3])
df_less_rows

Unnamed: 0,name,Stars,type,AvgBill,Day,AvgHalfBill
0,Foreign Cinema,2,Restaurant,289.0,Monday,144.5
2,500 Club,3,bar,80.5,Wednesday,40.25


In [41]:
df_less_rows = df_no_michelin.drop([1,3])
df_less_rows

Unnamed: 0,name,Stars,type,AvgBill,Day,AvgHalfBill
0,Foreign Cinema,2,Restaurant,289.0,Monday,144.5
2,500 Club,3,bar,80.5,Wednesday,40.25
