<a href="https://colab.research.google.com/github/franciscosesto/econometria/blob/main/notebooks/Pandas_Austral.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>



<h1>
<b> Pandas Econometría
</h1>

 
<div>
<img src="https://pandas.pydata.org/static/img/pandas_white.svg " width="200"/>
</div>

##**🤔 ¿Qué es?**



Pandas es una librería que proporciona estructuras de datos flexibles y permite trabajar con la información de forma eficiente (gran parte de Pandas está implementado usando C/Cython para obtener un buen rendimiento).

Funciona muy bien cuando nos toca trabajar con:
*	Datos heterogéneos que pueden distribuirse de forma tabular.
*	Series temporales
*	Matrices


## 🌊 **Estructura de datos**

<div>
<img src="https://i.stack.imgur.com/Tbe9W.png" width="350"/>
</div>

Pandas ofrece varias estructuras de datos que nos resultarán de mucha utilidad y que vamos a ir viendo poco a poco. Todas las posibles estructuras de datos que ofrece a día de hoy son:
* Series (y TimeSeries) (1D):  Estructura de una dimensión
*	DataFrame (2D): Estructura de dos dimensiones (tablas).
*	Panel(3D): Estructura de tres dimensiones (cubos).
*	Panel4D (4D) Estructura de cuatro dimensiones .
*	PanelND (ND) Estructura de n dimensiones.



## 🛸 **Importación**

Para comenzar a utilizar esta librería hay que importar Pandas
```python
import pandas as pd
```

In [2]:
#Importación de la libreria Pandas
import pandas as pd

## 📚 **DataFrame**

#### ➖ DataFrame como matriz 

Un objeto del tipo DataFrame define un **conjunto de datos estructurado en forma de tabla** donde cada columna es un objeto de tipo Series, es decir, todos los datos de una misma columna son del mismo tipo, y las filas son registros que pueden contender datos de distintos tipos. **Como toda tabla, consta de filas y columnas (2D array).**

Un DataFrame contiene dos índices, uno para las filas y otro para las columnas, y se puede acceder a sus elementos mediante los nombres de las filas y las columnas.



## 🔧 **Creación de DataFrame**

#### ➖ Crear DataFrames a partir de un diccionario de listas

Para crear un DataFrame a partir de un diccionario cuyas claves son los nombres de las columnas y los valores son listas con los datos de las columnas se utiliza el método:
```python
pd.DataFrame(data=diccionario)
```
Devuelve un objeto del tipo DataFrame cuyas columnas son las listas contenidas en los valores del diccionario 


In [2]:
#Ejemplo Creación DataFrame a partir de un diccionario de listas
import pandas as pd
datosaustral = {'nombre':['María', 'Luis', 'Ramón', 'Richard'],
         'edad':[18, 22, 20, 15],
         'grado':['Economía', 'Psicología', 'Ingeniería', 'Medicina'],
         'correo':['maria@gmail.com', 'luis@gmail.com', 'ramon@gmail.com', 'richard@gmail.com']
         }

df = pd.DataFrame(data=datosaustral)
print(df)

    nombre  edad       grado             correo
0    María    18    Economía    maria@gmail.com
1     Luis    22  Psicología     luis@gmail.com
2    Ramón    20  Ingeniería    ramon@gmail.com
3  Richard    15    Medicina  richard@gmail.com


### ➖ Creación de un DataFrame a partir de un fichero CSV

Para crear un DataFrame a partir de un fichero csv se utiliza el método:
```python
pd.read_csv(fichero.csv, sep=separador)
```
Tener en cuenta que por default sep que es el separador entre palabras usa ',' la coma simple, entonces si no se le indica nada para sep lo utiliza.

Se puede usar tanto csv en archivo y cargarlo al ambiente de colab o usar un link al archivo csv.

In [42]:
#Ejemplo Creación DataFrame a partir de un fichero csv
#En este caso usaremos un link 
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
print(df.head())

                         nombre  edad sexo  peso altura  colesterol
0  José Luis Martínez Izquierdo    18    H  85.0   1,79       182.0
1                Rosa Díaz Díaz    32    M  65.0   1,73       232.0
2         Javier García Sánchez    24    H   NaN   1,81       191.0
3           Carmen López Pinzón    35    M  65.0   1,70       200.0
4          Marisa López Collado    46    M  51.0   1,58       148.0


## 📌 **Acceso a los elementos del DataFrame**

### ➖ Acceso a los elementos mediante posiciones de un DataFrame

El acceso a los elementos de un DataFrame mediante posiciones se hace utilizando exclusivamente el método iloc. Pero ahora veremos que hay varias variantes en el mismo.


In [1]:
#DataFrame para ejemplificar
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.head()

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,179,182.0
1,Rosa Díaz Díaz,32,M,65.0,173,232.0
2,Javier García Sánchez,24,H,,181,191.0
3,Carmen López Pinzón,35,M,65.0,170,200.0
4,Marisa López Collado,46,M,51.0,158,148.0


🔥 Recordar que en python para contar las posiciones se empieza desde el 0 🔥

**df.iloc[i, j]**  

Devuelve el elemento que se encuentra en la fila i y la columna j del DataFrame df. Pueden indicarse secuencias de índices para obtener partes del DataFrame.


In [14]:
#Usando iloc para una única fila y única columna
df.iloc[1,3]

65.0

**df.iloc[filas, columnas]**  
Devuelve un DataFrame con los elementos de las filas de la lista filas y de las columnas de la lista columnas.

In [16]:
#Usando iloc para varias filas y columnas
df.iloc[[0,1],[0,1,2]]

Unnamed: 0,nombre,edad,sexo
0,José Luis Martínez Izquierdo,18,H
1,Rosa Díaz Díaz,32,M


**df.iloc[slicing filas, slicing columnas ]**

O sea df.iloc[inicio:fin:paso , inicio:fin:paso] 

Devuelve un DataFrame con los elementos de las filas de la que van desde el inicio hasta el fin con el paso y de las columnas que van desde el inicio hasta el fin con el paso. 

Recordar que con slicing siempre toma uno menos que la posición de fin

In [18]:
#Usando iloc con slicing
df.iloc[0:2,0:3]

Unnamed: 0,nombre,edad,sexo
0,José Luis Martínez Izquierdo,18,H
1,Rosa Díaz Díaz,32,M


**df.iloc[i]** 

Devuelve una serie con los elementos de la fila i del DataFrame df. 

In [2]:
#Usando iloc para una fila
df.iloc[3]

nombre        Carmen López Pinzón
edad                           35
sexo                            M
peso                         65.0
altura                       1,70
colesterol                  200.0
Name: 3, dtype: object

**df.iloc[[i]]**

Es una variante de df.iloc[i] en la cual se puede visualizar los mismos datos pero con otro formato.

In [3]:
#Usando iloc para una fila (variante)
df.iloc[[3]]

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
3,Carmen López Pinzón,35,M,65.0,170,200.0


### ➖ Acceso a los elementos mediante nombres de un DataFrame

El acceso a los elementos de un DataFrame mediante posiciones se hace utilizando exclusivamente el método loc y con los corchetes. 

In [4]:
#DataFrame para ejemplificar
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.head()

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,179,182.0
1,Rosa Díaz Díaz,32,M,65.0,173,232.0
2,Javier García Sánchez,24,H,,181,191.0
3,Carmen López Pinzón,35,M,65.0,170,200.0
4,Marisa López Collado,46,M,51.0,158,148.0


**df.loc[fila, columna]** 

Devuelve el elemento que se encuentra en la fila con nombre fila y la columna de con nombre columna del DataFrame df.

In [5]:
#Usando loc para una única fila y única columna
df.loc[1, 'nombre']

'Rosa Díaz Díaz'

**df.loc[filas, columnas]** 

Devuelve un DataFrame con los elemento que se encuentra en las filas con los nombres de la lista filas y las columnas con los nombres de la lista columnas del DataFrame df.

In [6]:
#Usando loc para varias filas y columnas
df.loc[[0, 1, 4], ['nombre', 'sexo', 'altura']]

Unnamed: 0,nombre,sexo,altura
0,José Luis Martínez Izquierdo,H,179
1,Rosa Díaz Díaz,M,173
4,Marisa López Collado,M,158


**df.loc[slicing filas, slicing columnas]** 

O sea df.loc[inicio:fin:paso , inicio:fin:paso] Devuelve un DataFrame con los elementos de las filas de la que van desde el inicio hasta el fin con el paso y de las columnas que van desde el inicio hasta el fin con el paso.  **Aunque con nombres no es muy recomendable de hacer slicing.**

In [7]:
#Usando loc con slicing
df.loc[0:4, 'sexo':]

Unnamed: 0,sexo,peso,altura,colesterol
0,H,85.0,179,182.0
1,M,65.0,173,232.0
2,H,,181,191.0
3,M,65.0,170,200.0
4,M,51.0,158,148.0


**df[columna]**

Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df.

In [10]:
#Usando el método de los corchetes
df['edad']

0     18
1     32
2     24
3     35
4     46
5     68
6     51
7     22
8     35
9     46
10    53
11    58
12    27
13    20
Name: edad, dtype: int64

**df.columna**

Devuelve una serie con los elementos de la columna de nombre columna del DataFrame df. Es similar al método anterior pero **solo funciona cuando el nombre de la columna no tiene espacios en blanco.**

In [9]:
#Usando el método del punto
df.edad

0     18
1     32
2     24
3     35
4     46
5     68
6     51
7     22
8     35
9     46
10    53
11    58
12    27
13    20
Name: edad, dtype: int64

## 🔨 **Métodos básicos de DataFram**e

### ➖ Atributos  básicos de un dataframe

***df.info()***   
Devuelve información (número de filas, número de columnas, índices, tipo de las columnas y memoria usado) sobre el DataFrame df.

In [5]:
#Ejemplo df.info()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14 entries, 0 to 13
Data columns (total 6 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   nombre      14 non-null     object 
 1   edad        14 non-null     int64  
 2   sexo        14 non-null     object 
 3   peso        13 non-null     float64
 4   altura      14 non-null     object 
 5   colesterol  13 non-null     float64
dtypes: float64(2), int64(1), object(3)
memory usage: 800.0+ bytes


***df.shape***   
Devuelve una tupla con el número de filas y columnas del DataFrame df.

In [6]:
#Ejemplo df.shape
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.shape

(14, 6)

***df.size***   
Devuelve el número de elementos del DataFrame.

In [7]:
#Ejemplo df.size
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.size

84

***df.columns***   
Devuelve una lista con los nombres de las columnas del DataFrame df.

In [8]:
#Ejemplo df.columns
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.columns

Index(['nombre', 'edad', 'sexo', 'peso', 'altura', 'colesterol'], dtype='object')

***df.index***   
Devuelve una lista con los nombres de las filas del DataFrame df.

In [9]:
#Ejemplo df.index
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.index

RangeIndex(start=0, stop=14, step=1)

***df.dtypes***   
Devuelve una serie con los tipos de datos de las columnas del DataFrame df.

In [10]:
#Ejemplo df.dtypes
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.dtypes

nombre         object
edad            int64
sexo           object
peso          float64
altura         object
colesterol    float64
dtype: object

***df.head(n)***   
Devuelve las n primeras filas del DataFrame df. Si no se le pasa ningún n entonces devuelve las 5 primeras

In [11]:
#Ejemplo df.dtypes
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df.head(n=4)

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,179,182.0
1,Rosa Díaz Díaz,32,M,65.0,173,232.0
2,Javier García Sánchez,24,H,,181,191.0
3,Carmen López Pinzón,35,M,65.0,170,200.0


### ➖ Resumen descriptivo de un DataFrame

Al igual que para las series, los siguientes métodos permiten resumir la información de un DataFrame por columnas:

**df.count()** 

Devuelve una serie con el número de elementos que no son nulos ni NaN en cada columna del DataFrame df.

In [48]:
#df.count()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.count()

nombre        14
edad          14
sexo          14
peso          13
altura        14
colesterol    13
dtype: int64

**df.sum()** 

Devuelve una serie con la suma de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico, o la concatenación de ellos cuando son del tipo cadena str.

In [47]:
#df.sum()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.sum()

nombre        José Luis Martínez IzquierdoRosa Díaz DíazJavi...
edad                                                        535
sexo                                             HMHMMHHMHHMHHM
peso                                                      922.0
altura                                                    24.76
colesterol                                               2863.0
dtype: object

**df.cumsum()** 

Devuelve un DataFrame con la suma acumulada de los datos de las columnas del DataFrame df cuando los datos son de un tipo numérico.

In [46]:
#df.cumsum()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.cumsum()

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
1,José Luis Martínez IzquierdoRosa Díaz Díaz,50,HM,150.0,3.52,414.0
2,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,74,HMH,,5.33,605.0
3,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,109,HMHM,215.0,7.03,805.0
4,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,155,HMHMM,266.0,8.61,953.0
5,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,223,HMHMMH,332.0,10.35,1202.0
6,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,274,HMHMMHH,394.0,12.07,1478.0
7,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,296,HMHMMHHM,454.0,13.73,
8,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,331,HMHMMHHMH,544.0,15.67,1719.0
9,José Luis Martínez IzquierdoRosa Díaz DíazJavi...,377,HMHMMHHMHH,619.0,17.52,1999.0


**df.min()** 

Devuelve una serie con los menores de los datos de las columnas del DataFrame df.

In [52]:
#df.min()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.min()

nombre        Antonio Fernández Ocaña
edad                               18
sexo                                H
peso                             51.0
altura                           1.58
colesterol                      148.0
dtype: object

**df.max()**

Devuelve una serie con los mayores de los datos de las columnas del DataFrame df.

In [53]:
#df.max()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.max()

nombre        Santiago Reillo Manzano
edad                               68
sexo                                M
peso                            109.0
altura                           1.98
colesterol                      280.0
dtype: object

**df.mean(numeric_only=None)** 

Devuelve una serie con las medias de los datos de las columnas numéricas del DataFrame df. En el caso de que se ponga el argumento numeric_only=True solo toma las columnas del dataframe que son númericas

In [54]:
#df.mean()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.mean(numeric_only=True)

edad           38.214286
peso           70.923077
altura          1.768571
colesterol    220.230769
dtype: float64

**df.var(numeric_only=None)** 

Devuelve una serie con las varianzas de los datos de las columnas numéricas del DataFrame df. En el caso de que se ponga el argumento numeric_only=True solo toma las columnas del dataframe que son númericas

In [55]:
#df.var()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.var(numeric_only=True)

edad           244.027473
peso           260.076923
altura           0.013229
colesterol    1587.858974
dtype: float64

**df.std(numeric_only=None)** 

Devuelve una serie con las desviaciones típicas de los datos de las columnas numéricas del DataFrame df. En el caso de que se ponga el argumento numeric_only=True solo toma las columnas del dataframe que son númericas

In [56]:
#df.std()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.std(numeric_only=True)

edad          15.621379
peso          16.126901
altura         0.115016
colesterol    39.847948
dtype: float64

**df.cov()** 

Devuelve un DataFrame con las covarianzas de los datos de las columnas numéricas del DataFrame df.

In [1]:
#df.cov()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.cov()

Unnamed: 0,edad,peso,altura,colesterol
edad,244.027473,-69.891026,-0.326593,279.717949
peso,-69.891026,260.076923,1.764615,-2.424242
altura,-0.326593,1.764615,0.013229,0.563269
colesterol,279.717949,-2.424242,0.563269,1587.858974


**df.corr()**

Devuelve un DataFrame con los coeficientes de correlación de Pearson de los datos de las columnas numéricas del DataFrame df.

In [2]:
#df.corr()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.corr()

Unnamed: 0,edad,peso,altura,colesterol
edad,1.0,-0.276185,-0.181774,0.452391
peso,-0.276185,1.0,0.918984,-0.003621
altura,-0.181774,0.918984,1.0,0.122694
colesterol,0.452391,-0.003621,0.122694,1.0


**df.describe(include = tipo)** 

Devuelve un DataFrame con un resumen estadístico de las columnas del DataFrame df del tipo tipo. Para los datos numéricos (number) se calcula la media, la desviación típica, el mínimo, el máximo y los cuartiles. Para los datos no numéricos (object) se calcula el número de valores, el número de valores distintos, la moda y su frecuencia. Si no se indica el tipo solo se consideran las columnas numéricas.

In [3]:
#df.describe()
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.describe()

Unnamed: 0,edad,peso,altura,colesterol
count,14.0,13.0,14.0,13.0
mean,38.214286,70.923077,1.768571,220.230769
std,15.621379,16.126901,0.115016,39.847948
min,18.0,51.0,1.58,148.0
25%,24.75,61.0,1.705,194.0
50%,35.0,65.0,1.755,210.0
75%,49.75,78.0,1.84,249.0
max,68.0,109.0,1.98,280.0


### ➖ Añadir columnas a DataFrame

El procedimiento para añadir una nueva columna a un DataFrame es similar al de añadir un nuevo par a un diccionario, pero pasando los valores de la columna en una lista o serie.

***Añadiendo columnas desde una lista***

```python
df[nombre] = lista
```

Añade al DataFrame df una nueva columna con el nombre “nombre” y los valores de la lista “lista”. **La lista debe tener el mismo tamaño que el número de filas de df.**


In [16]:
#Añadir columnas desde una lista
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df['diabetes'] = [False, True, False, False, True, True, True, False, False, True, True, False, True, False]
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol,diabetes
0,José Luis Martínez Izquierdo,18,H,85.0,179,182.0,False
1,Rosa Díaz Díaz,32,M,65.0,173,232.0,True
2,Javier García Sánchez,24,H,,181,191.0,False
3,Carmen López Pinzón,35,M,65.0,170,200.0,False
4,Marisa López Collado,46,M,51.0,158,148.0,True
5,Antonio Ruiz Cruz,68,H,66.0,174,249.0,True
6,Antonio Fernández Ocaña,51,H,62.0,172,276.0,True
7,Pilar Martín González,22,M,60.0,166,,False
8,Pedro Gálvez Tenorio,35,H,90.0,194,241.0,False
9,Santiago Reillo Manzano,46,H,75.0,185,280.0,True


***Añadiendo columnas desde una serie***

```python
df[nombre] = serie
```

Añade al DataFrame df una nueva columna con el nombre “nombre” y los valores de la serie “serie”. **Si el tamaño de la serie es menor que el número de filas de df se rellena con valores NaN mientras que si es mayor se recorta.**

In [17]:
#Añadir columna desde una serie
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesteroles.csv', sep=";")
df['diabetes'] = pd.Series([False, True, False, False,])
df

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol,diabetes
0,José Luis Martínez Izquierdo,18,H,85.0,179,182.0,False
1,Rosa Díaz Díaz,32,M,65.0,173,232.0,True
2,Javier García Sánchez,24,H,,181,191.0,False
3,Carmen López Pinzón,35,M,65.0,170,200.0,False
4,Marisa López Collado,46,M,51.0,158,148.0,
5,Antonio Ruiz Cruz,68,H,66.0,174,249.0,
6,Antonio Fernández Ocaña,51,H,62.0,172,276.0,
7,Pilar Martín González,22,M,60.0,166,,
8,Pedro Gálvez Tenorio,35,H,90.0,194,241.0,
9,Santiago Reillo Manzano,46,H,75.0,185,280.0,


### ➖ Eliminar columnas a DataFrame

Para eliminar columnas de un DataFrame se utiliza el siguient método

**del d[nombre]** 

Elimina la columna con nombre nombre del DataFrame df.

In [5]:
#Eliminar columna de un Dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
del df['edad']
print(df.head())

                         nombre sexo  peso  altura  colesterol
0  José Luis Martínez Izquierdo    H  85.0    1.79       182.0
1                Rosa Díaz Díaz    M  65.0    1.73       232.0
2         Javier García Sánchez    H   NaN    1.81       191.0
3           Carmen López Pinzón    M  65.0    1.70       200.0
4          Marisa López Collado    M  51.0    1.58       148.0


### ➖ Operaciones sobre columnas

Puesto que los datos de una misma columna de un DataFrame son del mismo tipo, es fácil aplicar la misma operación a todos los elementos de la columna de forma vectorizada.
```python
df[columna] operador operando

```
el operador puede ser *, /, +, -, **, //, %, ==,!= y etc
y el operando es con lo que queremos hacer la modificación a la columna.


In [51]:
#Ejemplo operaciones vectorizadas
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv') #Notar que es un DataFrame similar pero no igual por que lleva otros separadores
df['edad']*100

0     1800
1     3200
2     2400
3     3500
4     4600
5     6800
6     5100
7     2200
8     3500
9     4600
10    5300
11    5800
12    2700
13    2000
Name: edad, dtype: int64

## 📐 Métodos útiles de DataFrame

### ➖ Aplicar funciones a columnas

Para aplicar funciones a todos los elementos de una columna se utiliza el siguiente método:

```python
df[columna].apply(f)
```
Devuelve una serie con los valores que resulta de aplicar la función f a los elementos de la columna con nombre columna del DataFrame df.

In [49]:
#Ejemplo aplicar función a columna
import pandas as pd
from math import log
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df['edad'].apply(log)

0     2.890372
1     3.465736
2     3.178054
3     3.555348
4     3.828641
5     4.219508
6     3.931826
7     3.091042
8     3.555348
9     3.828641
10    3.970292
11    4.060443
12    3.295837
13    2.995732
Name: edad, dtype: float64

### ➖ Filtrar las filas de un DataFrame

Una operación bastante común con un DataFrame es obtener las filas que cumplen una determinada condición.
```python
df[condicion]
```
Devuelve un DataFrame con las filas del DataFrame df que se corresponden con el valor True de la lista booleana condicion. condicion debe ser una lista de valores booleanos de la misma longitud que el número de filas del DataFrame.


In [7]:
#Ejemplo filtrar filas de un Dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df[(df['sexo']=='H') & (df['colesterol']>260)]

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
6,Antonio Fernández Ocaña,51,H,62.0,1.72,276.0
9,Santiago Reillo Manzano,46,H,75.0,1.85,280.0


### ➖ Ordenar un DataFrame

Para ordenar un DataFrame de acuerdo a los valores se utiliza el siguiente método

**df.sort_values(columna, ascending=booleano)** 

Devuelve el DataFrame que resulta de ordenar las filas del DataFrame df según los valores del la columna con nombre columna. Si argumento del parámetro ascending es True el orden es creciente y si es False decreciente. Por default es en orden ascendente

In [8]:
#Ejemplo filtrar filas de un Dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.sort_values('colesterol')

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
4,Marisa López Collado,46,M,51.0,1.58,148.0
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0
2,Javier García Sánchez,24,H,,1.81,191.0
13,Carolina Rubio Moreno,20,M,61.0,1.77,194.0
11,José María de la Guía Sanz,58,H,78.0,1.87,198.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
12,Miguel Angel Cuadrado Gutiérrez,27,H,109.0,1.98,210.0
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
8,Pedro Gálvez Tenorio,35,H,90.0,1.94,241.0
5,Antonio Ruiz Cruz,68,H,66.0,1.74,249.0


### ➖ Eliminar valores nulos y NAN

Para eliminar las filas de un DataFrame que contienen datos desconocidos NaN o nulos None se utiliza el siguiente método:
```python
s.dropna(subset=columnas)
```
Devuelve el DataFrame que resulta de eliminar las filas que contienen algún dato desconocido o nulo en las columnas de la lista columna del DataFrame df. Si no se pasa un argumento al parámetro subset se aplica a todas las columnas del DataFrame.


In [9]:
#Ejemplo eliminar valores nulos y NAN
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
print(df.dropna())

                             nombre  edad sexo   peso  altura  colesterol
0      José Luis Martínez Izquierdo    18    H   85.0    1.79       182.0
1                    Rosa Díaz Díaz    32    M   65.0    1.73       232.0
3               Carmen López Pinzón    35    M   65.0    1.70       200.0
4              Marisa López Collado    46    M   51.0    1.58       148.0
5                 Antonio Ruiz Cruz    68    H   66.0    1.74       249.0
6           Antonio Fernández Ocaña    51    H   62.0    1.72       276.0
8              Pedro Gálvez Tenorio    35    H   90.0    1.94       241.0
9           Santiago Reillo Manzano    46    H   75.0    1.85       280.0
10            Macarena Álvarez Luna    53    M   55.0    1.62       262.0
11       José María de la Guía Sanz    58    H   78.0    1.87       198.0
12  Miguel Angel Cuadrado Gutiérrez    27    H  109.0    1.98       210.0
13            Carolina Rubio Moreno    20    M   61.0    1.77       194.0


### ➖ Dividir un DataFrame en grupos

**Para dividir un DataFrame en grupos se utiliza el siguiente método:**
```python
df.groupby(columnas).groups
```
Devuelve un diccionario con cuyas claves son las tuplas que resultan de todas las combinaciones de los valores de las columnas con nombres en la lista columnas, y valores las listas de los nombres de las filas que contienen esos valores en las correspondientes columnas del DataFrame df.


In [10]:
#Ejemplo dividir en grupos un Dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.groupby('sexo').groups

{'H': [0, 2, 5, 6, 8, 9, 11, 12], 'M': [1, 3, 4, 7, 10, 13]}

In [22]:
#Ejemplo 2 dividir en grupos un Dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.groupby(['sexo','edad']).groups

{('H', 18): [0], ('H', 24): [2], ('H', 27): [12], ('H', 35): [8], ('H', 46): [9], ('H', 51): [6], ('H', 58): [11], ('H', 68): [5], ('M', 20): [13], ('M', 22): [7], ('M', 32): [1], ('M', 35): [3], ('M', 46): [4], ('M', 53): [10]}

**Para obtener un grupo concreto se utiliza el siguiente método:**
```ptyhon
df.groupby(columnas).get_group(valores)
```
Devuelve un DataFrame con las filas del DataFrame df que cumplen que las columnas de la lista columnas presentan los valores de la tupla valores. La lista columnas y la tupla valores deben tener el mismo tamaño.


In [15]:
#Ejemplo obtener grupo de un dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.groupby('sexo').get_group('M')

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
1,Rosa Díaz Díaz,32,M,65.0,1.73,232.0
3,Carmen López Pinzón,35,M,65.0,1.7,200.0
4,Marisa López Collado,46,M,51.0,1.58,148.0
7,Pilar Martín González,22,M,60.0,1.66,
10,Macarena Álvarez Luna,53,M,55.0,1.62,262.0
13,Carolina Rubio Moreno,20,M,61.0,1.77,194.0


In [26]:
#Ejemplo 2 obtener grupo de un dataframe
import pandas as pd
df = pd.read_csv('https://raw.githubusercontent.com/asalber/manual-python/master/datos/colesterol.csv')
df.groupby(['sexo','edad']).get_group(('H',18))

Unnamed: 0,nombre,edad,sexo,peso,altura,colesterol
0,José Luis Martínez Izquierdo,18,H,85.0,1.79,182.0


## 📎 Autores 
El presente tutorial fue elaborado por 
- Pasquini Ricardo
- Sesto Francisco