![Pandas Library](https://s3-ap-south-1.amazonaws.com/av-blog-media/wp-content/uploads/2018/03/pandas.jpg)

# Contenido

1. Introducción
2. Tipos de datos
3. Instalación
4. Series
5. Atributos y métodos de las series
6. Dataframes
7. Atributos de los dataframes
8. Seleccionado y filtrado
9. Creación de columnas
10. Ordenación de columnas
11. Métodos de los dataframes
12. Manejo de valores nulos
13. Dataframes desde ficheros externos
14. Ejercicios

# Introducción
> Pandas es un paquete open source que nos proporciona una forma fácil de trabajar con estructuras de datos y otras herramientas para el análisis de datos con Python.

* Usa *NumPy* por lo que podemos utilizar métodos de NumPy sobre nuestros dataframes.
* Similar a los data.frames de R pero vitaminado.

# Tipos de datos

* Cuantitativos
   * Intergers, floats...cualquier dato que sea numérico. Ej: 1, 2.0
* Cualitativos
    * Cadenas de texto. Ej: Tenerife
* Null
    * nil, None, null...
* Fechas
    * Cualquier tipo de fecha. Ej: 19/02/2019, 12:34AM 23/03/2019

# Instalación

![](images/pandas/pandas_installation.png)

# Series

Son arrays unidimensionales con indexación (arrays con índice o etiquetados), similar a los diccionarios. Pueden generarse a partir de diccionarios, listas o listas de NumPy.


In [1]:
import pandas as pd
import numpy as np

s = pd.Series([1, 2, 3])
s

0    1
1    2
2    3
dtype: int64

In [None]:
s2 = pd.Series(np.arange(4), index=['a', 'b', 'c', 'd'])
s2

a    0
b    1
c    2
d    3
dtype: int64

## Creación de series desde diccionarios

In [2]:
d = {'Germany': 81.3, 
     'Belgium': 11.3, 
     'France': 64.3, 
     'United Kingdom': 64.9, 
     'Netherlands': 16.9}
s3 = pd.Series(d)
s3

Germany           81.3
Belgium           11.3
France            64.3
United Kingdom    64.9
Netherlands       16.9
dtype: float64

# Ejercicio

Crear una serie con valores de 2 a 8 mediante numpy y que su index sean las letras del abecedario

In [None]:
# Escribir aquí la solución



# Atributos y métodos de las Series

In [3]:
s3.index

Index(['Germany', 'Belgium', 'France', 'United Kingdom', 'Netherlands'], dtype='object')

In [None]:
s.values

array([1, 2, 3])

## Selección de los registros de una serie

In [4]:
s3['Germany']

81.3

In [5]:
s3.Germany

81.3

## Contando cuántas veces se repite un valor en la serie

In [None]:
s.value_counts()

3    1
2    1
1    1
dtype: int64

In [None]:
s.value_counts?

[0;31mSignature:[0m [0ms[0m[0;34m.[0m[0mvalue_counts[0m[0;34m([0m[0mnormalize[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0msort[0m[0;34m=[0m[0;32mTrue[0m[0;34m,[0m [0mascending[0m[0;34m=[0m[0;32mFalse[0m[0;34m,[0m [0mbins[0m[0;34m=[0m[0;32mNone[0m[0;34m,[0m [0mdropna[0m[0;34m=[0m[0;32mTrue[0m[0;34m)[0m[0;34m[0m[0m
[0;31mDocstring:[0m
Returns object containing counts of unique values.

The resulting object will be in descending order so that the
first element is the most frequently-occurring element.
Excludes NA values by default.

Parameters
----------
normalize : boolean, default False
    If True then the object returned will contain the relative
    frequencies of the unique values.
sort : boolean, default True
    Sort by values
ascending : boolean, default False
    Sort in ascending order
bins : integer, optional
    Rather than count values, group them into half-open bins,
    a convenience for pd.cut, only works with numeric dat

## Operaciones con series

In [None]:
s3 * 1000

Germany           81300.0
Belgium           11300.0
France            64300.0
United Kingdom    64900.0
Netherlands       16900.0
dtype: float64

In [7]:
s3.to_dict()

{'Germany': 81.3,
 'Belgium': 11.3,
 'France': 64.3,
 'United Kingdom': 64.9,
 'Netherlands': 16.9}

In [9]:
s3.tolist()

[81.3, 11.3, 64.3, 64.9, 16.9]

In [15]:
type(s3.values)

numpy.ndarray

# DataFrames
> Son estructuras de datos similares a las tablas de bases de datos relacionales como SQL

![](images/pandas/dataframe.png)

In [47]:
data = {
    "Ciudad": ["Tenerife", "Madrid", "Barcelona", "Gran Canaria", "Lanzarote", "Fuerteventura", "Sevilla"],
    "Población": [904713, 3166000000, 1609000000, 838397, None, 103167, 690566],
    "Comunidad autónoma": ["Canarias", "Madrid", "Cataluña", "Canarias", "Canarias", "Canarias", "Andalucía"]
}
df = pd.DataFrame(data)
df

Unnamed: 0,Ciudad,Población,Comunidad autónoma
0,Tenerife,904713.0,Canarias
1,Madrid,3166000000.0,Madrid
2,Barcelona,1609000000.0,Cataluña
3,Gran Canaria,838397.0,Canarias
4,Lanzarote,,Canarias
5,Fuerteventura,103167.0,Canarias
6,Sevilla,690566.0,Andalucía


In [48]:
df.head()

Unnamed: 0,Ciudad,Población,Comunidad autónoma
0,Tenerife,904713.0,Canarias
1,Madrid,3166000000.0,Madrid
2,Barcelona,1609000000.0,Cataluña
3,Gran Canaria,838397.0,Canarias
4,Lanzarote,,Canarias


In [49]:
df.tail()

Unnamed: 0,Ciudad,Población,Comunidad autónoma
2,Barcelona,1609000000.0,Cataluña
3,Gran Canaria,838397.0,Canarias
4,Lanzarote,,Canarias
5,Fuerteventura,103167.0,Canarias
6,Sevilla,690566.0,Andalucía


# Ejercicio

Crear un dataframe con la siguiente estructura:

| Provincia     | Edad          | Salario  |
| ------------- |:-------------:| --------:|
| Tenerife      | 29            | 16000    |
| Madrid        | 50            | 36000    |
| Sevilla       | 80            | 55000    |

In [None]:
# Escribir aquí la solución




# Atributos de los Dataframes

In [50]:
df.shape
print('El dataframe tiene {} registros'.format(df.shape[0]))
print('El dataframe tiene {} columnas'.format(df.shape[1]))

El dataframe tiene 7 registros
El dataframe tiene 3 columnas


In [51]:
df.index

RangeIndex(start=0, stop=7, step=1)

In [52]:
df.columns

Index(['Ciudad', 'Población', 'Comunidad autónoma'], dtype='object')

In [53]:
df.values

array([['Tenerife', 904713.0, 'Canarias'],
       ['Madrid', 3166000000.0, 'Madrid'],
       ['Barcelona', 1609000000.0, 'Cataluña'],
       ['Gran Canaria', 838397.0, 'Canarias'],
       ['Lanzarote', nan, 'Canarias'],
       ['Fuerteventura', 103167.0, 'Canarias'],
       ['Sevilla', 690566.0, 'Andalucía']], dtype=object)

In [54]:
df.dtypes

Ciudad                 object
Población             float64
Comunidad autónoma     object
dtype: object

In [55]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 3 columns):
Ciudad                7 non-null object
Población             6 non-null float64
Comunidad autónoma    7 non-null object
dtypes: float64(1), object(2)
memory usage: 248.0+ bytes


# Seleccionado y filtrado

In [57]:
df['Ciudad']

0         Tenerife
1           Madrid
2        Barcelona
3     Gran Canaria
4        Lanzarote
5    Fuerteventura
6          Sevilla
Name: Ciudad, dtype: object

In [58]:
df.Ciudad

0         Tenerife
1           Madrid
2        Barcelona
3     Gran Canaria
4        Lanzarote
5    Fuerteventura
6          Sevilla
Name: Ciudad, dtype: object

In [59]:
df['Ciudad'].str.startswith('T')

0     True
1    False
2    False
3    False
4    False
5    False
6    False
Name: Ciudad, dtype: bool

In [60]:
df[df['Ciudad'].str.startswith('T') == True]

Unnamed: 0,Ciudad,Población,Comunidad autónoma
0,Tenerife,904713.0,Canarias


In [61]:
df[df['Población'] > 1_000_000_000]

Unnamed: 0,Ciudad,Población,Comunidad autónoma
1,Madrid,3166000000.0,Madrid
2,Barcelona,1609000000.0,Cataluña


In [62]:
df['Población'] > 1_000_000_000

0    False
1     True
2     True
3    False
4    False
5    False
6    False
Name: Población, dtype: bool

In [63]:
df[['Población', 'Ciudad']]

Unnamed: 0,Población,Ciudad
0,904713.0,Tenerife
1,3166000000.0,Madrid
2,1609000000.0,Barcelona
3,838397.0,Gran Canaria
4,,Lanzarote
5,103167.0,Fuerteventura
6,690566.0,Sevilla


In [64]:
df[:2]

Unnamed: 0,Ciudad,Población,Comunidad autónoma
0,Tenerife,904713.0,Canarias
1,Madrid,3166000000.0,Madrid


In [65]:
df.loc[1, 'Comunidad autónoma']

'Madrid'

In [66]:
df.loc[1:2, ['Ciudad', 'Población']]

Unnamed: 0,Ciudad,Población
1,Madrid,3166000000.0
2,Barcelona,1609000000.0


In [67]:
c = df['Ciudad']
c.isin(['Tenerife', 'Madrid'])

0     True
1     True
2    False
3    False
4    False
5    False
6    False
Name: Ciudad, dtype: bool

In [68]:
df[df['Ciudad'].isin(['Tenerife'])]

Unnamed: 0,Ciudad,Población,Comunidad autónoma
0,Tenerife,904713.0,Canarias


# Creación de columnas

In [69]:
df['ID'] = [100, 101, 102, 102, 104, 105, 106]
df

Unnamed: 0,Ciudad,Población,Comunidad autónoma,ID
0,Tenerife,904713.0,Canarias,100
1,Madrid,3166000000.0,Madrid,101
2,Barcelona,1609000000.0,Cataluña,102
3,Gran Canaria,838397.0,Canarias,102
4,Lanzarote,,Canarias,104
5,Fuerteventura,103167.0,Canarias,105
6,Sevilla,690566.0,Andalucía,106


# Ejercicio

Modificar los valores de la columna salario dividiéndolos entre 12

In [None]:
# Escribir aquí la solución




# Eliminación de columnas

In [70]:
df.drop(['Población'], axis=1)

Unnamed: 0,Ciudad,Comunidad autónoma,ID
0,Tenerife,Canarias,100
1,Madrid,Madrid,101
2,Barcelona,Cataluña,102
3,Gran Canaria,Canarias,102
4,Lanzarote,Canarias,104
5,Fuerteventura,Canarias,105
6,Sevilla,Andalucía,106


# Cambiar el index por defecto

In [71]:
df = df.set_index('ID')
df

Unnamed: 0_level_0,Ciudad,Población,Comunidad autónoma
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,Tenerife,904713.0,Canarias
101,Madrid,3166000000.0,Madrid
102,Barcelona,1609000000.0,Cataluña
102,Gran Canaria,838397.0,Canarias
104,Lanzarote,,Canarias
105,Fuerteventura,103167.0,Canarias
106,Sevilla,690566.0,Andalucía


# Ordenación de columnas

In [73]:
df.sort_values('Ciudad', ascending=True)

Unnamed: 0_level_0,Ciudad,Población,Comunidad autónoma
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
102,Barcelona,1609000000.0,Cataluña
105,Fuerteventura,103167.0,Canarias
102,Gran Canaria,838397.0,Canarias
104,Lanzarote,,Canarias
101,Madrid,3166000000.0,Madrid
106,Sevilla,690566.0,Andalucía
100,Tenerife,904713.0,Canarias


# Métodos de los dataframes

In [74]:
df['Ciudad'].value_counts()

Lanzarote        1
Tenerife         1
Madrid           1
Gran Canaria     1
Sevilla          1
Fuerteventura    1
Barcelona        1
Name: Ciudad, dtype: int64

In [75]:
np.unique(df['Ciudad'])

array(['Barcelona', 'Fuerteventura', 'Gran Canaria', 'Lanzarote',
       'Madrid', 'Sevilla', 'Tenerife'], dtype=object)

In [76]:
df.mean()

Población    796256140.5
dtype: float64

In [77]:
df.min()

Ciudad                Barcelona
Población                103167
Comunidad autónoma    Andalucía
dtype: object

In [78]:
df.max()

Ciudad                 Tenerife
Población             3.166e+09
Comunidad autónoma       Madrid
dtype: object

In [79]:
df.median()

Población    871555.0
dtype: float64

In [82]:
df.quantile()

Población    871555.0
Name: 0.5, dtype: float64

In [83]:
df.describe()

Unnamed: 0,Población
count,6.0
mean,796256100.0
std,1327275000.0
min,103167.0
25%,727523.8
50%,871555.0
75%,1206976000.0
max,3166000000.0


In [84]:
df.transpose()

ID,100,101,102,102.1,104,105,106
Ciudad,Tenerife,Madrid,Barcelona,Gran Canaria,Lanzarote,Fuerteventura,Sevilla
Población,904713,3.166e+09,1.609e+09,838397,,103167,690566
Comunidad autónoma,Canarias,Madrid,Cataluña,Canarias,Canarias,Canarias,Andalucía


In [85]:
df.corr()

Unnamed: 0,Población
Población,1.0


## Modificación de una columna

In [86]:
def sum_col(x):
    return x + 10

df['Población'].apply(sum_col)

ID
100    9.047230e+05
101    3.166000e+09
102    1.609000e+09
102    8.384070e+05
104             NaN
105    1.031770e+05
106    6.905760e+05
Name: Población, dtype: float64

# Manejo de valores nulos

In [87]:
df.isnull()

Unnamed: 0_level_0,Ciudad,Población,Comunidad autónoma
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
100,False,False,False
101,False,False,False
102,False,False,False
102,False,False,False
104,False,True,False
105,False,False,False
106,False,False,False


In [88]:
df['Población'].isnull()

ID
100    False
101    False
102    False
102    False
104     True
105    False
106    False
Name: Población, dtype: bool

In [89]:
df['Población'].dropna()

ID
100    9.047130e+05
101    3.166000e+09
102    1.609000e+09
102    8.383970e+05
105    1.031670e+05
106    6.905660e+05
Name: Población, dtype: float64

In [90]:
df['Población'].fillna(1)

ID
100    9.047130e+05
101    3.166000e+09
102    1.609000e+09
102    8.383970e+05
104    1.000000e+00
105    1.031670e+05
106    6.905660e+05
Name: Población, dtype: float64

# Agrupaciones

![](images/pandas/splitApplyCombine.png)

In [91]:
df2 = pd.DataFrame({'key':['A','B','C','A','B','C','A','B','C'],
                   'data': [0, 5, 10, 5, 10, 15, 10, 15, 20]})

In [94]:
df2.groupby('key').aggregate(np.sum)

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,15
B,30
C,45


In [95]:
df2.groupby('key').sum()

Unnamed: 0_level_0,data
key,Unnamed: 1_level_1
A,15
B,30
C,45


# Dataframes desde ficheros externos

In [96]:
df3 = pd.read_csv('data/app_store_transformed.csv', index_col=0)
#df4 = pd.read_excel('')
#df5 = pd.read_sql_query('')
df3.head()

Unnamed: 0,Id,App,Reviews,Rating,Current Version,Category,Type,Size,Price,Content Rating
1,281656475,PAC-MAN Premium,21292,4.0,6.3.5,Games,Paid,96.1M,3.99$,Everyone
2,281796108,Evernote - stay organized,161065,4.0,8.2.2,Productivity,Free,151.2M,0.0$,Everyone
3,281940292,"WeatherBug - Local Weather, Radar, Maps, Alerts",188583,3.5,5.0.0,Weather,Free,95.9M,0.0$,Everyone
4,282614216,"eBay: Best App to Buy, Sell, Save! Online Shop...",262241,4.0,5.10.0,Shopping,Free,122.6M,0.0$,Everyone 12+
5,282935706,Bible,985920,4.5,7.5.1,Reference,Free,88.5M,0.0$,Everyone


In [97]:
df3['Rating'].mean()

3.526955675976101

In [98]:
df3['Category'].value_counts()

Games                3862
Entertainment         535
Education             453
Photo & Video         349
Utilities             248
Health & Fitness      180
Productivity          178
Social Networking     167
Lifestyle             144
Music                 138
Shopping              122
Sports                114
Book                  112
Finance               104
Travel                 81
News                   75
Weather                72
Reference              64
Food & Drink           63
Business               57
Navigation             46
Medical                23
Catalogs               10
Name: Category, dtype: int64

In [101]:
df3['Reviews'] = pd.to_numeric(df3['Reviews'])
df3.dtypes

Id                   int64
App                 object
Reviews              int64
Rating             float64
Current Version     object
Category            object
Type                object
Size                object
Price               object
Content Rating      object
dtype: object

In [102]:
df3['Reviews'].max()

2974676

# Ejercicio

Crear un dataframe a partir del csv 'googleplaystore.csv'

In [None]:
# Escribir aquí la solución




# Ejercicio

Hacer las columnas de este dataframe accesibles mediante la sintaxis de Python

In [None]:
# Escribir aquí la solución




# Ejercicio

Revisar que todas las columnas tienen el tipo correcto, si no es así, cambiarles el tipo al adecuado

In [None]:
# Escribir aquí la solución




# Ejercicio

Analizar los valores de las columnas por si hubieran valores erróneos, en ese caso eliminarlos

In [None]:
# Escribir aquí la solución




# Ejercicio

Obtener el número de registros que no tienen ninguna review

In [None]:
# Escribir aquí la solución


