# "Pandas: manipulación de datos en Python"
> "Guía de referencia básica de la librería Pandas de Python"

- toc: true
- branch: master
- badges: true
- comments: true
- categories: [python, kaggle, ML]
- image: images/python.png
- hide: false
- search_exclude: true
- metadata_key1: metadata_value1
- metadata_key2: metadata_value2

> tip: Puedes ver este post en GitHub o ejecutarlo en Binder o Google Colab, pulsa el icono.

Fuentes:<br>
[Cursos Machine Learning - Kaggle](https://www.kaggle.com/learn)<br>


In [3]:
import pandas as pd

## Creación e acceso

**Dataframe**: 
Es una tabla.
Index = lista de nombres de filas

In [131]:
tabla=pd.DataFrame({'España': [100, 150,80], 
              'Portugal': [120, 130,75],
              'Francia': [90, 105,46],
              'color': ['rojo', 'verde','rojo'],
              'id': ['a23', 'b34','a12']},
             index=['Producto A', 'Producto B', 'Producto C'])
tabla

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,a23
Producto B,150,130,105,verde,b34
Producto C,80,75,46,rojo,a12


In [132]:
datos = pd.read_csv("../tabla.csv")

FileNotFoundError: [Errno 2] No such file or directory: '../tabla.csv'

**Series**: Es un Dataframe de una columna

In [133]:
pd.Series([1, 2, 3, 4, 5]) # el indice de fila empieza por 0

0    1
1    2
2    3
3    4
4    5
dtype: int64

In [134]:
columna= pd.Series([100, 150,80], index=['Producto A', 'Producto B', 'Producto C'], name='España')
columna

Producto A    100
Producto B    150
Producto C     80
Name: España, dtype: int64

In [135]:
tabla.shape,columna.shape

((3, 5), (3,))

In [136]:
tabla.head()

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,a23
Producto B,150,130,105,verde,b34
Producto C,80,75,46,rojo,a12


In [137]:
tabla.España # =  tabla['España']

Producto A    100
Producto B    150
Producto C     80
Name: España, dtype: int64

In [138]:
tabla['España'][0]

100

In [139]:
tabla.iloc[0,:]

España       100
Portugal     120
Francia       90
color       rojo
id           a23
Name: Producto A, dtype: object

In [140]:
tabla.iloc[[0, 1], [1, 2]] # 0:10 = 0..9

Unnamed: 0,Portugal,Francia
Producto A,120,90
Producto B,130,105


In [141]:
tabla.loc[:,'Portugal']   # 0:10 = 0..10

Producto A    120
Producto B    130
Producto C     75
Name: Portugal, dtype: int64

In [142]:
tabla.set_index('id')  # cambia la columna indice de la tabla

Unnamed: 0_level_0,España,Portugal,Francia,color
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
a23,100,120,90,rojo
b34,150,130,105,verde
a12,80,75,46,rojo


In [143]:
tabla.color == 'rojo'

Producto A     True
Producto B    False
Producto C     True
Name: color, dtype: bool

In [144]:
tabla.loc[(tabla.color == 'rojo') & (tabla.Portugal < 120)]

Unnamed: 0,España,Portugal,Francia,color,id
Producto C,80,75,46,rojo,a12


In [145]:
tabla.loc[tabla.color.isin(['rojo'])]

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,a23
Producto C,80,75,46,rojo,a12


In [146]:
tabla.loc[tabla.Francia.notnull()]

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,a23
Producto B,150,130,105,verde,b34
Producto C,80,75,46,rojo,a12


In [147]:
tabla['Francia'][1]=20
tabla

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  tabla['Francia'][1]=20


Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,a23
Producto B,150,130,20,verde,b34
Producto C,80,75,46,rojo,a12


In [148]:
tabla['id']= range(len(tabla),0,-1)
tabla

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,3
Producto B,150,130,20,verde,2
Producto C,80,75,46,rojo,1


## Funciones

In [149]:
tabla.describe()

Unnamed: 0,España,Portugal,Francia,id
count,3.0,3.0,3.0,3.0
mean,110.0,108.333333,52.0,2.0
std,36.055513,29.297326,35.383612,1.0
min,80.0,75.0,20.0,1.0
25%,90.0,97.5,33.0,1.5
50%,100.0,120.0,46.0,2.0
75%,125.0,125.0,68.0,2.5
max,150.0,130.0,90.0,3.0


In [150]:
print(tabla.España.mean())
print(tabla.color.unique())

110.0
['rojo' 'verde']


In [151]:
tabla.color.value_counts()

rojo     2
verde    1
Name: color, dtype: int64

In [152]:
tabla.Portugal.map(lambda p:p - tabla.Portugal.mean())

Producto A    11.666667
Producto B    21.666667
Producto C   -33.333333
Name: Portugal, dtype: float64

In [153]:
tabla.Portugal - tabla.Portugal.mean()

Producto A    11.666667
Producto B    21.666667
Producto C   -33.333333
Name: Portugal, dtype: float64

In [154]:
def remean_Portugal(row):
    row.Portugal = row.Portugal - tabla.Portugal.mean()
    return row

tabla.apply(remean_Portugal, axis='columns')

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,11.666667,90,rojo,3
Producto B,150,21.666667,20,verde,2
Producto C,80,-33.333333,46,rojo,1


## Agrupaciones

In [155]:
tabla.groupby('color').Portugal.min()

color
rojo      75
verde    130
Name: Portugal, dtype: int64

In [156]:
tabla.groupby('color').apply(lambda df: df.Portugal.iloc[0])

color
rojo     120
verde    130
dtype: int64

In [157]:
tabla.groupby(['color']).Portugal.agg([len, min, max])

Unnamed: 0_level_0,len,min,max
color,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
rojo,2,75,120
verde,1,130,130


In [158]:
tabla_revisada = tabla.groupby(['color', 'id']).España.agg([max])
tabla_revisada

Unnamed: 0_level_0,Unnamed: 1_level_0,max
color,id,Unnamed: 2_level_1
rojo,1,80
rojo,3,100
verde,2,150


In [159]:
tabla_revisada.reset_index()

Unnamed: 0,color,id,max
0,rojo,1,80
1,rojo,3,100
2,verde,2,150


## Ordenaciones

In [160]:
tabla_revisada.sort_values(by='max', ascending=False)

Unnamed: 0_level_0,Unnamed: 1_level_0,max
color,id,Unnamed: 2_level_1
verde,2,150
rojo,3,100
rojo,1,80


In [161]:
tabla.sort_index()

Unnamed: 0,España,Portugal,Francia,color,id
Producto A,100,120,90,rojo,3
Producto B,150,130,20,verde,2
Producto C,80,75,46,rojo,1


In [162]:
tabla.sort_values(by=['España', 'id'])

Unnamed: 0,España,Portugal,Francia,color,id
Producto C,80,75,46,rojo,1
Producto A,100,120,90,rojo,3
Producto B,150,130,20,verde,2


## Valores faltantes

In [163]:
tabla.España.dtype, tabla.color.dtype

(dtype('int64'), dtype('O'))

In [164]:
tabla.dtypes

España       int64
Portugal     int64
Francia      int64
color       object
id           int64
dtype: object

In [165]:
tabla.Francia.astype('float64')   # cambiar el tipo de dato

Producto A    90.0
Producto B    20.0
Producto C    46.0
Name: Francia, dtype: float64

In [166]:
tabla[pd.isnull(tabla.Francia)]

Unnamed: 0,España,Portugal,Francia,color,id


In [None]:
tabla.España.fillna("Unknown")

In [169]:
tabla.color.replace("rojo", "amarillo")

Producto A    amarillo
Producto B       verde
Producto C    amarillo
Name: color, dtype: object

## Renombrar

In [170]:
tabla.rename(columns={'Francia': 'Alemania'})

Unnamed: 0,España,Portugal,Alemania,color,id
Producto A,100,120,90,rojo,3
Producto B,150,130,20,verde,2
Producto C,80,75,46,rojo,1


In [171]:
tabla.rename(index={'Producto A': 'Producto D'})


Unnamed: 0,España,Portugal,Francia,color,id
Producto D,100,120,90,rojo,3
Producto B,150,130,20,verde,2
Producto C,80,75,46,rojo,1


In [172]:
tabla.rename_axis("Productos", axis='rows').rename_axis("Paises", axis='columns')

Paises,España,Portugal,Francia,color,id
Productos,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Producto A,100,120,90,rojo,3
Producto B,150,130,20,verde,2
Producto C,80,75,46,rojo,1


## Combinaciones

In [None]:
canadian_youtube = pd.read_csv("../input/youtube-new/CAvideos.csv")
british_youtube = pd.read_csv("../input/youtube-new/GBvideos.csv")

pd.concat([canadian_youtube, british_youtube])

In [None]:
left = canadian_youtube.set_index(['title', 'trending_date'])
right = british_youtube.set_index(['title', 'trending_date'])

left.join(right, lsuffix='_CAN', rsuffix='_UK')