# Hoja de Trucos: Pandas

## Pandas para Ciencia de Datos en Python

In [11]:
import pandas as pd
import numpy as np

## Estructuras de datos de Pandas

### Series

In [2]:
s = pd.Series([3, -5, 7, 4],  index=['a',  'b',  'c',  'd']) # Una matriz (array) etiquetada unidimensional capaz de contener cualquier tipo de datos

### Data Frame

In [16]:
data = {'Country': ['Belgium',  'India',  'Brazil'],
        'Capital': ['Brussels',  'New Delhi',  'Brasilia'],
        'Population': [11190846, 1303171035, 207847528]}  # Una estructura de datos etiquetada bidimensional con columnas de tipos potencialmente diferentes

df = pd.DataFrame(data,columns=['Country',  'Capital',  'Population']) # Crear el df
df

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


## Ordenar y clasificar

In [18]:
df.sort_index() # Ordenar por etiquetas a lo largo de un eje

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


In [None]:
df.sort_values(by= 'Country') # Ordenar por los valores a lo largo de un eje

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
2,Brazil,Brasilia,207847528
1,India,New Delhi,1303171035


In [20]:
df.rank() # Asignar rangos a las entradas

Unnamed: 0,Country,Capital,Population
0,1.0,2.0,1.0
1,3.0,3.0,3.0
2,2.0,1.0,2.0


## Leer y escribir en CSV

In [None]:
pd.read_csv('file.csv', header=None, nrows=5)

In [None]:
df.to_csv('myDataFrame.csv')

## Leer y escribir en Excel

In [None]:
pd.read_excel('file.xlsx')

In [None]:
df.to_excel('dir/myDataFrame.xlsx', sheet_name='Sheet1')

### Leer varias hojas del mismo archivo

In [None]:
xlsx = pd.ExcelFile('file.xlsx') 

In [None]:
df = pd.read_excel(xlsx,'Sheet1')

## Leer y escribir en una consulta SQL o una tabla de base de datos

In [21]:
from sqlalchemy import create_engine

In [None]:
engine = create_engine('sqlite:///:memory:')

In [None]:
pd.read_sql(SELECT * FROM my_table;, engine)

In [None]:
pd.read_sql_table('my_table', engine)

In [None]:
pd.read_sql_query(SELECT * FROM my_table;', engine)
# read_sql() es una envoltura conveniente para read_sql_table() y read_sql_query()

In [None]:
df.to_sql('myDf', engine)

## Selección

### Obtención

In [22]:
s['b'] # Obtener un elemento

-5

In [23]:
df[1:] # Obtener un subconjunto de un DataFrame al quitar la primera fila

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035
2,Brazil,Brasilia,207847528


### Selección, indexación booleana y configuración

#### Por posición

In [26]:
df.iloc[0, 0] # Seleccionar un único valor por fila y columna


'Belgium'

In [28]:
df.iat[0, 0]

'Belgium'

#### Por etiqueta

In [None]:
df.loc[[0], ['Country']] # Seleccionar un único valor por etiquetas de fila y columna

Unnamed: 0,Country
0,Belgium


In [31]:
df.at[0,  'Country']

'Belgium'

#### Por etiqueta/posición

In [33]:
df.iloc[2] # Seleccionar una sola fila de un subconjunto de filas

Country          Brazil
Capital        Brasilia
Population    207847528
Name: 2, dtype: object

In [35]:
df.loc[:, 'Capital'] # Seleccionar una sola columna o un subconjunto de columnas

0     Brussels
1    New Delhi
2     Brasilia
Name: Capital, dtype: object

In [36]:
df.loc[1, 'Capital'] # Seleccionar filas y columnas 

'New Delhi'

### Indexación booleana

In [37]:
s[~(s > 1)] # Series s donde el valor no es >1

b   -5
dtype: int64

In [38]:
s[(s < -1) | (s > 2)] # s donde el valor es <-1 o >2

a    3
b   -5
c    7
d    4
dtype: int64

In [39]:
df[df['Population']>1200000000] # Usar el filtro para ajustar el DataFrame

Unnamed: 0,Country,Capital,Population
1,India,New Delhi,1303171035


#### Configuración

In [40]:
s['a'] = 6 # Establezca el índice a de la Serie s en 6

## Recuperación de información de series/marcos de datos

### Información básica

In [41]:
df.shape # Filas, columnas

(3, 3)

In [42]:
df.index # Describir índice

RangeIndex(start=0, stop=3, step=1)

In [43]:
df.columns # Describir las columnas de DataFrame

Index(['Country', 'Capital', 'Population'], dtype='object')

In [44]:
df.info() # Describir las columnas de DataFrame

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   Country     3 non-null      object
 1   Capital     3 non-null      object
 2   Population  3 non-null      int64 
dtypes: int64(1), object(2)
memory usage: 204.0+ bytes


In [45]:
df.count() # Número de valores distintos de NA

Country       3
Capital       3
Population    3
dtype: int64

### Resumen

In [46]:
df.sum() # Suma de valores

Country              BelgiumIndiaBrazil
Capital       BrusselsNew DelhiBrasilia
Population                   1522209409
dtype: object

In [47]:
df.cumsum() # Suma acumulada de valores

Unnamed: 0,Country,Capital,Population
0,Belgium,Brussels,11190846
1,BelgiumIndia,BrusselsNew Delhi,1314361881
2,BelgiumIndiaBrazil,BrusselsNew DelhiBrasilia,1522209409


In [53]:
df.describe() # Resumen de estadísticas

Unnamed: 0,Population
count,3.0
mean,507403100.0
std,696134600.0
min,11190850.0
25%,109519200.0
50%,207847500.0
75%,755509300.0
max,1303171000.0


In [55]:
df['Population'].mean() # Media de valores

507403136.3333333

In [57]:
df['Population'].median() # Mediana de valores

207847528.0

## Aplicación de funciones

In [58]:
f = lambda x: x*2

In [59]:
df.apply(f) # Aplicar función

Unnamed: 0,Country,Capital,Population
0,BelgiumBelgium,BrusselsBrussels,22381692
1,IndiaIndia,New DelhiNew Delhi,2606342070
2,BrazilBrazil,BrasiliaBrasilia,415695056


In [61]:
df.applymap(f) # Aplicar función elemento por elemento

  df.applymap(f) # Aplicar función elemento por elemento


Unnamed: 0,Country,Capital,Population
0,BelgiumBelgium,BrusselsBrussels,22381692
1,IndiaIndia,New DelhiNew Delhi,2606342070
2,BrazilBrazil,BrasiliaBrasilia,415695056


## Alineación de datos

### Alineación de datos internos

In [62]:
# Los valores NA se introducen en los índices que no se superponen:
s3 = pd.Series([7, -2, 3],  index=['a',  'c',  'd'])
s + s3

a    13.0
b     NaN
c     5.0
d     7.0
dtype: float64

### Operaciones aritméticas con métodos de relleno

In [63]:
# También puede realizar la alineación de datos internos usted mismo con la ayuda de los métodos de relleno:
s.add(s3, fill_value=0)

a    13.0
b    -5.0
c     5.0
d     7.0
dtype: float64

In [64]:
s.sub(s3, fill_value=2)

a   -1.0
b   -7.0
c    9.0
d    1.0
dtype: float64

In [65]:
s.div(s3, fill_value=4)

a    0.857143
b   -1.250000
c   -3.500000
d    1.333333
dtype: float64

In [66]:
s.mul(s3, fill_value=3)

a    42.0
b   -15.0
c   -14.0
d    12.0
dtype: float64

## Eliminar datos

In [70]:
s.drop(['a',  'c']) # Eliminar valores de las filas (eje=0)

b   -5
d    4
dtype: int64

In [69]:
df.drop('Country', axis=1) # Eliminar valores de las columnas (eje=1)

Unnamed: 0,Capital,Population
0,Brussels,11190846
1,New Delhi,1303171035
2,Brasilia,207847528
