# Pandas

Según la Wikipedia, el nombre **Pandas** deriva del término "panel data", un término econométrico para conjuntos de datos estructurados multidimensionales. Pandas cuenta con tres estructuras principales de datos:

- Series
- Dataframes
- Paneles

Para conjuntos de datos unidimensionales, bidimensionales y tridimensionales respectivamente.

<table>
<tbody><tr>
<th style="text-align:center;">Estructura de datos</th>
<th style="text-align:center;">Dimensiones</th>
<th style="text-align:center;">Descripción</th>
</tr>
<tr>
<td style="text-align:center;">Series</td>
<td style="text-align:center;">1</td>
<td style="text-align:center;">Array homogéneo unidimensional de tamaño inalterable.</td>
</tr>amaño 
<tr>
<td style="text-align:center;">Data Frames</td>
<td style="text-align:center;">2</td>
<td style="text-align:center;">Estructura tabular mutable y heterogénea.</td>
</tr>
<tr>
<td style="text-align:center;">Panel</td>
<td style="text-align:center;">3</td>
<td style="text-align:center;">Estructura tridimensional mutable y heterogénea.</td>
</tr>
</tbody></table>

### Mutabilidad

Todas las estructuras de datos de Pandas son de valor mutable (se pueden cambiar) y excepto las series, todas son de tamaño mutable. La serie es de tamaño inmutable.

Nota: el **DataFrame** es ampliamente utilizado y una de las estructuras de datos más importantes. El **panel** se usa mucho menos.

Pandas puede leer datos de múltipes medios, como archivos CSV o bases de datos SQL, por ejemplo.



## Cargando datos con Pandas

Cuando se usa Pandas para el análisis de datos, estos generalmente se leerán de tres maneras diferentes:

- Convirtiendo una lista de Python, diccionario o matriz Numpy en un frame de datos de Pandas.

- Abriendo un archivo local, generalmente un archivo CSV, un fichero Excel, etc.

- Abriendo un archivo o base de datos remota como CSV o JSON de un sitio web a través de una URL o leyendo tablas de bases de datos SQL.

## Creación del dataframe
### A partir de listas

In [105]:
import pandas as pd

data = [1,2,3,4,5]
df = pd.DataFrame(data)
print(df)

   0
0  1
1  2
2  3
3  4
4  5


In [101]:
import pandas as pd

data = [['Ana',9, 5],['Laura', 7, 8],['Pedro', 5, 6]]
df = pd.DataFrame(data,columns=['Nombre','nota 1', 'nota 2'], dtype=float)
print(df)

  Nombre  nota 1  nota 2
0    Ana     9.0     5.0
1  Laura     7.0     8.0
2  Pedro     5.0     6.0


### A partir de diccionarios

In [108]:
import pandas as pd

data = {'Nombre':['Pedro', 'Juan', 'Leticia', 'Ana'],'edad':[28, 22, 21, 19]}
df = pd.DataFrame(data)
print(df)

    Nombre  edad
0    Pedro    28
1     Juan    22
2  Leticia    21
3      Ana    19


In [111]:
import pandas as pd
data = {'Name':['Tom', 'Jack', 'Steve', 'Ricky'],'Age':[28,34,29,42]}
df = pd.DataFrame(data, index=['rank1','rank2','rank3','rank4'])
print(df)

       Age   Name
rank1   28    Tom
rank2   34   Jack
rank3   29  Steve
rank4   42  Ricky


### A partir de Excel

In [28]:
import pandas as pd
import numpy as np

df = pd.read_excel('notas.xlsx', sheet_name="Hoja1")

print("Column headings:")
print(df.columns)

Column headings:
Index(['Alumno', 'nota 1', 'nota 2'], dtype='object')


In [29]:
print(df['Alumno'])

0    Montesdeoca, Ana
1         Pérez, Juan
2       Suárez, Pedro
3     Trujillo, Laura
4        Zamora, Luis
Name: Alumno, dtype: object


In [30]:
for i in df.index:
    print(df['nota 1'][i])

6
8
3
9
5


In [31]:
import pandas as pd
 
df = pd.read_excel('notas.xlsx', sheetname='Hoja1')
 
alumno = df['Alumno']
nota1 = df['nota 1']
nota2 = df['nota 2']

print(alumno)

0    Montesdeoca, Ana
1         Pérez, Juan
2       Suárez, Pedro
3     Trujillo, Laura
4        Zamora, Luis
Name: Alumno, dtype: object


In [32]:
media = (nota1+nota2)/2
print(media)

0    6.5
1    6.5
2    3.5
3    9.5
4    5.5
dtype: float64


### Series

In [115]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4


## Operaciones básicas

### Selección de columnas

In [117]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df['one'])

a    1.0
b    2.0
c    3.0
d    NaN
Name: one, dtype: float64


### Adición de columnas

In [134]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
      'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)

# Adding a new column to an existing DataFrame object with column label by passing new series

print("Adding a new column by passing as Series:")
df['three']=pd.Series([10,20,30],index=['a','b','d'])
print(df)

print("Adding a new column using the existing columns in DataFrame:")
df['four']=df['one']+df['three']

print(df)

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
Adding a new column by passing as Series:
   one  two  three
a  1.0    1   10.0
b  2.0    2   20.0
c  3.0    3    NaN
d  NaN    4   30.0
Adding a new column using the existing columns in DataFrame:
   one  two  three  four
a  1.0    1   10.0  11.0
b  2.0    2   20.0  22.0
c  3.0    3    NaN   NaN
d  NaN    4   30.0   NaN


### Eliminación de columnas

In [130]:
# Using the previous DataFrame, we will delete a column
# using del function
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd']), 
     'three' : pd.Series([10,20,30], index=['a','b','c'])}

df = pd.DataFrame(d)
print ("Our dataframe is:")
print(df)

# using del function
print ("Deleting the first column using DEL function:")
del df['one']
print(df)

# using pop function
print ("Deleting another column using POP function:")
df.pop('two')
print(df)

Our dataframe is:
   one  three  two
a  1.0   10.0    1
b  2.0   20.0    2
c  3.0   30.0    3
d  NaN    NaN    4
Deleting the first column using DEL function:
   three  two
a   10.0    1
b   20.0    2
c   30.0    3
d    NaN    4
Deleting another column using POP function:
   three
a   10.0
b   20.0
c   30.0
d    NaN


### Selección por etiquetas

In [139]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']), 
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df)
print("-------------")
print(df.loc['b'])

   one  two
a  1.0    1
b  2.0    2
c  3.0    3
d  NaN    4
-------------
one    2.0
two    2.0
Name: b, dtype: float64


### Selección por localización entera

In [142]:
import pandas as pd

d = {'one' : pd.Series([1, 2, 3], index=['a', 'b', 'c']),
     'two' : pd.Series([1, 2, 3, 4], index=['a', 'b', 'c', 'd'])}

df = pd.DataFrame(d)
print(df.iloc[2])
print(df.iloc[2:4])  # Slicing

one    3.0
two    3.0
Name: c, dtype: float64
   one  two
c  3.0    3
d  NaN    4


### Adición de filas en dataframes

In [145]:
import pandas as pd

df = pd.DataFrame([[1, 2], [3, 4]], columns = ['a','b'])
df2 = pd.DataFrame([[5, 6], [7, 8]], columns = ['a','b'])

print(df)
print("----------------")

df = df.append(df2)
print(df)

   a  b
0  1  2
1  3  4
----------------
   a  b
0  1  2
1  3  4
0  5  6
1  7  8


## Guardando datos de Pandas en Excel

In [95]:
import pandas as pd
from pandas import ExcelWriter
from pandas import ExcelFile
import numpy as np
 
df = pd.DataFrame({'a':[1,3,5,7,4,5,6,4,7,8,9],
                   'b':[3,5,6,2,4,6,7,8,7,8,9]})
 
writer = ExcelWriter('notas2.xlsx')
df.to_excel(writer,'Hoja1',index=False)
writer.save()

In [97]:
df = pd.DataFrame(data=np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]]), columns=['A', 'B', 'C'])

# Use '.index'
df['D'] = df.index

# Print 'df'
print(df)

   A  B  C  D
0  1  2  3  0
1  4  5  6  1
2  7  8  9  2
