# Pandas

Pandas es una herramienta de análisis y manipulación de datos de código abierto rápida, potente, flexible y fácil de usar, construida sobre Python.

Ventajas:
* Reduce lineas de código
* Diseñada especialmente para análisis
* API fácil y concisa
* Multiples funciones

Desventajas:
* Compatibilidad con matrices 3 (numpy)
* Curva de aprendizaje lenta

In [2]:
import pandas as pd

## DataFrames

Los DataFrames son el objeto más usado de Pandas, estas son estructuras bidimensionales con columnas de datos de cualquier tipo. Se pueden asimilar a una hoja de cálculo, o una tabla de una base de datos, o, simplemente, un diccionario de objetos tipo Series. Los DataFrames etiquetan los datos con el índice y con los identificadores de cada columna.

Los DataFrames se pueden construir de muchas maneras, p. ej. a partir de un diccionario de Series (con NaN para las claves sin valor en la serie):

In [9]:
import pandas as pd

# Mi manera favoita
data=[
    ['Mario',24,1.68],
    ['Caleb',25,1.69],
    ['Guillermo',23,1.80],
]

columns = ['nombre','edad','estatura']

df = pd.DataFrame(data=data, columns=columns)
print(df)

### otros ejemplos
df2 = pd.DataFrame({'col1': [1, 3], 'col2': [3, 5]})
print(df2)

df3 = pd.DataFrame({'col1': [1, 3], 'col2': [3, 5]}, index=['row1', 'row2'])
print(df3)

df4 = pd.DataFrame({'col1': {'row1': 1, 'row2': 2}, 'col2': {'row1': 3, 'row3': 5}})
print(df4)

      nombre  edad  estatura
0      Mario    24      1.68
1      Caleb    25      1.69
2  Guillermo    23      1.80
   col1  col2
0     1     3
1     3     5
      col1  col2
row1     1     3
row2     3     5
      col1  col2
row1   1.0   3.0
row2   2.0   NaN
row3   NaN   5.0


Los atributos values, index y columns permiten acceder respectivamente a un ndarray del contenido del DataFrame, a los objetos índice de las filas y de las columnas.

In [18]:
import pandas as pd

data=[
    ['Mario',24,1.68],
    ['Caleb',25,1.69],
    ['Guillermo',23,1.80],
]

columns = ['nombre','edad','estatura']

df = pd.DataFrame(data=data, columns=columns)

print(type(df.values))
print(df.values)

print(df.index)
print(df.columns)

print(df.shape) # muestra las dimensiones del df

<class 'numpy.ndarray'>
[['Mario' 24 1.68]
 ['Caleb' 25 1.69]
 ['Guillermo' 23 1.8]]
RangeIndex(start=0, stop=3, step=1)
Index(['nombre', 'edad', 'estatura'], dtype='object')
(3, 3)


In [None]:
## metodos permiten inspeccionar los contenidos de un df
print(df.head(5)) # muestra los primeros 5
print(df.tail(5)) # muestra los ultimos 5
print(df.info(5))

      nombre  edad  estatura
0      Mario    24      1.68
1      Caleb    25      1.69
2  Guillermo    23      1.80
      nombre  edad  estatura
0      Mario    24      1.68
1      Caleb    25      1.69
2  Guillermo    23      1.80
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 3 columns):
 #   Column    Non-Null Count  Dtype  
---  ------    --------------  -----  
 0   nombre    3 non-null      object 
 1   edad      3 non-null      int64  
 2   estatura  3 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 204.0+ bytes
None


## Tipos de datos

Pandas usa los tipos de NumPy y algunos propios más. Los objetos Series tienen un dtype como los arrays de NumPy. Si los datos que lo componen no son de tipo homogéneo, entonces el dtype de la serie será object (tipo genérico).


Los DataFrames tiene un dtype por columna (que es equivalente a una serie). Se pueden ver con el atributo dtypes.


In [25]:
df = pd.DataFrame([[0, 1, 2], ['a', 10, 11]])
print(df)
print(df.dtypes)

## el parámetro dtype se puede usar para forzar el tipo de las Series
df2 = pd.DataFrame([[0, 1], [10, 11]], dtype=float)
print(df2)
print(df2.dtypes)

   0   1   2
0  0   1   2
1  a  10  11
0    object
1     int64
2     int64
dtype: object
      0     1
0   0.0   1.0
1  10.0  11.0
0    float64
1    float64
dtype: object
