# Análisis de datos usando la librería Pandas

## ¿Qué es [Pandas](https://pandas.pydata.org/)?

Pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y robustas diseñadas para hacer que trabajar con datos 'relacionados' o 'etiquetados' sea fácil e intuitivo. Su objetivo es ser el componente fundamental de alto nivel para realizar análisis de datos prácticos y del mundo real en Python.

Pandas es adecuado para muchos tipos diferentes de datos:

* Datos tabulares con columnas escritas de forma heterogénea, como en una tabla SQL o una hoja de cálculo de Excel.
* Datos de series temporales ordenados y desordenados (no necesariamente de frecuencia fija).
* Datos matriciales arbitrarios con etiquetas de filas y columnas
* Cualquier otra forma de conjuntos de datos observacionales/estadísticos.

### Estructura de un arreglo tipo Pandas:

![fig_pandas](https://drive.google.com/uc?export=view&id=1-UB3nK4VWrJFmc9jS7Lg5KVAFpCnGnqc)



Empecemos con lo básico:

In [None]:
# Instalamos la librería:
# python - m pip install pandas

In [1]:
# importamos la librería:
import pandas as pd

In [2]:
# Revisamos la versión:
print(pd.__version__)

1.5.3


In [3]:
# Nuestro primer objeto dataFrame de Pandas:
df = pd.DataFrame({'X':[78,85,96,80,86], 'Y':[84,94,89,83,86],'Z':[86,97,96,72,83]});
print(df)


    X   Y   Z
0  78  84  86
1  85  94  97
2  96  89  96
3  80  83  72
4  86  86  83


In [4]:
# Ahora un objeto Serie de Pandas:
s = pd.Series([2, 4, 6, 8, 10])
print(s)


0     2
1     4
2     6
3     8
4    10
dtype: int64


### Creando objetos de prueba:

1. Tabla (dataFrame) de 5 columnas y 20 filas con números aleatorios:
```
pd.DataFrame(np.random.rand(20,5))
```
2. Creado un objeto Serie a partir de una lista:
```
pd.Series(my_list)
```
3. Añadimos un nuevo índice de fecha a un dataFrame existente:
```
df.index = pd.date_range('1900/1/30', periods=df.shape[0])
```


## Generando DataFrames y Series a partir de diccionarios:

In [5]:
d = {
    "one": pd.Series([1.0, 2.0, 3.0], index=["a", "b", "c"]),
    "two": pd.Series([1.0, 2.0, 3.0, 4.0], index=["a", "b", "c", "d"]),
}

df = pd.DataFrame(d)

df

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


In [6]:
pd.DataFrame(d, index=["d", "b", "a"])

Unnamed: 0,one,two
d,,4.0
b,2.0,2.0
a,1.0,1.0


In [7]:
pd.DataFrame(d, index=["d", "b", "a"], columns=["two", "three"])

Unnamed: 0,two,three
d,4.0,
b,2.0,
a,1.0,


## Generando DataFrames y Series a partir de arreglos:

In [8]:
data = [["A", "B", "C"], [1, 2, 3]]

pd.DataFrame(data)

Unnamed: 0,0,1,2
0,A,B,C
1,1,2,3


In [9]:
pd.DataFrame(data, index=["letras", "numeros"])


Unnamed: 0,0,1,2
letras,A,B,C
numeros,1,2,3


In [10]:
pd.DataFrame(data, columns=["col-1", "col-2", "col-3"])

Unnamed: 0,col-1,col-2,col-3
0,A,B,C
1,1,2,3
