## Pandas en DataScience

Pandas en la biblioteca usada por defecto en Data Science. Diseñada específicamente para la manipulación y el análisis de datos. Pandas nos permite crear y leer tablas de datos bidimensionales (coordenadas $x$ e $y$, un fichero de Excel o hasta un .csv). Los datos almacenados en estas estructuras pueden ser tanto números como caracteres.

Los Data Scientists y los programadores familiarizados con el lenguaje de programación R para cálculo estadístico utilizan DataFrames para almacenar datos en una cuadrícula muy sencilla de revisar. Por eso Pandas se utiliza mucho para Machine Learning.

### ¿Qué puedes hacer Pandas?

Casi todo lo que tú quieras. Actúa como una biblioteca que complementa a Numpy (tiene EDAs que heredan de Numpy). Puedes hacer cosas como:
- calcular correlaciones
- calcular medias, modas, valores máximos, mínimos...
- eliminar filas/columnas
- rellenar filas/columnas que se encuentren vacías

## Pandas Intro

In [1]:
import pandas as pd

In [2]:
dataset = {'alumnos': ["Torrente", "Trancas", "Barrancas"], "notaMedia": [1.3, 7.8, 9.1]} # diccionario en Python
df = pd.DataFrame(dataset) # df = DataFrame
print(df)

     alumnos  notaMedia
0   Torrente        1.3
1    Trancas        7.8
2  Barrancas        9.1


Pandas tiene dos tipos de datos principales: las Series y los DataFrames

## Series

Es el equivalente de una columna en un DataFrame (Excel). Consiste en un array $1$-D

In [3]:
a = [1032, 3843, 454.5, "hola"]
myvar = pd.Series(a)
print(myvar)

0     1032
1     3843
2    454.5
3     hola
dtype: object


Para acceder a un elemento en concreto, simplemente seleccionaremos su posición (índice), como si fuera un array normal:

In [4]:
print(a[2])

454.5


Los índices `0, 1, 2...` aparecen de manera automática. Podemos sobreescribirlos para cambiar su valor:

In [5]:
a = [1032, 3843, 454.5, "hola"]
myvar = pd.Series(a, index = ["a", "b", "c", "d"])
print(myvar)
print(myvar["b"])

a     1032
b     3843
c    454.5
d     hola
dtype: object
3843


### Diccionarios como Series

In [6]:
gasofa = {"day1": 420, "day2": 380, "day3": 390} # actúa igual que pasar directamente
myvar = pd.Series(gasofa)
print(myvar)

day1    420
day2    380
day3    390
dtype: int64


## DataFrames 

Al trabajar con un DataFrame, podemos optar a una serie de métodos de los DataFrames muy útiles para estudiar la información que contiene

In [7]:
df.head() # las primeras cinco filas, útil para estudiar la estructura del archivo

Unnamed: 0,alumnos,notaMedia
0,Torrente,1.3
1,Trancas,7.8
2,Barrancas,9.1


In [8]:
df.describe() # estadística básica

Unnamed: 0,notaMedia
count,3.0
mean,6.066667
std,4.178915
min,1.3
25%,4.55
50%,7.8
75%,8.45
max,9.1


In [9]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 2 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   alumnos    3 non-null      object 
 1   notaMedia  3 non-null      float64
dtypes: float64(1), object(1)
memory usage: 180.0+ bytes


In [10]:
df.dtypes

alumnos       object
notaMedia    float64
dtype: object

Similar a Numpy, pero ahora las strings se consideran `object`. Podemos tener muchos tipos en Pandas: `intxx`, `floatxx`..., donde `xx` es la cantidad de bits que ocupan. 

**Una columna NO puede tener dos tipos distintos. Obtendremos un error si intentamos insertar un valor de un tipo incorrecto.**

In [11]:
df.columns

Index(['alumnos', 'notaMedia'], dtype='object')

Podemos ver todas las columnas de nuestro DataFrame. Además, sabiendo que existen distintos tipos de objetos, podemos filtrarlos tal que:

In [12]:
for column in list(df.columns):
    if df[column].dtypes == 'object': # accedemos a la columna y comprobamos sus tipos
        print(f"{column} -- variable categórica")
    else:
        print(f"{column} -- variable numérica")

alumnos -- variable categórica
notaMedia -- variable numérica


### Encontrar una fila

Un DataFrame sigue usando índices, comenzando en 0, pero para acceder a los atributos de dicha fila se realiza de otra forma distinta a la habitual:

In [16]:
print(df.loc[0]) # devuelve una Pandas.Series

alumnos      Torrente
notaMedia         1.3
Name: 0, dtype: object


In [22]:
print(df.loc[[1, 2]]) # recibe como parámetro un array con un array de posiciones

     alumnos  notaMedia
1    Trancas        7.8
2  Barrancas        9.1


Esto mismo se puede hacer cuando los índices son strings, solamente hay que reemplazar lo que hay dentro de `.loc[]` con el índice deseado

## Pandas como lector de archivos

La gran utilidad de Pandas es poder importar archivos bidimensionales, como CSV, xml o hasta JSON (bidireccional no es, qué le vamos a hacer) y poder manipularlos como DataFrames y Series. Pero para poder trabajar con ellos, hace falta poder leerlos.

En términos low-level, se usa un decriptor de archivos para recorrer el archivo y procesarlo.
En términos high-level, ejecutas una línea y te quedas con lo que te interesa.

In [24]:
df = pd.read_csv('datos_aleatorios.csv')

In [25]:
df.head()

Unnamed: 0,ID,Nombre,Edad,Ciudad,Código
0,1,Nombre55,60,Valencia,1J8O85
1,2,Nombre75,28,Barcelona,8N15WO
2,3,Nombre8,20,Bilbao,FUR6QT
3,4,Nombre32,19,Madrid,S4OAAT
4,5,Nombre83,22,Madrid,DZPXCR


In [27]:
df.describe()

Unnamed: 0,ID,Edad
count,100.0,100.0
mean,50.5,41.39
std,29.011492,14.016509
min,1.0,19.0
25%,25.75,29.75
50%,50.5,41.5
75%,75.25,54.0
max,100.0,65.0


In [29]:
for column in df.columns:
    print(f"Column {column} -- {df[column].dtype}")

Column ID -- int64
Column Nombre -- object
Column Edad -- int64
Column Ciudad -- object
Column Código -- object


Acabas de importar tu archivo .csv a tu entorno de trabajo. Evidementemente, si intentamos importar un archivo que no corresponde con la extensión necesaria o que no existe, obtendremos un error (bien grande, como una catedral).

In [31]:
try:
    df = read_csv("no_existe.csv")
except Exception as e:
    print(f"=== error === {e}")

=== error === name 'read_csv' is not defined


Para importar **archivos JSON**, usamos la función `read_json()`, de la misma manera que con la función `read_csv()`.