# **Pandas**

### **Objetivos**

- Adquirir los conceptos principales de la liberia
- Ejercer la practica con el DataSet


Un DataFrame esta creado por un conjunto de Series (Estructuras de pandas unidimensionales)

In [None]:
import matplotlib.pyplot as plt;
import matplotlib as mpl;
import numpy as np;
import pandas as pd;

cars_data = pd.read_csv('./cars.csv')
cars_data

<h2 style='color:violet'>Funciones basicas</h2>

- index: Nos devuelve la cantidad de filas que contiene nuestro dataframe (enumerados por dataframe)

- Head: Imprime las primeras n filas del dataframe

- Tail: Imprime las ultimas n filas del dataframe

- to_numpy(): Convierte la columna en una matriz fila (Array unidimensional) con Numpy

- empty: Devuelve False si el dataframe no esta vacio, caso contrario True

- equals(): Nos permite comparar valores, si son iguales devuelve true, si son distintos false

- describe(): Imprime los principales valores estadisticos (Quartiles, percentiles, media, minimo, maximo, cantidad, desvio estandar)
    - describe(percentiles=[]): Percentiles personalizados en describe

- count(): Cuenta la cantidad de datos

- reindex([data], axis=): Permite "copiar" un dataframe y agregar features o filas (Si no estaban originalmente, lo agrega con valores nan)

- loc: Esta funcion nos permite acceder a valores mediante un rango [a:b]

- at: Permite acceder a una posicion especifica del dataframe, at[row, 'feature']

- info: Es una tabla que nos permite visualizar como esta compuesto el Dataframe (Sus features, dtypes, cantidad de datos)

- groupby: Nos permite hacer agrupaciones de datos y aplicar una función de agregación con el uso de agg

In [None]:
cars_data.index;

cars_data.shape

cars_data.head(n=10);

cars_data.tail(n=5);

cars_data['horsepower'].to_numpy();

cars_data.empty;

cars_data['cylinders'].head(n=5).equals(8);

cars_data.describe();

cars_data.info();

cars_data.describe(percentiles=[0.05, 0.25, 0.40, 0.10]);

cars_data['car name'].count();

cars_data.loc[3:4];

cars_data.at[5, 'cylinders'];

#Reindex: 
#En este caso la columna new_feature = nan
new_cars_data = cars_data.reindex(['cylinders', 'horsepower', 'new_feature'], axis=1);

# Realiza una copia de cars_data pero solamente las columnas que le pasemos como lista
df_test_copy = cars_data[['cylinders', 'displacement']];

# Uso del groupby
# Hace una agrupacion y suma todas las filas en donde model year sean iguales.
cars_year_count = cars_data.groupby('model year').agg('sum');
print(cars_year_count)


<h2 style='color:orange'>Missing Data</h2>

- Trabajar con datos que no estan definidos y como proceder con ellos
- Limpiar datos o incluso rellenar valores por defecto

- fillna(): Nos permite reemplazar los datos nan por un valor, podemos definir limite, feature, etc.
    - Propiedad inplace = True para modificar el dataframe original

- dropna(): Elimina todas las filas en donde se encuentre un campo 
    - Para reemplazar el dataframe original se utiliza la propiedad inplace = True
    
- to_datetime: Transforma un formato númerico en una fecha. 

- duplicated(): Esta funcion nos permite saber si hay datos duplicados en nuestro dataframe (Compara la fila anterior con la actual, y si son iguales devuelve true)

- drop_duplicates(): Elimina las filas o datos duplicados
    - inplace = True para reemplazar el dataframe original

In [None]:

# Uso new_cars_data ya que tiene campos nan
new_cars_data.fillna(9);

#Podemos rellenar solamente una columna
new_cars_data['new_feature'].fillna(5);

new_cars_data.dropna();

#Reemplazar por la media, lo mismo podemos hacer con la mediana o moda.
mean = new_cars_data['horsepower'].mean();
new_cars_data.fillna(mean);

new_cars_data.duplicated();

new_cars_data.drop_duplicates();

<h2 style='color: yellow'>Modificacion de Dataframes</h2>

- pop: Elimina una columna de nuestro Dataframe y nos devuelve la misma

- <h7 style='color: red'>Lo van a eliminar</h7> append: Añade una fila a nuestro dataframe, le debemos pasar la serie con []
    - ignore_index: True para ubicar la nueva fila en el ultimo index

- shape: Devuelve la cantidad de filas y columnas que contiene nuestro dataframe

- sort_index(): Nos permite ordenar por orden ascendente o descendente las filas

- sort_values(): Permite ordenar por orden ascendente o descendente los valores de las features (columnas)

- apply: Permite modificar valores mediante una expresion o funcion
    - Se utiliza lambda "nombreDeVariable" para que tome el dato de cada una de las filas 

In [None]:
#Utilizo una copia de cars_data para modificarlo

dataframe_copy = cars_data;

#dataframe_copy.sort_index(ascending=True);

#dataframe_copy.sort_values(ascending=False)

#dataframe_copy.pop('horsepower');

#Filtra la información por displacement <= 300 y las cilindradas iguales a 8
dataframe_copy[(dataframe_copy['displacement'] <= 300) & (dataframe_copy['cylinders'] == 8)];

def changeValue (x):
    if x > 20:
        return x * 3;
    return x;

#Aplicacion de funciones con uso de lambda
dataframe_copy['acceleration'] = dataframe_copy['acceleration'].apply(lambda x: x*2) 
dataframe_copy['acceleration'].apply(lambda x: changeValue(x));

<h2 style='color:#1d86b9'>Statistics</h2>

- Mean(): Devuelve la media de cada una de las features (series) de nuestro Dataframe

- Mode(): Calcula la moda 

- std(): Calcula el desvio estandar de nuestro dataframe. Permite visualizar que tan dispersos se encuentran nuestros datos respecto a la media

- sum(): Suma todos los valores de nuestra feature

In [None]:
new_df = pd.DataFrame(
    data=np.random.randint(0, 100, size=[10, 4]),
    columns=['A', 'B', 'C', 'D']
)

new_df.mean();
new_df['C'].mode();
new_df.std();
new_df['D'].sum();