## Solucionar problemas con archivos csv

CSV significa **valores separados por comas**. Sin embargo, un archivo CSV no tiene que usar solo una coma como **delimitador**; se puede usar cualquier carácter. 

A veces pueden aparecer como archivos `.tsv` o `.tab` (también conocidos como archivos TSV) además de `.csv`.

Existen formas de lidiar con estos problemas: 
1. Usar el argumento `sep`. 
2. Indicar nombre de encabezados con `header = None` y `name=`. 
3. Renombrar encabezados con `header = None`y `rename()`. 
4. Indicar tipo de decimales con el argumento `decimal = `. 

In [None]:
import pandas as pd

In [None]:
## Uso de tipo de separador, por defecto ","
data = pd.read_csv('/datasets/gpp_modified.csv', sep='|')

In [None]:
## Indicar nombre de encabezados 
column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
    ]

data = pd.read_csv('/datasets/gpp_modified.csv', header=None, names=column_names)

In [None]:
## Renombrar encabezado
data = pd.read_csv('/datasets/gpp_modified.csv', header=None)

data = data.rename(columns = {0: "country",1: "name", 2:"capacity_mw"})

In [None]:
## Indicar el tipo de decimal 
data = pd.read_csv('/datasets/gpp_modified.csv', decimal=',')

## Leer archivos excel

Pandas proporciona la función `read_excel()` para leer archivos Excel 

Por defecto, esta función carga la primera hoja, pero un archivo Excel puede contener varias hojas. Para tal caso utilizar el parámetro `sheet_name=` y especificar el nombre o el número de la hoja que queremos seleccionar. 

In [None]:
## Abrir archivo excel
### Con nombre de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name='reviewers')

### Con número de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name=1)



## Inspección de los datos
Echar un vistazo a tus datos es útil cuando empiezas a trabajar con un nuevo dataset porque te ayudan a plantear las primeras preguntas que debes explorar. Algunos de los atributos y métodos incluyen: 

- `info()`. Imprime información general sobre el DataFrame
- `shape()`. Devuelve tanto el número de filas como el número de columnas en el dataset. 
- `sample()`. Selecciona filas aleatorias del DataFrame en lugar de filas consecutivas del principio o del final del DataFrame. 
- `describe()`. 

In [None]:
## Estructura del dataframe
df.info()

Obtenemos la siguiente información: 

- El número de filas (RangeIndex: __ entries);
- El número de columnas (total __ columns);
- El nombre de cada columna (Column);
- El número de valores de cada columna que no están ausentes (Non-Null Count);
- El tipo de datos de cada columna (Dtype).

In [None]:
## Almacenar número de filas y columnas como variables
n_rows, n_cols = df.shape

print(f" El dataframe tiene {n_rows} filas y {n_cols} columnas")

La función `shape` devuelve una **tupla** como salida. 

Una tupla es un tipo de datos similar a una lista de Python en términos de indexación, objetos anidados y repetición. Sin embargo, la principal diferencia entre ambas es que una tupla Python es inmutable (no puede modificarse), mientras que una lista Python es mutable.

Para poder tener una mejor visión del dataframe, podemos combinar el método `info()` y otro métodos como `head()` o `tail()`. Sin embargo,para poder observar una mejor muestra de los datos que se encuentran en el dataframe y no solo los encabezados y la última parte se puede usar el método `sample()`. Si quiero que haya repetibilidad en mi aleatoriedad agregar el argumento `random_satet()` y establecer y algún valor entero de tu elección (cualquier número entero entre 0 y 4294967295).

In [None]:
## Encabezados
print(data.head(10))

## Parte final 
print(data.tail(10))

## Aleatorio
print(data.sample(10))

## Aleatoriedad establecida
print(data.sample(10, random_state= 1989))

El método `describe()` es muy útil para obtener información sobre las columnas numéricas de tus datos. La salida incluye estadísticas de resumen.   

Es aconsejable que además, el análisis se acompañe de visualizaciones de datos para obtener una imagen completa, , ya que es posible que sus estructuras sean muy diferentes aunque tengan estadísticas resumidas similares (como el cuarteto de Anscombe). 

In [None]:
## Método describe()
print(data.describe())

De manera predeterminada, se ignoran las columnas no numéricas. Para poder incluir otro tipo de columnas no numéricas se utiliza el parámetro `include =` con el tipo de datos que queremos añadir p.e, `object` u añadir todas las columnas `all`. 

## Trabajar con valores duplicados y ausentes

### Contar valores ausentes
Una buena manera de empezar a comprobar los valores ausentes es llamar al método `info()` de tu DataFrame. Los valores nulos son valores ausentes, mientras que los no nulos son valores no ausentes. 

Una vez identificado el número de observaciones podemos determinar el número de valores ausentes con `isna()`. Otra opción es con el método `value_counts()`, que devuelve la cantidad de veces que cada valor único aparece en esa columna. Este método es conveniente utilizarlo sobre una solo columna o *series*. 

In [None]:
## Determinar la información del dataframe
data.info()

## Contar el número de valores ausentes de cada columna
data.isna().sum()

## Contar el número de valores ausentes totales
data.isna().sum().sum()

In [None]:
## Conocer el número de valores únicos para la columna source
print(df_logs['source'].value_counts(dropna=False)) # drop_na=False permite contar el número de Nas en la columna

La salida se ordena en orden descendente según el recuento de cada valor. Alternativamente, podemos ordenar la salida alfabéticamente según los nombres de los valores. Para hacerlo, podemos utilizar el método `sort_index()`.

In [None]:
## Ordenar el resultado de acuerdo con el index y no de acuerdo con los valores de la columna
print(df_logs['source'].value_counts(dropna=False).sort_index())

### Filtrar Dataframes con NaNs

Para examinar las filas auseentes del dataframe, una de las maneras es utilizar el método `is.na()`.  El resultado genera una serie con los valores ausente `True`. 

In [None]:
## Filtra los valores con NaNs
print(df_logs[df_logs['source'].isna()]) 


Sin embargo a veces no es eso lo que nos convien. Para ello resulta más útil combinar `~ `con `isna()` para filtrar las filas con valores ausentes. La adición del símbolo de tilde (~), invierte el resultado.

In [None]:
## Filtra los valores sin NaNs
print(df_logs[~df_logs['source'].isna()])

Es posible filtrar un dataframe a partir de **múltiples condiciones de filtrado**. 

In [None]:
# Filtrar el df donde no haya valores ausentes en la columna "email" 
# y que solo sean valores de email de la columna source
print(df_logs[(~df_logs['email'].isna()) & (df_logs['source'] == 'email')])

El código de filtrado anterior consta de dos partes:

1. `(~df_logs['email'].isna())` devuelve una serie de booleanos donde `True` indica que no falta ningún valor en la columna `'email'`.

2. `(df_logs['source'] == 'email')` devuelve una serie de booleanos, donde `True` indica que `'source'` tiene `'email'` como valor, y `False` indica lo contrario.

3. Comprobamos dos series de booleanos para ver dónde ambas condiciones devuelven `True`. Utilizamos el símbolo `&` para representar el operador lógico `and`. Las filas que cumplen ambas condiciones (es decir, que cumplen la primera condición y la segunda) se incluyen en el resultado final.

### Rellenar los valores categóricos ausentes

Como recordatorio, las **variables categóricas** o **cualitativas** representan un conjunto de valores posibles que puede tener una observación particular. Es posible que tengan un orden en particular, por lo que serían **ordinales** o pueden no tener un orden en particular, por lo que serían **nominales**. 

Podemos sustituir los valores ausentes de las columnas con **valores por defecto** por ejemplo, una cadena vacía `''` . Esto lo podemos realizar con el método `fillna()`. 

In [None]:
## Sustituir valores ausentes
df_logs['email'] = df_logs["email"].fillna(value= "")

Usar `fillna()` no es la única forma en que podemos rellenar los valores ausentes con cadenas vacías. También podemos hacerlo directamente al leer los datos mediante `read_csv()` utilizando el parámetro `keep_default_na = False`. 

In [None]:
## Cargar el dataset haciendo que en vez de que sean NaN = TRUE sea FALSE
df_logs = pd.read_csv('/datasets/visit_log.csv', keep_default_na=False)

print(df_logs.head())

<div class="alert alert-block alert-warning">
<b>Nota:</b> <a class="tocSkip"></a>

Ten en cuenta que establecer `keep_default_na=False` convierte todos los valores ausentes **en cadenas vacías**, incluso para columnas numéricas. Esto hace que las columnas numéricas se lean como cadenas cuando tienen valores ausentes.   

Así que asegúrate de usar solo `keep_default_na=False` cuando desees que todos los valores ausentes en cada columna se lean como cadenas vacías.
</div>

Es posible que o no querramos sustituir los valores ausentes por algún valor de defecto o querramos sustituir los mismos por algún otro valor. En tal caso es útil emplear el método `replace()`

In [None]:
## Remplazar el valor de defecto "" por otro valor
df_logs['source'] = df_logs["source"].replace("", "email")

### Rellenar los valores ausentes cualitativos 

Como recordatorio, las variables **cuantitativas** tienen valores numéricos que podemos usar para cálculos aritméticos, por ejemplo, la altura, el peso, la edad y los ingresos. En Python, estos valores tienden a almacenarse como números enteros o flotantes.



In [None]:
import pandas as pd

df = pd.read_csv('/datasets/products_data_no_nans_and_dupl.csv')

df['category'] = df['category'].str.replace('tbc', 'baby care')
print(df)