## Solucionar problemas con archivos csv

CSV significa **valores separados por comas**. Sin embargo, un archivo CSV no tiene que usar solo una coma como **delimitador**; se puede usar cualquier carácter. 

A veces pueden aparecer como archivos `.tsv` o `.tab` (también conocidos como archivos TSV) además de `.csv`.

Existen formas de lidiar con estos problemas: 
1. Usar el argumento `sep`. 
2. Indicar nombre de encabezados con `header = None` y `name=`. 
3. Renombrar encabezados con `header = None`y `rename()`. 
4. Indicar tipo de decimales con el argumento `decimal = `. 

In [None]:
import pandas as pd

In [None]:
## Uso de tipo de separador, por defecto ","
data = pd.read_csv('/datasets/gpp_modified.csv', sep='|')

In [None]:
## Indicar nombre de encabezados 
column_names = [
    'country',
    'name',
    'capacity_mw',
    'latitude',
    'longitude',
    'primary_fuel',
    'owner'
    ]

data = pd.read_csv('/datasets/gpp_modified.csv', header=None, names=column_names)

In [None]:
## Renombrar encabezado
data = pd.read_csv('/datasets/gpp_modified.csv', header=None)

data = data.rename(columns = {0: "country",1: "name", 2:"capacity_mw"})

In [None]:
## Indicar el tipo de decimal 
data = pd.read_csv('/datasets/gpp_modified.csv', decimal=',')

## Leer archivos excel

Pandas proporciona la función `read_excel()` para leer archivos Excel 

Por defecto, esta función carga la primera hoja, pero un archivo Excel puede contener varias hojas. Para tal caso utilizar el parámetro `sheet_name=` y especificar el nombre o el número de la hoja que queremos seleccionar. 

In [None]:
## Abrir archivo excel
### Con nombre de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name='reviewers')

### Con número de la hoja de cálculo 
df = pd.read_excel('/datasets/product_reviews.xlsx', sheet_name=1)



## Inspección de los datos
Echar un vistazo a tus datos es útil cuando empiezas a trabajar con un nuevo dataset porque te ayudan a plantear las primeras preguntas que debes explorar. Algunos de los atributos y métodos incluyen: 

- `info()`. Imprime información general sobre el DataFrame
- `shape()`. Devuelve tanto el número de filas como el número de columnas en el dataset. 
- `sample()`. Selecciona filas aleatorias del DataFrame en lugar de filas consecutivas del principio o del final del DataFrame

In [None]:
## Estructura del dataframe
df.info()

Obtenemos la siguiente información: 

- El número de filas (RangeIndex: __ entries);
- El número de columnas (total __ columns);
- El nombre de cada columna (Column);
- El número de valores de cada columna que no están ausentes (Non-Null Count);
- El tipo de datos de cada columna (Dtype).

In [None]:
## Almacenar número de filas y columnas como variables
n_rows, n_cols = df.shape

print(f" El dataframe tiene {n_rows} filas y {n_cols} columnas")

La función `shape` devuelve una **tupla** como salida. 

Una tupla es un tipo de datos similar a una lista de Python en términos de indexación, objetos anidados y repetición. Sin embargo, la principal diferencia entre ambas es que una tupla Python es inmutable (no puede modificarse), mientras que una lista Python es mutable.

Para poder tener una mejor visión del dataframe, podemos combinar el método `info()` y otro métodos como `head()` o `tail()`. Sin embargo,para poder observar una mejor muestra de los datos que se encuentran en el dataframe y no solo los encabezados y la última parte se puede usar el método `sample()`

In [None]:
## Encabezados
print(data.head(10))

## Parte final 
print(data.tail(10))

## Aleatorio
print(df.sample(10))

### Contar valores ausentes

In [None]:
print(df_logs['source'].value_counts(dropna=False))

### Filtrar Dataframes con NaNs

Combinar ~ con isna() es una excelente manera de filtrar las filas con valores ausentes!

In [None]:
## Filtra los valores con NaNs
print(df_logs[df_logs['source'].isna()]) 

## Filtra los valores sin NaNs
print(df_logs[~df_logs['source'].isna()])

In [None]:
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

# Filtrar el df donde no haya valores ausentes en la columna "email"
df_emails = df_logs[~df_logs["email"].isna()]

print(df_emails.head(10))

In [None]:
## Múltiples filtros
import pandas as pd

df_logs = pd.read_csv('/datasets/visit_log.csv')

df_emails= df_logs[(df_logs["source"].isna()) & (df_logs["email"].isna())]

print(df_emails)

In [None]:
import pandas as pd

df = pd.read_csv('/datasets/products_data_no_nans_and_dupl.csv')

df['category'] = df['category'].str.replace('tbc', 'baby care')
print(df)