## Previsualizar un Archivo

A veces, cuando necesitas trabajar con un archivo de datos, no tienes toda la información sobre cómo está estructurado. No sabes si las columnas tienen nombres, cuál es el separador entre los datos, o incluso si los datos comienzan en la primera línea.

En este caso, puedes utilizar Python de manera básica para echar un vistazo al archivo y obtener algunas pistas. Aquí está el proceso:

1. Abres el archivo utilizando `open`.
2. Lees un número de líneas del archivo utilizando `readlines`. Esto te proporciona una lista de líneas del archivo, y puedes tomar un subconjunto de ellas utilizando "slice" para obtener solo las que necesitas.
3. Es importante cerrar el archivo después de usarlo. Es una buena práctica no dejar los archivos abiertos en tu programa.

Esta vista previa de las primeras líneas del archivo te ayudará a comprender cómo está estructurado. Por ejemplo, puedes descubrir si los datos no comienzan en la primera fila, si no hay nombres de columnas, o si el separador entre los datos es un tabulador u otro carácter. Esta información te ayudará a parametrizar correctamente las herramientas de importación de datos que uses más adelante.

In [1]:
previsualizacion = open('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos.csv','r')
print(previsualizacion.readlines()[0:10])
previsualizacion.close() # importante cerrar para q no quede abierto en memoria

['\ufeffNombre Cliente;Tipo Producto;Precio (€/kg);Cantidad Vendida (kg);Fecha Venta;Provincia Cliente;id\n', 'Mas y Mas;Almendras;4.54;1212;29/3/23;Cádiz;389932\n', 'Mercadona;Nueces;5.84;591;5/12/23;Sevilla;389933\n', 'Alcampo;Cacahuetes;2.69;2831;26/7/23;Madrid;389934\n', 'Mas y Mas;Pistachos;6.7;516;7/10/23;Alicante;389935\n', 'Lidl;Nueces;6.14;1283;12/5/23;Barcelona;389936\n', 'Carrefour;Almendras;1.92;2741;24/3/23;Cádiz;389937\n', 'Lidl;Pistachos;3.88;2898;8/3/23;Sevilla;389938\n', 'Alcampo;Almendras;3.76;2464;1/3/23;Madrid;389939\n', 'Dia;Almendras;6.46;641;26/9/23;Alicante;389940\n']


## Calidad de Datos

La fase de calidad de datos es crucial en un proyecto de Data Science porque afecta directamente la confiabilidad y precisión de los resultados que obtendrás al analizar y modelar datos:

1. Toma de decisiones precisa: Los datos de baja calidad pueden llevar a conclusiones incorrectas. Si tus datos no son confiables, las decisiones basadas en ellos pueden ser erróneas y costosas.

2. Modelado efectivo: Los modelos de Data Science dependen de datos de calidad para funcionar correctamente. Datos defectuosos pueden llevar a modelos poco precisos, lo que reduce la efectividad de tus análisis y predicciones.

3. Eficiencia y ahorro de tiempo: Mejorar la calidad de los datos desde el principio ahorra tiempo en la limpieza y corrección de datos más adelante en el proyecto. Esto permite una ejecución más eficiente de tus tareas de análisis.


In [4]:
import pandas as pd

df = pd.read_csv('/Users/jimenacambronero/Desktop/Proyectos para Portfolio/PythonPracticas/Datos/Frutos_Secos.csv',sep= ';', index_col='id')
df.head(2)

Unnamed: 0_level_0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
389932,Mas y Mas,Almendras,4.54,1212,29/3/23,Cádiz
389933,Mercadona,Nueces,5.84,591,5/12/23,Sevilla


## Muestreo

La función `sample()` en pandas es como una herramienta para elegir una parte de tus datos de manera aleatoria. Imagina que tienes una caja llena de datos, y con `sample()`, puedes sacar algunos datos de esa caja según tus necesidades.

Los parámetros más importantes son:

1. **n**: Esto es cuántos datos quieres tomar de la caja en total. Si dices `n=10`, sacarás 10 datos al azar.

2. **frac**: En lugar de decir cuántos datos, puedes decir qué parte del total quieres tomar. Si dices `frac=0.2`, tomarás el 20% de los datos.

3. **replace**: Esto es como si pusieras de vuelta los datos que sacas. Si está en `False`, una vez que tomas un dato, no lo puedes tomar de nuevo. Si está en `True`, podrías tomar el mismo dato más de una vez.

4. **random_state**: Es como una semilla mágica que te asegura que, si usas el mismo número, siempre obtendrás los mismos datos al azar. Esto es útil para hacer tu trabajo reproducible, es decir, que otros puedan obtener los mismos resultados que tú.

In [6]:
# Nos devolvera la cnatidad de registros y la cantidad de columnas
df.shape

(300, 6)

In [8]:
muestra = df.sample(n=100)
muestra.shape

(100, 6)

## Vision General de nuestro DataSet

### Información general del Dataset

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 300 entries, 389932 to 390231
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Nombre Cliente         300 non-null    object 
 1   Tipo Producto          300 non-null    object 
 2   Precio (€/kg)          300 non-null    float64
 3   Cantidad Vendida (kg)  300 non-null    int64  
 4   Fecha Venta            300 non-null    object 
 5   Provincia Cliente      300 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 16.4+ KB


In [9]:
# Memory_ usage = deep te da la info exacta de la memoria
# Si vemos que ocupa mucho, podemos trabajar con muestras o cambiar el tipo de datos, object ocupa más que category
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 300 entries, 389932 to 390231
Data columns (total 6 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   Nombre Cliente         300 non-null    object 
 1   Tipo Producto          300 non-null    object 
 2   Precio (€/kg)          300 non-null    float64
 3   Cantidad Vendida (kg)  300 non-null    int64  
 4   Fecha Venta            300 non-null    object 
 5   Provincia Cliente      300 non-null    object 
dtypes: float64(1), int64(1), object(4)
memory usage: 83.6 KB


### Indice

In [11]:
df.index

Int64Index([389932, 389933, 389934, 389935, 389936, 389937, 389938, 389939,
            389940, 389941,
            ...
            390222, 390223, 390224, 390225, 390226, 390227, 390228, 390229,
            390230, 390231],
           dtype='int64', name='id', length=300)

### Columnas

In [12]:
# Ver el valor de las columnas
df.columns

Index(['Nombre Cliente', 'Tipo Producto', 'Precio (€/kg)',
       'Cantidad Vendida (kg)', 'Fecha Venta', 'Provincia Cliente'],
      dtype='object')

### Tipo de Variables

In [13]:
# Para conocer los tipos de dato sque tenemos
df.dtypes

Nombre Cliente            object
Tipo Producto             object
Precio (€/kg)            float64
Cantidad Vendida (kg)      int64
Fecha Venta               object
Provincia Cliente         object
dtype: object

In [15]:
# Saber el valor de una de las columnas. Podes indexar
df['Precio (€/kg)'].dtypes

dtype('float64')

### Estadísticos

In [16]:
# Devuelve solo los numéricos
df.describe()

Unnamed: 0,Precio (€/kg),Cantidad Vendida (kg)
count,300.0,300.0
mean,5.598333,1616.95
std,2.673505,842.463231
min,0.97,100.0
25%,3.525,976.25
50%,5.475,1668.0
75%,7.6225,2345.0
max,11.57,2986.0


In [17]:
# Devuelve los que yo decida incluir, cacahuate es el registro que más aparece pero no significa que se ael más vendido
df.describe(include='all')

Unnamed: 0,Nombre Cliente,Tipo Producto,Precio (€/kg),Cantidad Vendida (kg),Fecha Venta,Provincia Cliente
count,300,300,300.0,300.0,300,300
unique,11,4,,,204,6
top,Mercadona,Cacahuetes,,,6/12/23,Barcelona
freq,33,100,,,5,57
mean,,,5.598333,1616.95,,
std,,,2.673505,842.463231,,
min,,,0.97,100.0,,
25%,,,3.525,976.25,,
50%,,,5.475,1668.0,,
75%,,,7.6225,2345.0,,


In [20]:
# Solo los objetos (vocal o = objeto)
df.describe(include ='O')

Unnamed: 0,Nombre Cliente,Tipo Producto,Fecha Venta,Provincia Cliente
count,300,300,300,300
unique,11,4,204,6
top,Mercadona,Cacahuetes,6/12/23,Barcelona
freq,33,100,5,57


In [22]:
# Ver el traspuesto con .T 
df.describe(include='O').T

Unnamed: 0,count,unique,top,freq
Nombre Cliente,300,11,Mercadona,33
Tipo Producto,300,4,Cacahuetes,100
Fecha Venta,300,204,6/12/23,5
Provincia Cliente,300,6,Barcelona,57


In [23]:
df.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Precio (€/kg),300.0,5.598333,2.673505,0.97,3.525,5.475,7.6225,11.57
Cantidad Vendida (kg),300.0,1616.95,842.463231,100.0,976.25,1668.0,2345.0,2986.0
