How can I read tar.gz file using pandas read_csv with gzip compression option?

Question

How can I read tar.gz file using pandas read_csv with gzip compression option?

I have a very simple csv with the following data compressed inside a tar.gz file. I need to read this in a dataframe using pandas.read_csv.

AB 0 1 4 1 2 5 2 3 6 import pandas as pd pd.read_csv("sample.tar.gz",compression='gzip')

However, I get the error message:

 CParserError: Error tokenizing data. C error: Expected 1 fields in line 440, saw 2

The following are the read_csv commands and various errors that I get with them:

 pd.read_csv("sample.tar.gz",compression='gzip', engine='python') Error: line contains NULL byte pd.read_csv("sample.tar.gz",compression='gzip', header=0) CParserError: Error tokenizing data. C error: Expected 1 fields in line 440, saw 2 pd.read_csv("sample.tar.gz",compression='gzip', header=0, sep=" ") CParserError: Error tokenizing data. C error: Expected 2 fields in line 94, saw 14 pd.read_csv("sample.tar.gz",compression='gzip', header=0, sep=" ", engine='python') Error: line contains NULL byte

What's going on here? How can i fix this?

+2

python pandas gzip csv tar

Geet Sep 01 '16 at 6:15

source share

1 answer

Marlon abeykoon · Accepted Answer · 2016-09-01T06:30:57+0000

 df = pd.read_csv('sample.tar.gz', compression='gzip', header=0, sep=' ', quotechar='"', error_bad_lines=False)

Note: error_bad_lines=False will ignore offensive lines.

How can I read tar.gz file using pandas read_csv with gzip compression option?

More articles: